SNAPSHOT.01 EZESTAT1 ÚÄPage 11ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³Types of variables (1) ³ ³ ³ ³In statistics, a distinction is made between : ³ ³ ³ ³CATEGORICAL variables ³ ³ ³ ³These are essentially coding numbers and are often used to separate ³ ³items in a list into various categories. ³ ³ ³ ³For example, 1=Female 2=Male is one common example of a categorical ³ ³ variable ³ ³ ³ ³ 1=Agree 2=Neutral 3=Disagree would be another example. ³ ³ ³ ³CONTINUOUS variables ³ ³ ³ ³These are numbers that are 'real' ( as opposed to the artificiality of the ³ ³numbers often used in categorical variables) They are used for data that ³ ³can form a long continuous stream such as heights, weights or incomes. ³ ³ ³ ³ ³ ³ [Pg Dn] [Pg Up] ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ SNAPSHOT.02 EZESTAT1 ÚÄPage 12ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³Types of variables (2) ³ ³ ³ ³ ³ ³Each of the variables are measured by different families of statistics ³ ³ ³ ³CATEGORICAL variables are measured by NON-PARAMETRIC statistics ³ ³ (such as contingency tables, chisquare) ³ ³ ³ ³CONTINUOUS variables are measured by PARAMETRIC Statistics ³ ³ (such as a mean, standard deviation or a t-test) ³ ³ ³ ³ ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³ ³ ³ T E S T Y O U R U N D E R S T A N D I N G ³ ³ ³ ÃÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ´ ³ ³ ³ Would you measure a band of expenditure (e.g. ³ ³ ³ ³ œ1-œ10 œ11-20 œ31-œ40 œ41 or more ³ ³ ³ ³ by means of a categorical or a continuous variable ? ³ ³ ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ ³ ³ ³ ³ ³ ³ ³ ³ [1] Continuous [2] Categorical ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ SNAPSHOT.03 EZESTAT1 ÚÄPage 12bÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³ ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³ ³ ³ T E S T Y O U R U N D E R S T A N D I N G ³ ³ ³ ÃÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ´ ³ ³ ³ Would you measure a band of expenditure (e.g. ³ ³ ³ ³ œ1-œ10 œ11-œ20 œ31-œ40 œ41 or more ³ ³ ³ ³ by means of a categorical or a continuous variable ? ³ ³ ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ ³ ³ ³ ³You answered ³ ³categorical ³ ³which was CORRECT. ³ ³ ³ ³Although incomes are being measured, they are placed into categories ³ ³and would probably have a coding number associated with each one ³ ³e.g. 1 œ 1-œ10 ³ ³ 2 œ11-œ20 ³ ³ 3. œ21-œ30 ³ ³and so on. So this data is actually measured at the categorical level. ³ ³You were not confused by the fact that the data appears to be continuous ³ ³but is, in fact, categorical because it was placed into bands. ³ ³ ³ ³ [Pg Dn] ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ SNAPSHOT.04 EZESTAT1 ÚÄPage 13ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³Correlation 1 ³ ³ ³ ³In the diagram below, we imagine that we are plotting the amount spent ³ ³on food and the income received for a sample of 12 families : ³ ³ ³ ³ ³ ³ ³ ³ x x Notice that : ³ ³ ³ x ³ ³ Food (=y) ³ x x Food (y) is the DEPENDENT variable³ ³ ³ x Income (x) is the INDEPENDENT ³ ³ (dependent) ³ x x variable ³ ³ ³ x ³ ³ ³ x x As x increases, so does y ³ ³ ³x ³ ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ ³ ³ Income (=x) (independent) ³ ³ ³ ³This is an example of a HIGH POSITIVE correlation ³ ³ ³ ³ ³ ³ ³ ³ [Pg Dn] [Pg Up] ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ SNAPSHOT.05 EZESTAT1 ÚÄPage 14ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³Correlation 2 ³ ³ ³ ³We are now plotting the amount of days recorded as 'illness' and income ³ ³received for a sample of 12 families : ³ ³ ³ ³ ³ ³ ³ ³ x Notice that : ³ ³ ³ x x ³ ³ Illness(=y) ³ x x As income (x) INCREASES, the number³ ³ ³ x x of days of 'illness' (y) DECREASES ³ ³ (dependent) ³ x x ³ ³ ³ x x (i.e. Higher Income families do not³ ³ ³ x have as much 'illness' as ³ ³ ³ Lower Income families ) ³ ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ ³ ³ Income (=x) (independent) ³ ³ ³ ³This is an example of a HIGH NEGATIVE correlation ³ ³ ³ ³ ³ ³ ³ ³ [Pg Dn] [Pg Up] ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ SNAPSHOT.06 EZESTAT1 ÚÄPage 15ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³Correlation 3 ³ ³ ³ ³We are now plotting the 'Final Degree Average' obtained against the ³ ³'A-level' points score for a sample of 12 students: ³ ³ ³ ³ ³ ³ ³ ³ x x Notice that : ³ ³ Final ³ x x ³ ³ Degree ³ There are as many 'good' degrees ³ ³ Average (=y)³ x x associated with 'good' A-level ³ ³ (dependent) ³ x scores as there are 'poor' degrees ³ ³ ³ x x ³ ³ ³ x x (i.e. there does not appear to be ³ ³ ³ x any association between ³ ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ 'A'-level points' and ³ ³ 'A'-level point score (=x) 'Final Degree Average') ³ ³ ³ ³ ³ ³This is an example of NO association at all ³ ³ ³ ³ ³ ³ [Pg Dn] [Pg Up] ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ SNAPSHOT.07 EZESTAT1 ÚÄPage 16ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³Correlation 4 ³ ³ ³ ³A correlation coefficient is measured in the range -1....0....+1 ³ ³ ³ ³It is usually designated like this : r= 0.9 or r=-0.85 ³ ³ ³ ³ ³ ³A value in the range 0 +0.3 } is regarded as a LOW positive ³ ³ 0 -0.3 } ( or negative) correlation ³ ³ ³ ³A value in the range +0.4 +0.6 } is regarded as a MODERATE positive ³ ³ -0.4 -0.6 } ( or negative) correlation ³ ³ ³ ³A value in the range +0.7 +1.0 } is regarded as a HIGH positive ³ ³ -0.7 -1.0 } ( or negative) correlation ³ ³ ³ ³Remember that values that cluster around 0 represent NO ASSOCIATION ³ ³and not a negative association. The closer values get to +1 ( or to -1), ³ ³the more they measure a HIGH positive ( or negative) correlation. ³ ³ ³ ³ ³ ³ [Pg Dn] [Pg Up] ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ SNAPSHOT.08 EZESTAT1 ÚÄPage 17ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³Correlation 5 ³ ³ ³ ³ ³ ³Mentally divide the plot into 4 quadrants : ³ ³ ³ ³ ³ | If there is a clustering from bottom left to top ³ ³ ³ | right [ / ] this is a POSITIVE correlation. ³ ³ ³------|---Ä-- ³ ³ ³ | If there is a clustering from top left to bottom ³ ³ ³ | right [ \ ] this is a NEGATIVE correlation. ³ ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄ ³ ³ If the data appears to be equally split between ³ ³ all four quadrants, then this represents a ³ ³ pattern of NO ASSOCIATION or very low correlation. ³ ³ ³ ³Just because two variables are associated with each other, we cannot ³ ³say that one is the cause of the other. ³ ³ ³ ³Remember that there is a high correlation between storks and babies! ³ ³ ³ ³ ³ ³ [Pg Dn] [Pg Up] ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ SNAPSHOT.09 EZESTAT1 ÚÄPage 18ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³ ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³ ³ ³ T E S T Y O U R U N D E R S T A N D I N G ³ ³ ³ ÃÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ´ ³ ³ ³ ³ ³ ³ ³ ³ x ³ ³ ³ ³ ³x x Do you think the ³ ³ ³ ³ ³ x correlation coefficient ³ ³ ³ ³ ³ x in this case is : ³ ³ ³ ³ ³ ³ ³ ³ ³ ³ x x 0.1 ³ ³ ³ ³ ³ x x -0.7 ³ ³ ³ ³ ³ x -0.4 ³ ³ ³ ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ ³ ³ ³ ³ ³ ³ ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ ³ ³ ³ ³ ³ ³ ³ ³ ³ ³ ³ ³ ³ ³ [1] 0.1 [2] -0.7 [3] -0.4 ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ SNAPSHOT.10 EZESTAT1 ÚÄPage 18cÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³ ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³ ³ ³ T E S T Y O U R U N D E R S T A N D I N G ³ ³ ³ ÃÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ´ ³ ³ ³ ³ ³ ³ ³ ³ x ³ ³ ³ ³ ³x x Do you think the ³ ³ ³ ³ ³ x correlation coefficient ³ ³ ³ ³ ³ x in this case is : ³ ³ ³ ³ ³ ³ ³ ³ ³ ³ x x 0.1 ³ ³ ³ ³ ³ x x -0.7 ³ ³ ³ ³ ³ x -0.4 ³ ³ ³ ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ ³ ³ ³ ³ ³ ³ ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ ³ ³You answered -0.4 which is CORRECT. If you divide the plot (mentally) ³ ³into four quadrants, you will a see more of a clustering from top left ³ ³to bottom right which indicates a negative relationship. However, this ³ ³is not very marked and therefore -0.4 is an accurate correlation ³ ³coefficient for this plot. ³ ³ ³ ³ [Pg Dn] ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ SNAPSHOT.11 EZESTAT1 ÚÄPage 19ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³Correlation and Causation (1) ³ ³ ³ ³ ³ x x The plot shows a very high correlation between ³ ³ ³ x x EDUCATION (years spent in full-time post 18) and ³ ³ ³ x xx x INCOME. ³ ³ ³ x x x ³ ³ ³ x x x Before we can assume that many years spent in post- ³ ³ ³ x x x school education CAUSES high income, we must examine³ ³ ³ x x the impact of other factors e.g. social class which ³ ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ might intervene and EXPLAIN the relationship. ³ ³ ³ ³In this particular case, if we divided the group into : ³ ³Professional Parents v. Non-Professional parents ³ ³we might discover that ³ ³ ³ ³Professional parents - children ARE highly educated and have HIGH incomes ³ ³Non-professional - children ARE NOT highly educated and have LOW incomes³ ³ parents ³ ³ ³ ³and therefore SOCIAL CLASS explains high incomes and NOT education 'per se' ³ ³ ³ ³ [Pg Dn] [Pg Up] ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ SNAPSHOT.12 EZESTAT1 ÚÄPage 20ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³Correlation and Causation (2) ³ ³ ³ ³Therefore, just because two factors are correlated, we cannnot say that one ³ ³causes the other - nor can we say that one does NOT cause the other. ³ ³ ³ ³Correlation means that where we find one factor, we also find the other ³ ³FOR WHATEVER REASON. ³ ³ ³ ³Correlation does not imply causation! ³ ³ ³ ³ ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³ ³ ³ T E S T Y O U R U N D E R S T A N D I N G ³ ³ ³ ÃÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ´ ³ ³ ³ If you found that there was a high correlation between ³ ³ ³ ³ smoking and lung cancer, can we say that smoking ³ ³ ³ ³ causes lung cancer ? ³ ³ ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ ³ ³ ³ ³ ³ ³ ³ ³ ³ ³ [1] Yes [2] No ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ SNAPSHOT.13 EZESTAT1 ÚÄPage 20bÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³ ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³ ³ ³ T E S T Y O U R U N D E R S T A N D I N G ³ ³ ³ ÃÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ´ ³ ³ ³ If you found that there was a high correlation between ³ ³ ³ ³ smoking and lung cancer, can we say that smoking ³ ³ ³ ³ causes lung cancer ? ³ ³ ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ ³ ³You answered ³ ³NO ³ ³which is the CORRECT answer. ³ ³ ³ ³Although medical evidence does indeed suggests that smoking is closely ³ ³related to lung cancer, we cannot PROVE that smoking causes lung cancer ³ ³just because the two factors are closely correlated. ³ ³ ³ ³We would have to find an ACTIVE link (i.e. carcinogen) before we can say ³ ³that smoking causes lung cancer. It is logically possible (although not ³ ³likely) that a third factor (such as a genetic factor) predisposes people ³ ³towards smoking AND also makes them more prone to lung cancer. ³ ³ ³ ³ ³ ³ [Pg Dn] ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ SNAPSHOT.14 EZESTAT1 ÚÄPage 21ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³Curvilinear data ³ ³ ³ ³ ³ x x Very often in the social and biological sciences, ³ ³ ³ x the data does not follow a straight line pattern ³ ³ ³ x and is said to be CURVILINEAR. ³ ³ ³ x ³ ³ ³ x This means that it follows a natural growth ³ ³ ³ x curve ( like an 'S' ) in which there is: ³ ³ ³ x x ³ ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ ³ ³ ³ ³ þ An initial period of slow growth (bottom of the curve) ³ ³ þ A rapid take-off of sustained growth eventually followed by ³ ³ þ a tailing off in rate of growth (top of the curve) ³ ³ ³ ³E.g. Although all individuals continue to grow in height/gain weight ³ ³ after the age of 18, they do not do so at the same rate that ³ ³ characterised earlier years of adolescence i.e. from ages 14-18. ³ ³ ³ ³ ³ ³ ³ ³ [Pg Dn] [Pg Up] ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ SNAPSHOT.15 EZESTAT1 ÚÄPage 22ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³Calculating Spearman's coefficient of rank correlation ³ ³ ³ ³In the data set, Household Income (x) and Food expenditure (y),each column ³ ³of data is RANKED from lowest to highest, the difference between the ranks ³ ³is squared and finally we calculate the sum of the ranked differences : ³ ³ ³ ³ Income Food Income Food Difference Differenceý ³ ³ (x) (y) (Rank) (Rank) ³ ³ 17.0 4.0 3 1 2 4 ³ ³ 16.0 4.8 2 2 0 0 ³ ³ 12.0 6.2 1 3 2 4 ³ ³ 24.0 7.4 4.5 4 0.5 0.25 ³ ³ 30.0 9.0 7 7 0 0 ³ ³ 28.0 8.8 6 6 0 0 ³ ³ 24.0 8.2 4.5 5 0.5 0.25 ³ ³ ³ ³The sum of the differences squared (ädý) is 8.5. When we have 'tied ³ ³ranks', (e.g. 2 cases of 24) then we 'split' the appropriate ranks between ³ ³them (i.e. 4 and 5 in this case, giving 4.5) and the next position is 6. ³ ³ ³ ³ ³ ³ [Pg Dn] [Pg Dn] ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ SNAPSHOT.16 EZESTAT1 ÚÄPage 23ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³Application of the Spearman formula of Rank correlation ³ ³ ³ ³ 6ädý Note : the 6 is a constant ³ ³Formula : 1 - ÄÄÄÄÄÄÄÄÄ i.e. it is ALWAYS ³ ³ n(n2-1) a 6 ³ ³ ³ ³ ³ ³ 6(8.5) Note : n is the number of ³ ³ = 1 - ÄÄÄÄÄÄÄÄ data PAIRS ³ ³ (7)(49-1) (7 in this case) ³ ³ ³ ³ ³ ³ 51 Note : Work out the whole of ³ ³ = 1 - ÄÄÄÄÄÄÄÄÄ the right hand side ³ ³ 336 and THEN subtract from 1 ³ ³ ³ ³ = 1 - 0.1518 ( to 4 decimal places) ³ ³ ³ ³ = 0.8482 Note : must be in the range ³ ³ -1 ... 0 ... +1 ³ ³ ³ ³ [Pg Dn] [Pg Up] ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ SNAPSHOT.17 EZESTAT1 ÚÄPage 24ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³Pearson Product Moment Correlation Coefficient ³ ³ ³ ³In the data set, Household Income (x) and Food Expenditure (y), we have ³ ³to calculate SIX values before we start to apply the formula : ³ ³ ³ ³ äx äxý äxy (multiply x by y and then add them all together) ³ ³ äy äyý n (the number of data PAIRS) ³ ³ ³ ³ Income (x) Food (y) ³ ³ 17.0 4.0 äx (sum of x) = 151.00 ³ ³ 16.0 4.8 äy (sum of y) = 48.40 ³ ³ 12.0 6.2 äxý (sum of x's squared) = 3525.00 ³ ³ 24.0 7.4 äyý (sum of y's squared) = 357.92 ³ ³ 30.0 9.0 äxy (sum of xy's) = 1110.00 ³ ³ 28.0 8.8 n (number of data pairs) = 7.00 ³ ³ 24.0 8.2 ³ ³ ³ ³This will take THREE passes through your calculator (clear it each time): ³ ³ (1) for the äx,äxý (2) for the äy,äyý (3) for the äxy ³ ³ ³ ³ ³ ³ [Pg Dn] [Pg Up] ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ SNAPSHOT.18 EZESTAT1 ÚÄPage 25ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³Application of the Pearson Product Moment Correlation formula : ³ ³äx = 151.0 äxý = 3525.0 äy = 48.4 äyý = 357.92 äxy = 1110 n=7 ³ ³ ³ ³ Note: Think of the formula as: ³ ³ ³ ³ näxy - äxäy Top Line ³ ³ r = ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ ³ ³ û(näxý-(äx)ý).(näyý-(äy)ý) û(Bottom Left).(Bottom Right) ³ ³ ³ ³ ³ ³ = (7)(1110) - (151)(48.4) Note : do multiplication ³ ³ ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ before subtractions³ ³ û((7)(3525-(151)ý)).((7)(357.92-(48.4)ý)) both top and bottom³ ³ ³ ³ = 461.6 Note : Multiply both the ³ ³ ÄÄÄÄÄÄÄÄÄ bottom brackets and³ ³ û(1874)(162.88) then take the û ³ ³ ³ ³ = 0.8355 Note : The Answer ! ³ ³ Must be in the range -1 ... 0 ... +1 ³ ³ ³ ³ [Pg Dn] [Pg Up] ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ SNAPSHOT.19 EZESTAT1 ÚÄPage 26ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³Comparison of Pearson and Spearman Correlation Coefficients ³ ³ ³ ³ ÉÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍËÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍ» ³ ³ º SPEARMAN coefficient º PEARSON coefficient º ³ ³ ÈÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÊÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍͼ ³ ³ Advantages Advantages ³ ³ ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÂÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³ ³ ³ Generally easy and quick ³ More accurate because it uses ³ ³ ³ ³ to calculate ³ the exact values in each pair ³ ³ ³ ³ ³ of values ³ ³ ³ ³ ³ ³ ³ ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÁÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ ³ ³ Disadvantages Disadvantages ³ ³ ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÂÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³ ³ ³ Less accurate because it uses ³ The calculations can be long ³ ³ ³ ³ data that has been made less ³ and error prone ³ ³ ³ ³ exact (i.e. degraded) by being ³ ³ ³ ³ ³ put into ranks ³ ³ ³ ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÁÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ ³ ³ ³ ³ ³ ³ [Pg Dn] [Pg Up] ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ SNAPSHOT.20 EZESTAT1 ÚÄPage 27ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³Regression (1) ³ ³ Plot of Food versus Income ³ ³ ³ . Actual data plots : . ³ ³ ³ . * Regression line : * ³ ³ ³ * ³ ³ ³ ³ . * ³ ³ ³ Food (=y) ³ * ³<- SLOPE which is the ratio of ³ ³ ³ * .ÄÄÄÄÄÄÄÄÄÄÄÄÄÙ the vertical to the ³ ³ ³ . * horizontal difference ( =b ) ³ ³ ³ * . ³ ³ ³* . A REGRESSION LINE is an ³ ³ Ú º equation which is used to ³ ³ INTERCEPT³ º PREDICT future values of ³ ³ ( =a ) ³ º y given any particular x ³ ³ À ÓÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ ³ ³ Income (=x) General form : y = a + bx ³ ³ where a=intercept, b=slope ³ ³ ³ ³The regression equation for the graph above is : y = 1.6009 + 0.2463x ³ ³ ³ ³ ³ ³ [Pg Dn] [Pg Up] ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ SNAPSHOT.21 EZESTAT1 ÚÄPage 28ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³ Income (x) Food (y) ³ ³ 17.0 4.0 äx (sum of x) = 151.00 ³ ³ 16.0 4.8 äy (sum of y) = 48.40 ³ ³ 12.0 6.2 äxý (sum of x's squared) = 3525.00 ³ ³ 24.0 7.4 ³ 30.0 9.0 äxy (sum of xy's) = 1110.00 ³ ³ 28.0 8.8 n (number of data pairs) = 7.00 ³ ³ 24.0 8.2 ³ ³ ³ ³You will have this data from having calculated the correlation coefficient. ³ ³ ³ ³Before you start to calculate the regression equation, determine which ³ ³value is to be the x (independent) and which the y (dependent) value.. ³ ³ _ ³ ³ FORMULAE [ often, you will see äx/n expressed as x ³ ³ and similarly for äy/n ] ³ ³ ³ ³ äxy - (äx/n).äy ³ ³ b = ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ a = (äy/n) - b.(äx/n) ³ ³ äxý - (äx/n).äx ³ ³ ³ ³ [Pg Dn] [Pg Up] ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ SNAPSHOT.22 EZESTAT1 ÚÄPage 29ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³Calculation of the Regression equation ³ ³ ³ ³äxy = 1110 äx = 151 äy = 48.4 äxý = 3525 n = 7 ³ ³ ³ ³ äxy - (äx/n).äy ³ ³ b = ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ ³ ³ äxý - (äx/n).äx ³ ³ ³ ³ = 1110 - (151/7)(48.4) ³ ³ ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ ³ ³ 3525 - (151/7)(151) ³ ³ ³ ³ = 65.9429 ÚÄ> a = (äy/n) - b.(äx/n) ³ ³ ÄÄÄÄÄÄÄ ³ ³ ³ 267.7143 ³ = (48.4/7) - (0.24632)(151/7) ³ ³ ³ ³ ³ = 0.24632 ÄÄÄÄÄÄÄÙ = 1.6008 ³ ³ ³ ³The regression equation is : y = 1.6008+0.24632x ³ ³ ³ ³ ³ ³ [Pg Dn] [Pg Up] ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ SNAPSHOT.23 EZESTAT1 ÚÄPage 30ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³Using the regression equation to predict values ³ ³ ³ ³The whole purpose of a regression equation is to use past data to interpet ³ ³future trends. ³ ³ ³ ³If we have the regression equation ³ ³ ³ ³ y = 1.6008 + 0.24632x (where x=Income, y=Food) ³ ³ ³ ³then we can predict that a family with an income of œ100 a week will spend ³ ³ ³ ³ y = 1.6008 + (0.24632)(100) = 1.6012 + 24.63 = œ26.23 a week on food ³ ³ ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³ ³ ³ T E S T Y O U R U N D E R S T A N D I N G ³ ³ ³ ÃÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ´ ³ ³ ³ In the case of correlation and regression, does it matter ³ ³ ³ ³ which is x (independent) and which is y (dependent) ? ³ ³ ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ ³ ³ [1] It does not matter which is which ³ ³ [2] It matters for correlation but not for regression ³ ³ [3] It matters for regression but not for correlation ³ ³ [4] It does matter in the case of both correlation and regression ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ SNAPSHOT.24 EZESTAT1 ÚÄPage 30cÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³ ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³ ³ ³ T E S T Y O U R U N D E R S T A N D I N G ³ ³ ³ ÃÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ´ ³ ³ ³ In the case of correlation and regression, does it matter ³ ³ ³ ³ which is x (independent) and which is y (dependent) ? ³ ³ ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ ³ ³ ³ ³You answered ³ ³ ³ ³it matters for regression but not for correlation ³ ³ ³ ³which is the CORRECT answer. You have remembered correctly that it ³ ³is important to get the 'correct' values for x and y in a regression. ³ ³ ³ ³The formula for correlation is symmetrical, so it does not matter which ³ ³is x and which is y. But it DOES matter for regression, as the shape of ³ ³regression line of 'x upon y' is different to the shape of the line of ³ ³'y upon x' ³ ³ ³ ³ ³ ³ ³ ³ [Pg Dn] ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ SNAPSHOT.01 EZESTAT2 ÚÄPage 29ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³Contingency tables ³ ³ ³ ³Remember that we can collect data at the categorical (nominal) level - each ³ ³number is essentially a CODING number for categories in the data. ³ ³ ³ ³SEX 1 = Female 2 = Male [ Data 1 2 1 2 1 2 1 2 1 2 ] ³ ³DRIVER 1 = Driver 2 = Non-driver [ Data 1 1 2 1 1 2 1 1 2 1 ] ³ ³ ³ ³When we collect data for two variables, each split into several categories, ³ ³then it is possible to form a CONTINGENCY table. In a contingency table, ³ ³each cell hold the totals of the categories formed by the axes. ³ ³ DRIVER-> Driver Non-Dr ³ ³ 1 2 We have 3 1,1 [ Female drivers ] ³ ³ ÚÄÄÄÄÄÂÄÄÄÄÄ¿ 2 1,2 [ Female non-drivers ] ³ ³ SEX F 1 ³ 3 ³ 2 ³ 7 4 2,1 [ Male drivers ] ³ ³ ÃÄÄÄÄÄÅÄÄÄÄÄ´ 1 2,2 [ Male non-drivers ] ³ ³ M 2 ³ 4 ³ 1 ³ 3 ³ ³ ÀÄÄÄÄÄÁÄÄÄÄÄÙ and we would call this a '2 x 2' table ³ ³ 5 5 10 ³ ³ ³ ³ ³ ³ [Pg Dn] [Pg Up] ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ SNAPSHOT.02 EZESTAT2 ÚÄPage 30ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³Complex contingency tables ³ ³ Crosstabulation of SEX by DRIVER Holds driving licence ³ ³ ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³ ³ DRIVER >³Yes No ³ ROW TOTAL ³ Complex contingency table ³ ³ ³ SEX ³ 1 2 ³ ³ ~~~~~~~~~~~~~~~~~~~~~~~~~ ³ ³ ³ ÃÄÄÄÄÄÄÂÄÄÄÄÄÄ´ ³ This contingency table (taken ³ ³ ³ 1³ 3 ³ 2 ³ 5 ³ from TURBOSTATS) contains in ³ ³ ³ [Row %] ³ 60.0 ³ 40.0 ³50.0% ³ each cell : ³ ³ ³ [Col %] ³ 42.9 ³ 66.7 ³ ³ ³ ³ ³ [Tot %] ³ 30.0 ³ 20.0 ³ ³ - the cell COUNTS ³ ³ ³ ÃÄÄÄÄÄÄÅÄÄÄÄÄÄ´ ³ - the ROW percentages ³ ³ ³ 2³ 4 ³ 1 ³ 5 ³ - the COLUMN percentages ³ ³ ³ [Row %] ³ 80.0 ³ 20.0 ³50.0% ³ - the TOTAL percentages ³ ³ ³ [Col %] ³ 57.1 ³ 33.3 ³ ³ ³ ³ ³ [Tot %] ³ 40.0 ³ 10.0 ³ ³ We also see the MARGINAL ³ ³ ³ ÀÄÄÄÄÄÄÁÄÄÄÄÄÄÙ ³ TOTALS and PERCENTAGES ³ ³ ³ TOTAL 7 3 10 ³ for each column and each ³ ³ ³ 70.0% 30.0% 100.0% ³ row in the table. ³ ³ ³ Valid cases = 10 Missing = 0 ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ ³ ³ ³ ³ ³ ³ [Pg Dn] [Pg Up] ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ SNAPSHOT.03 EZESTAT2 ÚÄPage 31ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³Chi-square table (1) ³ ³ Crosstabulation of SEX by DRIVER Holds driving licence ³ ³ ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³ ³ DRIVER >³Yes No ³ ROW ³ Chi-square calculation (1) ³ ³ ³ SEX ³ 1 2 ³ TOTAL ³ ~~~~~~~~~~~~~~~~~~~~~~ ³ ³ ³ ÃÄÄÄÄÄÄÂÄÄÄÄÄÄ´ ³ 'Exp' is the EXPECTED value in ³ ³ ³ 1³ 3 ³ 2 ³ 5 ³ each cell. We calculate it by ³ ³ ³ [Exp ] ³ 3.5 ³ 1.5 ³50.0% ³ using the ROW & COLUMN totals : ³ ³ ³ [Chis ] ³ 0.07³ 0.17³ ³ ³ ³ ³ ÃÄÄÄÄÄÄÅÄÄÄÄÄÄ´ ³ 5/10 are Females whilst 7/10 ³ ³ ³ 2³ 4 ³ 1 ³ 5 ³ are Drivers. ³ ³ ³ [Exp ] ³ 3.5 ³ 1.5 ³50.0% ³ ³ ³ ³ [Chis ] ³ 0.07³ 0.17³ ³ We would EXPECT 7 * (5/10) =3.5 ³ ³ ³ ÀÄÄÄÄÄÄÁÄÄÄÄÄÄÙ ³ Female Drivers in the top left ³ ³ ³ TOTAL 7 3 10 ³ hand cell. [ Each other cell is ³ ³ ³ 70.0% 30.0% 100.0% ³ worked out by a similar logic ] ³ ³ ³ Valid cases = 10 Missing = 0 ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ ³ ³ Total chi-square D.F. Significance Cells with E.F. < 5 ³ ³ 0.48 1 0.4902 4 of 4 ( 100.0% ) ³ ³ ³ ³ ³ ³ [Pg Dn] [Pg Up] ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ SNAPSHOT.04 EZESTAT2 ÚÄPage 32ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³Chi-square table (2) ³ ³ Crosstabulation of SEX by DRIVER Holds driving licence ³ ³ ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³ ³ DRIVER >³Yes No ³ ROW ³ Chi-square calculation (2) ³ ³ ³ SEX ³ 1 2 ³ TOTAL ³ ~~~~~~~~~~~~~~~~~~~~~~ ³ ³ ³ ÃÄÄÄÄÄÄÂÄÄÄÄÄÄ´ ³ The individual chi-square in each ³ ³ ³ 1³ 3 ³ 2 ³ 5 ³ cell is worked with the formula: ³ ³ ³ [Exp ] ³ 3.5 ³ 1.5 ³50.0% ³ 2 ³ ³ ³ [Chis ] ³ 0.07³ 0.17³ ³ (Observed - Expected) ³ ³ ³ ÃÄÄÄÄÄÄÅÄÄÄÄÄÄ´ ³ ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ ³ ³ ³ 2³ 4 ³ 1 ³ 5 ³ Expected ³ ³ ³ [Exp ] ³ 3.5 ³ 1.5 ³50.0% ³ e.g. ³ ³ ³ [Chis ] ³ 0.07³ 0.17³ ³ in top left-hand cell, chi-square ³ ³ ³ ÀÄÄÄÄÄÄÁÄÄÄÄÄÄÙ ³ = (0.5)*(0.5)/3.5 = 0.07 ³ ³ ³ TOTAL 7 3 10 ³ ³ ³ ³ 70.0% 30.0% 100.0% ³ The chi-squares are then TOTALLED ³ ³ ³ Valid cases = 10 Missing = 0 ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ ³ ³ Total chi-square D.F. Significance Cells with E.F. < 5 ³ ³ 0.48 1 0.4902 4 of 4 ( 100.0% ) ³ ³ ³ ³ ³ ³ [Pg Dn] [Pg Up] ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ SNAPSHOT.05 EZESTAT2 ÚÄPage 33ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³Chi-square table (3) ³ ³ Crosstabulation of SEX by DRIVER Holds driving licence ³ ³ ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³ ³ DRIVER >³Yes No ³ ROW ³ Chi-square calculation (3) ³ ³ ³ SEX ³ 1 2 ³ TOTAL ³ ~~~~~~~~~~~~~~~~~~~~~~ ³ ³ ³ ÃÄÄÄÄÄÄÂÄÄÄÄÄÄ´ ³ The D.F. (Degrees of Freedom) ³ ³ ³ 1³ 3 ³ 2 ³ 5 ³ figure is worked out by the ³ ³ ³ [Exp ] ³ 3.5 ³ 1.5 ³50.0% ³ formula : (rows-1) * (columns-1) ³ ³ ³ [Chis ] ³ 0.07³ 0.17³ ³ ³ ³ ³ ÃÄÄÄÄÄÄÅÄÄÄÄÄÄ´ ³ In a '2 x 2' table (as here) then ³ ³ ³ 2³ 4 ³ 1 ³ 5 ³ DF = (2 - 1) * (2- 1) = 1 ³ ³ ³ [Exp ] ³ 3.5 ³ 1.5 ³50.0% ³ ³ ³ ³ [Chis ] ³ 0.07³ 0.17³ ³ The Significance figure (p) needs ³ ³ ³ ÀÄÄÄÄÄÄÁÄÄÄÄÄÄÙ ³ to be < 0.05 to be significant ³ ³ ³ TOTAL 7 3 10 ³ (i.e. less than 1 chance in 20 ³ ³ ³ 70.0% 30.0% 100.0% ³ of getting this result by chance) ³ ³ ³ Valid cases = 10 Missing = 0 ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ ³ ³ Total chi-square D.F. Significance Cells with E.F. < 5 ³ ³ 0.48 1 0.4902 4 of 4 ( 100.0% ) ³ ³ ³ ³ ³ ³ [Pg Dn] [Pg Up] ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ SNAPSHOT.06 EZESTAT2 ÚÄPage 34ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³Chi-square table (4) ³ ³ Crosstabulation of SEX by DRIVER Holds driving licence ³ ³ ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³ ³ DRIVER >³Yes No ³ ROW ³ Chi-square calculation (4) ³ ³ ³ SEX ³ 1 2 ³ TOTAL ³ ~~~~~~~~~~~~~~~~~~~~~~ ³ ³ ³ ÃÄÄÄÄÄÄÂÄÄÄÄÄÄ´ ³ If the number of cells with an ³ ³ ³ 1³ 3 ³ 2 ³ 5 ³ Expected Frequency (EF) < 5 are ³ ³ ³ [Exp ] ³ 3.5 ³ 1.5 ³50.0% ³ less than 20% of the total number ³ ³ ³ [Chis ] ³ 0.07³ 0.17³ ³ of cells, then some of the ³ ³ ³ ÃÄÄÄÄÄÄÅÄÄÄÄÄÄ´ ³ assumptions of the chisquare test ³ ³ ³ 2³ 4 ³ 1 ³ 5 ³ are being violated. ³ ³ ³ [Exp ] ³ 3.5 ³ 1.5 ³50.0% ³ ³ ³ ³ [Chis ] ³ 0.07³ 0.17³ ³ The solution lies in COLLAPSING ³ ³ ³ ÀÄÄÄÄÄÄÁÄÄÄÄÄÄÙ ³ some of the categories (if ³ ³ ³ TOTAL 7 3 10 ³ possible) to reduce the total ³ ³ ³ 70.0% 30.0% 100.0% ³ number of cells in the table. ³ ³ ³ Valid cases = 10 Missing = 0 ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ ³ ³ Total chi-square D.F. Significance Cells with E.F. < 5 ³ ³ 0.48 1 0.4902 4 of 4 ( 100.0% ) ³ ³ ³ ³ ³ ³ [Pg Dn] [Pg Up] ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ SNAPSHOT.07 EZESTAT2 ÚÄPage 38ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³Recoding data ³ ³ ³ ³We may need to recode data to turn CONTINUOUS into CATEGORICAL data... ³ ³INCOME Y_CODE SEX ³ ³ 1000 1 1 ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³ ³ 2000 1 2 ³ Here we have INCOME (a continuous variable) ³ ³ ³ 3000 1 1 ³ coded into Y_CODE (a categorical variable) ³ ³ ³ 4000 1 2 ³ We could now, for example, do a chi- square ³ ³ ³ 5000 2 1 ³ test on Y_CODE v SEX ³ ³ ³ 6000 2 2 ³ ³ ³ ³ 7000 2 1 ³ NB We do lose some of the 'richness' in ³ ³ ³ 8000 2 2 ³ the data when we code like this. ³ ³ ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ ³ ³ ³ ³We can also COLLAPSE data, which is similar to recoding. If we have a ³ ³variable CLASS measured on a six-point scale [1-6] then we could recode ³ ³1-3 into a 1 [ Middle class ] ³ ³4-6 into a 2 [ Working Class] ³ ³for easier analysis [ or to reduce the cells ] in a chi-square. ³ ³ ³ ³ ³ ³ [Pg Dn] [Pg Up] ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ SNAPSHOT.08 EZESTAT2 ÚÄPage 39ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ¿ ³Choice of Test ³ ³ ³ ³The choice of test depends upon whether the data is measured at ³ ³the CONTINUOUS or the CATEGORICAL (or ORDINAL) level.. ³ ³ ³ ³ Variable Type of Statistics ³ ³ Statistic ³ ³------------------------------------------------------------------------ ³ ³ CONTINUOUS PARAMETRIC Means; Standard Deviations ³ ³ (e.g. Incomes) Correlation (Pearson) ³ ³ Regression ³ ³ 't' tests on means, proportions ³ ³ ³ ³ CATEGORICAL NON- Frequency Distributions ³ ³ (e.g. coding PARAMETRIC Correlation (Spearman) ³ ³ number for Chi-square ³ ³ SEX) Kolmogorov-Smirnov tests ³ ³------------------------------------------------------------------------- ³ ³ ³ ³ ³ ³ ³ ³ [Pg Dn] [Pg Up] ³ ÀÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÙ