SNAPSHOT.01 EZESTAT1 ÚÄPage 11ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż łTypes of variables (1) ł ł ł łIn statistics, a distinction is made between : ł ł ł łCATEGORICAL variables ł ł ł łThese are essentially coding numbers and are often used to separate ł łitems in a list into various categories. ł ł ł łFor example, 1=Female 2=Male is one common example of a categorical ł ł variable ł ł ł ł 1=Agree 2=Neutral 3=Disagree would be another example. ł ł ł łCONTINUOUS variables ł ł ł łThese are numbers that are 'real' ( as opposed to the artificiality of the ł łnumbers often used in categorical variables) They are used for data that ł łcan form a long continuous stream such as heights, weights or incomes. ł ł ł ł ł ł [Pg Dn] [Pg Up] ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ SNAPSHOT.02 EZESTAT1 ÚÄPage 12ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż łTypes of variables (2) ł ł ł ł ł łEach of the variables are measured by different families of statistics ł ł ł łCATEGORICAL variables are measured by NON-PARAMETRIC statistics ł ł (such as contingency tables, chisquare) ł ł ł łCONTINUOUS variables are measured by PARAMETRIC Statistics ł ł (such as a mean, standard deviation or a t-test) ł ł ł ł ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż ł ł ł T E S T Y O U R U N D E R S T A N D I N G ł ł ł ĂÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ´ ł ł ł Would you measure a band of expenditure (e.g. ł ł ł ł ś1-ś10 ś11-20 ś31-ś40 ś41 or more ł ł ł ł by means of a categorical or a continuous variable ? ł ł ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ ł ł ł ł ł ł ł ł [1] Continuous [2] Categorical ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ SNAPSHOT.03 EZESTAT1 ÚÄPage 12bÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż ł ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż ł ł ł T E S T Y O U R U N D E R S T A N D I N G ł ł ł ĂÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ´ ł ł ł Would you measure a band of expenditure (e.g. ł ł ł ł ś1-ś10 ś11-ś20 ś31-ś40 ś41 or more ł ł ł ł by means of a categorical or a continuous variable ? ł ł ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ ł ł ł łYou answered ł łcategorical ł łwhich was CORRECT. ł ł ł łAlthough incomes are being measured, they are placed into categories ł łand would probably have a coding number associated with each one ł łe.g. 1 ś 1-ś10 ł ł 2 ś11-ś20 ł ł 3. ś21-ś30 ł łand so on. So this data is actually measured at the categorical level. ł łYou were not confused by the fact that the data appears to be continuous ł łbut is, in fact, categorical because it was placed into bands. ł ł ł ł [Pg Dn] ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ SNAPSHOT.04 EZESTAT1 ÚÄPage 13ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż łCorrelation 1 ł ł ł łIn the diagram below, we imagine that we are plotting the amount spent ł łon food and the income received for a sample of 12 families : ł ł ł ł ł ł ł ł x x Notice that : ł ł ł x ł ł Food (=y) ł x x Food (y) is the DEPENDENT variableł ł ł x Income (x) is the INDEPENDENT ł ł (dependent) ł x x variable ł ł ł x ł ł ł x x As x increases, so does y ł ł łx ł ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ ł ł Income (=x) (independent) ł ł ł łThis is an example of a HIGH POSITIVE correlation ł ł ł ł ł ł ł ł [Pg Dn] [Pg Up] ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ SNAPSHOT.05 EZESTAT1 ÚÄPage 14ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż łCorrelation 2 ł ł ł łWe are now plotting the amount of days recorded as 'illness' and income ł łreceived for a sample of 12 families : ł ł ł ł ł ł ł ł x Notice that : ł ł ł x x ł ł Illness(=y) ł x x As income (x) INCREASES, the numberł ł ł x x of days of 'illness' (y) DECREASES ł ł (dependent) ł x x ł ł ł x x (i.e. Higher Income families do notł ł ł x have as much 'illness' as ł ł ł Lower Income families ) ł ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ ł ł Income (=x) (independent) ł ł ł łThis is an example of a HIGH NEGATIVE correlation ł ł ł ł ł ł ł ł [Pg Dn] [Pg Up] ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ SNAPSHOT.06 EZESTAT1 ÚÄPage 15ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż łCorrelation 3 ł ł ł łWe are now plotting the 'Final Degree Average' obtained against the ł ł'A-level' points score for a sample of 12 students: ł ł ł ł ł ł ł ł x x Notice that : ł ł Final ł x x ł ł Degree ł There are as many 'good' degrees ł ł Average (=y)ł x x associated with 'good' A-level ł ł (dependent) ł x scores as there are 'poor' degrees ł ł ł x x ł ł ł x x (i.e. there does not appear to be ł ł ł x any association between ł ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ 'A'-level points' and ł ł 'A'-level point score (=x) 'Final Degree Average') ł ł ł ł ł łThis is an example of NO association at all ł ł ł ł ł ł [Pg Dn] [Pg Up] ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ SNAPSHOT.07 EZESTAT1 ÚÄPage 16ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż łCorrelation 4 ł ł ł łA correlation coefficient is measured in the range -1....0....+1 ł ł ł łIt is usually designated like this : r= 0.9 or r=-0.85 ł ł ł ł ł łA value in the range 0 +0.3 } is regarded as a LOW positive ł ł 0 -0.3 } ( or negative) correlation ł ł ł łA value in the range +0.4 +0.6 } is regarded as a MODERATE positive ł ł -0.4 -0.6 } ( or negative) correlation ł ł ł łA value in the range +0.7 +1.0 } is regarded as a HIGH positive ł ł -0.7 -1.0 } ( or negative) correlation ł ł ł łRemember that values that cluster around 0 represent NO ASSOCIATION ł łand not a negative association. The closer values get to +1 ( or to -1), ł łthe more they measure a HIGH positive ( or negative) correlation. ł ł ł ł ł ł [Pg Dn] [Pg Up] ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ SNAPSHOT.08 EZESTAT1 ÚÄPage 17ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż łCorrelation 5 ł ł ł ł ł łMentally divide the plot into 4 quadrants : ł ł ł ł ł | If there is a clustering from bottom left to top ł ł ł | right [ / ] this is a POSITIVE correlation. ł ł ł------|---Ä-- ł ł ł | If there is a clustering from top left to bottom ł ł ł | right [ \ ] this is a NEGATIVE correlation. ł ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄ ł ł If the data appears to be equally split between ł ł all four quadrants, then this represents a ł ł pattern of NO ASSOCIATION or very low correlation. ł ł ł łJust because two variables are associated with each other, we cannot ł łsay that one is the cause of the other. ł ł ł łRemember that there is a high correlation between storks and babies! ł ł ł ł ł ł [Pg Dn] [Pg Up] ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ SNAPSHOT.09 EZESTAT1 ÚÄPage 18ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż ł ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż ł ł ł T E S T Y O U R U N D E R S T A N D I N G ł ł ł ĂÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ´ ł ł ł ł ł ł ł ł x ł ł ł ł łx x Do you think the ł ł ł ł ł x correlation coefficient ł ł ł ł ł x in this case is : ł ł ł ł ł ł ł ł ł ł x x 0.1 ł ł ł ł ł x x -0.7 ł ł ł ł ł x -0.4 ł ł ł ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ ł ł ł ł ł ł ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ ł ł ł ł ł ł ł ł ł ł ł ł ł ł [1] 0.1 [2] -0.7 [3] -0.4 ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ SNAPSHOT.10 EZESTAT1 ÚÄPage 18cÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż ł ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż ł ł ł T E S T Y O U R U N D E R S T A N D I N G ł ł ł ĂÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ´ ł ł ł ł ł ł ł ł x ł ł ł ł łx x Do you think the ł ł ł ł ł x correlation coefficient ł ł ł ł ł x in this case is : ł ł ł ł ł ł ł ł ł ł x x 0.1 ł ł ł ł ł x x -0.7 ł ł ł ł ł x -0.4 ł ł ł ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ ł ł ł ł ł ł ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ ł łYou answered -0.4 which is CORRECT. If you divide the plot (mentally) ł łinto four quadrants, you will a see more of a clustering from top left ł łto bottom right which indicates a negative relationship. However, this ł łis not very marked and therefore -0.4 is an accurate correlation ł łcoefficient for this plot. ł ł ł ł [Pg Dn] ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ SNAPSHOT.11 EZESTAT1 ÚÄPage 19ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż łCorrelation and Causation (1) ł ł ł ł ł x x The plot shows a very high correlation between ł ł ł x x EDUCATION (years spent in full-time post 18) and ł ł ł x xx x INCOME. ł ł ł x x x ł ł ł x x x Before we can assume that many years spent in post- ł ł ł x x x school education CAUSES high income, we must examineł ł ł x x the impact of other factors e.g. social class which ł ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ might intervene and EXPLAIN the relationship. ł ł ł łIn this particular case, if we divided the group into : ł łProfessional Parents v. Non-Professional parents ł łwe might discover that ł ł ł łProfessional parents - children ARE highly educated and have HIGH incomes ł łNon-professional - children ARE NOT highly educated and have LOW incomesł ł parents ł ł ł łand therefore SOCIAL CLASS explains high incomes and NOT education 'per se' ł ł ł ł [Pg Dn] [Pg Up] ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ SNAPSHOT.12 EZESTAT1 ÚÄPage 20ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż łCorrelation and Causation (2) ł ł ł łTherefore, just because two factors are correlated, we cannnot say that one ł łcauses the other - nor can we say that one does NOT cause the other. ł ł ł łCorrelation means that where we find one factor, we also find the other ł łFOR WHATEVER REASON. ł ł ł łCorrelation does not imply causation! ł ł ł ł ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż ł ł ł T E S T Y O U R U N D E R S T A N D I N G ł ł ł ĂÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ´ ł ł ł If you found that there was a high correlation between ł ł ł ł smoking and lung cancer, can we say that smoking ł ł ł ł causes lung cancer ? ł ł ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ ł ł ł ł ł ł ł ł ł ł [1] Yes [2] No ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ SNAPSHOT.13 EZESTAT1 ÚÄPage 20bÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż ł ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż ł ł ł T E S T Y O U R U N D E R S T A N D I N G ł ł ł ĂÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ´ ł ł ł If you found that there was a high correlation between ł ł ł ł smoking and lung cancer, can we say that smoking ł ł ł ł causes lung cancer ? ł ł ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ ł łYou answered ł łNO ł łwhich is the CORRECT answer. ł ł ł łAlthough medical evidence does indeed suggests that smoking is closely ł łrelated to lung cancer, we cannot PROVE that smoking causes lung cancer ł łjust because the two factors are closely correlated. ł ł ł łWe would have to find an ACTIVE link (i.e. carcinogen) before we can say ł łthat smoking causes lung cancer. It is logically possible (although not ł łlikely) that a third factor (such as a genetic factor) predisposes people ł łtowards smoking AND also makes them more prone to lung cancer. ł ł ł ł ł ł [Pg Dn] ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ SNAPSHOT.14 EZESTAT1 ÚÄPage 21ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż łCurvilinear data ł ł ł ł ł x x Very often in the social and biological sciences, ł ł ł x the data does not follow a straight line pattern ł ł ł x and is said to be CURVILINEAR. ł ł ł x ł ł ł x This means that it follows a natural growth ł ł ł x curve ( like an 'S' ) in which there is: ł ł ł x x ł ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ ł ł ł ł ţ An initial period of slow growth (bottom of the curve) ł ł ţ A rapid take-off of sustained growth eventually followed by ł ł ţ a tailing off in rate of growth (top of the curve) ł ł ł łE.g. Although all individuals continue to grow in height/gain weight ł ł after the age of 18, they do not do so at the same rate that ł ł characterised earlier years of adolescence i.e. from ages 14-18. ł ł ł ł ł ł ł ł [Pg Dn] [Pg Up] ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ SNAPSHOT.15 EZESTAT1 ÚÄPage 22ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż łCalculating Spearman's coefficient of rank correlation ł ł ł łIn the data set, Household Income (x) and Food expenditure (y),each column ł łof data is RANKED from lowest to highest, the difference between the ranks ł łis squared and finally we calculate the sum of the ranked differences : ł ł ł ł Income Food Income Food Difference Differenceý ł ł (x) (y) (Rank) (Rank) ł ł 17.0 4.0 3 1 2 4 ł ł 16.0 4.8 2 2 0 0 ł ł 12.0 6.2 1 3 2 4 ł ł 24.0 7.4 4.5 4 0.5 0.25 ł ł 30.0 9.0 7 7 0 0 ł ł 28.0 8.8 6 6 0 0 ł ł 24.0 8.2 4.5 5 0.5 0.25 ł ł ł łThe sum of the differences squared (ädý) is 8.5. When we have 'tied ł łranks', (e.g. 2 cases of 24) then we 'split' the appropriate ranks between ł łthem (i.e. 4 and 5 in this case, giving 4.5) and the next position is 6. ł ł ł ł ł ł [Pg Dn] [Pg Dn] ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ SNAPSHOT.16 EZESTAT1 ÚÄPage 23ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż łApplication of the Spearman formula of Rank correlation ł ł ł ł 6ädý Note : the 6 is a constant ł łFormula : 1 - ÄÄÄÄÄÄÄÄÄ i.e. it is ALWAYS ł ł n(n2-1) a 6 ł ł ł ł ł ł 6(8.5) Note : n is the number of ł ł = 1 - ÄÄÄÄÄÄÄÄ data PAIRS ł ł (7)(49-1) (7 in this case) ł ł ł ł ł ł 51 Note : Work out the whole of ł ł = 1 - ÄÄÄÄÄÄÄÄÄ the right hand side ł ł 336 and THEN subtract from 1 ł ł ł ł = 1 - 0.1518 ( to 4 decimal places) ł ł ł ł = 0.8482 Note : must be in the range ł ł -1 ... 0 ... +1 ł ł ł ł [Pg Dn] [Pg Up] ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ SNAPSHOT.17 EZESTAT1 ÚÄPage 24ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż łPearson Product Moment Correlation Coefficient ł ł ł łIn the data set, Household Income (x) and Food Expenditure (y), we have ł łto calculate SIX values before we start to apply the formula : ł ł ł ł äx äxý äxy (multiply x by y and then add them all together) ł ł äy äyý n (the number of data PAIRS) ł ł ł ł Income (x) Food (y) ł ł 17.0 4.0 äx (sum of x) = 151.00 ł ł 16.0 4.8 äy (sum of y) = 48.40 ł ł 12.0 6.2 äxý (sum of x's squared) = 3525.00 ł ł 24.0 7.4 äyý (sum of y's squared) = 357.92 ł ł 30.0 9.0 äxy (sum of xy's) = 1110.00 ł ł 28.0 8.8 n (number of data pairs) = 7.00 ł ł 24.0 8.2 ł ł ł łThis will take THREE passes through your calculator (clear it each time): ł ł (1) for the äx,äxý (2) for the äy,äyý (3) for the äxy ł ł ł ł ł ł [Pg Dn] [Pg Up] ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ SNAPSHOT.18 EZESTAT1 ÚÄPage 25ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż łApplication of the Pearson Product Moment Correlation formula : ł łäx = 151.0 äxý = 3525.0 äy = 48.4 äyý = 357.92 äxy = 1110 n=7 ł ł ł ł Note: Think of the formula as: ł ł ł ł näxy - äxäy Top Line ł ł r = ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ ł ł ű(näxý-(äx)ý).(näyý-(äy)ý) ű(Bottom Left).(Bottom Right) ł ł ł ł ł ł = (7)(1110) - (151)(48.4) Note : do multiplication ł ł ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ before subtractionsł ł ű((7)(3525-(151)ý)).((7)(357.92-(48.4)ý)) both top and bottomł ł ł ł = 461.6 Note : Multiply both the ł ł ÄÄÄÄÄÄÄÄÄ bottom brackets andł ł ű(1874)(162.88) then take the ű ł ł ł ł = 0.8355 Note : The Answer ! ł ł Must be in the range -1 ... 0 ... +1 ł ł ł ł [Pg Dn] [Pg Up] ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ SNAPSHOT.19 EZESTAT1 ÚÄPage 26ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż łComparison of Pearson and Spearman Correlation Coefficients ł ł ł ł ÉÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍËÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍ» ł ł ş SPEARMAN coefficient ş PEARSON coefficient ş ł ł ČÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍĘÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍĽ ł ł Advantages Advantages ł ł ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÂÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż ł ł ł Generally easy and quick ł More accurate because it uses ł ł ł ł to calculate ł the exact values in each pair ł ł ł ł ł of values ł ł ł ł ł ł ł ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÁÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ ł ł Disadvantages Disadvantages ł ł ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÂÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż ł ł ł Less accurate because it uses ł The calculations can be long ł ł ł ł data that has been made less ł and error prone ł ł ł ł exact (i.e. degraded) by being ł ł ł ł ł put into ranks ł ł ł ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÁÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ ł ł ł ł ł ł [Pg Dn] [Pg Up] ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ SNAPSHOT.20 EZESTAT1 ÚÄPage 27ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż łRegression (1) ł ł Plot of Food versus Income ł ł ł . Actual data plots : . ł ł ł . * Regression line : * ł ł ł * ł ł ł ł . * ł ł ł Food (=y) ł * ł<- SLOPE which is the ratio of ł ł ł * .ÄÄÄÄÄÄÄÄÄÄÄÄÄŮ the vertical to the ł ł ł . * horizontal difference ( =b ) ł ł ł * . ł ł ł* . A REGRESSION LINE is an ł ł Ú ş equation which is used to ł ł INTERCEPTł ş PREDICT future values of ł ł ( =a ) ł ş y given any particular x ł ł Ŕ ÓÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ ł ł Income (=x) General form : y = a + bx ł ł where a=intercept, b=slope ł ł ł łThe regression equation for the graph above is : y = 1.6009 + 0.2463x ł ł ł ł ł ł [Pg Dn] [Pg Up] ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ SNAPSHOT.21 EZESTAT1 ÚÄPage 28ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż ł Income (x) Food (y) ł ł 17.0 4.0 äx (sum of x) = 151.00 ł ł 16.0 4.8 äy (sum of y) = 48.40 ł ł 12.0 6.2 äxý (sum of x's squared) = 3525.00 ł ł 24.0 7.4 ł 30.0 9.0 äxy (sum of xy's) = 1110.00 ł ł 28.0 8.8 n (number of data pairs) = 7.00 ł ł 24.0 8.2 ł ł ł łYou will have this data from having calculated the correlation coefficient. ł ł ł łBefore you start to calculate the regression equation, determine which ł łvalue is to be the x (independent) and which the y (dependent) value.. ł ł _ ł ł FORMULAE [ often, you will see äx/n expressed as x ł ł and similarly for äy/n ] ł ł ł ł äxy - (äx/n).äy ł ł b = ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ a = (äy/n) - b.(äx/n) ł ł äxý - (äx/n).äx ł ł ł ł [Pg Dn] [Pg Up] ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ SNAPSHOT.22 EZESTAT1 ÚÄPage 29ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż łCalculation of the Regression equation ł ł ł łäxy = 1110 äx = 151 äy = 48.4 äxý = 3525 n = 7 ł ł ł ł äxy - (äx/n).äy ł ł b = ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ ł ł äxý - (äx/n).äx ł ł ł ł = 1110 - (151/7)(48.4) ł ł ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ ł ł 3525 - (151/7)(151) ł ł ł ł = 65.9429 ÚÄ> a = (äy/n) - b.(äx/n) ł ł ÄÄÄÄÄÄÄ ł ł ł 267.7143 ł = (48.4/7) - (0.24632)(151/7) ł ł ł ł ł = 0.24632 ÄÄÄÄÄÄÄŮ = 1.6008 ł ł ł łThe regression equation is : y = 1.6008+0.24632x ł ł ł ł ł ł [Pg Dn] [Pg Up] ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ SNAPSHOT.23 EZESTAT1 ÚÄPage 30ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż łUsing the regression equation to predict values ł ł ł łThe whole purpose of a regression equation is to use past data to interpet ł łfuture trends. ł ł ł łIf we have the regression equation ł ł ł ł y = 1.6008 + 0.24632x (where x=Income, y=Food) ł ł ł łthen we can predict that a family with an income of ś100 a week will spend ł ł ł ł y = 1.6008 + (0.24632)(100) = 1.6012 + 24.63 = ś26.23 a week on food ł ł ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż ł ł ł T E S T Y O U R U N D E R S T A N D I N G ł ł ł ĂÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ´ ł ł ł In the case of correlation and regression, does it matter ł ł ł ł which is x (independent) and which is y (dependent) ? ł ł ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ ł ł [1] It does not matter which is which ł ł [2] It matters for correlation but not for regression ł ł [3] It matters for regression but not for correlation ł ł [4] It does matter in the case of both correlation and regression ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ SNAPSHOT.24 EZESTAT1 ÚÄPage 30cÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż ł ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż ł ł ł T E S T Y O U R U N D E R S T A N D I N G ł ł ł ĂÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ´ ł ł ł In the case of correlation and regression, does it matter ł ł ł ł which is x (independent) and which is y (dependent) ? ł ł ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ ł ł ł łYou answered ł ł ł łit matters for regression but not for correlation ł ł ł łwhich is the CORRECT answer. You have remembered correctly that it ł łis important to get the 'correct' values for x and y in a regression. ł ł ł łThe formula for correlation is symmetrical, so it does not matter which ł łis x and which is y. But it DOES matter for regression, as the shape of ł łregression line of 'x upon y' is different to the shape of the line of ł ł'y upon x' ł ł ł ł ł ł ł ł [Pg Dn] ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ SNAPSHOT.01 EZESTAT2 ÚÄPage 29ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż łContingency tables ł ł ł łRemember that we can collect data at the categorical (nominal) level - each ł łnumber is essentially a CODING number for categories in the data. ł ł ł łSEX 1 = Female 2 = Male [ Data 1 2 1 2 1 2 1 2 1 2 ] ł łDRIVER 1 = Driver 2 = Non-driver [ Data 1 1 2 1 1 2 1 1 2 1 ] ł ł ł łWhen we collect data for two variables, each split into several categories, ł łthen it is possible to form a CONTINGENCY table. In a contingency table, ł łeach cell hold the totals of the categories formed by the axes. ł ł DRIVER-> Driver Non-Dr ł ł 1 2 We have 3 1,1 [ Female drivers ] ł ł ÚÄÄÄÄÄÂÄÄÄÄÄż 2 1,2 [ Female non-drivers ] ł ł SEX F 1 ł 3 ł 2 ł 7 4 2,1 [ Male drivers ] ł ł ĂÄÄÄÄÄĹÄÄÄÄÄ´ 1 2,2 [ Male non-drivers ] ł ł M 2 ł 4 ł 1 ł 3 ł ł ŔÄÄÄÄÄÁÄÄÄÄÄŮ and we would call this a '2 x 2' table ł ł 5 5 10 ł ł ł ł ł ł [Pg Dn] [Pg Up] ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ SNAPSHOT.02 EZESTAT2 ÚÄPage 30ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż łComplex contingency tables ł ł Crosstabulation of SEX by DRIVER Holds driving licence ł ł ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż ł ł DRIVER >łYes No ł ROW TOTAL ł Complex contingency table ł ł ł SEX ł 1 2 ł ł ~~~~~~~~~~~~~~~~~~~~~~~~~ ł ł ł ĂÄÄÄÄÄÄÂÄÄÄÄÄÄ´ ł This contingency table (taken ł ł ł 1ł 3 ł 2 ł 5 ł from TURBOSTATS) contains in ł ł ł [Row %] ł 60.0 ł 40.0 ł50.0% ł each cell : ł ł ł [Col %] ł 42.9 ł 66.7 ł ł ł ł ł [Tot %] ł 30.0 ł 20.0 ł ł - the cell COUNTS ł ł ł ĂÄÄÄÄÄÄĹÄÄÄÄÄÄ´ ł - the ROW percentages ł ł ł 2ł 4 ł 1 ł 5 ł - the COLUMN percentages ł ł ł [Row %] ł 80.0 ł 20.0 ł50.0% ł - the TOTAL percentages ł ł ł [Col %] ł 57.1 ł 33.3 ł ł ł ł ł [Tot %] ł 40.0 ł 10.0 ł ł We also see the MARGINAL ł ł ł ŔÄÄÄÄÄÄÁÄÄÄÄÄÄŮ ł TOTALS and PERCENTAGES ł ł ł TOTAL 7 3 10 ł for each column and each ł ł ł 70.0% 30.0% 100.0% ł row in the table. ł ł ł Valid cases = 10 Missing = 0 ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ ł ł ł ł ł ł [Pg Dn] [Pg Up] ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ SNAPSHOT.03 EZESTAT2 ÚÄPage 31ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż łChi-square table (1) ł ł Crosstabulation of SEX by DRIVER Holds driving licence ł ł ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż ł ł DRIVER >łYes No ł ROW ł Chi-square calculation (1) ł ł ł SEX ł 1 2 ł TOTAL ł ~~~~~~~~~~~~~~~~~~~~~~ ł ł ł ĂÄÄÄÄÄÄÂÄÄÄÄÄÄ´ ł 'Exp' is the EXPECTED value in ł ł ł 1ł 3 ł 2 ł 5 ł each cell. We calculate it by ł ł ł [Exp ] ł 3.5 ł 1.5 ł50.0% ł using the ROW & COLUMN totals : ł ł ł [Chis ] ł 0.07ł 0.17ł ł ł ł ł ĂÄÄÄÄÄÄĹÄÄÄÄÄÄ´ ł 5/10 are Females whilst 7/10 ł ł ł 2ł 4 ł 1 ł 5 ł are Drivers. ł ł ł [Exp ] ł 3.5 ł 1.5 ł50.0% ł ł ł ł [Chis ] ł 0.07ł 0.17ł ł We would EXPECT 7 * (5/10) =3.5 ł ł ł ŔÄÄÄÄÄÄÁÄÄÄÄÄÄŮ ł Female Drivers in the top left ł ł ł TOTAL 7 3 10 ł hand cell. [ Each other cell is ł ł ł 70.0% 30.0% 100.0% ł worked out by a similar logic ] ł ł ł Valid cases = 10 Missing = 0 ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ ł ł Total chi-square D.F. Significance Cells with E.F. < 5 ł ł 0.48 1 0.4902 4 of 4 ( 100.0% ) ł ł ł ł ł ł [Pg Dn] [Pg Up] ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ SNAPSHOT.04 EZESTAT2 ÚÄPage 32ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż łChi-square table (2) ł ł Crosstabulation of SEX by DRIVER Holds driving licence ł ł ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż ł ł DRIVER >łYes No ł ROW ł Chi-square calculation (2) ł ł ł SEX ł 1 2 ł TOTAL ł ~~~~~~~~~~~~~~~~~~~~~~ ł ł ł ĂÄÄÄÄÄÄÂÄÄÄÄÄÄ´ ł The individual chi-square in each ł ł ł 1ł 3 ł 2 ł 5 ł cell is worked with the formula: ł ł ł [Exp ] ł 3.5 ł 1.5 ł50.0% ł 2 ł ł ł [Chis ] ł 0.07ł 0.17ł ł (Observed - Expected) ł ł ł ĂÄÄÄÄÄÄĹÄÄÄÄÄÄ´ ł ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ ł ł ł 2ł 4 ł 1 ł 5 ł Expected ł ł ł [Exp ] ł 3.5 ł 1.5 ł50.0% ł e.g. ł ł ł [Chis ] ł 0.07ł 0.17ł ł in top left-hand cell, chi-square ł ł ł ŔÄÄÄÄÄÄÁÄÄÄÄÄÄŮ ł = (0.5)*(0.5)/3.5 = 0.07 ł ł ł TOTAL 7 3 10 ł ł ł ł 70.0% 30.0% 100.0% ł The chi-squares are then TOTALLED ł ł ł Valid cases = 10 Missing = 0 ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ ł ł Total chi-square D.F. Significance Cells with E.F. < 5 ł ł 0.48 1 0.4902 4 of 4 ( 100.0% ) ł ł ł ł ł ł [Pg Dn] [Pg Up] ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ SNAPSHOT.05 EZESTAT2 ÚÄPage 33ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż łChi-square table (3) ł ł Crosstabulation of SEX by DRIVER Holds driving licence ł ł ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż ł ł DRIVER >łYes No ł ROW ł Chi-square calculation (3) ł ł ł SEX ł 1 2 ł TOTAL ł ~~~~~~~~~~~~~~~~~~~~~~ ł ł ł ĂÄÄÄÄÄÄÂÄÄÄÄÄÄ´ ł The D.F. (Degrees of Freedom) ł ł ł 1ł 3 ł 2 ł 5 ł figure is worked out by the ł ł ł [Exp ] ł 3.5 ł 1.5 ł50.0% ł formula : (rows-1) * (columns-1) ł ł ł [Chis ] ł 0.07ł 0.17ł ł ł ł ł ĂÄÄÄÄÄÄĹÄÄÄÄÄÄ´ ł In a '2 x 2' table (as here) then ł ł ł 2ł 4 ł 1 ł 5 ł DF = (2 - 1) * (2- 1) = 1 ł ł ł [Exp ] ł 3.5 ł 1.5 ł50.0% ł ł ł ł [Chis ] ł 0.07ł 0.17ł ł The Significance figure (p) needs ł ł ł ŔÄÄÄÄÄÄÁÄÄÄÄÄÄŮ ł to be < 0.05 to be significant ł ł ł TOTAL 7 3 10 ł (i.e. less than 1 chance in 20 ł ł ł 70.0% 30.0% 100.0% ł of getting this result by chance) ł ł ł Valid cases = 10 Missing = 0 ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ ł ł Total chi-square D.F. Significance Cells with E.F. < 5 ł ł 0.48 1 0.4902 4 of 4 ( 100.0% ) ł ł ł ł ł ł [Pg Dn] [Pg Up] ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ SNAPSHOT.06 EZESTAT2 ÚÄPage 34ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż łChi-square table (4) ł ł Crosstabulation of SEX by DRIVER Holds driving licence ł ł ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż ł ł DRIVER >łYes No ł ROW ł Chi-square calculation (4) ł ł ł SEX ł 1 2 ł TOTAL ł ~~~~~~~~~~~~~~~~~~~~~~ ł ł ł ĂÄÄÄÄÄÄÂÄÄÄÄÄÄ´ ł If the number of cells with an ł ł ł 1ł 3 ł 2 ł 5 ł Expected Frequency (EF) < 5 are ł ł ł [Exp ] ł 3.5 ł 1.5 ł50.0% ł less than 20% of the total number ł ł ł [Chis ] ł 0.07ł 0.17ł ł of cells, then some of the ł ł ł ĂÄÄÄÄÄÄĹÄÄÄÄÄÄ´ ł assumptions of the chisquare test ł ł ł 2ł 4 ł 1 ł 5 ł are being violated. ł ł ł [Exp ] ł 3.5 ł 1.5 ł50.0% ł ł ł ł [Chis ] ł 0.07ł 0.17ł ł The solution lies in COLLAPSING ł ł ł ŔÄÄÄÄÄÄÁÄÄÄÄÄÄŮ ł some of the categories (if ł ł ł TOTAL 7 3 10 ł possible) to reduce the total ł ł ł 70.0% 30.0% 100.0% ł number of cells in the table. ł ł ł Valid cases = 10 Missing = 0 ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ ł ł Total chi-square D.F. Significance Cells with E.F. < 5 ł ł 0.48 1 0.4902 4 of 4 ( 100.0% ) ł ł ł ł ł ł [Pg Dn] [Pg Up] ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ SNAPSHOT.07 EZESTAT2 ÚÄPage 38ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż łRecoding data ł ł ł łWe may need to recode data to turn CONTINUOUS into CATEGORICAL data... ł łINCOME Y_CODE SEX ł ł 1000 1 1 ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż ł ł 2000 1 2 ł Here we have INCOME (a continuous variable) ł ł ł 3000 1 1 ł coded into Y_CODE (a categorical variable) ł ł ł 4000 1 2 ł We could now, for example, do a chi- square ł ł ł 5000 2 1 ł test on Y_CODE v SEX ł ł ł 6000 2 2 ł ł ł ł 7000 2 1 ł NB We do lose some of the 'richness' in ł ł ł 8000 2 2 ł the data when we code like this. ł ł ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ ł ł ł łWe can also COLLAPSE data, which is similar to recoding. If we have a ł łvariable CLASS measured on a six-point scale [1-6] then we could recode ł ł1-3 into a 1 [ Middle class ] ł ł4-6 into a 2 [ Working Class] ł łfor easier analysis [ or to reduce the cells ] in a chi-square. ł ł ł ł ł ł [Pg Dn] [Pg Up] ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ SNAPSHOT.08 EZESTAT2 ÚÄPage 39ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż łChoice of Test ł ł ł łThe choice of test depends upon whether the data is measured at ł łthe CONTINUOUS or the CATEGORICAL (or ORDINAL) level.. ł ł ł ł Variable Type of Statistics ł ł Statistic ł ł------------------------------------------------------------------------ ł ł CONTINUOUS PARAMETRIC Means; Standard Deviations ł ł (e.g. Incomes) Correlation (Pearson) ł ł Regression ł ł 't' tests on means, proportions ł ł ł ł CATEGORICAL NON- Frequency Distributions ł ł (e.g. coding PARAMETRIC Correlation (Spearman) ł ł number for Chi-square ł ł SEX) Kolmogorov-Smirnov tests ł ł------------------------------------------------------------------------- ł ł ł ł ł ł ł ł [Pg Dn] [Pg Up] ł ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ