SNAPSHOT.01


  EZESTAT1                                                                      
ÚÄPage 11ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż
łTypes of variables (1)                                                      ł
ł                                                                            ł
łIn statistics, a distinction is made between :                              ł
ł                                                                            ł
łCATEGORICAL variables                                                       ł
ł                                                                            ł
łThese are essentially coding numbers and are often used to separate         ł
łitems in a list into various categories.                                    ł
ł                                                                            ł
łFor example, 1=Female  2=Male   is one common example of a categorical      ł
ł                                variable                                    ł
ł                                                                            ł
ł             1=Agree   2=Neutral  3=Disagree  would be another example.     ł
ł                                                                            ł
łCONTINUOUS variables                                                        ł
ł                                                                            ł
łThese are numbers that are 'real' ( as opposed to the artificiality of the  ł
łnumbers often used in categorical variables)  They are used for data that   ł
łcan form a long continuous stream such as heights, weights or incomes.      ł
ł                                                                            ł
ł                                                                            ł
ł [Pg Dn]   [Pg Up]                                                          ł
ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ
                                                                             SNAPSHOT.02
                                                                               EZESTAT1                                                                      
ÚÄPage 12ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż
łTypes of variables (2)                                                      ł
ł                                                                            ł
ł                                                                            ł
łEach of the variables are measured by different families of statistics      ł
ł                                                                            ł
łCATEGORICAL variables are measured by NON-PARAMETRIC statistics             ł
ł                         (such as contingency tables, chisquare)            ł
ł                                                                            ł
łCONTINUOUS variables are measured by PARAMETRIC Statistics                  ł
ł      (such as a mean, standard deviation or a t-test)                      ł
ł                                                                            ł
ł       ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż      ł
ł       ł     T E S T    Y O U R   U N D E R S T A N D I N G          ł      ł
ł       ĂÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ´      ł
ł       ł    Would you measure a band of expenditure (e.g.            ł      ł
ł       ł    ś1-ś10   ś11-20  ś31-ś40  ś41 or more                    ł      ł
ł       ł    by means of a categorical or a continuous variable ?     ł      ł
ł       ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ      ł
ł                                                                            ł
ł                                                                            ł
ł                                                                            ł
ł [1] Continuous   [2] Categorical                                           ł
ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ
                                                                             
SNAPSHOT.03                                                                  
  EZESTAT1                                                                    
ÚÄPage 12bÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż
ł       ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż      ł
ł       ł     T E S T    Y O U R   U N D E R S T A N D I N G          ł      ł
ł       ĂÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ´      ł
ł       ł    Would you measure a band of expenditure (e.g.            ł      ł
ł       ł    ś1-ś10   ś11-ś20  ś31-ś40  ś41 or more                   ł      ł
ł       ł    by means of a categorical or a continuous variable ?     ł      ł
ł       ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ      ł
ł                                                                            ł
łYou answered                                                                ł
łcategorical                                                                 ł
łwhich was CORRECT.                                                          ł
ł                                                                            ł
łAlthough incomes are being measured, they are placed into categories        ł
łand would probably have a coding number associated with each one            ł
łe.g.   1    ś 1-ś10                                                         ł
ł       2    ś11-ś20                                                         ł
ł       3.   ś21-ś30                                                         ł
łand so on.  So this data is actually measured at the categorical level.     ł
łYou were not confused by the fact that the data appears to be continuous    ł
łbut is, in fact, categorical because it was placed into bands.              ł
ł                                                                            ł
ł [Pg Dn]                                                                    ł
ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ
                                                                             SNAPSHOT.04
                                                                               EZESTAT1                                                                      
ÚÄPage 13ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż
łCorrelation 1                                                               ł
ł                                                                            ł
łIn the diagram below, we imagine that we are plotting the amount spent      ł
łon food and the income received for a sample of 12 families :               ł
ł                                                                            ł
ł             ł                                                              ł
ł             ł                 x  x     Notice that :                       ł
ł             ł            x                                                 ł
ł  Food (=y)  ł            x  x          Food   (y) is the DEPENDENT variableł
ł             ł         x                Income (x) is the INDEPENDENT       ł
ł (dependent) ł          x   x                                 variable      ł
ł             ł      x                                                       ł
ł             ł x x                      As x increases, so does y           ł
ł             łx                                                             ł
ł             ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ                                      ł
ł                Income (=x) (independent)                                   ł
ł                                                                            ł
łThis is an example of a HIGH POSITIVE correlation                           ł
ł                                                                            ł
ł                                                                            ł
ł                                                                            ł
ł [Pg Dn]   [Pg Up]                                                          ł
ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ
                                                                             
SNAPSHOT.05                                                                  
  EZESTAT1                                                                    
ÚÄPage 14ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż
łCorrelation 2                                                               ł
ł                                                                            ł
łWe are now plotting the amount of days recorded as 'illness' and income     ł
łreceived for a sample of 12 families :                                      ł
ł                                                                            ł
ł             ł                                                              ł
ł             ł  x                        Notice that :                      ł
ł             ł x    x                                                       ł
ł Illness(=y) ł   x   x                   As income (x) INCREASES, the numberł
ł             ł       x   x               of days of 'illness' (y) DECREASES ł
ł (dependent) ł          x     x                                             ł
ł             ł          x   x            (i.e. Higher Income families do notł
ł             ł                   x             have as much 'illness' as    ł
ł             ł                                 Lower Income families )      ł
ł             ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ                                      ł
ł                Income (=x) (independent)                                   ł
ł                                                                            ł
łThis is an example of a HIGH NEGATIVE correlation                           ł
ł                                                                            ł
ł                                                                            ł
ł                                                                            ł
ł [Pg Dn]   [Pg Up]                                                          ł
ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ
                                                                             SNAPSHOT.06
                                                                               EZESTAT1                                                                      
ÚÄPage 15ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż
łCorrelation 3                                                               ł
ł                                                                            ł
łWe are now plotting the 'Final Degree Average' obtained against the         ł
ł'A-level' points score for a sample of 12 students:                         ł
ł                                                                            ł
ł             ł                                                              ł
ł             ł  x                 x      Notice that :                      ł
ł Final       ł      x        x                                              ł
ł Degree      ł                           There are as many 'good' degrees   ł
ł Average (=y)ł           x      x        associated with 'good' A-level     ł
ł (dependent) ł                x          scores as there are 'poor' degrees ł
ł             ł   x          x                                               ł
ł             ł          x        x       (i.e. there does not appear to be  ł
ł             ł  x                              any association between      ł
ł             ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ         'A'-level points' and        ł
ł                'A'-level point score (=x)     'Final Degree Average')      ł
ł                                                                            ł
ł                                                                            ł
łThis is an example of NO association at all                                 ł
ł                                                                            ł
ł                                                                            ł
ł [Pg Dn]   [Pg Up]                                                          ł
ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ
                                                                             
SNAPSHOT.07                                                                  
  EZESTAT1                                                                    
ÚÄPage 16ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż
łCorrelation 4                                                               ł
ł                                                                            ł
łA correlation coefficient is measured in the range -1....0....+1            ł
ł                                                                            ł
łIt is usually designated like this :  r= 0.9   or    r=-0.85                ł
ł                                                                            ł
ł                                                                            ł
łA value in the range      0  +0.3 }   is regarded as a LOW positive         ł
ł                          0  -0.3 }   ( or negative) correlation            ł
ł                                                                            ł
łA value in the range   +0.4  +0.6 }   is regarded as a MODERATE positive    ł
ł                       -0.4  -0.6 }   ( or negative) correlation            ł
ł                                                                            ł
łA value in the range   +0.7  +1.0 }   is regarded as a HIGH positive        ł
ł                       -0.7  -1.0 }   ( or negative) correlation            ł
ł                                                                            ł
łRemember that values that cluster around 0 represent NO ASSOCIATION         ł
łand not a negative association.  The closer values get to +1 ( or to -1),   ł
łthe more they measure a HIGH positive ( or negative) correlation.           ł
ł                                                                            ł
ł                                                                            ł
ł [Pg Dn]   [Pg Up]                                                          ł
ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ
                                                                             SNAPSHOT.08
                                                                               EZESTAT1                                                                      
ÚÄPage 17ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż
łCorrelation 5                                                               ł
ł                                                                            ł
ł                                                                            ł
łMentally divide the plot into 4 quadrants :                                 ł
ł                                                                            ł
ł   ł      |           If there is a clustering from bottom left to top      ł
ł   ł      |           right [ / ] this is a POSITIVE correlation.           ł
ł   ł------|---Ä--                                                           ł
ł   ł      |           If there is a clustering from top left to bottom      ł
ł   ł      |           right [ \ ] this is a NEGATIVE correlation.           ł
ł   ŔÄÄÄÄÄÄÄÄÄÄÄÄÄ                                                           ł
ł                       If the data appears to be equally split between      ł
ł                       all four quadrants, then this represents a           ł
ł                       pattern of NO ASSOCIATION or very low correlation.   ł
ł                                                                            ł
łJust because two variables are associated with each other, we cannot        ł
łsay that one is the cause of the other.                                     ł
ł                                                                            ł
łRemember that there is a high correlation between storks and babies!        ł
ł                                                                            ł
ł                                                                            ł
ł [Pg Dn]   [Pg Up]                                                          ł
ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ
                                                                             
SNAPSHOT.09                                                                  
  EZESTAT1                                                                    
ÚÄPage 18ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż
ł       ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż      ł
ł       ł     T E S T    Y O U R   U N D E R S T A N D I N G          ł      ł
ł       ĂÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ´      ł
ł       ł                                                             ł      ł
ł       ł  ł   x                                                      ł      ł
ł       ł  łx                      x       Do you think the           ł      ł
ł       ł  ł       x                       correlation coefficient    ł      ł
ł       ł  ł                     x         in this case is :          ł      ł
ł       ł  ł                                                          ł      ł
ł       ł  ł        x      x                       0.1                ł      ł
ł       ł  ł          x        x                  -0.7                ł      ł
ł       ł  ł            x                         -0.4                ł      ł
ł       ł  ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ                                   ł      ł
ł       ł                                                             ł      ł
ł       ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ      ł
ł                                                                            ł
ł                                                                            ł
ł                                                                            ł
ł                                                                            ł
ł                                                                            ł
ł                                                                            ł
ł [1] 0.1   [2] -0.7   [3] -0.4                                              ł
ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ
                                                                             SNAPSHOT.10
                                                                               EZESTAT1                                                                      
ÚÄPage 18cÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż
ł       ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż      ł
ł       ł     T E S T    Y O U R   U N D E R S T A N D I N G          ł      ł
ł       ĂÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ´      ł
ł       ł                                                             ł      ł
ł       ł  ł   x                                                      ł      ł
ł       ł  łx                      x       Do you think the           ł      ł
ł       ł  ł       x                       correlation coefficient    ł      ł
ł       ł  ł                     x         in this case is :          ł      ł
ł       ł  ł                                                          ł      ł
ł       ł  ł        x      x                       0.1                ł      ł
ł       ł  ł          x        x                  -0.7                ł      ł
ł       ł  ł            x                         -0.4                ł      ł
ł       ł  ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ                                   ł      ł
ł       ł                                                             ł      ł
ł       ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ      ł
łYou answered -0.4 which is CORRECT.  If you divide the plot (mentally)      ł
łinto four quadrants, you will a see more of a clustering from top left      ł
łto bottom right which indicates a negative relationship.  However, this     ł
łis not very marked and therefore -0.4 is an accurate correlation            ł
łcoefficient for this plot.                                                  ł
ł                                                                            ł
ł [Pg Dn]                                                                    ł
ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ
                                                                             
SNAPSHOT.11                                                                  
  EZESTAT1                                                                    
ÚÄPage 19ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż
łCorrelation and Causation (1)                                               ł
ł                                                                            ł
ł   ł             x x    The plot shows a very high correlation between      ł
ł   ł         x  x       EDUCATION (years spent in full-time post 18) and    ł
ł   ł      x  xx  x      INCOME.                                             ł
ł   ł    x x x                                                               ł
ł   ł    x x x           Before we can assume that many years spent in post- ł
ł   ł  x x x             school education CAUSES high income, we must examineł
ł   ł x x                the impact of other factors e.g. social class which ł
ł   ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ    might intervene and EXPLAIN the relationship.       ł
ł                                                                            ł
łIn this particular case, if we divided the group into :                     ł
łProfessional Parents    v. Non-Professional parents                         ł
łwe might discover that                                                      ł
ł                                                                            ł
łProfessional parents - children ARE highly educated and have HIGH incomes   ł
łNon-professional     - children ARE NOT highly educated and have LOW incomesł
ł  parents                                                                   ł
ł                                                                            ł
łand therefore SOCIAL CLASS explains high incomes and NOT education 'per se' ł
ł                                                                            ł
ł [Pg Dn]   [Pg Up]                                                          ł
ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ
                                                                             SNAPSHOT.12
                                                                               EZESTAT1                                                                      
ÚÄPage 20ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż
łCorrelation and Causation (2)                                               ł
ł                                                                            ł
łTherefore, just because two factors are correlated, we cannnot say that one ł
łcauses the other - nor can we say that one does NOT cause the other.        ł
ł                                                                            ł
łCorrelation means that where we find one factor, we also find the other     ł
łFOR WHATEVER REASON.                                                        ł
ł                                                                            ł
łCorrelation does not imply causation!                                       ł
ł                                                                            ł
ł       ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż      ł
ł       ł     T E S T    Y O U R   U N D E R S T A N D I N G          ł      ł
ł       ĂÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ´      ł
ł       ł    If you found that there was a high correlation between   ł      ł
ł       ł    smoking and lung cancer, can we say that smoking         ł      ł
ł       ł    causes lung cancer ?                                     ł      ł
ł       ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ      ł
ł                                                                            ł
ł                                                                            ł
ł                                                                            ł
ł                                                                            ł
ł [1] Yes   [2] No                                                           ł
ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ
                                                                             
SNAPSHOT.13                                                                  
  EZESTAT1                                                                    
ÚÄPage 20bÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż
ł       ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż      ł
ł       ł     T E S T    Y O U R   U N D E R S T A N D I N G          ł      ł
ł       ĂÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ´      ł
ł       ł    If you found that there was a high correlation between   ł      ł
ł       ł    smoking and lung cancer, can we say that smoking         ł      ł
ł       ł    causes lung cancer ?                                     ł      ł
ł       ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ      ł
łYou answered                                                                ł
łNO                                                                          ł
łwhich is the CORRECT answer.                                                ł
ł                                                                            ł
łAlthough medical evidence does indeed suggests that smoking is closely      ł
łrelated to lung cancer, we cannot PROVE that smoking causes lung cancer     ł
łjust because the two factors are closely correlated.                        ł
ł                                                                            ł
łWe would have to find an ACTIVE link (i.e. carcinogen) before we can say    ł
łthat smoking causes lung cancer.  It is logically possible (although not    ł
łlikely) that a third factor (such as a genetic factor) predisposes people   ł
łtowards smoking AND also makes them more prone to lung cancer.              ł
ł                                                                            ł
ł                                                                            ł
ł [Pg Dn]                                                                    ł
ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ
                                                                             SNAPSHOT.14
                                                                               EZESTAT1                                                                      
ÚÄPage 21ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż
łCurvilinear data                                                            ł
ł                                                                            ł
ł   ł             x x   Very often in the social and biological sciences,    ł
ł   ł           x       the data does not follow a straight line pattern     ł
ł   ł         x         and is said to be CURVILINEAR.                       ł
ł   ł       x                                                                ł
ł   ł      x            This means that it follows a natural growth          ł
ł   ł    x              curve ( like an 'S' ) in which there is:             ł
ł   ł x x                                                                    ł
ł   ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ                                                        ł
ł                                                                            ł
ł    ţ An initial period of slow growth (bottom of the curve)                ł
ł    ţ A rapid take-off of sustained growth eventually followed by           ł
ł    ţ a tailing off in rate of growth (top of the curve)                    ł
ł                                                                            ł
łE.g.  Although all individuals continue to grow in height/gain weight       ł
ł      after the age of 18, they do not do so at the same rate that          ł
ł      characterised earlier years of adolescence i.e. from ages 14-18.      ł
ł                                                                            ł
ł                                                                            ł
ł                                                                            ł
ł [Pg Dn]   [Pg Up]                                                          ł
ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ
                                                                             
SNAPSHOT.15                                                                  
  EZESTAT1                                                                    
ÚÄPage 22ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż
łCalculating Spearman's coefficient of rank correlation                      ł
ł                                                                            ł
łIn the data set, Household Income (x) and Food expenditure (y),each column  ł
łof data is RANKED from lowest to highest, the difference between the ranks  ł
łis squared and finally we calculate the sum of the ranked differences :     ł
ł                                                                            ł
ł     Income     Food      Income     Food    Difference   Differenceý       ł
ł      (x)        (y)      (Rank)    (Rank)                                  ł
ł      17.0       4.0        3          1           2           4            ł
ł      16.0       4.8        2          2           0           0            ł
ł      12.0       6.2        1          3           2           4            ł
ł      24.0       7.4        4.5        4           0.5         0.25         ł
ł      30.0       9.0        7          7           0           0            ł
ł      28.0       8.8        6          6           0           0            ł
ł      24.0       8.2        4.5        5           0.5         0.25         ł
ł                                                                            ł
łThe sum of the differences squared (ädý) is 8.5.  When we have 'tied        ł
łranks', (e.g. 2 cases of 24) then  we 'split' the appropriate ranks between ł
łthem (i.e. 4 and 5 in this case, giving 4.5) and the next position is 6.    ł
ł                                                                            ł
ł                                                                            ł
ł [Pg Dn]   [Pg Dn]                                                          ł
ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ
                                                                             SNAPSHOT.16
                                                                               EZESTAT1                                                                      
ÚÄPage 23ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż
łApplication of the Spearman formula of Rank correlation                     ł
ł                                                                            ł
ł                      6ädý                  Note : the 6 is a constant      ł
łFormula :   1  -    ÄÄÄÄÄÄÄÄÄ                      i.e. it is ALWAYS        ł
ł                     n(n2-1)                       a 6                      ł
ł                                                                            ł
ł                                                                            ł
ł                     6(8.5)                 Note : n is the number of       ł
ł   =        1  -    ÄÄÄÄÄÄÄÄ                       data PAIRS               ł
ł                    (7)(49-1)                      (7 in this case)         ł
ł                                                                            ł
ł                                                                            ł
ł                        51                  Note : Work out the whole of    ł
ł   =        1  -    ÄÄÄÄÄÄÄÄÄ                      the right hand side      ł
ł                       336                         and THEN subtract from 1 ł
ł                                                                            ł
ł   =        1  -     0.1518  ( to 4 decimal places)                         ł
ł                                                                            ł
ł   =        0.8482                          Note : must be in the range     ł
ł                                                     -1 ... 0 ... +1        ł
ł                                                                            ł
ł [Pg Dn]   [Pg Up]                                                          ł
ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ
                                                                             
SNAPSHOT.17                                                                  
  EZESTAT1                                                                    
ÚÄPage 24ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż
łPearson Product Moment Correlation Coefficient                              ł
ł                                                                            ł
łIn the data set, Household Income (x) and Food Expenditure (y), we have     ł
łto calculate SIX values before we start to apply the formula :              ł
ł                                                                            ł
ł     äx      äxý    äxy   (multiply x by y and then add them all together)  ł
ł     äy      äyý      n   (the number of data PAIRS)                        ł
ł                                                                            ł
ł    Income (x)   Food (y)                                                   ł
ł       17.0       4.0     äx  (sum of x)               =    151.00          ł
ł       16.0       4.8     äy  (sum of y)               =     48.40          ł
ł       12.0       6.2     äxý (sum of x's squared)     =   3525.00          ł
ł       24.0       7.4     äyý (sum of y's squared)     =    357.92          ł
ł       30.0       9.0     äxy (sum of xy's)            =   1110.00          ł
ł       28.0       8.8       n (number of data pairs)   =      7.00          ł
ł       24.0       8.2                                                       ł
ł                                                                            ł
łThis will take THREE passes through your calculator (clear it each time):   ł
ł   (1) for the äx,äxý    (2) for the äy,äyý    (3) for the äxy              ł
ł                                                                            ł
ł                                                                            ł
ł [Pg Dn]   [Pg Up]                                                          ł
ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ
                                                                             SNAPSHOT.18
                                                                               EZESTAT1                                                                      
ÚÄPage 25ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż
łApplication of the Pearson Product Moment Correlation formula :             ł
łäx = 151.0  äxý = 3525.0  äy = 48.4   äyý = 357.92  äxy = 1110  n=7         ł
ł                                                                            ł
ł                                         Note: Think of the formula as:     ł
ł                                                                            ł
ł              näxy  - äxäy                              Top Line            ł
ł r  =   ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ          ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ  ł
ł         ű(näxý-(äx)ý).(näyý-(äy)ý)          ű(Bottom Left).(Bottom Right)  ł
ł                                                                            ł
ł                                                                            ł
ł    =          (7)(1110) - (151)(48.4)           Note :  do multiplication  ł
ł             ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ                 before subtractionsł
ł      ű((7)(3525-(151)ý)).((7)(357.92-(48.4)ý))          both top and bottomł
ł                                                                            ł
ł    =           461.6                            Note :  Multiply both the  ł
ł              ÄÄÄÄÄÄÄÄÄ                                  bottom brackets andł
ł           ű(1874)(162.88)                               then take the ű    ł
ł                                                                            ł
ł    =       0.8355                     Note : The Answer !                  ł
ł                                       Must be in the range -1 ... 0 ... +1 ł
ł                                                                            ł
ł [Pg Dn]   [Pg Up]                                                          ł
ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ
                                                                             
SNAPSHOT.19                                                                  
  EZESTAT1                                                                    
ÚÄPage 26ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż
łComparison of Pearson and Spearman Correlation Coefficients                 ł
ł                                                                            ł
ł  ÉÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍËÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍ» ł
ł  ş     SPEARMAN coefficient          ş      PEARSON coefficient          ş ł
ł  ČÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍĘÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍĽ ł
ł             Advantages                         Advantages                  ł
ł  ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÂÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż ł
ł  ł     Generally easy and quick      ł  More accurate because it uses    ł ł
ł  ł     to calculate                  ł  the exact values in each pair    ł ł
ł  ł                                   ł  of values                        ł ł
ł  ł                                   ł                                   ł ł
ł  ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÁÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ ł
ł           Disadvantages                       Disadvantages                ł
ł  ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÂÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż ł
ł  ł   Less accurate because it uses   ł  The calculations can be long     ł ł
ł  ł   data that has been made less    ł  and error prone                  ł ł
ł  ł   exact (i.e. degraded) by being  ł                                   ł ł
ł  ł   put into ranks                  ł                                   ł ł
ł  ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÁÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ ł
ł                                                                            ł
ł                                                                            ł
ł [Pg Dn]   [Pg Up]                                                          ł
ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ
                                                                             SNAPSHOT.20
                                                                               EZESTAT1                                                                      
ÚÄPage 27ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż
łRegression (1)                                                              ł
ł                                           Plot of Food versus Income       ł
ł             ł                       .            Actual data plots :  .    ł
ł             ł                     .      *       Regression line   :  *    ł
ł             ł                        *   ł                                 ł
ł             ł               .    *       ł                                 ł
ł   Food (=y) ł                *           ł<- SLOPE which is the ratio of   ł
ł             ł            * .ÄÄÄÄÄÄÄÄÄÄÄÄÄŮ   the vertical to the           ł
ł             ł  .     *                       horizontal difference ( =b )  ł
ł             ł    * .                                                       ł
ł             ł*        .                      A REGRESSION LINE is an       ł
ł           Ú ş                                equation which is used to     ł
ł  INTERCEPTł ş                                PREDICT future values of      ł
ł   ( =a )  ł ş                                y given any particular x      ł
ł           Ŕ ÓÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ                                   ł
ł                      Income (=x)             General form : y = a + bx     ł
ł                                              where a=intercept, b=slope    ł
ł                                                                            ł
łThe regression equation for the graph above is : y =  1.6009 + 0.2463x      ł
ł                                                                            ł
ł                                                                            ł
ł [Pg Dn]   [Pg Up]                                                          ł
ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ
                                                                             
SNAPSHOT.21                                                                  
  EZESTAT1                                                                    
ÚÄPage 28ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż
ł    Income (x)  Food (y)                                                    ł
ł       17.0       4.0     äx  (sum of x)               =    151.00          ł
ł       16.0       4.8     äy  (sum of y)               =     48.40          ł
ł       12.0       6.2     äxý (sum of x's squared)     =   3525.00          ł
ł       24.0       7.4                                                        
ł       30.0       9.0     äxy (sum of xy's)            =   1110.00          ł
ł       28.0       8.8       n (number of data pairs)   =      7.00          ł
ł       24.0       8.2                                                       ł
ł                                                                            ł
łYou will have this data from having calculated the correlation coefficient. ł
ł                                                                            ł
łBefore you start to calculate the regression equation, determine which      ł
łvalue is to be the x (independent) and which the y (dependent) value..      ł
ł                                                                   _        ł
ł                 FORMULAE  [ often, you will see äx/n expressed as x        ł
ł                                  and similarly for äy/n ]                  ł
ł                                                                            ł
ł                 äxy - (äx/n).äy                                            ł
ł         b  =    ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ            a =  (äy/n) - b.(äx/n)         ł
ł                 äxý - (äx/n).äx                                            ł
ł                                                                            ł
ł [Pg Dn]   [Pg Up]                                                          ł
ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ
                                                                             SNAPSHOT.22
                                                                               EZESTAT1                                                                      
ÚÄPage 29ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż
łCalculation of the Regression equation                                      ł
ł                                                                            ł
łäxy = 1110    äx = 151     äy = 48.4     äxý = 3525   n = 7                 ł
ł                                                                            ł
ł                 äxy - (äx/n).äy                                            ł
ł         b  =    ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ                                            ł
ł                 äxý - (äx/n).äx                                            ł
ł                                                                            ł
ł            =    1110 - (151/7)(48.4)                                       ł
ł               ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ                                      ł
ł                 3525 - (151/7)(151)                                        ł
ł                                                                            ł
ł            =     65.9429         ÚÄ>   a = (äy/n) - b.(äx/n)               ł
ł                  ÄÄÄÄÄÄÄ         ł                                         ł
ł                 267.7143         ł       = (48.4/7) - (0.24632)(151/7)     ł
ł                                  ł                                         ł
ł            =     0.24632  ÄÄÄÄÄÄÄŮ       = 1.6008                          ł
ł                                                                            ł
łThe regression equation is :  y = 1.6008+0.24632x                           ł
ł                                                                            ł
ł                                                                            ł
ł [Pg Dn]   [Pg Up]                                                          ł
ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ
                                                                             
SNAPSHOT.23                                                                  
  EZESTAT1                                                                    
ÚÄPage 30ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż
łUsing the regression equation to predict values                             ł
ł                                                                            ł
łThe whole purpose of a regression equation is to use past data to interpet  ł
łfuture trends.                                                              ł
ł                                                                            ł
łIf we have the regression equation                                          ł
ł                                                                            ł
ł  y = 1.6008 + 0.24632x   (where x=Income, y=Food)                          ł
ł                                                                            ł
łthen we can predict that a family with an income of ś100 a week will spend  ł
ł                                                                            ł
ł  y = 1.6008 + (0.24632)(100)  =  1.6012 + 24.63  =  ś26.23 a week on food  ł
ł       ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż      ł
ł       ł     T E S T    Y O U R   U N D E R S T A N D I N G          ł      ł
ł       ĂÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ´      ł
ł       ł  In the case of correlation and regression, does it matter  ł      ł
ł       ł  which is x (independent) and which is y (dependent) ?      ł      ł
ł       ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ      ł
ł [1] It does not matter which is which                                      ł
ł [2] It matters for correlation but not for regression                      ł
ł [3] It matters for regression but not for correlation                      ł
ł [4] It does matter in the case of both correlation and regression          ł
ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ
                                                                             SNAPSHOT.24
                                                                               EZESTAT1                                                                      
ÚÄPage 30cÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż
ł       ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż      ł
ł       ł     T E S T    Y O U R   U N D E R S T A N D I N G          ł      ł
ł       ĂÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ´      ł
ł       ł  In the case of correlation and regression, does it matter  ł      ł
ł       ł  which is x (independent) and which is y (dependent) ?      ł      ł
ł       ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ      ł
ł                                                                            ł
łYou answered                                                                ł
ł                                                                            ł
łit matters for regression but not for correlation                           ł
ł                                                                            ł
łwhich is the CORRECT answer.  You have remembered correctly that it         ł
łis important to get the 'correct' values for x and y in a regression.       ł
ł                                                                            ł
łThe formula for correlation is symmetrical, so it does not matter which     ł
łis x and which is y.  But it DOES matter for regression, as the shape of    ł
łregression line of 'x upon y' is different to the shape of the line of      ł
ł'y upon x'                                                                  ł
ł                                                                            ł
ł                                                                            ł
ł                                                                            ł
ł [Pg Dn]                                                                    ł
ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ
                                                                             
SNAPSHOT.01                                                                  
  EZESTAT2                                                                    
ÚÄPage 29ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż
łContingency tables                                                          ł
ł                                                                            ł
łRemember that we can collect data at the categorical (nominal) level - each ł
łnumber is essentially a CODING number for categories in the data.           ł
ł                                                                            ł
łSEX     1 = Female  2 = Male          [ Data 1  2  1  2  1  2  1  2  1  2 ] ł
łDRIVER  1 = Driver  2 = Non-driver    [ Data 1  1  2  1  1  2  1  1  2  1 ] ł
ł                                                                            ł
łWhen we collect data for two variables, each split into several categories, ł
łthen it is possible to form a CONTINGENCY table.  In a contingency table,   ł
łeach cell hold the totals of the categories formed by the axes.             ł
ł  DRIVER->   Driver  Non-Dr                                                 ł
ł                 1     2           We have 3  1,1  [ Female drivers ]       ł
ł             ÚÄÄÄÄÄÂÄÄÄÄÄż                 2  1,2  [ Female non-drivers ]   ł
ł SEX  F  1   ł   3 ł   2 ł  7              4  2,1  [ Male drivers ]         ł
ł             ĂÄÄÄÄÄĹÄÄÄÄÄ´                 1  2,2  [ Male non-drivers ]     ł
ł      M  2   ł   4 ł   1 ł  3                                               ł
ł             ŔÄÄÄÄÄÁÄÄÄÄÄŮ         and we would call this a '2 x 2' table   ł
ł                 5     5   10                                               ł
ł                                                                            ł
ł                                                                            ł
ł [Pg Dn]   [Pg Up]                                                          ł
ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ
                                                                             SNAPSHOT.02
                                                                               EZESTAT2                                                                      
ÚÄPage 30ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż
łComplex contingency tables                                                  ł
ł      Crosstabulation of SEX by DRIVER   Holds driving licence              ł
ł                                         ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż  ł
ł    DRIVER  >łYes    No    ł ROW TOTAL   ł Complex contingency table     ł  ł
ł    SEX      ł    1      2 ł             ł ~~~~~~~~~~~~~~~~~~~~~~~~~     ł  ł
ł             ĂÄÄÄÄÄÄÂÄÄÄÄÄÄ´             ł This contingency table (taken ł  ł
ł            1ł    3 ł    2 ł    5        ł from TURBOSTATS) contains in  ł  ł
ł     [Row %] ł 60.0 ł 40.0 ł50.0%        ł each cell :                   ł  ł
ł     [Col %] ł 42.9 ł 66.7 ł             ł                               ł  ł
ł     [Tot %] ł 30.0 ł 20.0 ł             ł  - the cell COUNTS            ł  ł
ł             ĂÄÄÄÄÄÄĹÄÄÄÄÄÄ´             ł  - the ROW percentages        ł  ł
ł            2ł    4 ł    1 ł    5        ł  - the COLUMN percentages     ł  ł
ł     [Row %] ł 80.0 ł 20.0 ł50.0%        ł  - the TOTAL percentages      ł  ł
ł     [Col %] ł 57.1 ł 33.3 ł             ł                               ł  ł
ł     [Tot %] ł 40.0 ł 10.0 ł             ł  We also see the MARGINAL     ł  ł
ł             ŔÄÄÄÄÄÄÁÄÄÄÄÄÄŮ             ł  TOTALS and PERCENTAGES       ł  ł
ł    TOTAL         7      3     10        ł  for each column and each     ł  ł
ł              70.0%  30.0% 100.0%        ł  row in the table.            ł  ł
ł    Valid cases =   10   Missing =    0  ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ  ł
ł                                                                            ł
ł                                                                            ł
ł [Pg Dn]   [Pg Up]                                                          ł
ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ
                                                                             
SNAPSHOT.03                                                                  
  EZESTAT2                                                                    
ÚÄPage 31ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż
łChi-square table   (1)                                                      ł
ł   Crosstabulation of SEX by DRIVER   Holds driving licence                 ł
ł                                     ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż  ł
ł DRIVER  >łYes    No    ł ROW        ł Chi-square calculation     (1)    ł  ł
ł SEX      ł    1      2 ł TOTAL      ł ~~~~~~~~~~~~~~~~~~~~~~            ł  ł
ł          ĂÄÄÄÄÄÄÂÄÄÄÄÄÄ´            ł 'Exp' is the EXPECTED value in    ł  ł
ł         1ł    3 ł    2 ł    5       ł  each cell.  We calculate it by   ł  ł
ł  [Exp  ] ł  3.5 ł  1.5 ł50.0%       ł  using the ROW & COLUMN totals :  ł  ł
ł  [Chis ] ł  0.07ł  0.17ł            ł                                   ł  ł
ł          ĂÄÄÄÄÄÄĹÄÄÄÄÄÄ´            ł  5/10 are Females whilst 7/10     ł  ł
ł         2ł    4 ł    1 ł    5       ł  are Drivers.                     ł  ł
ł  [Exp  ] ł  3.5 ł  1.5 ł50.0%       ł                                   ł  ł
ł  [Chis ] ł  0.07ł  0.17ł            ł  We would EXPECT 7 * (5/10) =3.5  ł  ł
ł          ŔÄÄÄÄÄÄÁÄÄÄÄÄÄŮ            ł  Female Drivers in the top left   ł  ł
ł TOTAL         7      3     10       ł  hand cell. [ Each other cell is  ł  ł
ł           70.0%  30.0% 100.0%       ł  worked out by a similar logic ]  ł  ł
ł Valid cases =   10   Missing =  0   ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ  ł
ł Total chi-square     D.F.      Significance       Cells with E.F. < 5      ł
ł     0.48              1          0.4902           4 of  4  ( 100.0% )      ł
ł                                                                            ł
ł                                                                            ł
ł [Pg Dn]   [Pg Up]                                                          ł
ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ
                                                                             SNAPSHOT.04
                                                                               EZESTAT2                                                                      
ÚÄPage 32ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż
łChi-square table   (2)                                                      ł
ł   Crosstabulation of SEX by DRIVER   Holds driving licence                 ł
ł                                     ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż  ł
ł DRIVER  >łYes    No    ł ROW        ł Chi-square calculation     (2)    ł  ł
ł SEX      ł    1      2 ł TOTAL      ł ~~~~~~~~~~~~~~~~~~~~~~            ł  ł
ł          ĂÄÄÄÄÄÄÂÄÄÄÄÄÄ´            ł The individual chi-square in each ł  ł
ł         1ł    3 ł    2 ł    5       ł cell is worked with the formula:  ł  ł
ł  [Exp  ] ł  3.5 ł  1.5 ł50.0%       ł                           2       ł  ł
ł  [Chis ] ł  0.07ł  0.17ł            ł      (Observed - Expected)        ł  ł
ł          ĂÄÄÄÄÄÄĹÄÄÄÄÄÄ´            ł      ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ        ł  ł
ł         2ł    4 ł    1 ł    5       ł            Expected               ł  ł
ł  [Exp  ] ł  3.5 ł  1.5 ł50.0%       ł e.g.                              ł  ł
ł  [Chis ] ł  0.07ł  0.17ł            ł in top left-hand cell, chi-square ł  ł
ł          ŔÄÄÄÄÄÄÁÄÄÄÄÄÄŮ            ł = (0.5)*(0.5)/3.5  =  0.07        ł  ł
ł TOTAL         7      3     10       ł                                   ł  ł
ł           70.0%  30.0% 100.0%       ł The chi-squares are then TOTALLED ł  ł
ł Valid cases =   10   Missing =  0   ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ  ł
ł Total chi-square     D.F.      Significance       Cells with E.F. < 5      ł
ł     0.48              1          0.4902           4 of  4  ( 100.0% )      ł
ł                                                                            ł
ł                                                                            ł
ł [Pg Dn]   [Pg Up]                                                          ł
ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ
                                                                             
SNAPSHOT.05                                                                  
  EZESTAT2                                                                    
ÚÄPage 33ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż
łChi-square table   (3)                                                      ł
ł   Crosstabulation of SEX by DRIVER   Holds driving licence                 ł
ł                                     ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż  ł
ł DRIVER  >łYes    No    ł ROW        ł Chi-square calculation     (3)    ł  ł
ł SEX      ł    1      2 ł TOTAL      ł ~~~~~~~~~~~~~~~~~~~~~~            ł  ł
ł          ĂÄÄÄÄÄÄÂÄÄÄÄÄÄ´            ł The D.F. (Degrees of Freedom)     ł  ł
ł         1ł    3 ł    2 ł    5       ł figure is worked out by the       ł  ł
ł  [Exp  ] ł  3.5 ł  1.5 ł50.0%       ł formula : (rows-1) * (columns-1)  ł  ł
ł  [Chis ] ł  0.07ł  0.17ł            ł                                   ł  ł
ł          ĂÄÄÄÄÄÄĹÄÄÄÄÄÄ´            ł In a '2 x 2' table (as here) then ł  ł
ł         2ł    4 ł    1 ł    5       ł DF = (2 - 1) * (2- 1)  =  1       ł  ł
ł  [Exp  ] ł  3.5 ł  1.5 ł50.0%       ł                                   ł  ł
ł  [Chis ] ł  0.07ł  0.17ł            ł The Significance figure (p) needs ł  ł
ł          ŔÄÄÄÄÄÄÁÄÄÄÄÄÄŮ            ł to be < 0.05 to be significant    ł  ł
ł TOTAL         7      3     10       ł (i.e. less than 1 chance in 20    ł  ł
ł           70.0%  30.0% 100.0%       ł of getting this result by chance) ł  ł
ł Valid cases =   10   Missing =  0   ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ  ł
ł Total chi-square     D.F.      Significance       Cells with E.F. < 5      ł
ł     0.48              1          0.4902           4 of  4  ( 100.0% )      ł
ł                                                                            ł
ł                                                                            ł
ł [Pg Dn]   [Pg Up]                                                          ł
ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ
                                                                             SNAPSHOT.06
                                                                               EZESTAT2                                                                      
ÚÄPage 34ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż
łChi-square table   (4)                                                      ł
ł   Crosstabulation of SEX by DRIVER   Holds driving licence                 ł
ł                                     ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż  ł
ł DRIVER  >łYes    No    ł ROW        ł Chi-square calculation     (4)    ł  ł
ł SEX      ł    1      2 ł TOTAL      ł ~~~~~~~~~~~~~~~~~~~~~~            ł  ł
ł          ĂÄÄÄÄÄÄÂÄÄÄÄÄÄ´            ł If the number of cells with an    ł  ł
ł         1ł    3 ł    2 ł    5       ł Expected Frequency (EF) < 5 are   ł  ł
ł  [Exp  ] ł  3.5 ł  1.5 ł50.0%       ł less than 20% of the total number ł  ł
ł  [Chis ] ł  0.07ł  0.17ł            ł of cells, then some of the        ł  ł
ł          ĂÄÄÄÄÄÄĹÄÄÄÄÄÄ´            ł assumptions of the chisquare test ł  ł
ł         2ł    4 ł    1 ł    5       ł are being violated.               ł  ł
ł  [Exp  ] ł  3.5 ł  1.5 ł50.0%       ł                                   ł  ł
ł  [Chis ] ł  0.07ł  0.17ł            ł The solution lies in COLLAPSING   ł  ł
ł          ŔÄÄÄÄÄÄÁÄÄÄÄÄÄŮ            ł some of the categories (if        ł  ł
ł TOTAL         7      3     10       ł possible) to reduce the total     ł  ł
ł           70.0%  30.0% 100.0%       ł number of cells in the table.     ł  ł
ł Valid cases =   10   Missing =  0   ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ  ł
ł Total chi-square     D.F.      Significance       Cells with E.F. < 5      ł
ł     0.48              1          0.4902           4 of  4  ( 100.0% )      ł
ł                                                                            ł
ł                                                                            ł
ł [Pg Dn]   [Pg Up]                                                          ł
ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ
                                                                             
SNAPSHOT.07                                                                  
  EZESTAT2                                                                    
ÚÄPage 38ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż
łRecoding data                                                               ł
ł                                                                            ł
łWe may need to recode data to turn CONTINUOUS into CATEGORICAL data...      ł
łINCOME   Y_CODE    SEX                                                      ł
ł  1000        1      1     ÚÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż  ł
ł  2000        1      2     ł Here we have INCOME (a continuous variable) ł  ł
ł  3000        1      1     ł coded into Y_CODE (a categorical variable)  ł  ł
ł  4000        1      2     ł We could now, for example, do a chi- square ł  ł
ł  5000        2      1     ł test on Y_CODE v SEX                        ł  ł
ł  6000        2      2     ł                                             ł  ł
ł  7000        2      1     ł NB We do lose some of the 'richness' in     ł  ł
ł  8000        2      2     ł    the data when we code like this.         ł  ł
ł                           ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ  ł
ł                                                                            ł
łWe can also COLLAPSE data, which is similar to recoding.  If we have a      ł
łvariable CLASS measured on a six-point scale [1-6] then we could recode     ł
ł1-3   into a 1   [ Middle class ]                                           ł
ł4-6   into a 2   [ Working Class]                                           ł
łfor easier analysis [ or to reduce the cells ] in a chi-square.             ł
ł                                                                            ł
ł                                                                            ł
ł [Pg Dn]   [Pg Up]                                                          ł
ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ
                                                                             SNAPSHOT.08
                                                                               EZESTAT2                                                                      
ÚÄPage 39ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄż
łChoice of Test                                                              ł
ł                                                                            ł
łThe choice of test depends upon whether the data is measured at             ł
łthe CONTINUOUS or the CATEGORICAL (or ORDINAL) level..                      ł
ł                                                                            ł
ł   Variable            Type of          Statistics                          ł
ł                       Statistic                                            ł
ł------------------------------------------------------------------------    ł
ł   CONTINUOUS          PARAMETRIC       Means; Standard Deviations          ł
ł   (e.g. Incomes)                       Correlation (Pearson)               ł
ł                                        Regression                          ł
ł                                        't' tests on means, proportions     ł
ł                                                                            ł
ł   CATEGORICAL         NON-             Frequency Distributions             ł
ł   (e.g. coding        PARAMETRIC       Correlation (Spearman)              ł
ł    number for                          Chi-square                          ł
ł    SEX)                                Kolmogorov-Smirnov tests            ł
ł-------------------------------------------------------------------------   ł
ł                                                                            ł
ł                                                                            ł
ł                                                                            ł
ł [Pg Dn]   [Pg Up]                                                          ł
ŔÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄŮ