Introduction
Univari´ e
Statistique descriptive Pr. Nicolas MEYER
——————— Laboratoire de Biostatistique et Informatique M´edicale Fac. de M´edecine de Strasbourg ——————— novembre 2010
Bivari´ e
Introduction
Univari´ e
Plan
1
Introduction
2
Statistique descriptive univari´ee Notions g´en´erales Param`etres de position Param`etres de dispersion
3
Statistique descriptive bivari´ee
Bivari´ e
Introduction
Univari´ e
L’info m´edicale al´eatoire du jour... → Site 20mn.fr Et si faire attention `a sa ligne, c’´etait mauvais pour la sant´e ? Dans un rapport publi´e ce jeudi, l’Agence de s´ecurit´e sanitaire (Anses) a pass´e au crible 15 r´egimes, relate France Info. Et le r´esultat n’est pas brillant. Que le r´egime soit d´etox, Dukan ou encore californien, l’Anses (Agence de s´ecurit´e sanitaire de l’alimentation, de l’environnement et du travail ) a soulign´e d’importants d´es´equilibres, notamment en macronutriments, en vitamines et en min´eraux. En g´en´eral, il y aurait trop de prot´eines, plus que les apports nutritionnels conseill´es (en particulier pour le r´egume Dukan).
Bivari´ e
Introduction
Univari´ e
Plan
1
Introduction
2
Statistique descriptive univari´ee
3
Statistique descriptive bivari´ee
Bivari´ e
Introduction
Univari´ e
Statistique descriptive
Les objectifs de la statistique descriptive sont de : d´efinir le ou les groupes ´etudi´es (population ou ´echantillon) d´efinir le codage des observations d´efinir la pr´esentation des donn´ees : num´erique et/ou graphique r´eduire les donn´ees `a quelques indicateurs statistiques synth´etiques
Bivari´ e
Introduction
Univari´ e
Statistique descriptive
La description des donn´ees souvent la premi`ere approche dans la compr´ehension d’un ph´enom`ene r´eduction des donn´ees `a quelques indices num´eriques permettant de manipuler les donn´ees permettra la formulation d’hypoth`eses qui pourront ˆetre v´erifi´ees `a l’aide de tests statistiques lors d’´etudes organis´ees ult´erieurement d’o` u une approche progressive du mod`ele biologique ou m´edical
Bivari´ e
Introduction
Univari´ e
D´efinition du groupe ´etudi´e
Une ´etude statistique doit d´efinir le groupe `a ´etudier en th´eorie → la population en pratique → un ´echantillon l’´echantillon doit ˆetre repr´esentatif de la population pour pouvoir ´etendre les r´esultats obtenus sur l’´echantillon `a la population car l’int´erˆet porte sur la population et pas sur un ´echantillon en particulier description d’un ´echantillon → description de la population
Bivari´ e
Introduction
Univari´ e
Plan
1
Introduction
2
Statistique descriptive univari´ee Notions g´en´erales Param`etres de position Param`etres de dispersion
3
Statistique descriptive bivari´ee
Bivari´ e
Introduction
Univari´ e
G´ en´ eralit´ es
Plan
1
Introduction
2
Statistique descriptive univari´ee Notions g´en´erales Param`etres de position Param`etres de dispersion
3
Statistique descriptive bivari´ee
Bivari´ e
Introduction
Univari´ e
G´ en´ eralit´ es
Codage de l’information : type de variable
Une ´etude statistique ⇒ des (( mesures )) valeur quantitative, mesurable par une unit´e physique : concentration, dosage, poids, taille, proportion, variation exprim´ee en pourcentage, quantit´e, dur´ee de s´ejour, etc. valeur qualitative, non mesurable par une unit´e physique : caract´eristique du sujet (sexe, pr´esence d’une maladie, ant´ec´edents m´edicaux, etc)
Bivari´ e
Introduction
Univari´ e
G´ en´ eralit´ es
Variable quantitative
Une variable quantitative est une mesure pouvant ˆetre exprim´ee par un nombre valeur sur l’´echelle des r´eels positifs : R+ : valeurs continues strictement positives poids, taille, concentrations, etc
plus rarement valeur sur l’´echelle des r´eels : R : valeurs continues variation de dosage, etc
valeur sur l’´echelle des entiers positifs : N+ : valeurs discr`etes nombre de cigarettes, dur´ee de s´ejours, nombre d’enfants, etc.
Bivari´ e
Introduction
Univari´ e
G´ en´ eralit´ es
Variable qualitative Elle traduit une mesure non-physique, une qualit´e, une caract´eristique, absence de la propri´et´e d’additivit´e variable qualitative binaire = binomiale = dichotomique : `a deux classes, exclusives l’une de l’autre pr´esent/absent, malade/sain, positif/n´egatif, etc
variable qualitative multinomiale = polychotomique : `a plus de deux classes, dont il existe deux types : variable multinomiale nominale : sans ordre naturel entre les diff´erentes modalit´es, comme groupes sanguins, g´enotypes variants de VHC, etc variable multinomiale ordinale : avec ordre naturel entre les diff´erentes modalit´es, comme stades de cancer, de progression, mais l’addition de deux modalit´es n’a pas de sens
Bivari´ e
Introduction
Univari´ e
G´ en´ eralit´ es
Recodage Les donn´ees sont parfois recod´ees : pour des variables polychotomiques : regroupement de plusieurs modalit´es ayant des petits effectifs pour des variables quantitatives : recodage en variable qualitative `a k classes. Exemple : ´echelle visuelle analogique (EVA) douleur ´evalu´ee par une ´echelle de 0 `a 10 peut ˆetre recod´ee en 4 classes : douleur nulle ou faible, mod´er´ee, s´ev`ere, extr`eme. si la cat´egorie extr`eme pr´esente des effectifs faibles → regrouper les troisi`emes et quatri`emes classes en une seule une variable continue peut ˆetre dichotomis´ee : test diagnostique, comme la glyc´emie, dosage continu s´epar´e en deux classes de part et d’autre du seuil=1,10 g/L.
Bivari´ e
Introduction
Univari´ e
G´ en´ eralit´ es
Pr´esentation num´erique des donn´ees
Les donn´ees d’une s´erie statistique doivent ˆetre r´esum´ees pour pouvoir d´ecrire rapidement de grandes s´eries de valeurs r´ealiser des tests statistiques → Description des variables qualitatives puis des variables quantitatives
Bivari´ e
Introduction
Univari´ e
G´ en´ eralit´ es
Description statistique des variables qualitatives
Soit une s´erie de valeurs qualitative : H,F,F,F,H,F,H,F,F,F,F,H,H,F,H,H,...,F donner les effectifs de chaque modalit´e donner les proportions (= fr´equences) de chaque modalit´e par rapport au total combiner si besoin les proportions, notamment des proportions cumul´ees pour des variables ordinales (stade de cancer)
Bivari´ e
Introduction
Univari´ e
Bivari´ e
G´ en´ eralit´ es
Description statistique des variables qualitatives La variable X prend les valeurs x1 , x2 , . . . , xn , n valeurs avec p occurences diff´erentes Occurence de X
x1
x2
...
xi
...
xp
total
Effectifs Fr´equence
n1 f1
n2 f2
... ...
ni fi
... ...
np fp
n 1
Et : n=
p X i=1
ni ,
ni fi = , n
p X i=1
fi = 1
Introduction
Univari´ e
G´ en´ eralit´ es
Pr´esentation des valeurs
Le plus souvent, pr´esentation par classes de valeurs, i.e. par occurence, en donnant les effectifs de chaque occurence. Exemple • soit la s´erie de valeurs : 1,1,2,2,3,4,5,6,6,7,8,9,9,9,10. • n = 15 • la liste des occurences : 1,2,3,4,5,6,7,8,9,10 • d’ou les fr´equences de chaque occurence : f1 = 2/15, f2 = 2/15, f3 = 1/15, etc.
Bivari´ e
Introduction
Univari´ e
G´ en´ eralit´ es
Pr´esentation des valeurs
• Les donn´ees peuvent aussi ˆetre pr´esent´ees par classes : • choisir trois classes : [0; 4[, [4; 8[, [8; +∞[. • rappel des valeurs : 1,1,2,2,3,4,5,6,6,7,8,9,9,9,10, et n = 15 • sur ces donn´ees : n = 15 et 3 classes diff´erentes, d’effectifs : 5, 5 et 5.
Bivari´ e
Introduction
Univari´ e
G´ en´ eralit´ es
Exemple > desql(BRACKETS) Effectifs Proportions 0 211 46.889 1 239 53.111 Total 450 100.000 Non Manquants 450 100.000 MANQUANTS 0 0.000
Bivari´ e
Introduction
Univari´ e
Bivari´ e
G´ en´ eralit´ es
> desql(CLANGLE) Effectifs Proportions Proportions cumul´ ees 1 90 20.134 20.134 2 197 44.072 64.206 2.1 78 17.450 81.656 2.2 37 8.277 98.933 3 45 10.067 100.000 Total 447 100.000 Non Manquants 447 99.333 MANQUANTS 3 0.667 • Notez le codage num´erique pour une variable qualitative : le codage utilise souvent des codes num´eriques (mais sans en retenir la valeur) pour coder des variables qualitatives
Introduction
Univari´ e
Position
Plan
1
Introduction
2
Statistique descriptive univari´ee Notions g´en´erales Param`etres de position Param`etres de dispersion
3
Statistique descriptive bivari´ee
Bivari´ e
Introduction
Univari´ e
Position
Statistique descriptive des variables quantitatives Les variables continues sont d´ecrites num´eriquement par : • des param`etres de position moyenne percentiles, dont : m´ediane premier (Q1) et troisi`eme quartile (Q3) percentiles p autres : tiertiles, d´eciles, etc
mode m´ediale minimum et maximum
Bivari´ e
Introduction
Univari´ e
Position
Statistique descriptive des variables quantitatives
Mais aussi : • des param`etres de dispersion variance ´ecart-type ´ecart inter-quartile ´etendue ou amplitude coefficient de variation Plus skewness et kurtosis, param`etres d’´etalement et d’asym´etrie.
Bivari´ e
Introduction
Univari´ e
Bivari´ e
Position
Param`etres de position
La moyenne (arithm´etique) somme des valeurs divis´ee par l’effectif de la s´erie Soit sur un ´echantillon de taille n : x=
p X i=1
p n 1X 1X ni xi = xi fi xi = n n i=1
i=1
• x1 , . . . , xi , . . . , xn ´etant les n valeurs observ´ees, x1 , . . . , xi , . . . , xp ´etant les p occurences observ´ees avec n1 , . . . , ni , . . . , np les effectifs correspondants de ces occurences.
Introduction
Univari´ e
Position
Param`etres de position
Exemple : calcul de la moyenne arithm´etique pour les donn´ees suivantes : 6, 7, 7, 7, 8, 8, 8, 9, 9, 10 : m = 0,1 · 6 + 0,3 · 7 + 0,3 · 8 + 0,2 · 9 + 0,1 · 10 = 7,9 • la moyenne est sensible aux valeurs extr`emes • si on remplace le 10 par un 100 (fr´equent dans certains contextes m´edicaux), alors m = 16,90
Bivari´ e
Introduction
Univari´ e
Position
Param`etres de position
la m´ediane not´ee xe ou medx ou med (x ) : valeur telle que la moiti´e des observations lui sont inf´erieures et donc la moiti´e lui sont sup´erieures Dans les distributions sym´etriques (loi de Gauss par ex.) la m´ediane = la moyenne.
Bivari´ e
Introduction
Univari´ e
Position
Param`etres de position (La m´ediane.../...) Deux cas : 1
le nombre de valeurs est impair (n impair) → xe = x(n+1)/2 ex. : si n = 15, (n + 1)/2 = 8 → la m´ediane est la huiti`eme valeur de la s´erie : 1,1,2,2,3,4,5,6,6,7,8,9,9,9,10 : xe = 6
2
le nombre de valeurs est pair (n pair), tout nombre compris entre (xn/2 et xn/2+1 )/2 r´epond `a la d´efinition. On d´efinit alors g´en´eralement la m´ediane par : → xe = (xn/2 + xn/2+1 )/2 si : 1,1,2,2,3,4,5,6,6,7,8,9, alors xe = 4,5
Bivari´ e
Introduction
Univari´ e
Position
Param`etres de position le mode Encore appel´ee valeur dominante : valeur observ´ee de fr´equence maximum. le mode est la valeur la plus fr´equente mais de mani`ere relative et pas absolue (donc pas forc´ement la majorit´e des valeurs) il peut y avoir deux ou plusieurs modes : 1,2,3,3,3,3,4,5,6,6,6,6,7,15 : modes = 3 et 6 lorsqu’une distribution est bimodale, on peut penser que l’´echantillon est en r´ealit´e issu de deux populations diff´erentes si toutes les valeurs sont diff´erentes, autant de modes que de valeurs : 1,2,3,5,6,9,14,16 → chaque valeur = mode
Bivari´ e
Introduction
Univari´ e
Position
Param`etres de position
Quartiles Les trois quartiles divisent l’ensemble de la distribution en 4 ensembles de mˆeme taille (au moins approximativement) Q1 → 25% des valeurs sont inf´erieures `a Q1 Q2 = m´ediane → 50% des valeurs sont inf´erieures `a Q2 Q3 → 75% des valeurs sont inf´erieures `a Q3 En pratique, parfois difficile de les calculer quand les effectifs sont petits.
Bivari´ e
Introduction
Univari´ e
Position
Param`etres de position Quantiles / Fractiles Le quantile d’ordre k est la valeur qui s´epare la distribution en k classes de mˆeme effectifs (au moins approximativement) : d´eciles, quartiles, tiertiles, centiles, etc. d’o` u: percentile percentile p divise la distribution en deux groupes tel que p% des valeurs soient situ´ees sous p et (100 − p%) des valeurs soient situ´ees au-dessus. • Les quantiles sont pertinents surtout quand le nombre de valeurs est suffisant pour les calculer de mani`ere pr´ecise (n > 100) • Voir Box-plot / boˆıtes `a moustaches
Bivari´ e
Introduction
Univari´ e
Dispersion
Plan
1
Introduction
2
Statistique descriptive univari´ee Notions g´en´erales Param`etres de position Param`etres de dispersion
3
Statistique descriptive bivari´ee
Bivari´ e
Introduction
Univari´ e
Bivari´ e
Dispersion
Param`etres de dispersion Variance C’est la moyenne arithm´etique des carr´es des ´ecarts `a la moyenne → dispersion, ´etalement, variabilit´e des valeurs • Dans une population, la variance est : n 1 X (xi − µ)2 σ = n n 2
;
2
σ =
i=1
p X
fi (xi − µ)2
i=1
o` u µ = moyenne de la population • Les valeurs calcul´ees (sur un ´echantillon) sont : n 1 X (xi − x )2 s = n n 2
i=1
o` u m = moyenne de l’´echantillon
;
2
s =
p X i=1
fi (xi − x )2
Introduction
Univari´ e
Dispersion
Param`etres de dispersion Ne pas confondre avec les valeurs estim´ees de la variance de la population `a partir de l’´echantillon formules ci-dessus : valides quand on d´ecrit une population ou un ´echantillon suppose correction quand estimation de la variance pour la population `a partir des donn´ees d’un ´echantillon l’estimateur de la variance d’une population `a partir d’un ´echantillon est : n
1 X (xi − x )2 σ ˆ = n −1 n 2
i=1
Bivari´ e
Introduction
Univari´ e
Dispersion
Param`etres de dispersion
• la variance est elle aussi tr`es sensible aux valeurs extr`emes • soit la s´erie de 9 valeurs suivante : 1,2,3,4,6,5,9,7,2. • on trouve : moyenne = 4,333 P s 2 = (xi − 4,333)2 /9 = 6.222 P σ ˆ 2 = (xi − 4,333)2 /8 = 7 si 9 → 90, alors : x = 14.111, s 2 = 725.4 et σ ˆ 2 = 816.1
Bivari´ e
Introduction
Univari´ e
Bivari´ e
Dispersion
Param`etres de dispersion
Ecart-type (standard error) c’est la racine carr´e de la variance : σ =
√
σ2 ; s =
√
s2
Selon les circonstances, utilisation de s ou s 2 • mˆemes avantages et inconv´enients que la variance (sensibilit´e aux valeurs extr`emes)
Introduction
Univari´ e
Dispersion
Param`etres de dispersion
Etendue = amplitude, w = xn − x1 , ´ecart entre le maximum et le minimum de la s´erie • quantifie l’´etalement total des donn´ees, utile surtout pour v´erifier la validit´e des mesures et d´etecter d’´eventuelles valeurs extr`emes. • donne une premi`ere approximation de l’´ecart-type car s 6 w /2 • bas´ee uniquement sur les extr`emes, donc tr`es sensible `a ces extr`emes
Bivari´ e
Introduction
Univari´ e
Dispersion
Param`etres de dispersion
Ecart inter-quartiles = Q3 - Q1. Indique les 50% de valeurs situ´ees au centre de la distribution. • comme la m´ediane et les quantiles, tr`es robuste, i.e. tr`es peu sensible aux donn´ees extr`emes et aux fortes variations d’une petite proportion de valeurs. Par ex., pour modifier la valeur de la m´ediane, il faut modifier plus de 50% des valeurs de la s´erie. • Utile lors de la r´ealisation de graphiques type box-plot / boˆıte `a moustaches
Bivari´ e
Introduction
Univari´ e
Dispersion
Param`etres de dispersion
Coefficient de variation
cv = s/x . • permet de comparer l’´etalement de donn´ees situ´ees dans des ordres de grandeur diff´erents : comparer la variabilit´e du poids des ´el´ephants et des souris, ou des adultes et des enfants.
Bivari´ e
Introduction
Univari´ e
Dispersion
Exemple 1
Etude extraction instrumentale HTP / CMCO comprendre pourquoi taux d’extraction instrumentale tr`es diff´erent entre les deux maternit´es
Bivari´ e
Introduction
Univari´ e
Bivari´ e
Dispersion
> descr3(DOSES,Site) Descriptif DOSES Effectifs pr´ esents 1444.000 Proportions de pr´ esents 28.115 Effectifs manquants 3692.000 Proportions de manquants 71.885 Moyenne 6.597 Ecart-type 3.736 Variance 13.956 Erreur standard (s.e.m) 0.052 Err. Std (bas´ ee sur l’ANOVA) NA
Site = CMCO 835.000 28.479 2097.000 71.521 6.366 3.043 9.258 0.105 0.129
Site = HTP 609.000 27.632 1595.000 72.368 6.915 4.500 20.248 0.182 0.151
Introduction
Univari´ e
Bivari´ e
Dispersion
> descr3(DOSES,Site) Descriptif Minimum Maximum Percentile 2,5 Percentile 5 Q1 M´ ediane Q3 Percentile 95 Percentile 97,5 Ecart inter-quartiles IC valeurs borne inf IC valeurs borne sup IC moyenne borne inf IC moyenne borne sup IC moyenne borne inf (ANOVA) IC moyenne borne sup (ANOVA)
DOSES 1.000 22.000 2.000 2.000 4.000 6.000 8.000 12.000 16.000 4.000 -0.727 13.921 6.495 6.699 NA NA
Site = CMCO 1.200 18.000 2.000 2.000 4.000 6.000 8.000 12.000 12.000 4.000 0.393 12.338 6.159 6.572 6.112 6.619
Site = HTP 1.000 22.000 2.000 2.000 4.000 6.000 8.400 17.200 20.000 4.400 -1.922 15.752 6.557 7.273 6.619 7.211
Introduction
Univari´ e
Bivari´ e
Dispersion
Description des 1444 valeurs non-manquantes : Tri` aplat Eff. Eff. cum. Prop. 1 2 2 0.14 1.2 14 16 0.97 2 172 188 11.91 2.4 24 212 1.66 3 16 228 1.11 3.4 1 229 0.07 3.6 12 241 0.83 3.7 1 242 0.07 4 290 532 20.08 4.2 1 533 0.07 4.4 1 534 0.07 4.8 30 564 2.08 5 9 573 0.62 5.2 1 574 0.07 5.6 1 575 0.07 6 310 885 21.47 6.2 1 886 0.07
Prop. cum 0.14 1.11 13.02 14.68 15.79 15.86 16.69 16.76 36.84 36.91 36.98 39.06 39.68 39.75 39.82 61.29 61.36
Site = CMCO 0 3 109 3 4 0 3 0 175 0 0 3 1 0 0 214 0
Site = HTP 2 11 63 21 12 1 9 1 115 1 1 27 8 1 1 96 1
.../...
Introduction
Univari´ e
Bivari´ e
Dispersion
7 7.2 8 8.4 8.6 9 9.6 10 10.8 11 12 14 15 16 18 19 20 22
Eff. Eff. cum. Prop. Prop. cum 2 888 0.14 61.50 12 900 0.83 62.33 225 1125 15.58 77.91 4 1129 0.28 78.19 1 1130 0.07 78.25 1 1131 0.07 78.32 3 1134 0.21 78.53 128 1262 8.86 87.40 2 1264 0.14 87.53 1 1265 0.07 87.60 116 1381 8.03 95.64 21 1402 1.45 97.09 1 1403 0.07 97.16 9 1412 0.62 97.78 4 1416 0.28 98.06 1 1417 0.07 98.13 25 1442 1.73 99.86 2 1444 0.14 100.00
Site = CMCO 0 1 155 0 0 0 0 101 0 0 46 11 1 4 1 0 0 0
Site = HTP 2 11 70 4 1 1 3 27 2 1 70 10 0 5 3 1 25 2
Introduction
Univari´ e
Bivari´ e
Dispersion
> descr3(BMI,Site,T` ap=TRUE) $Descriptif BMI Effectifs pr´ esents 4736.000 Proportions de pr´ esents 92.212 Effectifs manquants 400.000 Proportions de manquants 7.788 Moyenne 23.431 Ecart-type 4.834 Variance 23.365 Erreur standard (s.e.m) 0.067 Err. Std (bas´ ee sur l’ANOVA) NA
Site = CMCO 2855.000 97.374 77.000 2.626 23.354 4.786 22.907 0.090 0.090
Site = HTP 1881.000 85.345 323.000 14.655 23.546 4.904 24.049 0.113 0.111
Introduction
Univari´ e
Bivari´ e
Dispersion
> descr3(BMI,Site,T` ap=TRUE) $Descriptif Minimum Maximum Percentile 2,5 Percentile 5 Q1 M´ ediane Q3 Percentile 95 Percentile 97,5 Ecart inter-quartiles IC valeurs borne inf IC valeurs borne sup IC moyenne borne inf IC moyenne borne sup IC moyenne borne inf (ANOVA) IC moyenne borne sup (ANOVA)
14.000 56.000 18.000 18.000 20.000 22.000 25.000 33.000 36.000 5.000 13.954 32.907 23.298 23.563 NA NA
14.000 53.000 18.000 18.000 20.000 22.000 25.000 32.000 36.000 5.000 13.970 32.739 23.179 23.530 23.177 23.532
15.000 56.000 17.000 18.000 20.000 22.000 25.000 34.000 36.000 5.000 13.928 33.164 23.324 23.768 23.328 23.764
Introduction
Univari´ e
Bivari´ e
Dispersion
$Tri` aplat Eff. Eff. 1 3 25 83 237 445 554 651 522 428 364 279 215 170 147 125 93 69 70 45 32 34 35 23 23 11 10 7 4
14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42
cum. 1 4 29 112 349 794 1348 1999 2521 2949 3313 3592 3807 3977 4124 4249 4342 4411 4481 4526 4558 4592 4627 4650 4673 4684 4694 4701 4705
Prop. Prop. cum 0.02 0.02 0.06 0.08 0.53 0.61 1.75 2.36 5.00 7.37 9.40 16.77 11.70 28.46 13.75 42.21 11.02 53.23 9.04 62.27 7.69 69.95 5.89 75.84 4.54 80.38 3.59 83.97 3.10 87.08 2.64 89.72 1.96 91.68 1.46 93.14 1.48 94.62 0.95 95.57 0.68 96.24 0.72 96.96 0.74 97.70 0.49 98.18 0.49 98.67 0.23 98.90 0.21 99.11 0.15 99.26 0.08 99.35
Site = CMCO 1 0 9 53 147 272 343 404 316 261 206 164 138 98 86 79 54 44 40 25 15 14 18 14 14 7 8 4 2
Site = HTP 0 3 16 30 90 173 211 247 206 167 158 115 77 72 61 46 39 25 30 20 17 20 17 9 9 4 2 3 2
.../...
Introduction
Univari´ e
Bivari´ e
Dispersion
.../... 43 44 45 46 47 48 49 50 51 52 53 56
7 4 3 1 2 2 3 2 1 3 2 1
4712 4716 4719 4720 4722 4724 4727 4729 4730 4733 4735 4736
0.15 0.08 0.06 0.02 0.04 0.04 0.06 0.04 0.02 0.06 0.04 0.02
99.49 99.58 99.64 99.66 99.70 99.75 99.81 99.85 99.87 99.94 99.98 100.00
3 3 2 0 2 1 2 2 1 1 2 0
4 1 1 1 0 1 1 0 0 2 0 1
Introduction
Univari´ e
Dispersion
Exemple 2
Etude d´ecollement brackets trouver les ´el´ements cliniques (li´es au patient et `a la pose) associ´es au d´ecollement de bracket (orthodontie)
Bivari´ e
Introduction
Univari´ e
Dispersion
> descr1(AGEPOSE,T` ap=TRUE) Descriptif AGEPOSE Effectifs pr´ esents 450.0000 Proportions de pr´ esents % 100.0000 Effectifs manquants 0.0000 Proportions de manquants % 0.0000 Moyenne 14.0489 Ecart-type 5.9968 Variance 35.9619 Erreur standard (s.e.m) 0.2827 Minimum 8.3000 Maximum 58.7000
Bivari´ e
Introduction
Univari´ e
Dispersion
Percentile 2,5 Percentile 5 Q1 M´ ediane Q3 Percentile 95 Percentile 97,5 Ecart inter-quartiles IC valeurs borne inf IC valeurs borne sup IC moyenne borne inf IC moyenne borne sup
10.1000 10.5000 11.8000 12.7000 14.1000 21.3500 36.4575 2.3000 2.2636 25.8342 13.4927 14.6051
Bivari´ e
Introduction
Univari´ e
Plan
1
Introduction
2
Statistique descriptive univari´ee
3
Statistique descriptive bivari´ee
Bivari´ e
Introduction
Univari´ e
Variables conjointes
Recueil simultan´e de deux variables chez les mˆemes sujets : deux variables X et Y L’int´erˆet se porte le plus souvent sur la relation entre les deux variables, recherche de corr´elation qui n’implique pas un lien de causalit´e.
Bivari´ e
Introduction
Univari´ e
Bivari´ e
Notations Soit deux s´eries de valeurs X et Y ayant respectivement nx et ny valeurs et xp et yq occurences diff´erentes : HH Y H y1 H X H H
x1 ... xi ... xp Total
...
yi
...
yq
n11
n.1
Total n1.
nij
ni.
n.j
np. n..
n.q
• case cij , d’effectif nij et de fr´equence relative fij = nij /n..
Introduction
Univari´ e
Bivari´ e
Description • On a :
ni . =
q X
nij ,
n.j =
j =1
p X
nij
i =1
• Par ailleurs, p X i =1
ni . =
q X j =1
n.j =
p X q X
nij = n.. = n
i =1 j =1
• De plus,
fi . = ni . /n,
f.j = n.j /n,
fij = nij /n
Introduction
Univari´ e
Lignes : Site
Bivari´ e
Colonnes : ANEST
aucune bloc ner g´ en´ erale p´ eridura
rachi rachip´ er
Total
CMCO
544 18.64 47.72 10.63
1 0.03 100.00 0.02
23 0.79 37.70 0.45
2089 71.57 60.71 40.83
256 8.77 55.05 5.00
6 0.21 75.00 0.12
2919 100.00 57.06 57.06
HTP
596 27.13 52.28 11.65
0 ----
38 1.73 62.30 0.74
1352 61.54 39.29 26.43
209 9.51 44.95 4.09
2 0.09 25.00 0.04
2197 100.00 42.94 42.94
1140 22.28 100.00 22.28
1 0.02 100.00 0.02
61 1.19 100.00 1.19
3441 67.26 100.00 67.26
465 9.09 100.00 9.09
8 0.16 100.00 0.16
5116 100.00 100.00 100.00
Total
Introduction
Univari´ e
Bivari´ e
Distribution conditionnelle • En ne consid´erant qu’une ligne du tableau, on d´ecrit la distribution en colonne conditionnelle `a la ligne : distribution de y conditionnelle `a x = xi . • idem pour les lignes|colonnes. • D´efinition des fr´equences conditionnelles :
fj |i = nij /ni . = fij /fi . ,
fi |j = nij /n.j = fij /f.j
On note que : p X i =1
fi |j = 1,
q X j =1
fj |i = 1
Introduction
Univari´ e
Lignes : Site
Bivari´ e
Colonnes : ANEST
aucune bloc ner g´ en´ erale p´ eridura
rachi rachip´ er
Total
CMCO
544 18.64 47.72 10.63
1 0.03 100.00 0.02
23 0.79 37.70 0.45
2089 71.57 60.71 40.83
256 8.77 55.05 5.00
6 0.21 75.00 0.12
2919 100.00 57.06 57.06
HTP
596 27.13 52.28 11.65
0 ----
38 1.73 62.30 0.74
1352 61.54 39.29 26.43
209 9.51 44.95 4.09
2 0.09 25.00 0.04
2197 100.00 42.94 42.94
1140 22.28 100.00 22.28
1 0.02 100.00 0.02
61 1.19 100.00 1.19
3441 67.26 100.00 67.26
465 9.09 100.00 9.09
8 0.16 100.00 0.16
5116 100.00 100.00 100.00
Total
Introduction
Univari´ e
Bivari´ e
Distributions marginales
Ce sont les distributions d’une s´erie de valeurs lorsque l’on ne tient pas compte de l’autre s´erie : • Distribution marginale des colonnes : HH Y H y1 X HH H
Total Total
n.1 f.1
...
yi n.j f.j
...
yq
Total
n.q f.q
n.. f..
• et la mˆeme chose (( `a travers )) les colonnes pour la distribution marginale des lignes.
Introduction
Univari´ e
Lignes : Site
Bivari´ e
Colonnes : ANEST
aucune bloc ner g´ en´ erale p´ eridura
rachi rachip´ er
Total
CMCO
544 18.64 47.72 10.63
1 0.03 100.00 0.02
23 0.79 37.70 0.45
2089 71.57 60.71 40.83
256 8.77 55.05 5.00
6 0.21 75.00 0.12
2919 100.00 57.06 57.06
HTP
596 27.13 52.28 11.65
0 ----
38 1.73 62.30 0.74
1352 61.54 39.29 26.43
209 9.51 44.95 4.09
2 0.09 25.00 0.04
2197 100.00 42.94 42.94
1140 22.28 100.00 22.28
1 0.02 100.00 0.02
61 1.19 100.00 1.19
3441 67.26 100.00 67.26
465 9.09 100.00 9.09
8 0.16 100.00 0.16
5116 100.00 100.00 100.00
Total
Introduction
Univari´ e
Notion de covariance
Covariance Elle caract´erise deux variables simultan´ement cov (x ,y) =
n 1X [(xi − x )(yj − y)] n i=1
cov (x ,y) =
1 n
p X q X
[nij (xi − x )(yj − y)]
i=1 j =1
Bivari´ e
Introduction
Univari´ e
Notion de covariance
La covariance est positive quand la relation entre X et Y est positive n´egative quand la relation est n´egative si X et Y sont lin´eairement ind´ependantes alors Cov (X ,Y ) = 0 l’inverse n’est pas vrai : Cov (X ,Y ) = 0 n’⇒ pas absence de lien entre X et Y
Bivari´ e
Introduction
Covariance : exemple
cov (x ,y) = 1,45
Univari´ e
Bivari´ e
Introduction
Covariance : exemple
cov (x ,y) = −1,20
Univari´ e
Bivari´ e
Introduction
Univari´ e
Coefficient de corr´elation lin´eaire
Le degr´e de liaison lin´eaire entre X et Y est ´etudi´e par le coefficient de corr´elation lin´eaire not´e r. r=
cov (x ,y) sx sy
encore not´e rxy ou r (x ,y) • Le coefficient de corr´elation est compris entre -1 et +1. • si r = 1 ou si r = −1, x et y sont parfaitement corr´el´es et les points sont align´es sur une droite.
Bivari´ e
Introduction
Univari´ e
Coefficient de corr´elation lin´eaire
• Si les variables X et Y sont lin´eairement ind´ependantes alors r = 0. • Si le coefficient de corr´elation r = 0 et que les variables X et Y suivent une loi normale, alors elles sont lin´eairement ind´ependantes. • mais si r = 0 cela n’implique pas l’absence de relation entre x et y → si f (x ) = x 2 : relation, mais non lin´eaire et r = 0.
Bivari´ e
Introduction
Univari´ e
Diagramme de dispersion ou de corr´elation
C’est le diagramme qui repr´esente les couples de point (xi ,yj ). Il permet d’appr´ecier la liaison pouvant exister entre X et Y
Bivari´ e
Introduction
Corr´elation : exemples
r = 0,762
Univari´ e
Bivari´ e
Introduction
Corr´elation : exemples
r = −0,456
Univari´ e
Bivari´ e
Introduction
Corr´elation : exemples
Univari´ e
Bivari´ e
Introduction
Univari´ e
Corr´elation : exemples
Remarques : • si les points sont align´es sur une droite ascendante : r = 1 • et vice-versa si r = 1 ou si r = −1 les points sont align´es sur une droite • mais situation rarissime dans le monde bio-m´edical • coefficient de d´etermination : r 2 • r 2 : part de variabilit´e de y induite par x (en supposant relation directionnelle de x `a y)
Bivari´ e
Introduction
Univari´ e
Ind´ependance statistique
On peut montrer que x et y sont statistiquement ind´ependants lorsque les distributions conditionnelles en y conditionn´ees par les valeurs xi de x sont identiques quel que soit l’indice i . fij = fi. · f.j Th´eor`eme Deux variables conjointes X et Y sont ind´ependantes si les fr´equences par classe sont ´egales au produits des fr´equences marginales.
Bivari´ e
Introduction
Univari´ e
Corr´elation : exemple
Quelques exemples (ex. maternit´es) : • corr´elation gestit´e - parit´e : r = 0.821 • corr´elation gestit´e - IMC : r = 0.120 • corr´elation parit´e - IMC : r = 0.145 • corr´elation dur´ee du travail - dur´ee efforts expulsifs : r = 0.420 • corr´elation poids de naissance - pH au scalp : r = −0.007 • corr´elation dur´ee gestation - hauteur ut´erine : r = 0.142
Bivari´ e
Introduction
Univari´ e
Notion de droite de r´egression
Une distribution conjointe peut ˆetre obtenue de deux mani`eres : • le couple de valeur (x , y) est recueilli pour chaque individu puis enregistr´e. Dans ce cas les valeurs prises par X et Y d´ependent uniquement de l’individu, on dit que ces valeurs sont al´eatoires.
Bivari´ e
Introduction
Univari´ e
Notion de droite de r´egression
Une distribution conjointe peut ˆetre obtenue de deux mani`eres : • le couple de valeur (x , y) est recueilli pour chaque individu puis enregistr´e. Dans ce cas les valeurs prises par X et Y d´ependent uniquement de l’individu, on dit que ces valeurs sont al´eatoires. • le couple de valeur (x , y) est recueilli lors d’une exp´erience dans laquelle on fixe (on contrˆ ole) les valeurs de x et l’on recueille la valeur de y ⇒ X est contrˆ ol´e et Y est al´eatoire.
Bivari´ e
Introduction
Univari´ e
Notion de droite de r´egression
Exemples de variables de type contrˆ ol´ees ou al´eatoires : Effort d´evelopp´e - tension art´erielle : Variable contrˆol´ee variable al´eatoire Masse de sucre absorb´ee - glyc´emie : V. contrˆol´ee - V. al´eatoire Poids - Age : Variable al´eatoire - variable al´eatoire • L’analyse du tableau de corr´elation ne sera pas la mˆeme dans les deux situations. .../...
Bivari´ e
Introduction
Univari´ e
Notion de droite de r´egression
.../... (Exemples de variables de type contrˆ ol´ees ou al´eatoires) • Dans le cas X et Y al´eatoires, le coefficient de corr´elation lin´eaire recherche la liaison entre X et Y • description de la liaison mais mais pas de preuve de la relation de cause `a effet de x sur y
Bivari´ e
Introduction
Univari´ e
Notion de droite de r´egression
Lorsque Y est al´eatoire et X contrˆ ol´e : situation explicative des valeurs prises par Y en fonction des valeurs prises par X • tend `a prouver la relation de cause `a effet entre x et y • la liaison entre X et Y sera obtenue par la d´etermination de la droite de r´egression. • la droite qui passe au mieux dans le nuage de points sera obtenue `a l’aide du (( crit`ere des moindres carr´es ))
Bivari´ e
Introduction
Univari´ e
Notion de droite de r´egression
→ diagramme de dispersion des couples de valeurs (xi , yi ), avec xi en abscisse et yi en ordonn´ee. • chercher la droite d’´equation yd = (a · x + b) telle que la somme des carr´es des distances Di entre les points yi exp´erimentaux et les points yd,i = (a · xi + b) de la droite des moindres carr´es `a l’abscisse xi soit minimum.
Bivari´ e
Introduction
Corr´elation : exemples
Univari´ e
Bivari´ e
Introduction
Univari´ e
Notion de droite de r´egression
• A partir des N couples de valeurs (xi , yi ) et d’une droite encore inconnue yd = a · x + b → calculer n distances
Di = yi − yd ,i = yi − (a · xi + b) • les inconnues sont les valeurs a et b, les autres grandeurs sont connues.
Bivari´ e
Introduction
Univari´ e
Notion de droite de r´egression
On obtient a et b en minimisant la somme suivante (m´ethode des moindres carr´es) :
S=
n X i =1
Di2
=
n X i =1
(yi − a · xi − b)2
Bivari´ e
Introduction
Univari´ e
Notion de droite de r´egression on obtient y = ax + b : la droite passe par le point (x ,y). • puis on obtient : a = pente de la droite =
a=
cov (X ,Y ) σX2
Puis on obtient b `a partir de
b = y − ax .
Bivari´ e
Introduction
Univari´ e
Notion de droite de r´egression
Remarque 1 : Lorsque Y est la variable contrˆ ol´ee et X est la variable al´eatoire, on peut effectuer les mˆemes d´eveloppements en permutant X et Y . La droite de r´egression de Y en X est en g´en´erale diff´erente de la droite de r´egression de X en Y . Remarque 2 : Lorsque X et Y sont ind´ependants, la droite de r´egression de Y en X est une droite parall`ele `a l’axe des X et la droite de r´egression de X en Y est parall`ele `a l’axe des Y .
Bivari´ e
Introduction
Univari´ e
Notion de droite de r´egression
x = 1,2,3,4,5,6,7,8,9,10 y = 2.1 4.3 5.1 8.5 10.3 11.5 13.5 17.3 17.9 20.5 cov (x ,y) = 18.78 var (x ) = σ ˆ 2 = 9.166 a = cov (x ,y)/var (x ) = 2.048 b = −0.167 x = 5,5 y = 11,1
Bivari´ e
Introduction
Univari´ e
Bivari´ e
La citation du jour
(( Car le m´edecin ´etant un compendium des erreurs successives et contradictoires des m´edecins, en appelant `a soi les meilleurs d’entre eux on a une grande chance d’implorer une v´erit´e qui sera reconnue fausse quelques ann´ees plus tard. De sorte que croire `a la m´edecine serait la suprˆeme folie, si n’y pas croire n’en ´etait pas une plus grande, car de cet amoncellement d’erreurs se sont d´egag´ees `a la longue quelques v´erit´es. )) M. Proust Le Cˆ ot´e de Guermantes