Statistique descriptive

Site 20mn.fr. Et si faire attention `a sa ligne, c'était mauvais pour la santé ? Dans un rapport publié ce jeudi, l'Agence de sécurité sanitaire (Anse...

77 downloads 875 Views 1MB Size
Introduction

Univari´ e

Statistique descriptive Pr. Nicolas MEYER

——————— Laboratoire de Biostatistique et Informatique M´edicale Fac. de M´edecine de Strasbourg ——————— novembre 2010

Bivari´ e

Introduction

Univari´ e

Plan

1

Introduction

2

Statistique descriptive univari´ee Notions g´en´erales Param`etres de position Param`etres de dispersion

3

Statistique descriptive bivari´ee

Bivari´ e

Introduction

Univari´ e

L’info m´edicale al´eatoire du jour... → Site 20mn.fr Et si faire attention `a sa ligne, c’´etait mauvais pour la sant´e ? Dans un rapport publi´e ce jeudi, l’Agence de s´ecurit´e sanitaire (Anses) a pass´e au crible 15 r´egimes, relate France Info. Et le r´esultat n’est pas brillant. Que le r´egime soit d´etox, Dukan ou encore californien, l’Anses (Agence de s´ecurit´e sanitaire de l’alimentation, de l’environnement et du travail ) a soulign´e d’importants d´es´equilibres, notamment en macronutriments, en vitamines et en min´eraux. En g´en´eral, il y aurait trop de prot´eines, plus que les apports nutritionnels conseill´es (en particulier pour le r´egume Dukan).

Bivari´ e

Introduction

Univari´ e

Plan

1

Introduction

2

Statistique descriptive univari´ee

3

Statistique descriptive bivari´ee

Bivari´ e

Introduction

Univari´ e

Statistique descriptive

Les objectifs de la statistique descriptive sont de : d´efinir le ou les groupes ´etudi´es (population ou ´echantillon) d´efinir le codage des observations d´efinir la pr´esentation des donn´ees : num´erique et/ou graphique r´eduire les donn´ees `a quelques indicateurs statistiques synth´etiques

Bivari´ e

Introduction

Univari´ e

Statistique descriptive

La description des donn´ees souvent la premi`ere approche dans la compr´ehension d’un ph´enom`ene r´eduction des donn´ees `a quelques indices num´eriques permettant de manipuler les donn´ees permettra la formulation d’hypoth`eses qui pourront ˆetre v´erifi´ees `a l’aide de tests statistiques lors d’´etudes organis´ees ult´erieurement d’o` u une approche progressive du mod`ele biologique ou m´edical

Bivari´ e

Introduction

Univari´ e

D´efinition du groupe ´etudi´e

Une ´etude statistique doit d´efinir le groupe `a ´etudier en th´eorie → la population en pratique → un ´echantillon l’´echantillon doit ˆetre repr´esentatif de la population pour pouvoir ´etendre les r´esultats obtenus sur l’´echantillon `a la population car l’int´erˆet porte sur la population et pas sur un ´echantillon en particulier description d’un ´echantillon → description de la population

Bivari´ e

Introduction

Univari´ e

Plan

1

Introduction

2

Statistique descriptive univari´ee Notions g´en´erales Param`etres de position Param`etres de dispersion

3

Statistique descriptive bivari´ee

Bivari´ e

Introduction

Univari´ e

G´ en´ eralit´ es

Plan

1

Introduction

2

Statistique descriptive univari´ee Notions g´en´erales Param`etres de position Param`etres de dispersion

3

Statistique descriptive bivari´ee

Bivari´ e

Introduction

Univari´ e

G´ en´ eralit´ es

Codage de l’information : type de variable

Une ´etude statistique ⇒ des (( mesures )) valeur quantitative, mesurable par une unit´e physique : concentration, dosage, poids, taille, proportion, variation exprim´ee en pourcentage, quantit´e, dur´ee de s´ejour, etc. valeur qualitative, non mesurable par une unit´e physique : caract´eristique du sujet (sexe, pr´esence d’une maladie, ant´ec´edents m´edicaux, etc)

Bivari´ e

Introduction

Univari´ e

G´ en´ eralit´ es

Variable quantitative

Une variable quantitative est une mesure pouvant ˆetre exprim´ee par un nombre valeur sur l’´echelle des r´eels positifs : R+ : valeurs continues strictement positives poids, taille, concentrations, etc

plus rarement valeur sur l’´echelle des r´eels : R : valeurs continues variation de dosage, etc

valeur sur l’´echelle des entiers positifs : N+ : valeurs discr`etes nombre de cigarettes, dur´ee de s´ejours, nombre d’enfants, etc.

Bivari´ e

Introduction

Univari´ e

G´ en´ eralit´ es

Variable qualitative Elle traduit une mesure non-physique, une qualit´e, une caract´eristique, absence de la propri´et´e d’additivit´e variable qualitative binaire = binomiale = dichotomique : `a deux classes, exclusives l’une de l’autre pr´esent/absent, malade/sain, positif/n´egatif, etc

variable qualitative multinomiale = polychotomique : `a plus de deux classes, dont il existe deux types : variable multinomiale nominale : sans ordre naturel entre les diff´erentes modalit´es, comme groupes sanguins, g´enotypes variants de VHC, etc variable multinomiale ordinale : avec ordre naturel entre les diff´erentes modalit´es, comme stades de cancer, de progression, mais l’addition de deux modalit´es n’a pas de sens

Bivari´ e

Introduction

Univari´ e

G´ en´ eralit´ es

Recodage Les donn´ees sont parfois recod´ees : pour des variables polychotomiques : regroupement de plusieurs modalit´es ayant des petits effectifs pour des variables quantitatives : recodage en variable qualitative `a k classes. Exemple : ´echelle visuelle analogique (EVA) douleur ´evalu´ee par une ´echelle de 0 `a 10 peut ˆetre recod´ee en 4 classes : douleur nulle ou faible, mod´er´ee, s´ev`ere, extr`eme. si la cat´egorie extr`eme pr´esente des effectifs faibles → regrouper les troisi`emes et quatri`emes classes en une seule une variable continue peut ˆetre dichotomis´ee : test diagnostique, comme la glyc´emie, dosage continu s´epar´e en deux classes de part et d’autre du seuil=1,10 g/L.

Bivari´ e

Introduction

Univari´ e

G´ en´ eralit´ es

Pr´esentation num´erique des donn´ees

Les donn´ees d’une s´erie statistique doivent ˆetre r´esum´ees pour pouvoir d´ecrire rapidement de grandes s´eries de valeurs r´ealiser des tests statistiques → Description des variables qualitatives puis des variables quantitatives

Bivari´ e

Introduction

Univari´ e

G´ en´ eralit´ es

Description statistique des variables qualitatives

Soit une s´erie de valeurs qualitative : H,F,F,F,H,F,H,F,F,F,F,H,H,F,H,H,...,F donner les effectifs de chaque modalit´e donner les proportions (= fr´equences) de chaque modalit´e par rapport au total combiner si besoin les proportions, notamment des proportions cumul´ees pour des variables ordinales (stade de cancer)

Bivari´ e

Introduction

Univari´ e

Bivari´ e

G´ en´ eralit´ es

Description statistique des variables qualitatives La variable X prend les valeurs x1 , x2 , . . . , xn , n valeurs avec p occurences diff´erentes Occurence de X

x1

x2

...

xi

...

xp

total

Effectifs Fr´equence

n1 f1

n2 f2

... ...

ni fi

... ...

np fp

n 1

Et : n=

p X i=1

ni ,

ni fi = , n

p X i=1

fi = 1

Introduction

Univari´ e

G´ en´ eralit´ es

Pr´esentation des valeurs

Le plus souvent, pr´esentation par classes de valeurs, i.e. par occurence, en donnant les effectifs de chaque occurence. Exemple • soit la s´erie de valeurs : 1,1,2,2,3,4,5,6,6,7,8,9,9,9,10. • n = 15 • la liste des occurences : 1,2,3,4,5,6,7,8,9,10 • d’ou les fr´equences de chaque occurence : f1 = 2/15, f2 = 2/15, f3 = 1/15, etc.

Bivari´ e

Introduction

Univari´ e

G´ en´ eralit´ es

Pr´esentation des valeurs

• Les donn´ees peuvent aussi ˆetre pr´esent´ees par classes : • choisir trois classes : [0; 4[, [4; 8[, [8; +∞[. • rappel des valeurs : 1,1,2,2,3,4,5,6,6,7,8,9,9,9,10, et n = 15 • sur ces donn´ees : n = 15 et 3 classes diff´erentes, d’effectifs : 5, 5 et 5.

Bivari´ e

Introduction

Univari´ e

G´ en´ eralit´ es

Exemple > desql(BRACKETS) Effectifs Proportions 0 211 46.889 1 239 53.111 Total 450 100.000 Non Manquants 450 100.000 MANQUANTS 0 0.000

Bivari´ e

Introduction

Univari´ e

Bivari´ e

G´ en´ eralit´ es

> desql(CLANGLE) Effectifs Proportions Proportions cumul´ ees 1 90 20.134 20.134 2 197 44.072 64.206 2.1 78 17.450 81.656 2.2 37 8.277 98.933 3 45 10.067 100.000 Total 447 100.000 Non Manquants 447 99.333 MANQUANTS 3 0.667 • Notez le codage num´erique pour une variable qualitative : le codage utilise souvent des codes num´eriques (mais sans en retenir la valeur) pour coder des variables qualitatives

Introduction

Univari´ e

Position

Plan

1

Introduction

2

Statistique descriptive univari´ee Notions g´en´erales Param`etres de position Param`etres de dispersion

3

Statistique descriptive bivari´ee

Bivari´ e

Introduction

Univari´ e

Position

Statistique descriptive des variables quantitatives Les variables continues sont d´ecrites num´eriquement par : • des param`etres de position moyenne percentiles, dont : m´ediane premier (Q1) et troisi`eme quartile (Q3) percentiles p autres : tiertiles, d´eciles, etc

mode m´ediale minimum et maximum

Bivari´ e

Introduction

Univari´ e

Position

Statistique descriptive des variables quantitatives

Mais aussi : • des param`etres de dispersion variance ´ecart-type ´ecart inter-quartile ´etendue ou amplitude coefficient de variation Plus skewness et kurtosis, param`etres d’´etalement et d’asym´etrie.

Bivari´ e

Introduction

Univari´ e

Bivari´ e

Position

Param`etres de position

La moyenne (arithm´etique) somme des valeurs divis´ee par l’effectif de la s´erie Soit sur un ´echantillon de taille n : x=

p X i=1

p n 1X 1X ni xi = xi fi xi = n n i=1

i=1

• x1 , . . . , xi , . . . , xn ´etant les n valeurs observ´ees, x1 , . . . , xi , . . . , xp ´etant les p occurences observ´ees avec n1 , . . . , ni , . . . , np les effectifs correspondants de ces occurences.

Introduction

Univari´ e

Position

Param`etres de position

Exemple : calcul de la moyenne arithm´etique pour les donn´ees suivantes : 6, 7, 7, 7, 8, 8, 8, 9, 9, 10 : m = 0,1 · 6 + 0,3 · 7 + 0,3 · 8 + 0,2 · 9 + 0,1 · 10 = 7,9 • la moyenne est sensible aux valeurs extr`emes • si on remplace le 10 par un 100 (fr´equent dans certains contextes m´edicaux), alors m = 16,90

Bivari´ e

Introduction

Univari´ e

Position

Param`etres de position

la m´ediane not´ee xe ou medx ou med (x ) : valeur telle que la moiti´e des observations lui sont inf´erieures et donc la moiti´e lui sont sup´erieures Dans les distributions sym´etriques (loi de Gauss par ex.) la m´ediane = la moyenne.

Bivari´ e

Introduction

Univari´ e

Position

Param`etres de position (La m´ediane.../...) Deux cas : 1

le nombre de valeurs est impair (n impair) → xe = x(n+1)/2 ex. : si n = 15, (n + 1)/2 = 8 → la m´ediane est la huiti`eme valeur de la s´erie : 1,1,2,2,3,4,5,6,6,7,8,9,9,9,10 : xe = 6

2

le nombre de valeurs est pair (n pair), tout nombre compris entre (xn/2 et xn/2+1 )/2 r´epond `a la d´efinition. On d´efinit alors g´en´eralement la m´ediane par : → xe = (xn/2 + xn/2+1 )/2 si : 1,1,2,2,3,4,5,6,6,7,8,9, alors xe = 4,5

Bivari´ e

Introduction

Univari´ e

Position

Param`etres de position le mode Encore appel´ee valeur dominante : valeur observ´ee de fr´equence maximum. le mode est la valeur la plus fr´equente mais de mani`ere relative et pas absolue (donc pas forc´ement la majorit´e des valeurs) il peut y avoir deux ou plusieurs modes : 1,2,3,3,3,3,4,5,6,6,6,6,7,15 : modes = 3 et 6 lorsqu’une distribution est bimodale, on peut penser que l’´echantillon est en r´ealit´e issu de deux populations diff´erentes si toutes les valeurs sont diff´erentes, autant de modes que de valeurs : 1,2,3,5,6,9,14,16 → chaque valeur = mode

Bivari´ e

Introduction

Univari´ e

Position

Param`etres de position

Quartiles Les trois quartiles divisent l’ensemble de la distribution en 4 ensembles de mˆeme taille (au moins approximativement) Q1 → 25% des valeurs sont inf´erieures `a Q1 Q2 = m´ediane → 50% des valeurs sont inf´erieures `a Q2 Q3 → 75% des valeurs sont inf´erieures `a Q3 En pratique, parfois difficile de les calculer quand les effectifs sont petits.

Bivari´ e

Introduction

Univari´ e

Position

Param`etres de position Quantiles / Fractiles Le quantile d’ordre k est la valeur qui s´epare la distribution en k classes de mˆeme effectifs (au moins approximativement) : d´eciles, quartiles, tiertiles, centiles, etc. d’o` u: percentile percentile p divise la distribution en deux groupes tel que p% des valeurs soient situ´ees sous p et (100 − p%) des valeurs soient situ´ees au-dessus. • Les quantiles sont pertinents surtout quand le nombre de valeurs est suffisant pour les calculer de mani`ere pr´ecise (n > 100) • Voir Box-plot / boˆıtes `a moustaches

Bivari´ e

Introduction

Univari´ e

Dispersion

Plan

1

Introduction

2

Statistique descriptive univari´ee Notions g´en´erales Param`etres de position Param`etres de dispersion

3

Statistique descriptive bivari´ee

Bivari´ e

Introduction

Univari´ e

Bivari´ e

Dispersion

Param`etres de dispersion Variance C’est la moyenne arithm´etique des carr´es des ´ecarts `a la moyenne → dispersion, ´etalement, variabilit´e des valeurs • Dans une population, la variance est : n 1 X (xi − µ)2 σ = n n 2

;

2

σ =

i=1

p X

fi (xi − µ)2

i=1

o` u µ = moyenne de la population • Les valeurs calcul´ees (sur un ´echantillon) sont : n 1 X (xi − x )2 s = n n 2

i=1

o` u m = moyenne de l’´echantillon

;

2

s =

p X i=1

fi (xi − x )2

Introduction

Univari´ e

Dispersion

Param`etres de dispersion Ne pas confondre avec les valeurs estim´ees de la variance de la population `a partir de l’´echantillon formules ci-dessus : valides quand on d´ecrit une population ou un ´echantillon suppose correction quand estimation de la variance pour la population `a partir des donn´ees d’un ´echantillon l’estimateur de la variance d’une population `a partir d’un ´echantillon est : n

1 X (xi − x )2 σ ˆ = n −1 n 2

i=1

Bivari´ e

Introduction

Univari´ e

Dispersion

Param`etres de dispersion

• la variance est elle aussi tr`es sensible aux valeurs extr`emes • soit la s´erie de 9 valeurs suivante : 1,2,3,4,6,5,9,7,2. • on trouve : moyenne = 4,333 P s 2 = (xi − 4,333)2 /9 = 6.222 P σ ˆ 2 = (xi − 4,333)2 /8 = 7 si 9 → 90, alors : x = 14.111, s 2 = 725.4 et σ ˆ 2 = 816.1

Bivari´ e

Introduction

Univari´ e

Bivari´ e

Dispersion

Param`etres de dispersion

Ecart-type (standard error) c’est la racine carr´e de la variance : σ =



σ2 ; s =



s2

Selon les circonstances, utilisation de s ou s 2 • mˆemes avantages et inconv´enients que la variance (sensibilit´e aux valeurs extr`emes)

Introduction

Univari´ e

Dispersion

Param`etres de dispersion

Etendue = amplitude, w = xn − x1 , ´ecart entre le maximum et le minimum de la s´erie • quantifie l’´etalement total des donn´ees, utile surtout pour v´erifier la validit´e des mesures et d´etecter d’´eventuelles valeurs extr`emes. • donne une premi`ere approximation de l’´ecart-type car s 6 w /2 • bas´ee uniquement sur les extr`emes, donc tr`es sensible `a ces extr`emes

Bivari´ e

Introduction

Univari´ e

Dispersion

Param`etres de dispersion

Ecart inter-quartiles = Q3 - Q1. Indique les 50% de valeurs situ´ees au centre de la distribution. • comme la m´ediane et les quantiles, tr`es robuste, i.e. tr`es peu sensible aux donn´ees extr`emes et aux fortes variations d’une petite proportion de valeurs. Par ex., pour modifier la valeur de la m´ediane, il faut modifier plus de 50% des valeurs de la s´erie. • Utile lors de la r´ealisation de graphiques type box-plot / boˆıte `a moustaches

Bivari´ e

Introduction

Univari´ e

Dispersion

Param`etres de dispersion

Coefficient de variation

cv = s/x . • permet de comparer l’´etalement de donn´ees situ´ees dans des ordres de grandeur diff´erents : comparer la variabilit´e du poids des ´el´ephants et des souris, ou des adultes et des enfants.

Bivari´ e

Introduction

Univari´ e

Dispersion

Exemple 1

Etude extraction instrumentale HTP / CMCO comprendre pourquoi taux d’extraction instrumentale tr`es diff´erent entre les deux maternit´es

Bivari´ e

Introduction

Univari´ e

Bivari´ e

Dispersion

> descr3(DOSES,Site) Descriptif DOSES Effectifs pr´ esents 1444.000 Proportions de pr´ esents 28.115 Effectifs manquants 3692.000 Proportions de manquants 71.885 Moyenne 6.597 Ecart-type 3.736 Variance 13.956 Erreur standard (s.e.m) 0.052 Err. Std (bas´ ee sur l’ANOVA) NA

Site = CMCO 835.000 28.479 2097.000 71.521 6.366 3.043 9.258 0.105 0.129

Site = HTP 609.000 27.632 1595.000 72.368 6.915 4.500 20.248 0.182 0.151

Introduction

Univari´ e

Bivari´ e

Dispersion

> descr3(DOSES,Site) Descriptif Minimum Maximum Percentile 2,5 Percentile 5 Q1 M´ ediane Q3 Percentile 95 Percentile 97,5 Ecart inter-quartiles IC valeurs borne inf IC valeurs borne sup IC moyenne borne inf IC moyenne borne sup IC moyenne borne inf (ANOVA) IC moyenne borne sup (ANOVA)

DOSES 1.000 22.000 2.000 2.000 4.000 6.000 8.000 12.000 16.000 4.000 -0.727 13.921 6.495 6.699 NA NA

Site = CMCO 1.200 18.000 2.000 2.000 4.000 6.000 8.000 12.000 12.000 4.000 0.393 12.338 6.159 6.572 6.112 6.619

Site = HTP 1.000 22.000 2.000 2.000 4.000 6.000 8.400 17.200 20.000 4.400 -1.922 15.752 6.557 7.273 6.619 7.211

Introduction

Univari´ e

Bivari´ e

Dispersion

Description des 1444 valeurs non-manquantes : Tri` aplat Eff. Eff. cum. Prop. 1 2 2 0.14 1.2 14 16 0.97 2 172 188 11.91 2.4 24 212 1.66 3 16 228 1.11 3.4 1 229 0.07 3.6 12 241 0.83 3.7 1 242 0.07 4 290 532 20.08 4.2 1 533 0.07 4.4 1 534 0.07 4.8 30 564 2.08 5 9 573 0.62 5.2 1 574 0.07 5.6 1 575 0.07 6 310 885 21.47 6.2 1 886 0.07

Prop. cum 0.14 1.11 13.02 14.68 15.79 15.86 16.69 16.76 36.84 36.91 36.98 39.06 39.68 39.75 39.82 61.29 61.36

Site = CMCO 0 3 109 3 4 0 3 0 175 0 0 3 1 0 0 214 0

Site = HTP 2 11 63 21 12 1 9 1 115 1 1 27 8 1 1 96 1

.../...

Introduction

Univari´ e

Bivari´ e

Dispersion

7 7.2 8 8.4 8.6 9 9.6 10 10.8 11 12 14 15 16 18 19 20 22

Eff. Eff. cum. Prop. Prop. cum 2 888 0.14 61.50 12 900 0.83 62.33 225 1125 15.58 77.91 4 1129 0.28 78.19 1 1130 0.07 78.25 1 1131 0.07 78.32 3 1134 0.21 78.53 128 1262 8.86 87.40 2 1264 0.14 87.53 1 1265 0.07 87.60 116 1381 8.03 95.64 21 1402 1.45 97.09 1 1403 0.07 97.16 9 1412 0.62 97.78 4 1416 0.28 98.06 1 1417 0.07 98.13 25 1442 1.73 99.86 2 1444 0.14 100.00

Site = CMCO 0 1 155 0 0 0 0 101 0 0 46 11 1 4 1 0 0 0

Site = HTP 2 11 70 4 1 1 3 27 2 1 70 10 0 5 3 1 25 2

Introduction

Univari´ e

Bivari´ e

Dispersion

> descr3(BMI,Site,T` ap=TRUE) $Descriptif BMI Effectifs pr´ esents 4736.000 Proportions de pr´ esents 92.212 Effectifs manquants 400.000 Proportions de manquants 7.788 Moyenne 23.431 Ecart-type 4.834 Variance 23.365 Erreur standard (s.e.m) 0.067 Err. Std (bas´ ee sur l’ANOVA) NA

Site = CMCO 2855.000 97.374 77.000 2.626 23.354 4.786 22.907 0.090 0.090

Site = HTP 1881.000 85.345 323.000 14.655 23.546 4.904 24.049 0.113 0.111

Introduction

Univari´ e

Bivari´ e

Dispersion

> descr3(BMI,Site,T` ap=TRUE) $Descriptif Minimum Maximum Percentile 2,5 Percentile 5 Q1 M´ ediane Q3 Percentile 95 Percentile 97,5 Ecart inter-quartiles IC valeurs borne inf IC valeurs borne sup IC moyenne borne inf IC moyenne borne sup IC moyenne borne inf (ANOVA) IC moyenne borne sup (ANOVA)

14.000 56.000 18.000 18.000 20.000 22.000 25.000 33.000 36.000 5.000 13.954 32.907 23.298 23.563 NA NA

14.000 53.000 18.000 18.000 20.000 22.000 25.000 32.000 36.000 5.000 13.970 32.739 23.179 23.530 23.177 23.532

15.000 56.000 17.000 18.000 20.000 22.000 25.000 34.000 36.000 5.000 13.928 33.164 23.324 23.768 23.328 23.764

Introduction

Univari´ e

Bivari´ e

Dispersion

$Tri` aplat Eff. Eff. 1 3 25 83 237 445 554 651 522 428 364 279 215 170 147 125 93 69 70 45 32 34 35 23 23 11 10 7 4

14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42

cum. 1 4 29 112 349 794 1348 1999 2521 2949 3313 3592 3807 3977 4124 4249 4342 4411 4481 4526 4558 4592 4627 4650 4673 4684 4694 4701 4705

Prop. Prop. cum 0.02 0.02 0.06 0.08 0.53 0.61 1.75 2.36 5.00 7.37 9.40 16.77 11.70 28.46 13.75 42.21 11.02 53.23 9.04 62.27 7.69 69.95 5.89 75.84 4.54 80.38 3.59 83.97 3.10 87.08 2.64 89.72 1.96 91.68 1.46 93.14 1.48 94.62 0.95 95.57 0.68 96.24 0.72 96.96 0.74 97.70 0.49 98.18 0.49 98.67 0.23 98.90 0.21 99.11 0.15 99.26 0.08 99.35

Site = CMCO 1 0 9 53 147 272 343 404 316 261 206 164 138 98 86 79 54 44 40 25 15 14 18 14 14 7 8 4 2

Site = HTP 0 3 16 30 90 173 211 247 206 167 158 115 77 72 61 46 39 25 30 20 17 20 17 9 9 4 2 3 2

.../...

Introduction

Univari´ e

Bivari´ e

Dispersion

.../... 43 44 45 46 47 48 49 50 51 52 53 56

7 4 3 1 2 2 3 2 1 3 2 1

4712 4716 4719 4720 4722 4724 4727 4729 4730 4733 4735 4736

0.15 0.08 0.06 0.02 0.04 0.04 0.06 0.04 0.02 0.06 0.04 0.02

99.49 99.58 99.64 99.66 99.70 99.75 99.81 99.85 99.87 99.94 99.98 100.00

3 3 2 0 2 1 2 2 1 1 2 0

4 1 1 1 0 1 1 0 0 2 0 1

Introduction

Univari´ e

Dispersion

Exemple 2

Etude d´ecollement brackets trouver les ´el´ements cliniques (li´es au patient et `a la pose) associ´es au d´ecollement de bracket (orthodontie)

Bivari´ e

Introduction

Univari´ e

Dispersion

> descr1(AGEPOSE,T` ap=TRUE) Descriptif AGEPOSE Effectifs pr´ esents 450.0000 Proportions de pr´ esents % 100.0000 Effectifs manquants 0.0000 Proportions de manquants % 0.0000 Moyenne 14.0489 Ecart-type 5.9968 Variance 35.9619 Erreur standard (s.e.m) 0.2827 Minimum 8.3000 Maximum 58.7000

Bivari´ e

Introduction

Univari´ e

Dispersion

Percentile 2,5 Percentile 5 Q1 M´ ediane Q3 Percentile 95 Percentile 97,5 Ecart inter-quartiles IC valeurs borne inf IC valeurs borne sup IC moyenne borne inf IC moyenne borne sup

10.1000 10.5000 11.8000 12.7000 14.1000 21.3500 36.4575 2.3000 2.2636 25.8342 13.4927 14.6051

Bivari´ e

Introduction

Univari´ e

Plan

1

Introduction

2

Statistique descriptive univari´ee

3

Statistique descriptive bivari´ee

Bivari´ e

Introduction

Univari´ e

Variables conjointes

Recueil simultan´e de deux variables chez les mˆemes sujets : deux variables X et Y L’int´erˆet se porte le plus souvent sur la relation entre les deux variables, recherche de corr´elation qui n’implique pas un lien de causalit´e.

Bivari´ e

Introduction

Univari´ e

Bivari´ e

Notations Soit deux s´eries de valeurs X et Y ayant respectivement nx et ny valeurs et xp et yq occurences diff´erentes : HH Y H y1 H X H H

x1 ... xi ... xp Total

...

yi

...

yq

n11

n.1

Total n1.

nij

ni.

n.j

np. n..

n.q

• case cij , d’effectif nij et de fr´equence relative fij = nij /n..

Introduction

Univari´ e

Bivari´ e

Description • On a :

ni . =

q X

nij ,

n.j =

j =1

p X

nij

i =1

• Par ailleurs, p X i =1

ni . =

q X j =1

n.j =

p X q X

nij = n.. = n

i =1 j =1

• De plus,

fi . = ni . /n,

f.j = n.j /n,

fij = nij /n

Introduction

Univari´ e

Lignes : Site

Bivari´ e

Colonnes : ANEST

aucune bloc ner g´ en´ erale p´ eridura

rachi rachip´ er

Total

CMCO

544 18.64 47.72 10.63

1 0.03 100.00 0.02

23 0.79 37.70 0.45

2089 71.57 60.71 40.83

256 8.77 55.05 5.00

6 0.21 75.00 0.12

2919 100.00 57.06 57.06

HTP

596 27.13 52.28 11.65

0 ----

38 1.73 62.30 0.74

1352 61.54 39.29 26.43

209 9.51 44.95 4.09

2 0.09 25.00 0.04

2197 100.00 42.94 42.94

1140 22.28 100.00 22.28

1 0.02 100.00 0.02

61 1.19 100.00 1.19

3441 67.26 100.00 67.26

465 9.09 100.00 9.09

8 0.16 100.00 0.16

5116 100.00 100.00 100.00

Total

Introduction

Univari´ e

Bivari´ e

Distribution conditionnelle • En ne consid´erant qu’une ligne du tableau, on d´ecrit la distribution en colonne conditionnelle `a la ligne : distribution de y conditionnelle `a x = xi . • idem pour les lignes|colonnes. • D´efinition des fr´equences conditionnelles :

fj |i = nij /ni . = fij /fi . ,

fi |j = nij /n.j = fij /f.j

On note que : p X i =1

fi |j = 1,

q X j =1

fj |i = 1

Introduction

Univari´ e

Lignes : Site

Bivari´ e

Colonnes : ANEST

aucune bloc ner g´ en´ erale p´ eridura

rachi rachip´ er

Total

CMCO

544 18.64 47.72 10.63

1 0.03 100.00 0.02

23 0.79 37.70 0.45

2089 71.57 60.71 40.83

256 8.77 55.05 5.00

6 0.21 75.00 0.12

2919 100.00 57.06 57.06

HTP

596 27.13 52.28 11.65

0 ----

38 1.73 62.30 0.74

1352 61.54 39.29 26.43

209 9.51 44.95 4.09

2 0.09 25.00 0.04

2197 100.00 42.94 42.94

1140 22.28 100.00 22.28

1 0.02 100.00 0.02

61 1.19 100.00 1.19

3441 67.26 100.00 67.26

465 9.09 100.00 9.09

8 0.16 100.00 0.16

5116 100.00 100.00 100.00

Total

Introduction

Univari´ e

Bivari´ e

Distributions marginales

Ce sont les distributions d’une s´erie de valeurs lorsque l’on ne tient pas compte de l’autre s´erie : • Distribution marginale des colonnes : HH Y H y1 X HH H

Total Total

n.1 f.1

...

yi n.j f.j

...

yq

Total

n.q f.q

n.. f..

• et la mˆeme chose (( `a travers )) les colonnes pour la distribution marginale des lignes.

Introduction

Univari´ e

Lignes : Site

Bivari´ e

Colonnes : ANEST

aucune bloc ner g´ en´ erale p´ eridura

rachi rachip´ er

Total

CMCO

544 18.64 47.72 10.63

1 0.03 100.00 0.02

23 0.79 37.70 0.45

2089 71.57 60.71 40.83

256 8.77 55.05 5.00

6 0.21 75.00 0.12

2919 100.00 57.06 57.06

HTP

596 27.13 52.28 11.65

0 ----

38 1.73 62.30 0.74

1352 61.54 39.29 26.43

209 9.51 44.95 4.09

2 0.09 25.00 0.04

2197 100.00 42.94 42.94

1140 22.28 100.00 22.28

1 0.02 100.00 0.02

61 1.19 100.00 1.19

3441 67.26 100.00 67.26

465 9.09 100.00 9.09

8 0.16 100.00 0.16

5116 100.00 100.00 100.00

Total

Introduction

Univari´ e

Notion de covariance

Covariance Elle caract´erise deux variables simultan´ement cov (x ,y) =

n 1X [(xi − x )(yj − y)] n i=1

cov (x ,y) =

1 n

p X q X

[nij (xi − x )(yj − y)]

i=1 j =1

Bivari´ e

Introduction

Univari´ e

Notion de covariance

La covariance est positive quand la relation entre X et Y est positive n´egative quand la relation est n´egative si X et Y sont lin´eairement ind´ependantes alors Cov (X ,Y ) = 0 l’inverse n’est pas vrai : Cov (X ,Y ) = 0 n’⇒ pas absence de lien entre X et Y

Bivari´ e

Introduction

Covariance : exemple

cov (x ,y) = 1,45

Univari´ e

Bivari´ e

Introduction

Covariance : exemple

cov (x ,y) = −1,20

Univari´ e

Bivari´ e

Introduction

Univari´ e

Coefficient de corr´elation lin´eaire

Le degr´e de liaison lin´eaire entre X et Y est ´etudi´e par le coefficient de corr´elation lin´eaire not´e r. r=

cov (x ,y) sx sy

encore not´e rxy ou r (x ,y) • Le coefficient de corr´elation est compris entre -1 et +1. • si r = 1 ou si r = −1, x et y sont parfaitement corr´el´es et les points sont align´es sur une droite.

Bivari´ e

Introduction

Univari´ e

Coefficient de corr´elation lin´eaire

• Si les variables X et Y sont lin´eairement ind´ependantes alors r = 0. • Si le coefficient de corr´elation r = 0 et que les variables X et Y suivent une loi normale, alors elles sont lin´eairement ind´ependantes. • mais si r = 0 cela n’implique pas l’absence de relation entre x et y → si f (x ) = x 2 : relation, mais non lin´eaire et r = 0.

Bivari´ e

Introduction

Univari´ e

Diagramme de dispersion ou de corr´elation

C’est le diagramme qui repr´esente les couples de point (xi ,yj ). Il permet d’appr´ecier la liaison pouvant exister entre X et Y

Bivari´ e

Introduction

Corr´elation : exemples

r = 0,762

Univari´ e

Bivari´ e

Introduction

Corr´elation : exemples

r = −0,456

Univari´ e

Bivari´ e

Introduction

Corr´elation : exemples

Univari´ e

Bivari´ e

Introduction

Univari´ e

Corr´elation : exemples

Remarques : • si les points sont align´es sur une droite ascendante : r = 1 • et vice-versa si r = 1 ou si r = −1 les points sont align´es sur une droite • mais situation rarissime dans le monde bio-m´edical • coefficient de d´etermination : r 2 • r 2 : part de variabilit´e de y induite par x (en supposant relation directionnelle de x `a y)

Bivari´ e

Introduction

Univari´ e

Ind´ependance statistique

On peut montrer que x et y sont statistiquement ind´ependants lorsque les distributions conditionnelles en y conditionn´ees par les valeurs xi de x sont identiques quel que soit l’indice i . fij = fi. · f.j Th´eor`eme Deux variables conjointes X et Y sont ind´ependantes si les fr´equences par classe sont ´egales au produits des fr´equences marginales.

Bivari´ e

Introduction

Univari´ e

Corr´elation : exemple

Quelques exemples (ex. maternit´es) : • corr´elation gestit´e - parit´e : r = 0.821 • corr´elation gestit´e - IMC : r = 0.120 • corr´elation parit´e - IMC : r = 0.145 • corr´elation dur´ee du travail - dur´ee efforts expulsifs : r = 0.420 • corr´elation poids de naissance - pH au scalp : r = −0.007 • corr´elation dur´ee gestation - hauteur ut´erine : r = 0.142

Bivari´ e

Introduction

Univari´ e

Notion de droite de r´egression

Une distribution conjointe peut ˆetre obtenue de deux mani`eres : • le couple de valeur (x , y) est recueilli pour chaque individu puis enregistr´e. Dans ce cas les valeurs prises par X et Y d´ependent uniquement de l’individu, on dit que ces valeurs sont al´eatoires.

Bivari´ e

Introduction

Univari´ e

Notion de droite de r´egression

Une distribution conjointe peut ˆetre obtenue de deux mani`eres : • le couple de valeur (x , y) est recueilli pour chaque individu puis enregistr´e. Dans ce cas les valeurs prises par X et Y d´ependent uniquement de l’individu, on dit que ces valeurs sont al´eatoires. • le couple de valeur (x , y) est recueilli lors d’une exp´erience dans laquelle on fixe (on contrˆ ole) les valeurs de x et l’on recueille la valeur de y ⇒ X est contrˆ ol´e et Y est al´eatoire.

Bivari´ e

Introduction

Univari´ e

Notion de droite de r´egression

Exemples de variables de type contrˆ ol´ees ou al´eatoires : Effort d´evelopp´e - tension art´erielle : Variable contrˆol´ee variable al´eatoire Masse de sucre absorb´ee - glyc´emie : V. contrˆol´ee - V. al´eatoire Poids - Age : Variable al´eatoire - variable al´eatoire • L’analyse du tableau de corr´elation ne sera pas la mˆeme dans les deux situations. .../...

Bivari´ e

Introduction

Univari´ e

Notion de droite de r´egression

.../... (Exemples de variables de type contrˆ ol´ees ou al´eatoires) • Dans le cas X et Y al´eatoires, le coefficient de corr´elation lin´eaire recherche la liaison entre X et Y • description de la liaison mais mais pas de preuve de la relation de cause `a effet de x sur y

Bivari´ e

Introduction

Univari´ e

Notion de droite de r´egression

Lorsque Y est al´eatoire et X contrˆ ol´e : situation explicative des valeurs prises par Y en fonction des valeurs prises par X • tend `a prouver la relation de cause `a effet entre x et y • la liaison entre X et Y sera obtenue par la d´etermination de la droite de r´egression. • la droite qui passe au mieux dans le nuage de points sera obtenue `a l’aide du (( crit`ere des moindres carr´es ))

Bivari´ e

Introduction

Univari´ e

Notion de droite de r´egression

→ diagramme de dispersion des couples de valeurs (xi , yi ), avec xi en abscisse et yi en ordonn´ee. • chercher la droite d’´equation yd = (a · x + b) telle que la somme des carr´es des distances Di entre les points yi exp´erimentaux et les points yd,i = (a · xi + b) de la droite des moindres carr´es `a l’abscisse xi soit minimum.

Bivari´ e

Introduction

Corr´elation : exemples

Univari´ e

Bivari´ e

Introduction

Univari´ e

Notion de droite de r´egression

• A partir des N couples de valeurs (xi , yi ) et d’une droite encore inconnue yd = a · x + b → calculer n distances

Di = yi − yd ,i = yi − (a · xi + b) • les inconnues sont les valeurs a et b, les autres grandeurs sont connues.

Bivari´ e

Introduction

Univari´ e

Notion de droite de r´egression

On obtient a et b en minimisant la somme suivante (m´ethode des moindres carr´es) :

S=

n X i =1

Di2

=

n X i =1

(yi − a · xi − b)2

Bivari´ e

Introduction

Univari´ e

Notion de droite de r´egression on obtient y = ax + b : la droite passe par le point (x ,y). • puis on obtient : a = pente de la droite =

a=

cov (X ,Y ) σX2

Puis on obtient b `a partir de

b = y − ax .

Bivari´ e

Introduction

Univari´ e

Notion de droite de r´egression

Remarque 1 : Lorsque Y est la variable contrˆ ol´ee et X est la variable al´eatoire, on peut effectuer les mˆemes d´eveloppements en permutant X et Y . La droite de r´egression de Y en X est en g´en´erale diff´erente de la droite de r´egression de X en Y . Remarque 2 : Lorsque X et Y sont ind´ependants, la droite de r´egression de Y en X est une droite parall`ele `a l’axe des X et la droite de r´egression de X en Y est parall`ele `a l’axe des Y .

Bivari´ e

Introduction

Univari´ e

Notion de droite de r´egression

x = 1,2,3,4,5,6,7,8,9,10 y = 2.1 4.3 5.1 8.5 10.3 11.5 13.5 17.3 17.9 20.5 cov (x ,y) = 18.78 var (x ) = σ ˆ 2 = 9.166 a = cov (x ,y)/var (x ) = 2.048 b = −0.167 x = 5,5 y = 11,1

Bivari´ e

Introduction

Univari´ e

Bivari´ e

La citation du jour

(( Car le m´edecin ´etant un compendium des erreurs successives et contradictoires des m´edecins, en appelant `a soi les meilleurs d’entre eux on a une grande chance d’implorer une v´erit´e qui sera reconnue fausse quelques ann´ees plus tard. De sorte que croire `a la m´edecine serait la suprˆeme folie, si n’y pas croire n’en ´etait pas une plus grande, car de cet amoncellement d’erreurs se sont d´egag´ees `a la longue quelques v´erit´es. )) M. Proust Le Cˆ ot´e de Guermantes