Statistique descriptive

Introduction

Univari´ e

Statistique descriptive Pr. Nicolas MEYER

——————— Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg ——————— novembre 2010

Bivari´ e

Introduction

Univari´ e

Plan

1

Introduction

2

Statistique descriptive univariée Notions générales Paramètres de position Paramètres de dispersion

3

Statistique descriptive bivariée

Bivari´ e

Introduction

Univari´ e

L’info médicale aléatoire du jour... → Site 20mn.fr Et si faire attention à sa ligne, c’était mauvais pour la santé ? Dans un rapport publié ce jeudi, l’Agence de sécurité sanitaire (Anses) a passé au crible 15 régimes, relate France Info. Et le résultat n’est pas brillant. Que le régime soit détox, Dukan ou encore californien, l’Anses (Agence de sécurité sanitaire de l’alimentation, de l’environnement et du travail ) a souligné d’importants déséquilibres, notamment en macronutriments, en vitamines et en minéraux. En général, il y aurait trop de protéines, plus que les apports nutritionnels conseillés (en particulier pour le régume Dukan).

Bivari´ e

Introduction

Univari´ e

Plan

1

Introduction

2

Statistique descriptive univariée

3


Bivari´ e

Introduction

Univari´ e

Statistique descriptive

Les objectifs de la statistique descriptive sont de : définir le ou les groupes étudiés (population ou échantillon) définir le codage des observations définir la présentation des données : numérique et/ou graphique réduire les données à quelques indicateurs statistiques synthétiques

Bivari´ e

Introduction

Univari´ e

Statistique descriptive

La description des données souvent la première approche dans la compréhension d’un phénomène réduction des données à quelques indices numériques permettant de manipuler les données permettra la formulation d’hypothèses qui pourront être vérifiées à l’aide de tests statistiques lors d’études organisées ultérieurement d’o` u une approche progressive du modèle biologique ou médical

Bivari´ e

Introduction

Univari´ e

Définition du groupe étudié

Une étude statistique doit définir le groupe à étudier en théorie → la population en pratique → un échantillon l’échantillon doit être représentatif de la population pour pouvoir étendre les résultats obtenus sur l’échantillon à la population car l’intérêt porte sur la population et pas sur un échantillon en particulier description d’un échantillon → description de la population

Bivari´ e

Introduction

Univari´ e

Plan

1

Introduction

2


3


Bivari´ e

Introduction

Univari´ e

G´ en´ eralit´ es

Plan

1

Introduction

2


3


Bivari´ e

Introduction

Univari´ e


Codage de l’information : type de variable

Une étude statistique ⇒ des (( mesures )) valeur quantitative, mesurable par une unité physique : concentration, dosage, poids, taille, proportion, variation exprimée en pourcentage, quantité, durée de séjour, etc. valeur qualitative, non mesurable par une unité physique : caractéristique du sujet (sexe, présence d’une maladie, antécédents médicaux, etc)

Bivari´ e

Introduction

Univari´ e


Variable quantitative

Une variable quantitative est une mesure pouvant être exprimée par un nombre valeur sur l’échelle des réels positifs : R+ : valeurs continues strictement positives poids, taille, concentrations, etc

plus rarement valeur sur l’échelle des réels : R : valeurs continues variation de dosage, etc

valeur sur l’échelle des entiers positifs : N+ : valeurs discrètes nombre de cigarettes, durée de séjours, nombre d’enfants, etc.

Bivari´ e

Introduction

Univari´ e


Variable qualitative Elle traduit une mesure non-physique, une qualité, une caractéristique, absence de la propriété d’additivité variable qualitative binaire = binomiale = dichotomique : à deux classes, exclusives l’une de l’autre présent/absent, malade/sain, positif/négatif, etc

variable qualitative multinomiale = polychotomique : à plus de deux classes, dont il existe deux types : variable multinomiale nominale : sans ordre naturel entre les différentes modalités, comme groupes sanguins, génotypes variants de VHC, etc variable multinomiale ordinale : avec ordre naturel entre les différentes modalités, comme stades de cancer, de progression, mais l’addition de deux modalités n’a pas de sens

Bivari´ e

Introduction

Univari´ e


Recodage Les données sont parfois recodées : pour des variables polychotomiques : regroupement de plusieurs modalités ayant des petits effectifs pour des variables quantitatives : recodage en variable qualitative à k classes. Exemple : échelle visuelle analogique (EVA) douleur évaluée par une échelle de 0 à 10 peut être recodée en 4 classes : douleur nulle ou faible, modérée, sévère, extrème. si la catégorie extrème présente des effectifs faibles → regrouper les troisièmes et quatrièmes classes en une seule une variable continue peut être dichotomisée : test diagnostique, comme la glycémie, dosage continu séparé en deux classes de part et d’autre du seuil=1,10 g/L.

Bivari´ e

Introduction

Univari´ e


Présentation numérique des données

Les données d’une série statistique doivent être résumées pour pouvoir décrire rapidement de grandes séries de valeurs réaliser des tests statistiques → Description des variables qualitatives puis des variables quantitatives

Bivari´ e

Introduction

Univari´ e


Description statistique des variables qualitatives

Soit une série de valeurs qualitative : H,F,F,F,H,F,H,F,F,F,F,H,H,F,H,H,...,F donner les effectifs de chaque modalité donner les proportions (= fréquences) de chaque modalité par rapport au total combiner si besoin les proportions, notamment des proportions cumulées pour des variables ordinales (stade de cancer)

Bivari´ e

Introduction

Univari´ e

Bivari´ e


Description statistique des variables qualitatives La variable X prend les valeurs x1 , x2 , . . . , xn , n valeurs avec p occurences différentes Occurence de X

x1

x2

...

xi

...

xp

total

Effectifs Fréquence

n1 f1

n2 f2

... ...

ni fi

... ...

np fp

n 1

Et : n=

p X i=1

ni ,

ni fi = , n

p X i=1

fi = 1

Introduction

Univari´ e


Présentation des valeurs

Le plus souvent, présentation par classes de valeurs, i.e. par occurence, en donnant les effectifs de chaque occurence. Exemple • soit la série de valeurs : 1,1,2,2,3,4,5,6,6,7,8,9,9,9,10. • n = 15 • la liste des occurences : 1,2,3,4,5,6,7,8,9,10 • d’ou les fréquences de chaque occurence : f1 = 2/15, f2 = 2/15, f3 = 1/15, etc.

Bivari´ e

Introduction

Univari´ e


Présentation des valeurs

• Les données peuvent aussi être présentées par classes : • choisir trois classes : [0; 4[, [4; 8[, [8; +∞[. • rappel des valeurs : 1,1,2,2,3,4,5,6,6,7,8,9,9,9,10, et n = 15 • sur ces données : n = 15 et 3 classes différentes, d’effectifs : 5, 5 et 5.

Bivari´ e

Introduction

Univari´ e


Exemple > desql(BRACKETS) Effectifs Proportions 0 211 46.889 1 239 53.111 Total 450 100.000 Non Manquants 450 100.000 MANQUANTS 0 0.000

Bivari´ e

Introduction

Univari´ e

Bivari´ e


> desql(CLANGLE) Effectifs Proportions Proportions cumul´ ees 1 90 20.134 20.134 2 197 44.072 64.206 2.1 78 17.450 81.656 2.2 37 8.277 98.933 3 45 10.067 100.000 Total 447 100.000 Non Manquants 447 99.333 MANQUANTS 3 0.667 • Notez le codage numérique pour une variable qualitative : le codage utilise souvent des codes numériques (mais sans en retenir la valeur) pour coder des variables qualitatives

Introduction

Univari´ e

Position

Plan

1

Introduction

2


3


Bivari´ e

Introduction

Univari´ e

Position

Statistique descriptive des variables quantitatives Les variables continues sont décrites numériquement par : • des paramètres de position moyenne percentiles, dont : médiane premier (Q1) et troisième quartile (Q3) percentiles p autres : tiertiles, déciles, etc

mode médiale minimum et maximum

Bivari´ e

Introduction

Univari´ e

Position

Statistique descriptive des variables quantitatives

Mais aussi : • des paramètres de dispersion variance écart-type écart inter-quartile étendue ou amplitude coefficient de variation Plus skewness et kurtosis, paramètres d’étalement et d’asymétrie.

Bivari´ e

Introduction

Univari´ e

Bivari´ e

Position

Paramètres de position

La moyenne (arithmétique) somme des valeurs divisée par l’effectif de la série Soit sur un échantillon de taille n : x=

p X i=1

p n 1X 1X ni xi = xi fi xi = n n i=1

i=1

• x1 , . . . , xi , . . . , xn étant les n valeurs observées, x1 , . . . , xi , . . . , xp étant les p occurences observées avec n1 , . . . , ni , . . . , np les effectifs correspondants de ces occurences.

Introduction

Univari´ e

Position


Exemple : calcul de la moyenne arithmétique pour les données suivantes : 6, 7, 7, 7, 8, 8, 8, 9, 9, 10 : m = 0,1 · 6 + 0,3 · 7 + 0,3 · 8 + 0,2 · 9 + 0,1 · 10 = 7,9 • la moyenne est sensible aux valeurs extrèmes • si on remplace le 10 par un 100 (fréquent dans certains contextes médicaux), alors m = 16,90

Bivari´ e

Introduction

Univari´ e

Position


la médiane notée xe ou medx ou med (x ) : valeur telle que la moitié des observations lui sont inférieures et donc la moitié lui sont supérieures Dans les distributions symétriques (loi de Gauss par ex.) la médiane = la moyenne.

Bivari´ e

Introduction

Univari´ e

Position

Paramètres de position (La médiane.../...) Deux cas : 1

le nombre de valeurs est impair (n impair) → xe = x(n+1)/2 ex. : si n = 15, (n + 1)/2 = 8 → la médiane est la huitième valeur de la série : 1,1,2,2,3,4,5,6,6,7,8,9,9,9,10 : xe = 6

2

le nombre de valeurs est pair (n pair), tout nombre compris entre (xn/2 et xn/2+1 )/2 répond à la définition. On définit alors généralement la médiane par : → xe = (xn/2 + xn/2+1 )/2 si : 1,1,2,2,3,4,5,6,6,7,8,9, alors xe = 4,5

Bivari´ e

Introduction

Univari´ e

Position

Paramètres de position le mode Encore appelée valeur dominante : valeur observée de fréquence maximum. le mode est la valeur la plus fréquente mais de manière relative et pas absolue (donc pas forcément la majorité des valeurs) il peut y avoir deux ou plusieurs modes : 1,2,3,3,3,3,4,5,6,6,6,6,7,15 : modes = 3 et 6 lorsqu’une distribution est bimodale, on peut penser que l’échantillon est en réalité issu de deux populations différentes si toutes les valeurs sont différentes, autant de modes que de valeurs : 1,2,3,5,6,9,14,16 → chaque valeur = mode

Bivari´ e

Introduction

Univari´ e

Position


Quartiles Les trois quartiles divisent l’ensemble de la distribution en 4 ensembles de même taille (au moins approximativement) Q1 → 25% des valeurs sont inférieures à Q1 Q2 = médiane → 50% des valeurs sont inférieures à Q2 Q3 → 75% des valeurs sont inférieures à Q3 En pratique, parfois difficile de les calculer quand les effectifs sont petits.

Bivari´ e

Introduction

Univari´ e

Position

Paramètres de position Quantiles / Fractiles Le quantile d’ordre k est la valeur qui sépare la distribution en k classes de même effectifs (au moins approximativement) : déciles, quartiles, tiertiles, centiles, etc. d’o` u: percentile percentile p divise la distribution en deux groupes tel que p% des valeurs soient situées sous p et (100 − p%) des valeurs soient situées au-dessus. • Les quantiles sont pertinents surtout quand le nombre de valeurs est suffisant pour les calculer de manière précise (n > 100) • Voir Box-plot / boˆıtes à moustaches

Bivari´ e

Introduction

Univari´ e

Dispersion

Plan

1

Introduction

2


3


Bivari´ e

Introduction

Univari´ e

Bivari´ e

Dispersion

Paramètres de dispersion Variance C’est la moyenne arithmétique des carrés des écarts à la moyenne → dispersion, étalement, variabilité des valeurs • Dans une population, la variance est : n 1 X (xi − µ)2 σ = n n 2

;

2

σ =

i=1

p X

fi (xi − µ)2

i=1

o` u µ = moyenne de la population • Les valeurs calculées (sur un échantillon) sont : n 1 X (xi − x )2 s = n n 2

i=1

o` u m = moyenne de l’échantillon

;

2

s =

p X i=1

fi (xi − x )2

Introduction

Univari´ e

Dispersion

Paramètres de dispersion Ne pas confondre avec les valeurs estimées de la variance de la population à partir de l’échantillon formules ci-dessus : valides quand on décrit une population ou un échantillon suppose correction quand estimation de la variance pour la population à partir des données d’un échantillon l’estimateur de la variance d’une population à partir d’un échantillon est : n

1 X (xi − x )2 σ ˆ = n −1 n 2

i=1

Bivari´ e

Introduction

Univari´ e

Dispersion

Paramètres de dispersion

• la variance est elle aussi très sensible aux valeurs extrèmes • soit la série de 9 valeurs suivante : 1,2,3,4,6,5,9,7,2. • on trouve : moyenne = 4,333 P s 2 = (xi − 4,333)2 /9 = 6.222 P σ ˆ 2 = (xi − 4,333)2 /8 = 7 si 9 → 90, alors : x = 14.111, s 2 = 725.4 et σ ˆ 2 = 816.1

Bivari´ e

Introduction

Univari´ e

Bivari´ e

Dispersion


Ecart-type (standard error) c’est la racine carré de la variance : σ =

√

σ2 ; s =

√

s2

Selon les circonstances, utilisation de s ou s 2 • mêmes avantages et inconvénients que la variance (sensibilité aux valeurs extrèmes)

Introduction

Univari´ e

Dispersion


Etendue = amplitude, w = xn − x1 , écart entre le maximum et le minimum de la série • quantifie l’étalement total des données, utile surtout pour vérifier la validité des mesures et détecter d’éventuelles valeurs extrèmes. • donne une première approximation de l’écart-type car s 6 w /2 • basée uniquement sur les extrèmes, donc très sensible à ces extrèmes

Bivari´ e

Introduction

Univari´ e

Dispersion


Ecart inter-quartiles = Q3 - Q1. Indique les 50% de valeurs situées au centre de la distribution. • comme la médiane et les quantiles, très robuste, i.e. très peu sensible aux données extrèmes et aux fortes variations d’une petite proportion de valeurs. Par ex., pour modifier la valeur de la médiane, il faut modifier plus de 50% des valeurs de la série. • Utile lors de la réalisation de graphiques type box-plot / boˆıte à moustaches

Bivari´ e

Introduction

Univari´ e

Dispersion


Coefficient de variation

cv = s/x . • permet de comparer l’étalement de données situées dans des ordres de grandeur différents : comparer la variabilité du poids des éléphants et des souris, ou des adultes et des enfants.

Bivari´ e

Introduction

Univari´ e

Dispersion

Exemple 1

Etude extraction instrumentale HTP / CMCO comprendre pourquoi taux d’extraction instrumentale très différent entre les deux maternités

Bivari´ e

Introduction

Univari´ e

Bivari´ e

Dispersion

> descr3(DOSES,Site) Descriptif DOSES Effectifs pr´ esents 1444.000 Proportions de pr´ esents 28.115 Effectifs manquants 3692.000 Proportions de manquants 71.885 Moyenne 6.597 Ecart-type 3.736 Variance 13.956 Erreur standard (s.e.m) 0.052 Err. Std (bas´ ee sur l’ANOVA) NA

Site = CMCO 835.000 28.479 2097.000 71.521 6.366 3.043 9.258 0.105 0.129

Site = HTP 609.000 27.632 1595.000 72.368 6.915 4.500 20.248 0.182 0.151

Introduction

Univari´ e

Bivari´ e

Dispersion

> descr3(DOSES,Site) Descriptif Minimum Maximum Percentile 2,5 Percentile 5 Q1 M´ ediane Q3 Percentile 95 Percentile 97,5 Ecart inter-quartiles IC valeurs borne inf IC valeurs borne sup IC moyenne borne inf IC moyenne borne sup IC moyenne borne inf (ANOVA) IC moyenne borne sup (ANOVA)

DOSES 1.000 22.000 2.000 2.000 4.000 6.000 8.000 12.000 16.000 4.000 -0.727 13.921 6.495 6.699 NA NA

Site = CMCO 1.200 18.000 2.000 2.000 4.000 6.000 8.000 12.000 12.000 4.000 0.393 12.338 6.159 6.572 6.112 6.619

Site = HTP 1.000 22.000 2.000 2.000 4.000 6.000 8.400 17.200 20.000 4.400 -1.922 15.752 6.557 7.273 6.619 7.211

Introduction

Univari´ e

Bivari´ e

Dispersion

Description des 1444 valeurs non-manquantes : Tri` aplat Eff. Eff. cum. Prop. 1 2 2 0.14 1.2 14 16 0.97 2 172 188 11.91 2.4 24 212 1.66 3 16 228 1.11 3.4 1 229 0.07 3.6 12 241 0.83 3.7 1 242 0.07 4 290 532 20.08 4.2 1 533 0.07 4.4 1 534 0.07 4.8 30 564 2.08 5 9 573 0.62 5.2 1 574 0.07 5.6 1 575 0.07 6 310 885 21.47 6.2 1 886 0.07

Prop. cum 0.14 1.11 13.02 14.68 15.79 15.86 16.69 16.76 36.84 36.91 36.98 39.06 39.68 39.75 39.82 61.29 61.36

Site = CMCO 0 3 109 3 4 0 3 0 175 0 0 3 1 0 0 214 0

Site = HTP 2 11 63 21 12 1 9 1 115 1 1 27 8 1 1 96 1

.../...

Introduction

Univari´ e

Bivari´ e

Dispersion

7 7.2 8 8.4 8.6 9 9.6 10 10.8 11 12 14 15 16 18 19 20 22

Eff. Eff. cum. Prop. Prop. cum 2 888 0.14 61.50 12 900 0.83 62.33 225 1125 15.58 77.91 4 1129 0.28 78.19 1 1130 0.07 78.25 1 1131 0.07 78.32 3 1134 0.21 78.53 128 1262 8.86 87.40 2 1264 0.14 87.53 1 1265 0.07 87.60 116 1381 8.03 95.64 21 1402 1.45 97.09 1 1403 0.07 97.16 9 1412 0.62 97.78 4 1416 0.28 98.06 1 1417 0.07 98.13 25 1442 1.73 99.86 2 1444 0.14 100.00

Site = CMCO 0 1 155 0 0 0 0 101 0 0 46 11 1 4 1 0 0 0

Site = HTP 2 11 70 4 1 1 3 27 2 1 70 10 0 5 3 1 25 2

Introduction

Univari´ e

Bivari´ e

Dispersion

> descr3(BMI,Site,T` ap=TRUE) $Descriptif BMI Effectifs pr´ esents 4736.000 Proportions de pr´ esents 92.212 Effectifs manquants 400.000 Proportions de manquants 7.788 Moyenne 23.431 Ecart-type 4.834 Variance 23.365 Erreur standard (s.e.m) 0.067 Err. Std (bas´ ee sur l’ANOVA) NA

Site = CMCO 2855.000 97.374 77.000 2.626 23.354 4.786 22.907 0.090 0.090

Site = HTP 1881.000 85.345 323.000 14.655 23.546 4.904 24.049 0.113 0.111

Introduction

Univari´ e

Bivari´ e

Dispersion

> descr3(BMI,Site,T` ap=TRUE) $Descriptif Minimum Maximum Percentile 2,5 Percentile 5 Q1 M´ ediane Q3 Percentile 95 Percentile 97,5 Ecart inter-quartiles IC valeurs borne inf IC valeurs borne sup IC moyenne borne inf IC moyenne borne sup IC moyenne borne inf (ANOVA) IC moyenne borne sup (ANOVA)

14.000 56.000 18.000 18.000 20.000 22.000 25.000 33.000 36.000 5.000 13.954 32.907 23.298 23.563 NA NA

14.000 53.000 18.000 18.000 20.000 22.000 25.000 32.000 36.000 5.000 13.970 32.739 23.179 23.530 23.177 23.532

15.000 56.000 17.000 18.000 20.000 22.000 25.000 34.000 36.000 5.000 13.928 33.164 23.324 23.768 23.328 23.764

Introduction

Univari´ e

Bivari´ e

Dispersion

$Tri` aplat Eff. Eff. 1 3 25 83 237 445 554 651 522 428 364 279 215 170 147 125 93 69 70 45 32 34 35 23 23 11 10 7 4

14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42

cum. 1 4 29 112 349 794 1348 1999 2521 2949 3313 3592 3807 3977 4124 4249 4342 4411 4481 4526 4558 4592 4627 4650 4673 4684 4694 4701 4705

Prop. Prop. cum 0.02 0.02 0.06 0.08 0.53 0.61 1.75 2.36 5.00 7.37 9.40 16.77 11.70 28.46 13.75 42.21 11.02 53.23 9.04 62.27 7.69 69.95 5.89 75.84 4.54 80.38 3.59 83.97 3.10 87.08 2.64 89.72 1.96 91.68 1.46 93.14 1.48 94.62 0.95 95.57 0.68 96.24 0.72 96.96 0.74 97.70 0.49 98.18 0.49 98.67 0.23 98.90 0.21 99.11 0.15 99.26 0.08 99.35

Site = CMCO 1 0 9 53 147 272 343 404 316 261 206 164 138 98 86 79 54 44 40 25 15 14 18 14 14 7 8 4 2

Site = HTP 0 3 16 30 90 173 211 247 206 167 158 115 77 72 61 46 39 25 30 20 17 20 17 9 9 4 2 3 2

.../...

Introduction

Univari´ e

Bivari´ e

Dispersion

.../... 43 44 45 46 47 48 49 50 51 52 53 56

7 4 3 1 2 2 3 2 1 3 2 1

4712 4716 4719 4720 4722 4724 4727 4729 4730 4733 4735 4736

0.15 0.08 0.06 0.02 0.04 0.04 0.06 0.04 0.02 0.06 0.04 0.02

99.49 99.58 99.64 99.66 99.70 99.75 99.81 99.85 99.87 99.94 99.98 100.00

3 3 2 0 2 1 2 2 1 1 2 0

4 1 1 1 0 1 1 0 0 2 0 1

Introduction

Univari´ e

Dispersion

Exemple 2

Etude décollement brackets trouver les éléments cliniques (liés au patient et à la pose) associés au décollement de bracket (orthodontie)

Bivari´ e

Introduction

Univari´ e

Dispersion

> descr1(AGEPOSE,T` ap=TRUE) Descriptif AGEPOSE Effectifs pr´ esents 450.0000 Proportions de pr´ esents % 100.0000 Effectifs manquants 0.0000 Proportions de manquants % 0.0000 Moyenne 14.0489 Ecart-type 5.9968 Variance 35.9619 Erreur standard (s.e.m) 0.2827 Minimum 8.3000 Maximum 58.7000

Bivari´ e

Introduction

Univari´ e

Dispersion

Percentile 2,5 Percentile 5 Q1 M´ ediane Q3 Percentile 95 Percentile 97,5 Ecart inter-quartiles IC valeurs borne inf IC valeurs borne sup IC moyenne borne inf IC moyenne borne sup

10.1000 10.5000 11.8000 12.7000 14.1000 21.3500 36.4575 2.3000 2.2636 25.8342 13.4927 14.6051

Bivari´ e

Introduction

Univari´ e

Plan

1

Introduction

2

Statistique descriptive univariée

3


Bivari´ e

Introduction

Univari´ e

Variables conjointes

Recueil simultané de deux variables chez les mêmes sujets : deux variables X et Y L’intérêt se porte le plus souvent sur la relation entre les deux variables, recherche de corrélation qui n’implique pas un lien de causalité.

Bivari´ e

Introduction

Univari´ e

Bivari´ e

Notations Soit deux séries de valeurs X et Y ayant respectivement nx et ny valeurs et xp et yq occurences différentes : HH Y H y1 H X H H

x1 ... xi ... xp Total

...

yi

...

yq

n11

n.1

Total n1.

nij

ni.

n.j

np. n..

n.q

• case cij , d’effectif nij et de fréquence relative fij = nij /n..

Introduction

Univari´ e

Bivari´ e

Description • On a :

ni . =

q X

nij ,

n.j =

j =1

p X

nij

i =1

• Par ailleurs, p X i =1

ni . =

q X j =1

n.j =

p X q X

nij = n.. = n

i =1 j =1

• De plus,

fi . = ni . /n,

f.j = n.j /n,

fij = nij /n

Introduction

Univari´ e

Lignes : Site

Bivari´ e

Colonnes : ANEST

aucune bloc ner g´ en´ erale p´ eridura

rachi rachip´ er

Total

CMCO

544 18.64 47.72 10.63

1 0.03 100.00 0.02

23 0.79 37.70 0.45

2089 71.57 60.71 40.83

256 8.77 55.05 5.00

6 0.21 75.00 0.12

2919 100.00 57.06 57.06

HTP

596 27.13 52.28 11.65

0 ----

38 1.73 62.30 0.74

1352 61.54 39.29 26.43

209 9.51 44.95 4.09

2 0.09 25.00 0.04

2197 100.00 42.94 42.94

1140 22.28 100.00 22.28

1 0.02 100.00 0.02

61 1.19 100.00 1.19

3441 67.26 100.00 67.26

465 9.09 100.00 9.09

8 0.16 100.00 0.16

5116 100.00 100.00 100.00

Total

Introduction

Univari´ e

Bivari´ e

Distribution conditionnelle • En ne considérant qu’une ligne du tableau, on décrit la distribution en colonne conditionnelle à la ligne : distribution de y conditionnelle à x = xi . • idem pour les lignes|colonnes. • Définition des fréquences conditionnelles :

fj |i = nij /ni . = fij /fi . ,

fi |j = nij /n.j = fij /f.j

On note que : p X i =1

fi |j = 1,

q X j =1

fj |i = 1

Introduction

Univari´ e

Lignes : Site

Bivari´ e

Colonnes : ANEST


rachi rachip´ er

Total

CMCO

544 18.64 47.72 10.63

1 0.03 100.00 0.02

23 0.79 37.70 0.45

2089 71.57 60.71 40.83

256 8.77 55.05 5.00

6 0.21 75.00 0.12

2919 100.00 57.06 57.06

HTP

596 27.13 52.28 11.65

0 ----

38 1.73 62.30 0.74

1352 61.54 39.29 26.43

209 9.51 44.95 4.09

2 0.09 25.00 0.04

2197 100.00 42.94 42.94

1140 22.28 100.00 22.28

1 0.02 100.00 0.02

61 1.19 100.00 1.19

3441 67.26 100.00 67.26

465 9.09 100.00 9.09

8 0.16 100.00 0.16

5116 100.00 100.00 100.00

Total

Introduction

Univari´ e

Bivari´ e

Distributions marginales

Ce sont les distributions d’une série de valeurs lorsque l’on ne tient pas compte de l’autre série : • Distribution marginale des colonnes : HH Y H y1 X HH H

Total Total

n.1 f.1

...

yi n.j f.j

...

yq

Total

n.q f.q

n.. f..

• et la même chose (( à travers )) les colonnes pour la distribution marginale des lignes.

Introduction

Univari´ e

Lignes : Site

Bivari´ e

Colonnes : ANEST


rachi rachip´ er

Total

CMCO

544 18.64 47.72 10.63

1 0.03 100.00 0.02

23 0.79 37.70 0.45

2089 71.57 60.71 40.83

256 8.77 55.05 5.00

6 0.21 75.00 0.12

2919 100.00 57.06 57.06

HTP

596 27.13 52.28 11.65

0 ----

38 1.73 62.30 0.74

1352 61.54 39.29 26.43

209 9.51 44.95 4.09

2 0.09 25.00 0.04

2197 100.00 42.94 42.94

1140 22.28 100.00 22.28

1 0.02 100.00 0.02

61 1.19 100.00 1.19

3441 67.26 100.00 67.26

465 9.09 100.00 9.09

8 0.16 100.00 0.16

5116 100.00 100.00 100.00

Total

Introduction

Univari´ e

Notion de covariance

Covariance Elle caractérise deux variables simultanément cov (x ,y) =

n 1X [(xi − x )(yj − y)] n i=1

cov (x ,y) =

1 n

p X q X

[nij (xi − x )(yj − y)]

i=1 j =1

Bivari´ e

Introduction

Univari´ e

Notion de covariance

La covariance est positive quand la relation entre X et Y est positive négative quand la relation est négative si X et Y sont linéairement indépendantes alors Cov (X ,Y ) = 0 l’inverse n’est pas vrai : Cov (X ,Y ) = 0 n’⇒ pas absence de lien entre X et Y

Bivari´ e

Introduction

Covariance : exemple

cov (x ,y) = 1,45

Univari´ e

Bivari´ e

Introduction

Covariance : exemple

cov (x ,y) = −1,20

Univari´ e

Bivari´ e

Introduction

Univari´ e

Coefficient de corrélation linéaire

Le degré de liaison linéaire entre X et Y est étudié par le coefficient de corrélation linéaire noté r. r=

cov (x ,y) sx sy

encore noté rxy ou r (x ,y) • Le coefficient de corrélation est compris entre -1 et +1. • si r = 1 ou si r = −1, x et y sont parfaitement corrélés et les points sont alignés sur une droite.

Bivari´ e

Introduction

Univari´ e

Coefficient de corrélation linéaire

• Si les variables X et Y sont linéairement indépendantes alors r = 0. • Si le coefficient de corrélation r = 0 et que les variables X et Y suivent une loi normale, alors elles sont linéairement indépendantes. • mais si r = 0 cela n’implique pas l’absence de relation entre x et y → si f (x ) = x 2 : relation, mais non linéaire et r = 0.

Bivari´ e

Introduction

Univari´ e

Diagramme de dispersion ou de corrélation

C’est le diagramme qui représente les couples de point (xi ,yj ). Il permet d’apprécier la liaison pouvant exister entre X et Y

Bivari´ e

Introduction

Corrélation : exemples

r = 0,762

Univari´ e

Bivari´ e

Introduction


r = −0,456

Univari´ e

Bivari´ e

Introduction


Univari´ e

Bivari´ e

Introduction

Univari´ e


Remarques : • si les points sont alignés sur une droite ascendante : r = 1 • et vice-versa si r = 1 ou si r = −1 les points sont alignés sur une droite • mais situation rarissime dans le monde bio-médical • coefficient de détermination : r 2 • r 2 : part de variabilité de y induite par x (en supposant relation directionnelle de x à y)

Bivari´ e

Introduction

Univari´ e

Indépendance statistique

On peut montrer que x et y sont statistiquement indépendants lorsque les distributions conditionnelles en y conditionnées par les valeurs xi de x sont identiques quel que soit l’indice i . fij = fi. · f.j Théorème Deux variables conjointes X et Y sont indépendantes si les fréquences par classe sont égales au produits des fréquences marginales.

Bivari´ e

Introduction

Univari´ e

Corrélation : exemple

Quelques exemples (ex. maternités) : • corrélation gestité - parité : r = 0.821 • corrélation gestité - IMC : r = 0.120 • corrélation parité - IMC : r = 0.145 • corrélation durée du travail - durée efforts expulsifs : r = 0.420 • corrélation poids de naissance - pH au scalp : r = −0.007 • corrélation durée gestation - hauteur utérine : r = 0.142

Bivari´ e

Introduction

Univari´ e

Notion de droite de régression

Une distribution conjointe peut être obtenue de deux manières : • le couple de valeur (x , y) est recueilli pour chaque individu puis enregistré. Dans ce cas les valeurs prises par X et Y dépendent uniquement de l’individu, on dit que ces valeurs sont aléatoires.

Bivari´ e

Introduction

Univari´ e


Une distribution conjointe peut être obtenue de deux manières : • le couple de valeur (x , y) est recueilli pour chaque individu puis enregistré. Dans ce cas les valeurs prises par X et Y dépendent uniquement de l’individu, on dit que ces valeurs sont aléatoires. • le couple de valeur (x , y) est recueilli lors d’une expérience dans laquelle on fixe (on contrˆ ole) les valeurs de x et l’on recueille la valeur de y ⇒ X est contrˆ olé et Y est aléatoire.

Bivari´ e

Introduction

Univari´ e


Exemples de variables de type contrˆ olées ou aléatoires : Effort développé - tension artérielle : Variable contrôlée variable aléatoire Masse de sucre absorbée - glycémie : V. contrôlée - V. aléatoire Poids - Age : Variable aléatoire - variable aléatoire • L’analyse du tableau de corrélation ne sera pas la même dans les deux situations. .../...

Bivari´ e

Introduction

Univari´ e


.../... (Exemples de variables de type contrˆ olées ou aléatoires) • Dans le cas X et Y aléatoires, le coefficient de corrélation linéaire recherche la liaison entre X et Y • description de la liaison mais mais pas de preuve de la relation de cause à effet de x sur y

Bivari´ e

Introduction

Univari´ e


Lorsque Y est aléatoire et X contrˆ olé : situation explicative des valeurs prises par Y en fonction des valeurs prises par X • tend à prouver la relation de cause à effet entre x et y • la liaison entre X et Y sera obtenue par la détermination de la droite de régression. • la droite qui passe au mieux dans le nuage de points sera obtenue à l’aide du (( critère des moindres carrés ))

Bivari´ e

Introduction

Univari´ e


→ diagramme de dispersion des couples de valeurs (xi , yi ), avec xi en abscisse et yi en ordonnée. • chercher la droite d’équation yd = (a · x + b) telle que la somme des carrés des distances Di entre les points yi expérimentaux et les points yd,i = (a · xi + b) de la droite des moindres carrés à l’abscisse xi soit minimum.

Bivari´ e

Introduction


Univari´ e

Bivari´ e

Introduction

Univari´ e


• A partir des N couples de valeurs (xi , yi ) et d’une droite encore inconnue yd = a · x + b → calculer n distances

Di = yi − yd ,i = yi − (a · xi + b) • les inconnues sont les valeurs a et b, les autres grandeurs sont connues.

Bivari´ e

Introduction

Univari´ e


On obtient a et b en minimisant la somme suivante (méthode des moindres carrés) :

S=

n X i =1

Di2

=

n X i =1

(yi − a · xi − b)2

Bivari´ e

Introduction

Univari´ e

Notion de droite de régression on obtient y = ax + b : la droite passe par le point (x ,y). • puis on obtient : a = pente de la droite =

a=

cov (X ,Y ) σX2

Puis on obtient b à partir de

b = y − ax .

Bivari´ e

Introduction

Univari´ e


Remarque 1 : Lorsque Y est la variable contrˆ olée et X est la variable aléatoire, on peut effectuer les mêmes développements en permutant X et Y . La droite de régression de Y en X est en générale différente de la droite de régression de X en Y . Remarque 2 : Lorsque X et Y sont indépendants, la droite de régression de Y en X est une droite parallèle à l’axe des X et la droite de régression de X en Y est parallèle à l’axe des Y .

Bivari´ e

Introduction

Univari´ e


x = 1,2,3,4,5,6,7,8,9,10 y = 2.1 4.3 5.1 8.5 10.3 11.5 13.5 17.3 17.9 20.5 cov (x ,y) = 18.78 var (x ) = σ ˆ 2 = 9.166 a = cov (x ,y)/var (x ) = 2.048 b = −0.167 x = 5,5 y = 11,1

Bivari´ e

Introduction

Univari´ e

Bivari´ e

La citation du jour

(( Car le médecin étant un compendium des erreurs successives et contradictoires des médecins, en appelant à soi les meilleurs d’entre eux on a une grande chance d’implorer une vérité qui sera reconnue fausse quelques années plus tard. De sorte que croire à la médecine serait la suprême folie, si n’y pas croire n’en était pas une plus grande, car de cet amoncellement d’erreurs se sont dégagées à la longue quelques vérités. )) M. Proust Le Cˆ oté de Guermantes

Statistique descriptive

Recommend Documents