Econométrie des variables qualitatives

Voici les résultats de l'estimation avec STATA, la commande vce affichant la ... Pourquoi a-t-on divisé le carré de l'âge par 100 pour effectuer la ...

57 downloads 457 Views 149KB Size
Econométrie des variables qualitatives Examen - 23 mai 2003 (2h sans documents) Exercice 1 On estime un modèle PROBIT pour expliquer la variable dichotomique “avoir des enfants” (ENF ! 1 ou 0) sachant le diplôme de l’individu (DIPL ! 1 si diplôme inférieur au bac, ! 2 si niveau bac,! 3 si diplôme supérieur au bac), son âge (AGE) et son âge au carré divisé par 100 2 (AGE2 ! AGE ). Voici les résultats de l’estimation avec STATA, la commande vce affichant la matrice 100 de variance-covariance des paramètres estimés. L’échantillon ne contient que des personnes d’âge compris entre 20 et 60 ans. Les variables _Idipl_1, _Idipl_2, _Idipl_3 résultent de la dichotomisation de la variable DIPL. . xi: probit enf i.dipl age age2 i.dipl _Idipl_1-3 Iteration Iteration Iteration Iteration

0: 1: 2: 3:

log log log log

likelihood likelihood likelihood likelihood

Probit estimates

Log likelihood = -17369.568

= = = =

(naturally coded; _Idipl_1 omitted) -18636.845 -17371.858 -17369.568 -17369.568 Number of obs LR chi2(4) Prob > chi2 Pseudo R2

= = = =

28922 2534.55 0.0000 0.0680

-----------------------------------------------------------------------------enf | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------_Idipl_2 | -.1324138 .0236364 -5.60 0.000 -.1787404 -.0860873 _Idipl_3 | -.2885005 .018667 -15.46 0.000 -.325087 -.2519139 age | .2996346 .006378 46.98 0.000 .2871339 .3121352 age2 | -.3834785 .0080627 -47.56 0.000 -.3992812 -.3676758 _cons | -4.966942 .1199125 -41.42 0.000 -5.201966 -4.731918 -----------------------------------------------------------------------------. vce | _Idipl_2 _Idipl_3 age age2 _cons -------------+--------------------------------------------_Idipl_2 | .000559 _Idipl_3 | .000104 .000348 age | 5.3e-06 -4.8e-06 .000041 age2 | -3.7e-06 7.8e-06 -.000051 .000065 _cons | -.000248 -.000041 -.000755 .000932 .014379

1. Pourquoi l’estimation de ce modèle PROBIT fournit-il un modèle statistique de la fécondité ? (Dites ce qu’estime un modèle PROBIT et faites le lien avec la notion démographique de fécondité. Quelques lignes suffisent!) 2. Pourquoi a-t-on divisé le carré de l’âge par 100 pour effectuer la régression? 3. Diriez-vous que la fécondité diminue avec le diplôme ? 4. Comment testeriez-vous que le paramètre de la variable _Idipl_3 est significativement différent du paramètre de la variable _Idipl_2 ? 5. Quel est l’effet de l’âge sur la fécondité ? A quel âge, toutes choses égales d’ailleurs, le modèle estime-t-il maximale la probabilité d’avoir un enfant? 6. Calculer à l’aide de la matrice variance-covariance un estimateur de l’écart-type de cette estimation. Vous pourrez utiliser le résultat numérique suivant: 2 1 41 ! 102 0. 29963 " 65 0. 2996 4 ! 1. 675 # 10 !2 ; 10. 903 ! 0. 129. 2 400 0. 3835 0. 3835 0. 3835

Exercice 2 On construit maintenant la variable NENF qui vaut 0, 1, 2, 3 ou 4 si le nombre d’enfants dans le ménage est égal à 0, 1, 2, 3 ou plus de 4 enfants. On estime ensuite un modèle PROBIT ordonné à seuils inconnus : NENF i ! k " !0, 1, 2, 3, 4" si s k $ x %i b " u i # s k"1 , avec u i $ N#0, ! 2 $, s 0 ! 0 et s 5 ! "%. Voici les résultats d’estimation obtenus à l’aide de STATA (les paramètres _cut1, ..., _cut4 dénotent les seuils s 1 , ..., s 4 du modèle): . xi: oprobit nenf i.dipl age age2 i.dipl _Idipl_1-3 Iteration 0: Iteration 1: Iteration 2:

(naturally coded; _Idipl_1 omitted)

log likelihood = -40356.058 log likelihood = -39014.837 log likelihood = -39013.178

Ordered probit estimates

Log likelihood = -39013.178

Number of obs LR chi2(4) Prob > chi2 Pseudo R2

= = = =

28922 2685.76 0.0000 0.0333

-----------------------------------------------------------------------------nenf | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------_Idipl_2 | -.1145041 .0194437 -5.89 0.000 -.1526129 -.0763952 _Idipl_3 | -.2033115 .0155256 -13.10 0.000 -.2337412 -.1728817 age | .26945 .0054888 49.09 0.000 .2586921 .280208 age2 | -.3453101 .006959 -49.62 0.000 -.3589496 -.3316706 -------------+---------------------------------------------------------------_cut1 | 4.436445 .1032947 (Ancillary parameters) _cut2 | 5.178941 .1041345 _cut3 | 6.082835 .1050567 _cut4 | 6.83505 .1058442 -----------------------------------------------------------------------------. vce | _Idipl_2 _Idipl_3 age age2 _cut1 _cut2 _cut3 -------------+--------------------------------------------------------------_Idipl_2 | .000378 _Idipl_3 | .000066 .000241 age | 3.9e-06 -1.9e-06 .00003 age2 | -3.1e-06 3.3e-06 -.000038 .000048 _cut1 | .000168 .000047 .000559 -.000692 .01067 _cut2 | .000167 .000043 .000564 -.000698 .010729 .010844 _cut3 | .000165 .000041 .000569 -.000704 .010794 .010898 .011037 _cut4 | .000162 .000039 .000569 -.000705 .010803 .010903 .011025 | _cut4 -------------+--------_cut4 | .011203

1. Vous observez que le programme n’estime ni la constante de la régression, ni la variance ! 2 . Pourquoi? 2. Les paramètres estimés par le modèle PROBIT ordonné sont proches de ceux estimés par le modèle PROBIT simple. Pourquoi? En déduire que la constante du modèle PROBIT est égale à l’opposé du seuil s 1 #! _cut1$. 3. Quelle est la probabilité estimée d’avoir 3 enfants pour un ménage de diplôme inférieur au bac et de 35 ans (posez le calcul; ne le faites pas sans ordinateur!). 4. Calculer théoriquement le nombre d’enfants prédit par le modèle pour un ménage de caractéristiques quelconques.

Exercice 3 Un couple de personnes en ménage est propriétaire de son logement s’il est assez riche. Soient X 1 et X 2 leurs revenus respectifs. On suppose que les revenus des deux conjoints sont en réalité corrélés (par un phénomène d’endogamie bien connu) et que X1

$N

X2

m1

,

m2

1. Calculer Pr!X 1 " X 2 & s|X 2 ! x 2 ". Note: je rappelle que X 1 |X 2 ! x 2 $ N#m 1 " 2. Calculer Pr!X 1 " X 2 & s".

"! 1 !2

! 21

"! 1 ! 2

"! 1 ! 2

! 22

.

#x 2 ! m 2 $, #1 ! " 2 $! 21 $.

Exercice 4 Soit une variable aléatoire X $ N#m, ! 2 $. Soit a un réel positif. 1. Montrer sans calcul que E#X|X 2 & a$ ! 0 si m ! 0. 2. Montrer ensuite en toute généralité que E#X|X & a$ ! m " !

#

2

pour un seuil a & 0 quelconque.

!

a !m ! ! a !m !

!#

! a !m !

"1!!

a !m !

Corrigé

1

Exercice 1

On estime un modèle PROBIT pour expliquer la probabilité d’avoir des enfants (ENF = 1 ou 0) sachant le diplôme du chef du ménage (DIP L = 1 si diplôme inférieur au bac, = 2 si niveau bac,= 3 si diplôme supérieur au bac), l’âge (AGE), l’âge au carré (AGE2 = AGE 2 /100). Voici les résultats de l’estimation (la commande vce de STATA affiche la matrice de variancecovariance des paramètres estimés. . xi: probit enf i.dipl age age2 i.dipl _Idipl_1-3 Iteration Iteration Iteration Iteration

0: 1: 2: 3:

log log log log

likelihood likelihood likelihood likelihood

= = = =

(naturally coded; _Idipl_1 omitted)

-18636.845 -17371.858 -17369.568 -17369.568

Probit estimates

Number of obs LR chi2(4) Prob > chi2 Pseudo R2

Log likelihood = -17369.568

= = = =

28922 2534.55 0.0000 0.0680

-----------------------------------------------------------------------------enf | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------_Idipl_2 | -.1324138 .0236364 -5.60 0.000 -.1787404 -.0860873 _Idipl_3 | -.2885005 .018667 -15.46 0.000 -.325087 -.2519139 age | .2996346 .006378 46.98 0.000 .2871339 .3121352 age2 | -.3834785 .0080627 -47.56 0.000 -.3992812 -.3676758 _cons | -4.966942 .1199125 -41.42 0.000 -5.201966 -4.731918 -----------------------------------------------------------------------------. vce | _Idipl_2 _Idipl_3 age age2 _cons -------------+--------------------------------------------_Idipl_2 | .000559 _Idipl_3 | .000104 .000348 age | 5.3e-06 -4.8e-06 .000041 age2 | -3.7e-06 7.8e-06 -.000051 .000065 _cons | -.000248 -.000041 -.000755 .000932 .014379

1. Pourquoi l’estimation de ce modèle PROBIT fournit-il un modèle statistique de la fécondité ? (Dites ce qu’estime un modèle PROBIT et faites le lien avec la notion démographique de fécondité.) Un modèle dichotomique permet de décrire comment la probabilité d’un évènement change avec les caractéristiques socio-démographiques des individus. L’étude de la fécondité est justement l’étude socio-démographique de la propension à avoir des enfants.

1

2. Pourquoi a-t-on divisé le carré de l’âge par 100 pour effectuer la régression? Pour augmenter l’ordre de grandeur du paramètre de la régression correpondant d’un facteur 100. 3. Diriez-vous que la fécondité diminue avec le diplôme ? Oui puisque le paramètre de la variable _Idipl_2 = (dipl == 2) est négatif et que la différence du paramètre de _Idipl_3 et de celui de _Idipl_2 est aussi négatif. Avoir le bac réduit donc les chances d’avoir des enfants et avoir un diplôme du supérieur les réduit encore plus. 4. Comment testeriez-vous que le paramètre de la variable _Idipl_3 est signiÞcativement différent du paramètre de la variable _Idipl_2 ? b3 et bb2 Soit b3 le paramètre associé à _Idipl_3 et soit b2 celui associé à _Idipl_2, et b leurs estimations. On estime b3 − b2 comme bb3 − bb2 = −(0.2885 − 0.1324) = −0.1561 et ´ ´ ³ ³ = Vbb3 + Vbb2 − 2 Cov b V bb3 − bb2 b3 , bb2 ¡ ¢2 = (348 + 559 − 2 × 104) × 10−6 = 699 × 10−6 = 2.6434 × 10−2 −0.1561 La statistique de Student du test de l’hypothèse b3 −b2 = 0 est donc 2.6434×10 −2 = −5.9053. Elle est largement supérieure à 2. On rejette donc l’hypothèse nulle au seuil de 5%.

5. Quel est l’effet de l’âge sur la fécondité ? A quel âge, toutes choses égales d’ailleurs, le modèle estime-t-il maximale la probabilité d’avoir un enfant? 2 0 Calculons la dérivée de la fonction: f(AGE) = 0.2996AGE − 0.3834 AGE 100 . f (AGE) = AGE 0.2996×100 0 0.2996 − 2 × 0.3834 100 . On a f (AGE) > 0 pour tout AGE ≤ 2×0.3834 = 39.0. Les chances d’avoir des enfants croissent donc jusqu’à l’âge de 39 ans et décroissent ensuite. 6. Calculer à l’aide de la matrice variance-covariance un estimateur de l’écart-type de cette estimation. Vous pourrez utiliser le résultat numérique suivant: ¶ µ √ 1 0.2996 0.29962 41 = 1. 675 × 10−2 ; − 102 + 65 10.903 = 0.129. 2 3 4 400 0.3835 0.3835 0.3835 2

Notons a ³le coefficient de l’âge et b celui de AGE 100 . L’estimateur de l’âge optimal est ´ c = 100 × − bab . Sa variance asymptotique est b 2b

´ ´ ³ ³ a b b a ¶ µ µ ¶ ∂ − b b a ∂ − 2bb b a 104 × V − = 104 × ³ 2b´ V b µ ¶ b b a 2bb ∂ b a, bb ∂ b b ¶µ ¶Ã 1 ! µ −6 −6 − b b a 1 41 × 10 −51 × 10 2b = 104 × − , b a −6 −6 2 −51 × 10 65 × 10 2bb 2bb 2bb2 ¶ µ −2 2 10 b a b a 41 = + 2 × 51 × + 65 × bb2 bb3 bb4 4 ¶ µ 0.2996 0.29962 41 1 . − 102 + 65 = 400 0.38352 0.38353 0.38354 2

2

Exercice 2

On construit maintenant la variable NENF qui vaut 0, 1, 2, 3 ou 4 si le nombre d’enfants dans le ménage est égal à 0, 1, 2, 3 ou plus de 4 enfants. On estime ensuite un modèle PROBIT ordonné à seuils inconnus : NENFi = k ∈ {0, 1, 2, 3, 4} si sk < x0i b + ui ≤ sk+1 , ¢ ¡ avec ui ∼ N 0, σ2 , s0 = 0 et s5 = +∞.

Voici les résultats d’estimation obtenus à l’aide de STATA (les paramètres _cut1, ..., _cut4 dénotent les seuils s1 , ..., s4 du modèle): . xi: oprobit nenf i.dipl age age2 i.dipl _Idipl_1-3 Iteration 0: Iteration 1: Iteration 2:

(naturally coded; _Idipl_1 omitted)

log likelihood = -40356.058 log likelihood = -39014.837 log likelihood = -39013.178

Ordered probit estimates

Number of obs LR chi2(4) Prob > chi2 Pseudo R2

Log likelihood = -39013.178

= = = =

28922 2685.76 0.0000 0.0333

-----------------------------------------------------------------------------nenf | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------_Idipl_2 | -.1145041 .0194437 -5.89 0.000 -.1526129 -.0763952 _Idipl_3 | -.2033115 .0155256 -13.10 0.000 -.2337412 -.1728817 age | .26945 .0054888 49.09 0.000 .2586921 .280208 age2 | -.3453101 .006959 -49.62 0.000 -.3589496 -.3316706 -------------+---------------------------------------------------------------_cut1 | 4.436445 .1032947 (Ancillary parameters) _cut2 | 5.178941 .1041345 _cut3 | 6.082835 .1050567 _cut4 | 6.83505 .1058442 -----------------------------------------------------------------------------. vce | _Idipl_2 _Idipl_3 age age2 _cut1 _cut2 _cut3 -------------+--------------------------------------------------------------_Idipl_2 | .000378 _Idipl_3 | .000066 .000241 age | 3.9e-06 -1.9e-06 .00003 age2 | -3.1e-06 3.3e-06 -.000038 .000048 _cut1 | .000168 .000047 .000559 -.000692 .01067 _cut2 | .000167 .000043 .000564 -.000698 .010729 .010844 _cut3 | .000165 .000041 .000569 -.000704 .010794 .010898 .011037 _cut4 | .000162 .000039 .000569 -.000705 .010803 .010903 .011025 | _cut4 -------------+--------_cut4 | .011203

1. Vous observez que le programme n’estime ni la constante de la régression, ni la variance σ2 . Pourquoi? 3

Parce que le modèle PROBIT ordonné avec seuils inconnus ne permet d’identiÞer la variable latente qu’à une translation et une homothétie près. L’usage le plus courant est alors de poser la constante dans l’espérance égale à 0 et la variance égale à 1. 2. Les paramètres estimés par le modèle PROBIT ordonné sont proches de ceux estimés par le modèle PROBIT simple. Pourquoi? Montrer que la constante du modèle PROBIT est égale à l’opposé du seuil s1 (= _cut1). Parce que Pr {ENFi = 1|xi } = = = =

1 − Pr {NENFi = 0|x} © ª 1 − Pr x0 b + ui ≤ s1 ¡ ¢ 1 − Φ s1 − x0i b ¢ ¡ Φ x0i b − s1

On voit au passage que la constante du modèle PROBIT est égale à l’opposé du seuil s1 (= _cut1). 3. Quelle est la probabilité estimée d’avoir 3 enfants pour un ménage de diplôme inférieur au bac et de 35 ans (posez le calcul; ne le faites pas sans ordinateur!). 2 On a x0i b = 0.2695 × 35 − 0.3453 × 35 100 = 5.2026 et ª ¡ ¢ ¡ ¢ © = Φ s4 − x0i b − Φ s3 − x0i b Pr s3 < x0i b + ui ≤ s4 = Φ (6.8351 − 5.2026) − Φ (6.0829 − 5.2026) = 0.9487 − 0.8107 = 0.138. 4. Calculer théoriquement le nombre d’enfants prédit par le modèle pour un ménage de caractéristiques quelconques. On a E (NENF |x) = =

4 X k=0 4 X k=0

3

k Pr (NENF = k|x) £ ¡ ¢ ¡ ¢¤ k Φ sk+1 − x0i b − Φ sk − x0i b .

Exercice 3

Un couple de personnes en ménage est propriétaire de son logement s’il est assez riche. Soient X1 et X2 leurs revenus respectifs. On suppose que les revenus des deux conjoints sont en réalité corrélés (par un phénomène d’endogamie bien connu) et que µ ¶ µµ ¶ µ ¶¶ X1 m1 σ21 ρσ1 σ2 ∼N , . X2 m2 ρσ1 σ 2 σ22 1. Calculer Pr {X1 + X2 > s|X2 = x³2 } Je rappelle que X1 |X2 = x2 ∼ N m1 +

ρσ 1 σ2

4

¢ ´ ¡ (x2 − m2 ) , 1 − ρ2 σ 21 .

On a Pr {X1 + X2 > s|X2 = x2 } = Pr {X1 > s − x2 |X2 = x2 } Ã ! 1 s − x2 − m1 − ρσ σ2 (x2 − m2 ) p = 1−Φ . 1 − ρ2 σ 1

4

2. Calculer Pr {X1 + X2 > s} . ¡ ¢ La loi de la variable X1 + X2 est N m1 + m2 , σ21 + σ22 + 2ρσ1 σ2 . D’où Ã ! s − m1 − m2 Pr {X1 + X2 > s} = 1 − Φ p 2 . σ1 + σ 22 + 2ρσ1 σ2

Exercice 4

¡ ¢ Soit une variable aléatoire X ∼ N m, σ2 . Soit a un réel positif.

¢ ¡ 1. Montrer sans calcul que E X|X 2 > a = 0 si m = 0. La loi normale étant symétrique par rapport à la moyenne, la loi de X sachant un conditionnement symétrique par rapport à la moyenne respecte la symétrie et son espérance est la même que celle de la loi non conditionnelle. 2. Montrer ensuite en toute généralité que ¢ ¡ E X|X 2 > a = m + σ

Φ

φ ³

´ √ − a−m σ ´ ³√ ´ √ − a−m a−m + 1 − Φ σ σ ³√

a−m σ

´

−φ

³

pour un seuil a > 0 quelconque. Posons X = m + σu avec u ∼ N (0, 1). On a ¢ ¡ ¡ √ √ ¢ E X|X 2 > a = E m + σu|m + σu > a ou m + σu < − a µ ¶ √ √ a−m − a−m = m + σE u|u > ou u < σ σ Z +∞ Z −√a−m σ uφ(u)du + √ uφ(u)du a−m −∞ σ ´ ³√ ´ ³ √ = m+σ Φ − σa−m + 1 − Φ a−m σ √ − a−m σ

√ [−φ(u)]−∞ + [−φ(u)]+∞ a−m ´ ³√ σ ´ = m+σ ³ √ Φ − σa−m + 1 − Φ a−m σ ³√ ´ ³ √ ´ a−m − a−m φ − φ σ σ ´ ³√ ´. = m+σ ³ √ − a−m a−m + 1 − Φ Φ σ σ

5