Équations Structurelles : Le mariage de la psychométrie et de l’économétrie Jean-Louis Chandon Matinale INSEEC - RITME 24 Mars 2016
Une méthode utilisés dans de nombreux domaines scientifiques • • • • •
Psychologie Sociologie Ressources Humaines Marketing Généralisant la régression multiple, les analyses de la variance et les analyses factorielles
6 apports des équations structurelles 1. 2. 3. 4. 5. 6.
Estimer simultanément plusieurs relations Incorporer les erreurs de mesure Introduire les variables latentes Introduire des variables médiatrices Introduire des variables modératrices Évaluer globalement et localement un modèle 7. Exemple
Les analyses suivantes sont des cas particuliers des équations structurelles • Analyses factorielles exploratoires et confirmatoires • Analyses de régression • Anova, Anacova, Manova, Manacova • Path analysis • Analyse canonique • Modèles de croissance Les équations structurelles (SEM) sont une méthode très générale et très flexible
Distinction PLS vs FIML • PLS (Partial Least Square) On peut utiliser les moindres carrés partiels pour estimer des équations structurelles Les principales différences avec la méthode d’estimation classique FIML (Full Information Maximum Likelihhod) sont : • FIML utilise toutes les informations contenues dans la matrice des variances covariance entre les variables observées. • PLS utilise uniquement les informations nécessaires à l’estimation d’un modèle • PLS produit des estimateurs biaisés.
Un simple modèle
Les règles du jeu • • • •
Des rectangles : les mesures (observées) Des ovales : les concepts latents (postulés) Des cercles : les erreurs de mesure Des flèches qui ont un sens – Des concepts vers les mesures (le concept se reflète dans ses mesures) – Entre les concepts (selon la théorie proposée) Des flèches à double sens (corrélations entre concepts)
On révise
Variable latente • Une variable latente est un construit abstrait, non directement observable, qui nécessite de disposer de plusieurs indicateurs pour le mesurer • Exemple : l’intelligence, la satisfaction, l’attachement, l’engagement, la personnalité, etc. • Modéliser un construit par une variable latente, c’est reconnaître la nécessité de plusieurs indicateurs et l’existence d’erreurs de mesure • La relation entre le construit et ses indicateurs peut être réflexive ou formative.
Réflexif vs Formatif
11
Comment choisir ? Critères conceptuels de différenciation des construits: Sens de causalité
Interchangeabilité indicateurs/items
Covariance entre les indicateurs Réseau nomologique
Modèle réflexif
Modèle formatif
Du construit vers les indicateurs
Des indicateurs vers le construit
Si suppression d’1 indicateur => Pas d’ altération du domaine conceptuel du construit Indicateurs nécessairement interchangeables
Si suppression d’1 indicateur => altération du domaine conceptuel du construit Indicateurs pas nécessairement interchangeables
Nécessaire
Pas Nécessaire
Ne doit pas différer
Peut différer
12
Les 7 étapes
Le processus Le chercheur spécifie un modèle basé sur la théorie à valider, puis il choisit des mesures pour les construits, collecte des données et examine, au moyen d’un logiciel SEM, la qualité de l’ajustement entre la matrice des covariance observée S et la matrice des covariance ∑ basée sur les restrictions imposées par le modèle.
Le processus Le chercheur spécifie un modèle basé sur la théorie à valider, puis il choisis des mesures pour les construits, collecte des données et examine, au moyen d’un logiciel SEM, la qualité de l’ajustement entre la matrice des covariance observée et la matrice des covariance basées sur les restrictions imposées par le modèle.
Measures
Fit ?
Qualité de l’ajustement (Fit) maximum de vraisemblance (ML)
Moindre carrés généralisés (GLS)
Conventions graphiques • Les ovales représentent les variables latentes ou les erreurs de mesure • Les rectangles représentent les variables observées • Les corrélations et covariances sont représentées par des flèches bidirectionnelles courbées • Les flèches simples représentent la direction de la causalité • Les flèches qui portent le poids 1 fixent l’échelle de mesure
Un mini cas
Isolons le modèle de mesure
Le modèle de mesure
Que remarquez-vous ?
Derrière les flèches, les équations du modèle de mesure
Le modèle structurel 13
23
L3 = α3 + 13*L1 + 23*L2 + ε8
Le modèle complet 7 mesures
7 erreurs de mesures
3 concepts latents
Une erreur de prévision
Combien de paramètres à estimer ? 1 13
1
23 1
17
Faisons les comptes • 7 mesures observées : Amabilité, Compétence, Mieux, Facile, Bao, CAP, ADV. • 11 variables latentes dont 7 erreurs de mesure, 3 concepts (2 exogènes et 1 endogène), 1 erreur de prévision. • 17 paramètres à estimer dont quatre lambda et 2 Bêta, 10 variances (dont 8 d’erreurs et 2 pour les concepts exogènes) et une covariance • 28 (7*8/2) observations dans la matrice de covariance moins 17 paramètres à estimer, il reste 11 degrés de liberté.
Peut-on estimer séparément le modèle de mesure et le modèle complet ? • Oui, c’est recommandé. • L’ajustement du modèle complet est nécessairement inférieur à celui du modèle de mesure. • En cas de mauvais ajustement, il convient d’examiner d’abord le modèle de mesure. • Le modèle de mesure n’est autre que celui d’une analyse factorielle oblique. • SEM = mariage de la Psychométrie et de l’Econométrie • La psychométrie traite les erreurs de mesure mais sans model de causalité. • L’économétrie modélise mais sans tenir compte des erreurs de mesure
Conditions d’utilisation • • • • • •
Entre 5 et 15 observations par variable Continuité et Multi normalité Absence de valeurs extrêmes Identification Taille d’échantillon minimum = 200 Davantage si les 3 premières conditions ne sont pas remplies • Pour des variables ordinales, utilisez STATA, MPLUS ou AMOS sur corrélations polychoriques
Que faire si les conditions d’applications ne sont pas remplies ? • Continuité ? Au moins 5 niveaux sinon utiliser MPLUS, si pas disponible, calculer d’abords les corrélations polychoriques avec STATA, SEMPLIS ou FACTOR 9,2 • Normalité ? Test du kurtosis généralisé de Mardia < 3. Le modèle a plus de chance d’être rejeté en cas de non normalité. Essayer estimation par GLS ? Non. Conserver ML ? Oui ou utiliser ADF si N>1000 ou encore « Robust Adjusted X² » dans EQS ou encore Bootstrap pour calculer le seuil de risque dans AMOS et STATA. • Identification ? Il faut plus d’équations que de paramètres à estimer, donc DL>0. AMOS, STATA, LISREL réalisent des test d’identification et détectent la plupart des cas de non identification. Il faut alors re-spécifier le modèle.
Exemple de sous identification • Nb de paramètres à estimer ? contribution de F1 à I2 + Variance de F1 + Variances de e1 et e2 = 4 • Observations disponibles ? Variance I1, I2, Cov(I1,I2) = 3 • Conclusion ? Non identifié, donc il faut au moins 3 indicatrices si une seule variable latente
Identifié ou pas identifié ?
Identifié ou pas identifié ? Observations disponibles ? 4*5/2 = 10 Nb de paramètres à estimer 4 variances d’erreur + 2 variances pour F1 et F2 + 2 contributions factorielles F1=>I2 et F2=>I4 + 1 covariance entre F1 et F2 = 9 paramètres à estimer Le modèle est ?
Identifié ou pas identifié ?
Identifié
Observations disponibles ? 4*5/2 = 10 Nb de paramètres à estimer 4 variances d’erreur + 2 variances pour F1 et F2 + 2 contributions factorielles F1=>I2 et F2=>I4 + 1 covariance entre F1 et F2 = 9 paramètres à estimer Le modèle est identifié
Valeurs manquantes • • • •
Listwise ? NO Pairwise ? NO Mean substitution ? NO Amos, STATA use maximum likelihood to estimate SEM with missing data • On peut aussi estimer les valeurs manquantes avant de lancer AMOS avec module MVA de SPSS ou syntaxe Hot Deck
Estimations aberrantes • Variances négatives ou nulles • Coefficient standardisés supérieur à 1 • Causes : – Erreurs de spécification – Échantillon trop faible – Pas assez d’indicateurs par variable latente – Présence de valeurs extrêmes – Non normalité – Multi collinéarité excessive
SEM = Causal Model? • Un modèle d’équations structurelles ne peut jamais être accepté. • Il peut tout juste ne pas être refusé par les données • Des modèles équivalents peuvent exister • Avoir un ou deux modèles concurrents est une bonne stratégie de recherche, spécialement si ces modèles sont enchâssés les uns dans les autres • La causalité est spécifié par la théorie. Un bon ajustement d’un modèle ne prouve pas la causalité.
Régression Multiple
Limites du modèle de régression • Une seule variable à expliquer • Pas de variables médiatrices ou modératrices • Chaque variable explicative est supposée mesurée sans erreur (rectangle) • La multicollinéarité entre les variables explicatives rend les estimations des paramètres instables • Les 3 premières limitations disparaissent avec les équations structurelles
Exemple marketing • L’ intention de rachat est mesurée par : – L’émission d’un bouche à oreille positif – Le consentement à payer – La consultation des annonces de la marque
• La satisfaction avec le vendeur est mesurées par : – La compétence du vendeur – L’amabilité du vendeur
• La satisfaction avec le produit est mesurée par : – La facilité d’utilisation – Une meilleure performance que le produit précédent
La satisfaction avec le vendeur et avec le produit expliquent l’intention de rachat
Qualité de l’ajustement • Pour chaque indice de qualité, on trouve trois lignes : • Default: c’est le modèle analysé • Saturated: autant de paramètres que d’informations disponibles, aucune restriction • Independence: n’estime que les variances mais aucune des relations
Qualité de l’ajustement : Les indices absolus • Le modèle (mesures + structure) reproduit-il les données ? • X², plus il est petit et mieux cela vaut. Si les données étaient produites par le modèle, la valeur attendue serait égale aux degrés de liberté. X² croit avec la taille de l’échantillon. Si l’hypothèse de multi normalité est violée, utiliser le X² est déconseillé. • P, seuil de risque. Si p>5% alors accepter le modèle. Mais X² croît avec la taille de l’échantillon et p diminue. Donc avec un gros échantillon X² refuse tous les modèles et avec un petit échantillon X² accepte tous les modèles
Qualité de l’ajustement : Les indices absolus suite • GFI, part de la variance totale expliquée par le modèle. Minimum acceptable = 0.9 Qualité > 0.95 • AGFI, ajusté par le rapport du nombre de variables aux degrés de liberté. Minimum acceptable = 0.9 qualité > 0.95 • RMR si matrice des corrélations, sinon SRMR, donne la moyenne quadratique des résidus < 0.08 • RMSEA, différence moyenne, par degré de liberté, dans la population. Acceptable < 0.08 qualité <0.05
Qualité de l’ajustement : Les indices incrémentaux • Comparent le modèle analysé au modèle indépendant (absence de relations structurelles) • TLI acceptable > 0.9; qualité > 0.95 mesure l’amélioration relative, par degré de liberté du modèle analysé par rapport au modèle indépendant CFI > 0.9; qualité > 0.95
Qualité de l’ajustement : Les indices de parcimonie • X² normé = X²/DL, le plus faible possible. Entre 1 et 3 modèle acceptable, entre 3 et 5 douteux, au delà de 5 rejeter le modèle (mais croit avec N) • Préférer Pclose > 0.05 acceptable, proche de 1 qualité • AIC = X²-2*DL • CAIC = X² - {ln(N+1)}DL • Les 2 derniers indices doivent être le plus petit possible et peuvent être utilisés pour comparer des modèles concurrents non hiérarchiques
Quels indices présenter ? • Rmsea, Pclose, CFI, Intervalle de confiance de Rmsea, Srmr. • Gerbing & Anderson (1981), Chin (2008) suggèrent de décomposer le fit global en deux parties : – Fit du modèle de mesure – Fit du modèle structurel
Merci pour votre attention!
Attitude vis-à-vis de l’agent virtuel 1 J'aime le personnage animé présent dans ce site 2 Le personnage animé m'a laissé une bonne impression 3 J'aime les personnes qui se comportent comme le personnage animé 4 J'ai une bonne impression d'une personne qui ressemble au personnage animé 11 Ce personnage animé me détend 12 Ce personnage animé est très divertissant 13 Le personnage animé me donne envie de venir en ligne et d'acheter 5 Le visage de ce personnage animé est attirant 6 La forme de ce personnage animé attire mon attention 7 La tenue vestimentaire de ce personnage animé attire mon attention 8 La forme de ce personnage animé me plaît 9 La tenue vestimentaire de ce personnage animé me plaît 10 Le personnage animé donne toujours l'impression qu'il est prêt à vous aider dans la navigation
.89 e7
AAVI1
.92 e6
.94
AAVI2
.63 e5
.96
AAVI3
.79
.53 e4
.73
AAVI4
.64 e3
.80 .78
AAVI11
.62 e2
F1
.73
AAVI12
.53 e1
AAVI13
.67 .57 e12
AAVI5
.54 e11
.76
AAVI6
.55 e10
.73
AAVI7
.74
.74 e9
AAVI8
.70 e8
AAVI9
.86 .84
F2
Quelle est la différence entre EFA et CFA? • •
L’analyse factorielle exploratoire (EFA) utilise les données pour estimer la structure factorielle sous jacente (nombre de dimensions et affectations des items aux dimensions). Dans l’analyse factorielle confirmatoire (CFA) le chercheur spécifie la structure factorielle sur la base d’une théorie, puis confronte cette structure avec les données pour savoir si la théorie peut être conservée ou doit être rejetée.
1 1 1 1 1
EFA
1 1 1 1 1
1 1 1 1 1
CFA 1 1 1 1 1
EFA et CFA se complètent • On peut commencer par une analyse exploratoire EFA sur un premier échantillon • Confronter le résultat et les théories existantes. • Tester la nouvelle théorie sur un second échantillon • La méthode ESEM (Exploratory Structural Equation Modeling) permet une EFA avec tous les tests d’une CFA
Path analysis (double médiation)
More Equivalent Models
PLSc Consistent PLS • PLSc provides as good a picture of the all-important structural parameters as FIML. • In addition, the unrestricted correlations allow proper estimation. • There are grounds to believe that a correct test-of-fit is well within reach. • The loadings are more difficult to estimate accurately, which gives FIML a definite advantage. • Consistent and asymptotically normal PLS estimators for linear structural equations by Theo K. Dijkstra a, Jörg Henseler, Computational Statistics and Data Analysis (2015) 10–23.
A simple model Model de mesure Modèle structurel
Historique des analyses factorielles
Charles Spearman
Louis Léon Thurstone
R.B. Cattel
B.O. Muthén