Méthodologie : régression logistique
Vous avez découvert avec la plus grande joie les régressions logistiques et les courbes de survie en nous lisant. C’est bien gentil de lire des quatre pages, mais ça ne vous suffit plus. Vous voulez savoir. Car, comme Petyr Baelish
proba décès : 4%
Oui, bon ok... Cette fois-ci notre modèle s'est planté en beauté. Mais est-ce de notre faute si Petyr Baelish est le seul mort parmi les 18 personnages apparaissant dans plus de 30 épisodes ? Non. C'est une exception statistique., vous pensez que le savoir c’est le pouvoir. Pour vous, cher lecteur curieux et quelque peu masochiste, nous avons rédigé un guide méthodologique. Il faudra vous accrocher à certains moments mais vous y arriverez. Nous en sommes convaincus. Prouvez au monde que vous aussi vous auriez pu être démographe. Lisez la méthodologie.
La mort frappe-t-elle au hasard ?
[Modèle] [Article]
Loup, Lion, Dragon : qui meurt le plus ?
[Modèle] [Article]
Série féministe ou misogyne ?
[Modèle] [Article]
Des corps « masculins et normaux » ?
[Modèle] [Article]
Une cohorte plus à l'abri ?
[Modèle] [Article]
Télécharger en PDF
Pour aller plus loin
Qualité de nos modèles
Mais quelle est la qualité des modèles d'où proviennent ces résultats ?
La qualité des modèles, nous vous en avons déjà parlé sous un angle théoriqueVous ne le saviez pas ? Vous souhaitez commencer par la théorie avant de vous lancer dans la pratique ? Alors cliquez !. Passons à l'application !
* CR : Conseil restreint
L'ordinateur trie nos personnages en deux groupes : ceux qui sont morts et ceux, plus chanceux, qui ne le sont pas. Il va ensuite créer des paires en prenant à chaque fois un personnage mort et un vivant. Il compare ensuite les risques de décéder (calculés par le modèle) de la paire
Si le risque de mourir calculé par le modèle est plus fort pour le personnage effectivement mort que pour celui qui est en vie, c’est bien ! Cela veut dire que le modèle n'a pas commis d'erreur. En effet, Ned Stark
proba décès :
100% a d'après le modèle « profil » une probabilité de décéder au cours de la série de 99,99% et Ned est mort (heureusement pour nos deux statisciens). À l'inverse, Brienne de Tarth
proba décès :
0% a une probabilité de décès au cours de la série de 0,08% (selon le modèle) et, ouf, elle a bien survécu. Ces résultats sont cohérents : Brienne la warrior a une probabilité de décès estimée a posteriori par le modèle plus faible que Ned le macchabée.
Alors c'est quoi une paire qui non concordante ? Bien malheureux, Romane et LucasPour en savoir plus sur vos deux serviteurs cliquez ! se mettent en quête d'une erreur générée par le modèle « profil » dont ils sont si fiers. Petyr Baelish
proba décès :
4% a par exemple une probabilité de décès calculée par le modèle de 3,66% et celui-ci est décédé. Sa probabilité de décès est par exemple moins élevée que celle de Cersei Lannister
proba décès :
11% avec qui il forme une paire non concordante (on rappelle pour les lecteurs perdus que Cersei est, à l'heure actuelle, vivante).
Pourquoi le modèle a-t-il fait une erreur aussi importante en attribuant une très faible probabilité à un personnage mort ? Comme 17 autres personnages, Petyr Baelish est apparu 30 épisodes. Parmi ces 18 personnages seul ce dernier est mort au cours de la série. La régression logistique avait attribué aux personnages apparus dans plus de 30 épisodes des risques de décès très faibles. Elle l'a fait à raison pour 17 d'entre eux et à tord pour Petyr, traître jusqu'au bout.
De telles erreurs sont quasi-inévitables et un modèle peut se tromper sur quelques individus. L'objectif du modèle reste de simplifier et de trouver, dans les grandes lignes ou pour la majorité des cas, les liens « purs » existants entre les caractérstiques et les risques de décéder. L'important est que le modèle se trompe un minimum et qu'il génère moins de 50% de paires non concordantes. Sinon autant attribuer des probabilités de décès au hasard !
Vous pouvez être plus tranquilles quant à la qualité des modèles proposés ici. En effet, pour tous nos modèles, la part de paire concordantes dépasse 74%. Elle atteint même 85% pour les modèles « corps » et « profil ».
Alors autant on peut expliquer concrètement ce que c’est qu’une paire concordante, autant là... On ne peut pas. Toujours est-il que l’on considère que la discrimination des deux populations (ici les personnages décédés et les personnages vivants) est :
- nulle si l’aire sous la courbe vaut 50%
- acceptable si elle appartient à [70% ; 80%[ ;
- excellente si elle appartient à [80% ; 90%[ ;
- exceptionnelle si elle est supérieure ou égale à 90%.
Pour une grande majorité de nos modèles (« corps », « profil » et trois des modèles d' « allégeance »), nous sommes dans le cas d'une discrimination excellente (entre 80 et 90%).
L'AICPour en savoir plus sur ce critère, cliquez ici d'un modèle a de sens seulement lorsqu'il est comparé à l'AIC du modèle nul (un modèle où les probabilités de décès sont calculées sans l'aide d'aucune variable). Un modèle de qualité est un modèle qui parvient à faire réduire l'AIC du modèle nul.
Les modèles que nous proposons sont tous de qualité tout à fait satisfaisante, vous pouvez continuer à lire nos articles sereinement.
Toutefois, certains sont meilleurs que d'autres et en particulier les modèles « profil » et « corps ». Ces deux modèles sont particulièrement perfomants et pourtant ils ne recourent pas du tout aux mêmes caractéristiques pour estimer les probabilités de décès (seule la caractéristique « combattant » est commune aux deux modèles). Game of Thrones est un univers riche et il existe de nombreux chemins pour expliquer l'extrême mortalité qui y sévit.
Pour aller plus loin dans la méthodologieAsfa, C. (2016). « Le modèle Logit Théorie et application ». In : Document de travail, INSEE. [En ligne] : https://www.insee.fr/fr/statistiques/fichier/2022139/Le-modele-Logit-CB.pdf [Consulté le 6 avril 2018]
Gillaizeau, F. et Grabar, S. (2011). « Modèles de régression multiple ». In : Sang Thrombose Vaisseaux, n°7. [En ligne] : http://docplayer.fr/49631088-Modeles-de-regression-multiple.html [Consulté le 6 avril 2018]
Janvier, B. (2001). « La significativité statistique ». [En ligne] : http://baptiste.janvier.free.fr/stats/pdf/proba.pdf. [Consulté le 13 avril 2018]
Dans nos articles, et dans ceux d'autres études, nous étudions les éventuels liens purs existants entre les caractéristiques individuelles et la mort. Nous montrons par exemple que si les personnages féminins décèdent moins fréquemment que les personnages masculins c'est parce qu'elles sont moins souvent combattantes et plus souvent prostituées. On montre à l'aide des régressions logistiques qu'il n'existe probablement pas de lien pur entre le sexe et le risque de décéder et ce en neutralisant les effets de composition que sont la structure guerrière et le fait d'être ou non un.e prositué.e.
Les thématiques d'application des régressions logistiques n'ont aucune limite. Demandez à Romane qui en utilise à la pelle avec son équipe dans son travail (quel travail peut bien nécessiter le recours aux régressions logistiques ? Pour le savoir cliquez ici) ! Dans le monde de la recherche, on s'en sert également souvent pour mesurer des effet purs. Quelques exemples :
La taille du réseau familial a-t-il un effet pur sur la probabilité de déclarer avoir vécu des périodes difficiles pendant l'enfance en neutralisant les éventuels effets de composition de génération, de lieu de naissance,... : Golaz, V. et Lelièvre, E. (2012) « L'entourage familial pendant l'enfance et l'adolescence, entre faits et perceptions. Une analyse rétrospective des parcours de vie des Franciliens des générations 1930-1950 ». In : Population, (Vol. 67), p. 491-515. DOI 10.3917/popu.1203.0491. [En ligne] : https://www.cairn.info/revue-population-2012-3-page-491.htm [Consulté le 11 décembre 2018]
Pris un à un (indépendemment les uns des autres), les éléments suivants ont-ils un lien avec la probabilité d'avoir un troisième enfant : niveau de diplôme des parents, le sexe des deux premiers enfants, la vie conjugale des parents, la CSP...? : Breton, D. et Prioux, F. (2005) « Deux ou trois enfants ? Influence de la politique familiale et de quelques facteurs sociodémographiques ». In : Population, (Vol. 60), p. 489-522. DOI : 10.3917/popu.504.0489. [En ligne] : https://www.cairn.info/revue-population-2005-4-page-489.htm [Consulté le 11 décembre 2018]
L'« apparence ethnique » (mais aussi l’âge, le sexe, la manière de s’habiller) ont-ils un lien pur sur la probabilité d'être sujet à un contrôle d'identité ? : Jobard, F. Lévy, R. Lamberth, J. et al. (2012) « Mesurer les discriminations selon l'apparence : une analyse des contrôles d'identité à Paris ». In : Population, (Vol. 67), p. 423-451. DOI : 10.3917/popu.1203.0423. [En ligne] : https://www.cairn.info/revue-population-2012-3-page-423.htm [Consulté le 11 décembre 2018]
Pour voir d'autres études qui ont mené des regressions logistiques sur le sujet de Game of Thrones, cliquez ici.
=> Télécharger et lire une régression
=> Qualités des modèles
=> Télécharger l'ensemble des modèles en PDF