L’espérance de vie se définit comme le nombre moyen d’années qu’il reste a vivre a un individu a un âge donné, en supposant que les taux de mortalité mesurés au moment du calcul restent inchangés. Ces dernieres années, l’espérance de vie a augmenté considérablement, spécialement dans les pays riches, du aux progres médicaux et technologiques par exemple, qui permettent aujourd’hui de guérir des maladies autrefois incurables,et augmentant ainsi la durée de vie de l’individu. Selon l’OMS, c’est un indicateur de l’état de santé général d’une population qui permet d’effectuer des comparaisons fiables au fil du temps et entre différents pays.
A titre d’exemple, une étude menée par l’OMS en 2015 concernant l’espérance de vie dans tous les pays du monde (soit 183 pays), a démontré que celle-ci s’éleve a 83,7 ans en moyenne au Japon (premiere du classement mondial), contre 50,1 ans en Sierra Léone (derniere du classement).
Etant donnée que nous voulions travailler sur des données de santé dans le cadre de ce projet, nous nous sommes intéréssés a cet indicateur afin d’analyser l’état de santé général des différents départements français et afin d’effectuer des comparaisons entre eux. Nous tenterons par la suite d’expliquer les disparités observées en croisant différentes données socio-économiques.
La problamétique que nous avons dégagée est la suivante : “Quels sont les facteurs qui influenceraient l’espérance de vie en France?
Pour cela, nous avons téléchargé les bases de données suivantes issuses du l’INSEE (Institut National des Sciences et des Etudes Economiques), l’INED (Institut National des Etudes Démographiques) et du DREES (Direction de la Recherche, des Etudes, de l’Evaluation et des Statistiques):
source: https://www.data.gouv.fr/fr/datasets/cartographie-des-bases-de-donnees-publiques-en-sante/
Pour commencer, nous avons nettoyé toutes nos tables (suppressions devaleurs manquante, restructuration des bases de données …) afin que nous puissions facilement les lire et les manipuler sur R.
Ensuite nous avons conservé dans la table population que les données concernant l’année 2016.
Dans la table medecin, nous nous limiterons uniquement a la densité des médecins généralistes, et ne retiendrons donc que cette colonne-la.
Afin de visualiser les données, nous avons créé une carte représentant les espérances de vie dans les différents départements français:
Nous remarquons que les valeurs varient entre 74,1 ans en Pas-de-Calais et 81,7 ans en Haute Garonne, dans le Tarn et Garonne, en Loire, etc . Ceci nous amene a penser que la différence observée est liée au département de naissance. Afin de vérifier cette intuition et de conclure quant a la significativé de cette disparité, nous allons effectuer un test d’indépendance du khi-deux.
Pour cela, nous allons commencer par créer un tableau de contingence sur lequel nous avons appliqué la fonction chisq.test().
L’hypothése nulle est la suivante: la disparité de l’espérance de vie ne dépend pas du département. Voyons donc si nous confirmons cette hypothése ou pas.
##
## Pearson's Chi-squared test
##
## data: tag_conting
## X-squared = 4888, df = 4841, p-value = 0.3146
Rappelons tout d’abord que nous acceptons l’hypothese d’indépendance lordque la p-value est supérieur a 0.05.
Ici, notre p-valeur est égale a 0.3146, donc supérieur a 0.05. Nous acceptons par suite l’hypothese d’indépendance émise. Nous pouvons donc confirmer que l’espérance de vie ne dépend pas forcément du département de naissance.
Etude de Corrélation entre les variables
La matrice de corrélation nous montre que la corrélation entre l’espérance de vie et le département est trés faible. Cela confirme donc que l’espérance de vie n’est pas liée du lieu de naissance.
Afin de voir si cette espérance de vie différe chez les hommes et les femmes, nous avons créé deux cartes: l’une représentant l’espérance de vie chez les femmes, et l’autre représentant l’espréance de vie chez les hommes dans chaque département. Nous obtenons le résultat suivant:
Nous voyons par exemple qu’en Gironde, cette espérance est égale a 80,1 ans chez les hommes, contre 85,9 ans pour les femmes, alors qu’elle ne varie quasiment pas dans les Deux-Sevres. Afin de voir si le sexe y joue un rôle, nous allons étudier la corrélation qui pourrait exister entre l’espérance de vie des hommes et les femmes.
pour ce faire, nous allons effectuer un test de Khi deux.
Nous posons donc l’hypothése nulle suivante: il existe une indépendance entre l’espérance de vie des hommes et des femmes.
##
## Pearson's Chi-squared test
##
## data: tag_conting
## X-squared = 1841.1, df = 1504, p-value = 4.441e-09
Ici, notre p-valeur est égale a 4.441e-09, donc inférieure a 0.05. Nous rejetons par suite l’hypothese d’indépendance émise. Nous pouvons donc confirmer qu’il y’a un lien entre les deux espérances.
Pour mieux voir le lien qui pourrait exister entre ses deux variables, nous allons étudier leurs corrélations.
Créons maintenant la matrice de corrélation associée:
La corrélation entre les deux espérances de vie est égale 0.86. Nous pouvons alors en conclure qu’elles sont fortement corréelées.
Nous allons représenter l’espérance de vie de chacun avec des boxplots afin d’étudier la différence:
Repésentation de l’espérance de vie des deux variables:
Nous constatons que l’espérance de vie moyenne des hommes est de 79.5 et celle des femmes est de 85.5. Cela confirme que, généralement, l’espérance de vie des femmes est plus élevée que celle des hommes.
Une autre donnée démographique a laquelle nous nous sommes référés est la densité de médecins généralistes pour 100000 habitants. Pour cela, nous nous sommes servis de notre table medecin.
Nous allons d’abord superposer la carte représentant la répartion départementale des médecins avec celle représentant l’espérance de vie par département vue précédemment:
Nous remarquons que dans les Yvelines par exemple qui posséde une espérance de vie relativement élevée (81,3 ans), la densité de médecins pour 10000 habitants est faible (65 médecins). Cela nous améne a penser que ce facteur n’a pas une influence notable.
Nous nous sommes demandés si des facteurs économiques pourraient influencer l’espérance de vie en France. C’est pour cela que nous avons choisi d’extraire de la table niveau_de_vie, revenus médians des français et les croiser avec les espérances de vie de la table esperance_vie, en créant une matrice de corrélation:
Nous voyons bien que la corrélation est trés faible. Cela s’expliquerait par le fait qu’il n’y ait pas de grande différence entre les niveaux de vie des départements français.
Enfin, pour enrichir notre étude, nous avons appliqué la méthode du dendogram de Ward, qui est une méthode de classification non supervisée, pour avoir une idée des régions qui se ressemblent le plus. Le résultat obtenu est le suivant:
Nous contatons que les régions sont divisées en six classes: la région Île-de-France par exemple se démarque des autres régions. Nous constatons également qu’il n’y pas une grande disparité entre la France métropolitaine et la France de Province.
Cette étude nous a permis de conclure que l’espérance de vie en France ne dépend ni du département, ni du revenu médian de la population. Cela est certainement du au fait que ces facteurs ne varient pas beaucoup d’un département a un autre, contrairement a d’autres pays, notamment les pays sous développés ou en développement, ou la différence départementale est plus flagrante.
Par contre, elle est fortement reliée au sexe (les femmes ayant une espérance de vie plus élevée a celle des hommes). Cela se confirme a travers notre table population. En effet, dans le département Alpes de Haute Provence qui a l’une des meilleures espérances de vie en france, le nombre de femmes est supérieur de quasiment 10% au nombre d’hommes.