I- Introduction

1- Contexte

L’espérance de vie se définit comme le nombre moyen d’années qu’il reste a vivre a un individu a un âge donné, en supposant que les taux de mortalité mesurés au moment du calcul restent inchangés. Ces dernieres années, l’espérance de vie a augmenté considérablement, spécialement dans les pays riches, du aux progres médicaux et technologiques par exemple, qui permettent aujourd’hui de guérir des maladies autrefois incurables,et augmentant ainsi la durée de vie de l’individu. Selon l’OMS, c’est un indicateur de l’état de santé général d’une population qui permet d’effectuer des comparaisons fiables au fil du temps et entre différents pays.

A titre d’exemple, une étude menée par l’OMS en 2015 concernant l’espérance de vie dans tous les pays du monde (soit 183 pays), a démontré que celle-ci s’éleve a 83,7 ans en moyenne au Japon (premiere du classement mondial), contre 50,1 ans en Sierra Léone (derniere du classement).

2- Problématique

Etant donnée que nous voulions travailler sur des données de santé dans le cadre de ce projet, nous nous sommes intéréssés a cet indicateur afin d’analyser l’état de santé général des différents départements français et afin d’effectuer des comparaisons entre eux. Nous tenterons par la suite d’expliquer les disparités observées en croisant différentes données socio-économiques.

La problamétique que nous avons dégagée est la suivante : “Quels sont les facteurs qui influenceraient l’espérance de vie en France?

II- Les données

1- Présentation des données

Pour cela, nous avons téléchargé les bases de données suivantes issuses du l’INSEE (Institut National des Sciences et des Etudes Economiques), l’INED (Institut National des Etudes Démographiques) et du DREES (Direction de la Recherche, des Etudes, de l’Evaluation et des Statistiques):

  • esperance_vie: cette table de 100 obeservations et de 9 variables fournit les espérances de vie dans les régions et départements français.

source: https://www.insee.fr/fr/statistiques/2012749?fbclid=IwAR21FB_IalGIsnfkVGrio1iWRFkOkDn5XD7NKZp9KX8DisNnKFE6NOiJ0-c

  • population: cette table contituée de 20 observations et de 18 variables contient la répartition de la population française selon les grandes classes d’âge et le sexe dans les régions et départements de France, des années 1975 a 2018.

source: http://www.ecosante.fr/DEPAFRA/800342.html?fbclid=IwAR2SDPKdaTKMxYX9lr6BWTztJg7ZWhnIZeGUR8yYzna7Zmckb2ikwGylP7Q

  • medecin: cette table de 117 observations et de 42 variables présente le nombre de différents spécialistes de la santé pour 100000 habitants dans les régions et départements français.

source: http://www.data.drees.sante.gouv.fr/TableViewer/tableView.aspx?ReportId=3795&fbclid=IwAR1B41Gd_H8OJdx8OeZ7PNQceVDLr4-CmVTvSKv-DFEfCN13xvFvAZAeZZg

  • niveau_vie: cette table de 96 observations et de 5 variables donne des information sur les niveaux de vie médians en euro des ménages français, le taux de pauvreté et la part des minima sociaux dans le revenu disponible moyen départementaux.

source: https://www.data.gouv.fr/fr/datasets/cartographie-des-bases-de-donnees-publiques-en-sante/

2- Traitement de données

Pour commencer, nous avons nettoyé toutes nos tables (suppressions devaleurs manquante, restructuration des bases de données …) afin que nous puissions facilement les lire et les manipuler sur R.

Ensuite nous avons conservé dans la table population que les données concernant l’année 2016.

Dans la table medecin, nous nous limiterons uniquement a la densité des médecins généralistes, et ne retiendrons donc que cette colonne-la.

3- Représentation graphique

Afin de visualiser les données, nous avons créé une carte représentant les espérances de vie dans les différents départements français:


Nous remarquons que les valeurs varient entre 74,1 ans en Pas-de-Calais et 81,7 ans en Haute Garonne, dans le Tarn et Garonne, en Loire, etc . Ceci nous amene a penser que la différence observée est liée au département de naissance. Afin de vérifier cette intuition et de conclure quant a la significativé de cette disparité, nous allons effectuer un test d’indépendance du khi-deux.

4-Etude de la disparité

Pour cela, nous allons commencer par créer un tableau de contingence sur lequel nous avons appliqué la fonction chisq.test().

L’hypothése nulle est la suivante: la disparité de l’espérance de vie ne dépend pas du département. Voyons donc si nous confirmons cette hypothése ou pas.

## 
##  Pearson's Chi-squared test
## 
## data:  tag_conting
## X-squared = 4888, df = 4841, p-value = 0.3146


Rappelons tout d’abord que nous acceptons l’hypothese d’indépendance lordque la p-value est supérieur a 0.05.

Ici, notre p-valeur est égale a 0.3146, donc supérieur a 0.05. Nous acceptons par suite l’hypothese d’indépendance émise. Nous pouvons donc confirmer que l’espérance de vie ne dépend pas forcément du département de naissance.


Etude de Corrélation entre les variables


La matrice de corrélation nous montre que la corrélation entre l’espérance de vie et le département est trés faible. Cela confirme donc que l’espérance de vie n’est pas liée du lieu de naissance.

III- Etude comparative sur certains indicateurs

1- Etude comparative de l’espérance de vie des hommes et femmes sexe

Afin de voir si cette espérance de vie différe chez les hommes et les femmes, nous avons créé deux cartes: l’une représentant l’espérance de vie chez les femmes, et l’autre représentant l’espréance de vie chez les hommes dans chaque département. Nous obtenons le résultat suivant:


Nous voyons par exemple qu’en Gironde, cette espérance est égale a 80,1 ans chez les hommes, contre 85,9 ans pour les femmes, alors qu’elle ne varie quasiment pas dans les Deux-Sevres. Afin de voir si le sexe y joue un rôle, nous allons étudier la corrélation qui pourrait exister entre l’espérance de vie des hommes et les femmes.
pour ce faire, nous allons effectuer un test de Khi deux.
Nous posons donc l’hypothése nulle suivante: il existe une indépendance entre l’espérance de vie des hommes et des femmes.

## 
##  Pearson's Chi-squared test
## 
## data:  tag_conting
## X-squared = 1841.1, df = 1504, p-value = 4.441e-09


Ici, notre p-valeur est égale a 4.441e-09, donc inférieure a 0.05. Nous rejetons par suite l’hypothese d’indépendance émise. Nous pouvons donc confirmer qu’il y’a un lien entre les deux espérances.
Pour mieux voir le lien qui pourrait exister entre ses deux variables, nous allons étudier leurs corrélations.
Créons maintenant la matrice de corrélation associée:


La corrélation entre les deux espérances de vie est égale 0.86. Nous pouvons alors en conclure qu’elles sont fortement corréelées.

Nous allons représenter l’espérance de vie de chacun avec des boxplots afin d’étudier la différence:
Repésentation de l’espérance de vie des deux variables:

Nous constatons que l’espérance de vie moyenne des hommes est de 79.5 et celle des femmes est de 85.5. Cela confirme que, généralement, l’espérance de vie des femmes est plus élevée que celle des hommes.

2- Etude basée sur le nombre de médecins par département

Une autre donnée démographique a laquelle nous nous sommes référés est la densité de médecins généralistes pour 100000 habitants. Pour cela, nous nous sommes servis de notre table medecin.
Nous allons d’abord superposer la carte représentant la répartion départementale des médecins avec celle représentant l’espérance de vie par département vue précédemment:

Nous remarquons que dans les Yvelines par exemple qui posséde une espérance de vie relativement élevée (81,3 ans), la densité de médecins pour 10000 habitants est faible (65 médecins). Cela nous améne a penser que ce facteur n’a pas une influence notable.

3- Etude basée sur les revenus médians

Nous nous sommes demandés si des facteurs économiques pourraient influencer l’espérance de vie en France. C’est pour cela que nous avons choisi d’extraire de la table niveau_de_vie, revenus médians des français et les croiser avec les espérances de vie de la table esperance_vie, en créant une matrice de corrélation:


Nous voyons bien que la corrélation est trés faible. Cela s’expliquerait par le fait qu’il n’y ait pas de grande différence entre les niveaux de vie des départements français.

IV- Etude régionale

Enfin, pour enrichir notre étude, nous avons appliqué la méthode du dendogram de Ward, qui est une méthode de classification non supervisée, pour avoir une idée des régions qui se ressemblent le plus. Le résultat obtenu est le suivant:




Nous contatons que les régions sont divisées en six classes: la région Île-de-France par exemple se démarque des autres régions. Nous constatons également qu’il n’y pas une grande disparité entre la France métropolitaine et la France de Province.

V- Conclusion

Cette étude nous a permis de conclure que l’espérance de vie en France ne dépend ni du département, ni du revenu médian de la population. Cela est certainement du au fait que ces facteurs ne varient pas beaucoup d’un département a un autre, contrairement a d’autres pays, notamment les pays sous développés ou en développement, ou la différence départementale est plus flagrante.

Par contre, elle est fortement reliée au sexe (les femmes ayant une espérance de vie plus élevée a celle des hommes). Cela se confirme a travers notre table population. En effet, dans le département Alpes de Haute Provence qui a l’une des meilleures espérances de vie en france, le nombre de femmes est supérieur de quasiment 10% au nombre d’hommes.