I. Calcul et représentation du taux d'abstention
1. Première introduction au sujet
2. Importation des données
3. Traitements des données
4. Représentation sur la carte
II. Variables socioéconomiques et sociodémographiques influentes dans
le taux d'abstention
1. Présentation des données
2. Importation des données
3. Regroupement des tables
4. Sélection des variables par la méthode backward
5. Interprétation de la sélection des variables
III. Etude du lien linéaire ou non linéaire du taux d'abstention avec
les variables sélectionnées
1. Corrélation
2. Représentation graphique des variables les plus
corrélées
IV. Prévision du taux d'abstention
Conclusion
Références
Le but de ce projet informatique est de s’intéresser à la prévision du taux d’abstention aux élections municipales de 2008 en France par un traitement de données libres qui utilise des méthodes de statistiques descriptives et inférentielles vues tout au long de notre formation. Les données de ce projet sont en accès libre sur Internet sur des sites de données publiques.
Voici les liens utiles à l'importation des données :
Les résultats des élections dans toutes les communes de France, se trouvent découper en 3 parties
Ces différents fichiers sont des fichiers Excel, donc au format .xls or pour nous permettre de lire les fichiers sur notre logiciel Rstudio, il nous faut convertir ces différentes tables au format .csv (Cette étape fût réaliser directement grâce à Excel).
Dans un premier temps nous allons importer les données fournies par l'administration française. Le code utilisé lors de l'importation des données se trouve ici. Nous n'utiliserons que certaines variables sur ces différentes tables, tels que le code commune, le code département, le nombre d'inscrits, et le nombre d'abstention. Cette étape de choix de variables se fera dans la partie suivante.
Pour étudier notre code de cette deuxième partie veuillez vous référer à ce lien.
De même nous allons vous afficher une image qui est le résultat obtenu sur nos machines. Le temps de calcul est trop long et certaines librairies ne peuvent être lues sur linux. Pour obtenir le code nécessaire à l'affiche de la carte ci dessous, veuillez cliquer ici.
Après avoir représenté graphiquement le taux d'abstention sur le territoire français, nous souhaitons savoir quelles sont les variables qui influent ce taux d'abstention.
Pour les catégories socioéconomiques et démographiques, nous avons notamment utilisé le recensement réalisé en 2012 dont on avait accès grâce à l'INSEE. Il nous permet d'obtenir de nombreuses données par rapport à des thèmes très variés.
Voici les différentes tables que nous avons utilisé :
logement : logements, résidences principales, résidences secondaires et logements occasionnels, logements vacants, maisons, appartements
fonction : quantification des fonctions et des cadres des fonctions métropolitaines pour toutes les communes
formation : structure par sexe et âge de la population scolarisée et population de 15 ans ou plus non scolarisée selon le diplôme le plus élevé obtenu
etablissement : principaux indicateurs sur les établissements actifs
nombre d'établissement : nombre d’établissements par secteur d’activité
taille d'établissment : nombre d'établissement par taille
population : évolution et structure de la population
ménages : données sur les couples, familles et ménages
population active : structure de la population résidente des 15 à 64 ans selon sa situation d’activité ; caractéristiques des emplois au lieu de travail
emploi : données sur la population de 15 ans ou plus ayant un emploi selon le statut, la condition d'emploi, la durée de travail et le lieu de travail.
Nous précisons que nous n'avons pas pris en compte les communes d'outre-mer puisque dans certaines bases de données pour les variables socioéconomiques et sociodémographiques, ces communes n’en faisaient pas parties. De plus, la carte que nous avons réalisé précedemment représente uniquement la France métropolitaine.
Pour chaque variable, nous l’avons transformée en pourcentage. Par exemple, pour la variable nombre de personnes âgées entre 30 et 45 ans, elle a été divisée par la population totale de la commune concernée pour en obtenir le pourcentage de personnes âgées entre 30 et 45 ans sur chaque commune.
La transformation de chaque table se trouve ici.
On regroupe alors l’ensemble des variables qui contiennent toutes des pourcentages auxquelles on ajoute le taux d’abstention qui a été calculé précédemment. On utilise les pourcentages plutôt que les quantités exactes dans chaque commune par rapport aux variables, car cela est plus représentatif par rapport à l’ensemble de la commune. Nous nous sommes servis du code insee pour regrouper les 2 tables, celle contenant le taux d’abstention et celle contenant toutes les variables socioéconomiques et démographiques. En effet, certaines villes ne sont pas écrites de la même manière dans les deux tables alors qu’avec le code insee, nous n’avons pas ce problème.
Au final, nous avons 35890 observations avec 496 variables. Nous avons au final un grand nombre de données puisque nous avons 17 801 440 données.
Le regroupement des tables s'est réalisé à partir du code qui se trouve ici.
On réalise une sélection de variables à partir des p-valeur des variables du modèle. En effet, on ne sélectionne uniquement les variables qui ont une p-valeur inférieure à 5%, c'est-à-dire les variables qui sont le plus significatives. Nous avons utilisé donc une méthode de sélection de variables qui est la méthode de sélection backward. Cette méthode consiste à localiser la variable avec la p-valeur la plus élevée et la retirer du modèle. Au final, il nous reste 69 variables avec des p-valeur inférieur à 0.05, qui vont nous permettre d'expliquer le taux d'abstention.
Le code qui nous a permi de réaliser cette sélection de variables se trouve ici.
Après avoir réalisé la sélection backward, nous obtenons 69 variables. En effet, nous avons :
Pour visualiser la liste de l'ensemble des variables sélectionnées nous avons réalisé un tableau structurant les variables sélectionnées par thème.
On constate que les variables les plus présentes sont celles autour du logement, de l'éducation et des entreprises. Cependant, il ne faut pas négliger les variables autour de la structure de la population, même si elles ne sont qu'au nombre de 3.
De plus, un nombre important de table de données n'ont pas été retenu dans la sélection des variables car aucune variable de ces tables n'a été sélectionnée. Il s'agit des tables principalement axées sur l'emploi et sur les entreprises :
fonction : quantification des fonctions et des cadres des fonctions métropolitaines pour toutes les communes
etablissement : principaux indicateurs sur les établissements actifs
nombre d'établissement : nombre d’établissements par secteur d’activité
taille d'établissment : nombre d'établissement par taille
emploi : données sur la population de 15 ans ou plus ayant un emploi selon le statut, la condition d'emploi, la durée de travail et le lieu de travail.
4 variables en rapport avec les entreprises agricoles sont sélectionnées
: Etablissements actifs de l’agriculture, sylviculture et pêche,
Etablissements actifs de l’agriculture, sylviculture et pêche 1 à 9
salariés,Etablissements actifs de l’agriculture, sylviculture et pêche
de 10 à 19 salariés, Pourcentage de postes des établissements actifs de
l’agriculture, sylviculture et pêche.
4 variables en rapport avec les entreprises industriels sont
sélectionnées : Etablissements actifs de l’industrie, Etablissements
actifs de l’industrie de 1 à 9 salariés, Pourcentage de postes des
établissements actifs de l’industrie, Pourcentage de postes des
établissements actifs de l’industrie de 10 à 19 salariés.
Afin d'étudier l'intensité de liaison qui peut exister entre le taux d'abstention et les variables retenues, nous allons étudier leurs corrélations.
La mesure de corrélation linéaire entre deux variables se fait alors par le calcul du coefficient de corrélation linéaire. Il est compris entre -1 et 1. Plus le coefficient est proche des valeurs extrêmes -1 et 1, plus la corrélation entre les variables est forte. Une corrélation égale à 0 signifie que les variables ne sont pas corrélées.
Nous avons décider d'afficher les 6 variables qui ont le coefficient de corrélation le plus fort.
# Variables qui ont le coefficient de corrélation le plus fort
order(abs(cor(final.lm,method = "spearman")[,70]),decreasing = T)
cor(final.lm[,c(70,9,17,69,1,8,23)],method = "spearman")[,1]
Nous obtenons alors comme coefficient de corrélation pour ces 6 variables :
On constate que ces 6 coefficients de corrélation sont tous faibles.
Pour s'assurer de ces résultats, nous avons décidé de représenter graphiquement le taux d'abstention en fonction de ces variables avec ce code pour la représentation graphique.
On remarque bien que le lien est non linéaire entre le taux d'abstention et ces variables.
Avec le modèle obtenu dans la partie précédente nous allons essayer de prévoir le taux d'abstention des éléctions municipales de 2008, de la nouvelle région Aquitaine-Limousin-Poitou-Charente.
Nous avons utilisé un randomForest pour faire notre régression, pour cela nous avons donc diviser notre table en 2 parties :
Pour voir comment nous avons fait cette prédiction, veuillez vous référer à ce lien.
On peut voir, ci dessous, quelles ont été les variables les plus discriminantes dans notre régression grâce à la fonction varImpPlot() du package randomForest.
Voici une comparaison graphique de la région entre les vraies valeurs et les valeurs prédites du taux d'abstention grâce à notre modèle.
Le code pour l'affiche des cartes se trouve ici.
Ce projet informatique nous a permis de trouver quelles sont les variables socioéconomiques les plus influentes mais également de réaliser des prédictions précises sur le taux d'abstention. Ce type de projet peut s'avérer très utile pour les politiques. En effet, en visualisant les communes ayant les taux d'abstention les plus importants, ils peuvent concentrer leurs futurs campagnes dans ces régions là, en allant voir des électeurs qui sont caractérisés par les variables socioéconomiques influents le plus le taux d'abstention. Les politiques peuvent alors faire campagne à un type d'électorat qu'ils pouvaient sous estimé.