Données Ouvertes - Base de données sur les inégalités dans le monde

Introduction

Nous avons décidé de nous intéresser au jeu de données des inégalités dans le monde, disponible sur le site https://wid.world/fr/, mis en place suite aux travaux entrepris par Simon Kuznets en 1953, puis poursuivi par A. B. Atkinson et Alan Harrison 1978, étendus sur plusieurs années et de nombreux pays. Le tout a reçu un regain d’intérêt il y a 15 ans, lorsque les inégalités de revenus et de patrimoines sont revenus au premier plan de nos préoccupations. Avec une série d’études, qui a permis d’établir des séries historiques décrivant l’évolution de ces inégalités. Des noms comme ceux de Thomas Piketty, Emmanuel Saez, et Facundo Alvaredo sont désignés comme contributeurs importants de la mise en place et de l’accessibilité de cette base.

Cette base de données est composée de nombreux indicateurs de revenus et de patrimoine des populations par pays, il y est également question d’une division de la population par percentiles. Dans un premier temps, nous allons faire en sorte d’appréhender le jeu de données, en regardant les valeurs de certains indicateurs pour plusieurs pays, ensuite, à l’aide d’une A.C.P., nous allons tenter une méthode non supervisée de classification des pays. Ensuite, nous allons regarder s’il existe des corrélations entre les échanges Erasmus des étudiants en Europe, et les pays où les inégalités sont les plus grandes. On va ensuite représenter les inégalités par des cartes de chaleurs sur le monde avec le package maps, et pour finir, Oxfam fournit un rapport sur les inégalités en France, il serait donc intéressant de les recouper.

1 Motivations

Pour introduire ce projet, et pour justifier de notre intérêt pour ce sujet, nous avons été inspirés par les travaux de Lucas Chancel, dans son rapport sur les inégalités mondiales en 2018. Disponible au lien suivant : http://ses.ens-lyon.fr/fichiers/Articles/diaporama-chancel-cycle-uo-2018-2019.pdf. Fruit d’un travail de recherche tutorée. Le premier graphique de son rapport que nous avons voulu réutiliser donne la part des revenus des 10% les plus aisés dans le monde par découpage régional :

Part des revenus des 10% les plus aisés dans chaque région du monde

revenus des 10% les plus aisés

L’inégalité des revenus varie beaucoup d’une région du monde à l’autre. C’est en Europe qu’elle est la plus faible et au Moyen-Orient qu’elle est la plus forte. Les inégalités sont très différentes d’une région à l’autre. En 2016, la part du revenu national allant aux 10 % des plus gros revenus était de 37 % en Europe, 41 % en Chine, 46 % en Russie, 47 % aux États-Unis/Canada, et autour de 55 % en Afrique subsaharienne, au Brésil et en Inde. Au Moyen-Orient, région du monde la plus inégalitaire d’après nos estimations, le décile supérieur captait 61 % du revenu national.

Évolution temporelles du creusement des écarts

revenus des 10% les plus aisés

Depuis 1980, les inégalités de revenus ont augmenté rapidement en Amérique du Nord, en Chine, en Inde et en Russie, mais de manière plus modérée en Europe. Dans une perspective historique plus longue, cet accroissement des inégalités marque la fin du régime égalitariste qui avait pris différentes formes dans ces régions après la Seconde Guerre mondiale.

Évolution temporelles du creusement des écarts avec un autre découpage

revenus des 10% les plus aisés 2

Cette tendance générale connaît des exceptions. Au Moyen-Orient, en Afrique subsaharienne et au Brésil, les inégalités de revenus sont restées relativement stables, à des niveaux très élevés. Les tendances observées dans les différents pays depuis 1980 montrent que les variations en matière d’inégalité sont liées aux contextes institutionnels et politiques variés.

Évolution temporelles du creusement des écarts aux USA

revenus aux USA

Évolution temporelles du creusement des écarts en Europe

revenus en Europe

En comparant les États-Unis et l’Europe qui avaient des niveaux d’inégalité comparables en 1980, la divergence est particulièrement extrême. Alors que la part de revenu du centile supérieur était proche de 10 % dans les deux régions en 1980, elle est un peu montée en Europe en 2016 (12 %), mais elle s’est envolée à 20 % aux États-Unis. Dans le même temps, aux États-Unis, la part des 50 % les plus pauvres est passée de plus de 20 % en 1980 à 13 % en 2016. La trajectoire suivie par les États-Unis s’explique en grande partie par une inégalité considérable en matière d’éducation, associée à une fiscalité de moins en moins progressive. En Europe la progressivité de l’impôt baissait, mais dans de moindres proportions ; les inégalités salariales y étaient également freinées par des politiques éducatives et salariales relativement plus favorables aux classes moyennes et populaires. Dans les deux régions, les inégalités de revenus entre hommes et femmes ont reculé, mais elles restent particulièrement marquées au sommet de la distribution. Maintenant essayons de voir comment les inégalités entre les habitants de la planète ont-elles évolué ces dernières décennies ?

Courbe de l’éléphant

courbe éléphant

La moitié la plus pauvre de la population mondiale a vu son revenu augmenter de manière significative grâce à la forte croissance de l’Asie (en particulier de la Chine et de l’Inde). Néanmoins, du fait des inégalités prononcées et grandissantes au niveau national depuis 1980, les 1 % d’individus les plus riches dans le monde ont capté deux fois plus de croissance que les 50 % les plus pauvres. Pour les individus situés entre ces deux catégories la croissance du revenu a été faible.

Augmentation de l’écart

hausse écart

La croissance des inégalités mondiales n’a pas été régulière. Si la part de revenu du centile supérieur est montée de 16 % en 1980 à 22 % en 2000, elle a ensuite légèrement régressé jusqu’à 20 %. La part de revenu allant aux 50 % des individus les plus pauvres dans le monde fluctue autour de 9 % depuis 1980). La rupture de tendance observée après l’an 2000 est liée à une diminution des inégalités de revenus moyens entre pays, puisque les inégalités à l’intérieur des pays ont continué à progresser.

2 Le jeu de données

2.1 Télechargement via le site web

Notre jeu de données est accessible au téléchargement immédiat via un portail sur le site https://wid.world/fr/donnees, en sélectionnant en amont l’ensemble des données d’intérêt à sélectionner par clic bouton, parmi une liste de pays et/ou une liste de variables comme le revenu, ou encore le patrimoine par centiles. L’ensemble du jeu de données est alors rendu archivé, découpé en fichier pays regroupant dans chaque fichier l’ensemble des variables considérées, évalué par année et, par centile.

Capture d’écran de l’interface de récupération des données

Capture d'écran de l'interface

2.2 Utilisation avec la fonction download_wid()

2.2.2 Les arguments

L’argument indicators est un code alphabétique de 6 caractères qui correspond à un type référencé d’indicateur, prenant en argument chacun des caractères pour définir l’indicateur choisi, on le comprend comme suit : la première lettre qui correspond au type de l’indicateur, par exemple :

Signification de la première lettre
a average | la moyenne
s share | la part
t threshold | le seuil
m macroeconomic total | total macroéconomique
w wealth/income ratio | ratio de revenu/patrimoine


Ensuite les 5 lettres suivantes correspondent à la valeur étudiée, en voici quelques exemples:

Signification des 5 lettres suivantes
ptinc pre-tax national income | revenu national avant impôt
pllin pre-tax labor income | revenu du travail avant impôt
pkkin pre-tax capital income | revenu du capital avant impôt
fiinc fiscal income | revenu fiscal
hweal net personal wealth | patrimoine personnel net


Pour obtenir de l’aide sur ce code, il suffit de taper la commande ?wid_concepts qui nous donne la liste totale de ces codes par défaut, l’indicateur est fixé à "all" et télécharge l’ensemble des indicateurs disponibles.

Pour les autres paramètres, il semble important de décrire un peu leurs utilisations. Le paramètre area correspond aux pays sélectionnables, il fonctionne sur le principe d’un codage ISO de deux lettres, par exemple : FR=FRANCE, IT=ITALIE.En plus de pays les areas permettent un découpage en région du monde, par exemple : pour avoir le détail des codes ISO des pays, sur le même principe que pour les codages des indicateurs, on peut compiler le code suivant : QB=AFRICA, US-AL= ALABAMA|USA. Une liste est accessible en aide avec le code ?wid_area_codes

En plus des zones et des indicateurs, il nous est possible de sélectionner une partie de la population par année (years), percentiles (perc) et âge (âges). Par défaut l’ensemble de ces paramètres est calibré à "all", qui donne toutes les ressources disponibles. Mais on peut choisir une année ou une période sur laquelle évaluer nos indicateurs (ex : 2000: 2015 prendront les valeurs entre 2000 et 2015), on peut également choisir un découpage de percentile de la population, sélection à l’aide d’un code alpha-numérique défini par le pourcentage de départ et d’arrivée comme pdébutpfin* (ex: p99p100 récupère le top 1% de la population). Pour plus de détails une aide et disponible ici http:/wid.World/percentiles. Passons enfin à l’âge qui permet une segmentation de la population par rapport à leur âge, la sélection se fait grâce à un code de 3 chiffres référencé dans ?wid_age_codes un petit exemple est donné ici :

Signification des 3 lettres pour “ages”
999 Tout âge
992 Adultes | + de 20 ans
996 Adultes sans la tranche 20-60 ans

Le prochain point sur lequel on peut effectuer une sélection c’est les types de populations étudiées, en effet au sein d’un foyer fiscal, il peut y avoir plusieurs individus, ou encore plus individus fiscaux peuvent être considérés dans une famille. Il est donc important de pouvoir séparé les données en fonction de ces informations. Le code utilisé ici est une lettre, toujours accessible avec l’exécution du code ?wid_population_codes, en voici quelques exemples :

Signification de la lettre pour “pop”
i Individu
t Unité fiscale | personne ou foyer
j Division équitable du foyer entre le nombre d’adultes dans le foyer (ex : couple marié /2)

Pour finir, la base de données est également composée de metadata sur la provenance des données et les détails méthodologiques des indicateurs obtenus, il suffit si l’on veut télécharger ces informations attribuées la valeur TRUE à cet argument. Par défaut, il est réglé sur FALSE. Et enfin l’argument verbose expliqué dans le cadre \(R\) ci-dessus, qui nous donne des informations sur l’avancement du téléchargement.

2.2.3 Remarques d’utilisation

  • Si l’on décide de ne renseigner aucun argument, la fonction ne télécharge pas l’ensemble des données, il faut, soit renseigner quelques areas, soit quelques indicators.
  • Si aucune donnée ne correspond aux paramétrages de l’utilisateur, la fonction affiche alors une erreur avec la sortie NULL.
  • Lorsque la commande fonctionne, l’objet retourné est un data.frame avec les variables : country, variable, percentile, year et value en colonnes.
  • À titre indicatif, il est dit que les capitaux sont donnés en monnaie locale de référence en 2016
  • Les parts share et ratios \(\frac{Richesse}{Revenu}\) sont donnés avec un poids de 1, c’est-à-dire que le top 1%, s’il se partage 20% des parts, sera donné par une valeur de \(0.1\), de même un ratio de \(\frac{Richesse}{Revenu}\) de 300% s’exprimera par 3

3 Statistiques Déscriptives

3.1 Quelques exemples d’utilisation du jeu de données.

Pour se familiariser avec le jeu de données, on se propose de tracer quelques indicateurs sur plusieurs pays, pour comprendre également la fonction download_wid(). On se propose de faire un premier test sur le jeu de données pour tracer l’évolution des parts de richesses personnelles du top 10% et du top 1% de 1800 à 2016, en France.

Ici bien que nous n’avons pas précisé les années sur lesquels nous effectuons notre sélection, et que le jeu de données court de l’année à 1800 à 2016, on devrait voir apparaître toutes ces valeurs, cependant notre courbe démarre de 1807, pour aller jusqu’en 2014, il y a donc certaines années qui n’ont pas les données nécessaires.

On se sert encore de nos données, et l’on se propose de tracer un diagramme pour comparer en 2016, les revenus nationaux avant impôts de certains pays européens.

On se rend alors compte qu’uniquement, La Belgique, le Danemark, la Grèce, l’Irlande, l’Italie, le Luxembourg, la Suède apparaissent sur le diagramme, alors que nous avons sélectionné plus de pays, la raison en est la suivante, tous les autres ne sont pas téléchargés car le jeu de données ne contient pas l’indicateur pour ces pays, pour cette année. Imaginons maintenant une tendance sur plusieurs années des revenus nationaux nets moyens, en prenant les adultes avec le code sur âges.

Ici, on se rend compte que le jeu de données peut être compliqué à étudier car il peut rapidement être illisible. De plus il faut faire attention aux devises utilisées dans certains indicateurs, en effet les montants sont donnés en monnaies locales, il faut donc se servir d’un convertisseur de monnaie qui est stocké dans la base de données, on le récupère de la manière suivante.

Et on peut effectuer des comparaisons au niveau des continents, en utilisant à nouveau l’argument indicators.

3.2 La représentation des inégalités dans le monde.

Le nom du jeu de données, ainsi que son orientation nous amène à vouloir considérer un indicateur que l’on pourra étudier en profondeur rendant visible les inégalités dans les différents pays. Nous allons donc récupérer les données de la part des richesses des 1% plus riches et des 10%% plus riches sur l’ensemble des pays pour l’ensemble des données, ce qui devrait donc représenter une très grosse base. (Il y a plus de 300 pays, sur plus de 200 ans).

On voit donc que nombre de données sont manquantes, en effet il ne nous reste plus que 6 pays, et nombreuses sont les années qui n’ont pas de données, cependant on remarque la distinction de la Chine en eux partis, il serait donc intuitif de comparer ces deux graphes.

Et l’on se rend compte ici, que le découpage est le même pour le calcul des parts, donc la séparation n’est pas faite pour cet indicateur. Ce manque de cohésion dans le jeu de données, ainsi que les nombres importants de données manquantes rendent les analyses transverses compliquées, on va donc essayer de proposer des méthodes de classification non supervisée, qui pourront nous apporter des analyses plus fines et efficaces.

4 Classification non-supervisée.

4.1 Dans le monde.

Pour effectuer cette classification non supervisée, au vu du nombre important d’indicateurs, nous allons effectuer une A.C.P, le problème ici, c’est qu’il y a beaucoup de pays et/ou d’années où les données sont manquantes. Dans ces circonstances, il est compliqué d’utiliser une A.C.P, telle que l’on en a l’habitude, nous allons donc nous servir du package de R ’missMDA". Dans ce package, les valeurs manquantes ne sont pas simplement remplacées par la moyenne par colonne qui pourrait biaiser les résultats dans le cas de variables corrélées comme l’explique très bien Monsieur François Husson dans la vidéo explicative accessible ici : https://www.youtube.com/playlist?list=PLnZgp6epRBbQzxFnQrcxg09kRt-PA66T_

Dans cette sous-partie, nous allons nous intéresser aux données dans le monde entier, il est donc intéressant de bien sélectionner nos indicateurs. Pour l’étude des pays, nous allons nous occuper de l’ensemble de la population et donc mettre pour le moment, les percentiles, donc les marqueurs d’inégalité de côté. On prend aussi la décision de classifier nos pays, on ne va pas donc émettre de position sur les années, et l’on va sélectionner une année arbitrairement, comme on l’a vu plus haut, l’année 2015 possède beaucoup de données sur les pays, on va donc se servir des données de cette année.

4.1.1 Sélection des indicateurs.

Une partie assez longue et fastidieuse a été le choix de nos indicateurs, en effet nombreux sont les indicateurs valables pour aucun pays, en effet certaines combinaisons de code indicators, ne retourne aucune valeur. Mais, il existe aussi des indicateurs, dont les valeurs retournées n’existent que pour un seul pays et/ou sur une seule année. Il faut donc tester, et télécharger un à un les indicateurs, ne récupérant uniquement ceux dont il y a assez de matériel pour travailler.

Voici notre sélection :

Regardons quelques individus aléatoirement :

On se rend donc très vite compte qu’il est compliqué d’émettre de bonnes conclusions de classification sur deux axes avec autant de pays, on se propose alors de prendre en compte les pays de l’union européenne, pour se demander, si l’on peut décrire la variabilité du jeu de données dans une ACP.

## 
## Call:
## PCA(X = pca$completeObs, graph = F) 
## 
## 
## Eigenvalues
##                        Dim.1   Dim.2   Dim.3   Dim.4   Dim.5   Dim.6
## Variance               3.385   2.612   0.002   0.001   0.000   0.000
## % of var.             56.410  43.542   0.033   0.011   0.002   0.001
## Cumulative % of var.  56.410  99.952  99.985  99.997  99.999 100.000
## 
## Individuals (the 10 first)
##                                        Dist    Dim.1    ctr   cos2    Dim.2
## Andorra                            |  0.321 | -0.002  0.000  0.000 | -0.321
## United Arab Emirates               |  0.266 | -0.164  0.003  0.377 | -0.210
## Afghanistan                        |  0.267 | -0.166  0.003  0.389 | -0.208
## Antigua and Barbuda                |  0.268 | -0.165  0.003  0.380 | -0.211
## Anguilla                           |  0.321 | -0.002  0.000  0.000 | -0.321
## Albania                            |  0.266 | -0.165  0.003  0.382 | -0.209
## Armenia                            |  0.261 | -0.161  0.003  0.382 | -0.205
## Angola                             |  0.235 | -0.163  0.003  0.480 | -0.169
## Argentina                          |  0.249 | -0.154  0.003  0.381 | -0.196
## American Samoa                     |  0.321 | -0.002  0.000  0.000 | -0.321
##                                       ctr   cos2    Dim.3    ctr   cos2  
## Andorra                             0.016  1.000 |  0.000  0.000  0.000 |
## United Arab Emirates                0.007  0.623 |  0.001  0.000  0.000 |
## Afghanistan                         0.007  0.611 |  0.001  0.000  0.000 |
## Antigua and Barbuda                 0.007  0.620 |  0.001  0.000  0.000 |
## Anguilla                            0.016  1.000 |  0.000  0.000  0.000 |
## Albania                             0.007  0.618 |  0.001  0.000  0.000 |
## Armenia                             0.006  0.618 |  0.001  0.000  0.000 |
## Angola                              0.004  0.520 |  0.002  0.000  0.000 |
## Argentina                           0.006  0.619 |  0.001  0.000  0.000 |
## American Samoa                      0.016  1.000 |  0.000  0.000  0.000 |
## 
## Variables
##                                       Dim.1    ctr   cos2    Dim.2    ctr
## Revenu national moyen              |  0.576  9.818  0.332 |  0.817 25.539
## Produit domestique brut            |  0.613 11.094  0.375 |  0.790 23.897
## Consomation de l'économie national |  0.831 20.424  0.691 |  0.554 11.766
## Dettes personnelles moyennes       |  0.790 18.429  0.624 | -0.613 14.385
## Richesses  personnelles moyennes   |  0.829 20.312  0.687 | -0.559 11.958
## Dettes Gouvernementales            |  0.821 19.924  0.674 | -0.570 12.454
##                                      cos2    Dim.3    ctr   cos2  
## Revenu national moyen               0.667 |  0.021 22.195  0.000 |
## Produit domestique brut             0.624 |  0.013  8.559  0.000 |
## Consomation de l'économie national  0.307 | -0.037 66.555  0.001 |
## Dettes personnelles moyennes        0.376 |  0.005  1.270  0.000 |
## Richesses  personnelles moyennes    0.312 |  0.004  0.860  0.000 |
## Dettes Gouvernementales             0.325 |  0.003  0.562  0.000 |

4.2 En Europe.

4.2.2 Réalisation de l’analyse en composantes principales

On représente donc tous les pays petit à petit, pour une meilleure visibilité.

On arrive ici à retrouver des petits ensembles, en bas à droite la France, l’Allemagne, la Suisse, la Belgique et le Royaume-Uni forment un bloc, moteur par les dépenses publiques, ce sont les pays dont les habitants consomment le plus. En haut à gauche, les pays slaves avec l’Estonie, la Lettonie et la Lituanie, complétés par Malte, Chypre et la Bosnie forment un groupe de pays aux consommations et revenus moyens faibles, donc un ensemble de pays plutôt pauvre. Et pour finir, en haut à droite les pays Scandinaves, avec la Norvège, la Suède et le Danemark, avec la Croatie, des pays dont les patrimoines individuels sont plus importants, mais également avec d’importantes dettes nationales.

## 
## Call:
## PCA(X = pca$completeObs, graph = F) 
## 
## 
## Eigenvalues
##                        Dim.1   Dim.2   Dim.3   Dim.4   Dim.5   Dim.6
## Variance               3.246   2.750   0.003   0.000   0.000   0.000
## % of var.             54.101  45.840   0.056   0.002   0.000   0.000
## Cumulative % of var.  54.101  99.941  99.998 100.000 100.000 100.000
## 
## Individuals (the 10 first)
##                                        Dist    Dim.1    ctr   cos2    Dim.2
## Andorra                            |  0.676 | -0.399  0.129  0.348 |  0.546
## Albania                            |  0.401 |  0.014  0.000  0.001 |  0.398
## Armenia                            |  1.241 |  1.224  1.214  0.972 |  0.031
## Austria                            |  0.563 | -0.370  0.111  0.432 |  0.424
## Bosnia and Herzegovina             |  0.663 | -0.445  0.160  0.450 |  0.491
## Belgium                            |  0.538 | -0.361  0.106  0.450 |  0.398
## Bulgaria                           |  0.644 | -0.429  0.149  0.443 |  0.481
## Belarus                            |  0.639 | -0.422  0.144  0.435 |  0.480
## Switzerland                        |  0.463 | -0.316  0.081  0.466 |  0.336
## Cyprus                             |  0.666 | -0.449  0.163  0.454 |  0.492
##                                       ctr   cos2    Dim.3    ctr   cos2  
## Andorra                             0.285  0.652 |  0.000  0.000  0.000 |
## Albania                             0.151  0.981 | -0.053  2.236  0.018 |
## Armenia                             0.001  0.001 | -0.202 31.915  0.026 |
## Austria                             0.172  0.567 |  0.021  0.345  0.001 |
## Bosnia and Herzegovina              0.231  0.549 |  0.019  0.288  0.001 |
## Belgium                             0.151  0.547 |  0.026  0.534  0.002 |
## Bulgaria                            0.221  0.557 |  0.018  0.260  0.001 |
## Belarus                             0.220  0.564 |  0.017  0.223  0.001 |
## Switzerland                         0.108  0.528 |  0.034  0.906  0.005 |
## Cyprus                              0.231  0.545 |  0.020  0.312  0.001 |
## 
## Variables
##                                       Dim.1    ctr   cos2    Dim.2    ctr
## Revenu national moyen              |  0.764 18.004  0.584 | -0.644 15.060
## Produit domestique brut            |  0.760 17.773  0.577 | -0.650 15.376
## Consomation de l'économie national |  0.755 17.572  0.570 | -0.654 15.547
## Dettes personnelles moyennes       |  0.669 13.778  0.447 |  0.743 20.097
## Richesses  personnelles moyennes   |  0.669 13.778  0.447 |  0.743 20.097
## Dettes Gouvernementales            |  0.787 19.095  0.620 |  0.617 13.822
##                                      cos2    Dim.3    ctr   cos2  
## Revenu national moyen               0.414 | -0.036 39.332  0.001 |
## Produit domestique brut             0.423 | -0.008  1.951  0.000 |
## Consomation de l'économie national  0.428 |  0.044 58.714  0.002 |
## Dettes personnelles moyennes        0.553 |  0.000  0.001  0.000 |
## Richesses  personnelles moyennes    0.553 |  0.000  0.001  0.000 |
## Dettes Gouvernementales             0.380 |  0.000  0.001  0.000 |

Une autre méthode de classification non supervisée pour le regroupement de pays serait les k-means avec la sélection du nombre de barycentre, ici il semble que nous en ayant identifié 3. Nous allons donc tenter d’utiliser un algorithme des k-means pour la classification non supervisée.

4.3 K-means.

On effectue tout d’abord un petit traitement sur les valeurs manquantes.

On remarque que la Hongrie est alors très éloignée des autres groupes, il serait intéressant d’effectuer à nouveau ce travail en ne prenant pas en compte la Hongrie dans notre travail.

On obtient alors un découpage vraiment différent, on doit tout de même faire attention notre méthode pour gérer les valeurs manquantes ici, manque de rigueur comparée à celle utilisée par l’ACP du package missMDA. On peut également utiliser les dendrogrammes pour la classification.

4.4 Dendrogramme de groupement.

4.4.2 Sur les résultats de l’ACP.

Il est intéressant de se servir également des résultats de l’A.C.P pour la construction de nos outils de classification non supervisée.

Là encore, la Hongrie se démarque par son éloignement, mais on arrive un peu à retrouver nos groupes obtenus lors de l’ACP.

5 Données Erasmus

On se propose de lier nos données sur un jeu de données accessibles sur le net, sur le site du https:/fr.statista.com/, qui répertorie pour l’année 2016, sur quelques pays européens, le nombre d’étudiants ayant effectué un échange Erasmus, il se compose de deux fichiers Csv, l’un avec une liste de pays et le nombre de leurs étudiants envoyés à l’étranger, le second avec une liste de pays et leurs étudiants reçus en échange.

## Joining, by = "Pays"
Pays NbrEtuEnv NbrEtuRec
France 39985 29558
Allemagne 39719 32871
Espagne 36842 42537
Italie 31051 21564
Pologne 16735 13101
Royaume-Uni 14801 30183
Turquie 14665 NA
Pays-Bas 12397 11445
Belgique 8652 10666
République Tchèque 8226 NA

6 Représentation des inégalités sur une carte

Avec R, il nous est possible d’utiliser le package maps, qui nous permet de représenter des indicateurs sur une carte représentant les pays.

6.1 Produit National Brut

On peut alors colorer les pays en accord avec la valeur d’un indicateur, on se décide à récupérer les données sur le produit national brut, afin d’afficher sur une carte, par un jeu de couleurs, les différences entre pays, pour l’indicateur de produit national brut moyen par habitant. On prend l’année de référence 2015.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   -4316    5220   14501   47868   32414 5184959

6.2 Représentation des revenus nationaux par pays sur une carte

On va donc se servir de cet outil, une fois encore, pour représenter les revenus moyens par adulte. Toujours sur l’année 2015.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     254    4777   12187   42584   26408 4776164

On a donc représenté les pays par rapport à leurs richesses propres, il serait intéressant de reporter maintenant les pays les plus inégalitaires. Mais comme nous l’avons vu lors de nos statistiques descriptives, le découpage en percentile des richesses mondiales, n’est présentes que dans certains pays.

7 Analyse temporelle de nos indicateurs

Pour finir, il nous semble judicieux de mettre à profit nos connaissances en séries temporelles pour essayer d’effectuer une analyse prédictive de certains indicateurs. On se propose de reprendre avec notre premier choix de graphe, la part de richesses des 1% et 10% plus riches. On démarre par des tests de stationnarités de Dickey-Fuller et Kwiatkowski-Phillips-Schmidt-Shin.

7.1 Part de richesses des 1% les plus aisés en France.

## 
##  Augmented Dickey-Fuller Test
## 
## data:  sc
## Dickey-Fuller = -1.0098, Lag order = 4, p-value = 0.9331
## alternative hypothesis: stationary
## 
##  KPSS Test for Level Stationarity
## 
## data:  sc
## KPSS Level = 2.1228, Truncation lag parameter = 4, p-value = 0.01

Les deux tests valident une hypothèse de stationnarité. On effectue ensuite un test de saisonnalité.

##  Call:
##  stl(x = sc, s.window = "periodic")
## 
## Components
##             seasonal     trend     remainder
## Jan  1 -0.0019262971 0.4547786 -1.145228e-02
## Feb  1 -0.0043302977 0.4619729  2.675737e-02
## Mar  1 -0.0022442782 0.4691673 -2.230202e-04
## Apr  1 -0.0018726985 0.4765589 -1.678620e-02
## May  1  0.0088688691 0.4839505  1.898063e-02
## Jun  1  0.0080717009 0.4914894  1.593890e-02
## Jul  1  0.0025645385 0.4990283 -8.892852e-03
## Aug  1 -0.0076894984 0.5063974 -4.500793e-02
## Sep  1 -0.0030638948 0.5137666 -2.130266e-02
## Oct  1 -0.0013471302 0.5203078  4.639333e-03
## Nov  1  0.0032252120 0.5268490  1.352581e-02
## Dec  1 -0.0002562205 0.5321273  3.142892e-02
## Jan  2 -0.0019262971 0.5374056  3.352069e-02
## Feb  2 -0.0043302977 0.5415664  6.963943e-03
## Mar  2 -0.0022442782 0.5457271  1.021716e-02
## Apr  2 -0.0018726985 0.5467131 -4.640406e-03
## May  2  0.0088688691 0.5476991 -2.468010e-03
## Jun  2  0.0080717009 0.5455945 -6.661971e-04
## Jul  2  0.0025645385 0.5434898 -4.543503e-04
## Aug  2 -0.0076894984 0.5398463  1.344323e-02
## Sep  2 -0.0030638948 0.5362027  6.861191e-03
## Oct  2 -0.0013471302 0.5311027  7.844380e-03
## Nov  2  0.0032252120 0.5260027  5.672063e-03
## Dec  2 -0.0002562205 0.5190422  9.313981e-03
## Jan  3 -0.0019262971 0.5120818  9.844514e-03
## Feb  3 -0.0043302977 0.5048588  4.071448e-03
## Mar  3 -0.0022442782 0.4976359 -1.391648e-03
## Apr  3 -0.0018726985 0.4920730 -5.600341e-03
## May  3  0.0088688691 0.4865102 -1.807906e-02
## Jun  3  0.0080717009 0.4820202 -1.579185e-02
## Jul  3  0.0025645385 0.4775301 -3.309466e-02
## Aug  3 -0.0076894984 0.4734206 -1.213116e-02
## Sep  3 -0.0030638948 0.4693112  1.115272e-02
## Oct  3 -0.0013471302 0.4653041  2.674306e-02
## Nov  3  0.0032252120 0.4612970  3.157781e-02
## Dec  3 -0.0002562205 0.4558924  7.663818e-03
## Jan  4 -0.0019262971 0.4504878 -5.614883e-04
## Feb  4 -0.0043302977 0.4419143  8.315958e-03
## Mar  4 -0.0022442782 0.4333409  6.403415e-03
## Apr  4 -0.0018726985 0.4231238  1.144890e-02
## May  4  0.0088688691 0.4129067  4.624396e-03
## Jun  4  0.0080717009 0.4034501 -1.462184e-02
## Jul  4  0.0025645385 0.3939935  3.341910e-03
## Aug  4 -0.0076894984 0.3844536 -2.886413e-02
## Sep  4 -0.0030638948 0.3749137 -2.344982e-02
## Oct  4 -0.0013471302 0.3657970 -1.949820e-03
## Nov  4  0.0032252120 0.3566802  2.069459e-02
## Dec  4 -0.0002562205 0.3501007  2.855549e-02
## Jan  5 -0.0019262971 0.3435213  1.010504e-02
## Feb  5 -0.0043302977 0.3389878 -2.765747e-02
## Mar  5 -0.0022442782 0.3344543 -2.981002e-02
## Apr  5 -0.0018726985 0.3301587 -2.258596e-02
## May  5  0.0088688691 0.3258630 -2.131886e-03
## Jun  5  0.0080717009 0.3227913  2.937001e-03
## Jul  5  0.0025645385 0.3197196  4.915902e-03
## Aug  5 -0.0076894984 0.3192899  8.999584e-03
## Sep  5 -0.0030638948 0.3188603  3.203635e-03
## Oct  5 -0.0013471302 0.3190554 -1.340822e-02
## Nov  5  0.0032252120 0.3192504 -1.167567e-02
## Dec  5 -0.0002562205 0.3186833 -5.127025e-03
## Jan  6 -0.0019262971 0.3181161  1.621022e-02
## Feb  6 -0.0043302977 0.3168478 -1.317505e-03
## Mar  6 -0.0022442782 0.3155795  1.226476e-02
## Apr  6 -0.0018726985 0.3116970  4.475652e-03
## May  6  0.0088688691 0.3078146  3.416569e-03
## Jun  6  0.0080717009 0.2997634  1.766492e-02
## Jul  6  0.0025645385 0.2917122  2.432326e-02
## Aug  6 -0.0076894984 0.2809249  3.166461e-02
## Sep  6 -0.0030638948 0.2701376  2.492633e-02
## Oct  6 -0.0013471302 0.2583525  9.462971e-05
## Nov  6  0.0032252120 0.2465674 -1.649263e-02
## Dec  6 -0.0002562205 0.2346126 -3.105634e-02
## Jan  7 -0.0019262971 0.2226577 -2.233138e-02
## Feb  7 -0.0043302977 0.2124831 -1.025277e-02
## Mar  7 -0.0022442782 0.2023084 -2.264170e-03
## Apr  7 -0.0018726985 0.1955318 -2.359145e-03
## May  7  0.0088688691 0.1887552 -1.082411e-02
## Jun  7  0.0080717009 0.1845518 -9.623522e-03
## Jul  7  0.0025645385 0.1803484 -4.212943e-03
## Aug  7 -0.0076894984 0.1772494  6.440095e-03
## Sep  7 -0.0030638948 0.1741504  3.313491e-03
## Oct  7 -0.0013471302 0.1720360  1.411112e-03
## Nov  7  0.0032252120 0.1699216 -6.446814e-03
## Dec  7 -0.0002562205 0.1688586 -6.802373e-03
## Jan  8 -0.0019262971 0.1677956 -6.569278e-03
## Feb  8 -0.0043302977 0.1676857 -5.355419e-03
## Mar  8 -0.0022442782 0.1675759 -3.931589e-03
## Apr  8 -0.0018726985 0.1686603  1.112433e-03
## May  8  0.0088688691 0.1697447 -8.013522e-03
## Jun  8  0.0080717009 0.1724234 -6.795106e-03
## Jul  8  0.0025645385 0.1751022 -1.066706e-03
## Aug  8 -0.0076894984 0.1803208 -8.312992e-04
## Sep  8 -0.0030638948 0.1855394 -1.575553e-03
## Oct  8 -0.0013471302 0.1933781 -1.703095e-02
## Nov  8  0.0032252120 0.2012167 -1.654191e-02
## Dec  8 -0.0002562205 0.2101010 -1.664476e-02
## Jan  9 -0.0019262971 0.2189853 -2.065898e-02
## Feb  9 -0.0043302977 0.2268766  1.065368e-02
## Mar  9 -0.0022442782 0.2347680  2.057632e-02
## Apr  9 -0.0018726985 0.2402116  2.866108e-02
## May  9  0.0088688691 0.2456553  2.387588e-02
## Jun  9  0.0080717009 0.2476004  2.542793e-02
## Jul  9  0.0025645385 0.2495455  1.838998e-02
## Aug  9 -0.0076894984 0.2478793  1.381019e-02
## Sep  9 -0.0030638948 0.2462132  3.050735e-03
## Oct  9 -0.0013471302 0.2424387 -3.491580e-03
## Nov  9  0.0032252120 0.2386643 -1.678947e-02
## Dec  9 -0.0002562205 0.2360386 -1.448236e-02
## Jan 10 -0.0019262971 0.2334129 -7.786622e-03
## Feb 10 -0.0043302977 0.2312243 -1.099400e-02
## Mar 10 -0.0022442782 0.2290357 -9.791405e-03
## Apr 10 -0.0018726985 0.2271091  9.863579e-03
## May 10  0.0088688691 0.2251826 -4.251434e-03
## Jun 10  0.0080717009 0.2235649 -8.036563e-03
## Jul 10  0.0025645385 0.2219472  4.488303e-03
## Aug 10 -0.0076894984 0.2205809  2.090862e-02

On ne retient pas de composantes saisonnières. On cherche donc le modèle.

## Series: sc 
## ARIMA(1,1,2) 
## 
## Coefficients:
##           ar1     ma1     ma2
##       -0.9851  1.2828  0.3186
## s.e.   0.0275  0.1024  0.1003
## 
## sigma^2 estimated as 0.0002553:  log likelihood=313.8
## AIC=-619.6   AICc=-619.24   BIC=-608.62

Il semblerait que ce soit un modèle ARIMA(1,1,2) qui soit retenu dans ce cas-là.

Et on va chercher à effectuer une estimation avec ce modèle sur les données.

La prédiction semble grossière, nous allons donc tenter une autre méthode.

Vu la simplicité du jeu de données, on va effectuer un lissage exponentiel simple en utilisant la fenêtre de Holt-Winters.

## 
##  Shapiro-Wilk normality test
## 
## data:  pred$residuals
## W = 0.98043, p-value = 0.1272

On obtient alors quelque chose de plus intéressant, essayons finalement d’améliorer ce lissage exponentiel en passant par la fonction ets() qui évalue plusieurs lissages pour proposer le meilleur. De plus on obtient également la normalité de nos résidus.

## ETS(M,Ad,N) 
## 
## Call:
##  ets(y = sc) 
## 
##   Smoothing parameters:
##     alpha = 0.9999 
##     beta  = 0.3161 
##     phi   = 0.8 
## 
##   Initial states:
##     l = 0.3903 
##     b = 0.0522 
## 
##   sigma:  0.0472
## 
##       AIC      AICc       BIC 
## -418.1364 -417.3658 -401.6149

On obtient des résultats similaires à ceux de ARIMA(1,1, 2), il semble donc que le lissage exponentiel simple avec la fenêtre d’Holt-Winters soit le plus satisfaisant

7.2 Part de richesses des 1O% les plus aisés en France.

Prenons maintenant la part de richesse des 10% les plus aisés en France.

## 
##  Augmented Dickey-Fuller Test
## 
## data:  sc
## Dickey-Fuller = -1.1149, Lag order = 4, p-value = 0.9166
## alternative hypothesis: stationary
## 
##  KPSS Test for Level Stationarity
## 
## data:  sc
## KPSS Level = 2.2483, Truncation lag parameter = 4, p-value = 0.01

Comme l’on s’y attendait, les tests de stationnarités sont encore validés. On effectue alors la prédiction.

## 
##  Shapiro-Wilk normality test
## 
## data:  pred$residuals
## W = 0.9701, p-value = 0.01869

Il serait maintenant intéressant de comparer avec d’autres pays.

7.3 Aux USA et en Chine.

## 
##  Augmented Dickey-Fuller Test
## 
## data:  sc
## Dickey-Fuller = -1.4313, Lag order = 4, p-value = 0.8124
## alternative hypothesis: stationary
## 
##  KPSS Test for Level Stationarity
## 
## data:  sc
## KPSS Level = 1.322, Truncation lag parameter = 4, p-value = 0.01

## 
##  Shapiro-Wilk normality test
## 
## data:  pred$residuals
## W = 0.99103, p-value = 0.8042

## 
##  Augmented Dickey-Fuller Test
## 
## data:  sc
## Dickey-Fuller = -1.4209, Lag order = 3, p-value = 0.7996
## alternative hypothesis: stationary
## 
##  KPSS Test for Level Stationarity
## 
## data:  sc
## KPSS Level = 0.90146, Truncation lag parameter = 3, p-value = 0.01

## 
##  Shapiro-Wilk normality test
## 
## data:  pred$residuals
## W = 0.95213, p-value = 0.2599

Il est intéressant de voir ces évolutions, cependant on se rend assez vite compte que notre méthode manque de rigueur, en effet on observe des évolutions temporelles d’un pourcentage des revenus, et l’on observe des prévisions en Chine où la barre des 1 serait dépassée, ce qui n’a pas de sens dans notre jeu de données, mais cela traduit tout de même la tendance à l’augmentation de l’écart entre les plus aisés et les plus pauvres. Mais aussi de la tendance bien plus rapide à arriver dans un pays comme la Chine par apport à la France ou aux États-Unis.

Conclusion

Travailler ensemble sur ce projet a été un vrai défi, il a été surprenant pour nous tous de la complexité qui occupe lorsque l’on se frotte à des jeux de données “réelles”, avec le lot de complexité que cela entraine. Ce sujet en particulier nous a confrontés à une difficulté inhabituelle pour chacun d’entre nous, celle de cibler une problématique. Suite à la compréhension de notre jeu de données et de ce fait de ses limites, beaucoup d’idées nous ont traversé la tête sans que nous ayons eu le temps de les approfondir vraiment, notre travail sur les échanges Erasmus a été limité par le nombre d’indicateurs finalement présent dans notDe plus la provenance des données de ce jeu de données reste le travail de scientifiques ouvertement politisés, notre volonté d’avaliser ces indicateurs en les comparant avec des données d’ONG nous paraissait également importante. Nous avons également pu utiliser certaines méthodes apprises tout au long de notre master, et de ce fait, nous sommes reconnaissants à l’ensemble du corps professoral qui nous a accompagnés durant ces deux années. Pour finir, même si nous sommes resté sans réponse à notre demande auprès de Monsieur Thomas Piketty, nous tenions à le remercier et tous ses collaborateurs pour le travail fourni dans le recueil et la création de cette base de données qui apporte un véritable éclairage sur la situation dans laquelle le capitalisme a conduit à une fracture encore plus profonde des classes. Il y a notamment un article de Thomas Piketty, qui nous aura beaucoup fait réagir, établissant une tribune sur la culture du déni de dysfonctionnement du modèle capitaliste, accessible au lien suivant : https://www.lemonde.fr/blog/piketty/2020/01/14/apres-le-deni-climatique-le-deni-inegalitaire/. Nous sommes donc ravis d’avoir pu étudier ce sujet si captivant.

Références

https://wid.world/fr/ https://github.com/WIDworld/wid-r-tool http:/wid.World/percentiles https://www.youtube.com/playlist?list=PLnZgp6epRBbQzxFnQrcxg09kRt-PA66T_ https:/fr.statista.com/ https://www.lemonde.fr/blog/piketty/2020/01/14/apres-le-deni-climatique-le-deni-inegalitaire/ https://www.youtube.com/watch?v=J4iODLa9hYw https://www.oxfamfrance.org/rapports/ https://www.lucaschancel.info/ https://www.lemonde.fr/idees/article/2017/01/24/pour-un-revenu-universel-credible-et-audacieux_5068506_3232.html#Pe0dedYzOdG6TxK3.99 https://lgatto.github.io/IntroMachineLearningWithR/unsupervised-learning.html#pre-processing


Toufik Cheikh | Yahya Dakir | Hugo Lacauste | Giulio Martellucci

Université de Bordeaux

18 Février 2020