Parcoursup : Quels profils pour quelles filières ?

Sophie Dominique, Naïchou N’Gbama Mbala, Nour Selmi

18 février 2020

Introduction

C’est en 2018 que Parcoursup, la nouvelle plateforme nationale de préinscription en première année de l’enseignement supérieur en France, remplace Admission Post Bac (APB) utilisée entre 2009 et 2017.

Le nombre de nouveaux étudiants augmentent considérablement chaque année. En effet, il y avait 680 734 candidats en 2009 sur APB contre 853 262 candidats en 2017. Face à ce boom démographique et à l’utilisation injuste du tirage au sort pour les formations non sélectives, le gouvernement décide de créer Parcoursup qui se veut plus “personnalisé” que son prédécesseur. La nouvelle plateforme propose aux futurs étudiants de saisir des voeux non hiérarchisés, à la différence d’APB, pour un maximum de 10 voeux. Puis les candidats recevront des propositions d’admissions par les formations qu’ils ont demandé et devront y répondre positivement ou négativement. A noter que de nombreuses formations n’utilisent pas Parcoursup ou n’utilisaient pas APB pour les inscriptions et donc que toutes les formations d’études supérieures ne sont pas présentes ici.

Après avoir récupéré les données sur les candidatures et admissions pour chaque formation proposée sur les deux plateformes APB et Parcoursup, nous pouvons nous demander quels sont les profils des étudiants admis dans une formation.

Nous analyserons les données de Parcoursup 2018 dans un premier temps, puis nous chercherons à caractériser les profils des admis dans une filière par rapport à leur sexe, leur série de baccalauréat, la mention obtenue ou le fait qu’il soit boursier ou non. Enfin nous comparerons nos données provenant de la session 2018 de Parcoursup avec la session 2019 et avec les sessions 2016 et 2017 d’APB.

1. Présentation des données

Pour répondre à notre question nous possédons trois jeux de données : les données issues de la plateforme Parcoursup des années 2018 et 2019, ainsi qu’un jeu de données issus de l’ancienne plateforme APB, qui regroupe les candidatures et les admissions des étudiants sur les années 2016 et 2017.

Ainsi, nous avons, pour 2018, 10697 formations. Toutes ces formations sont plus précisément, les formations ayant reçu au moins une candidature, et 85 variables, pour décrire ces formations en terme de libellé de formation, de nombre de candidats et de nombre d’admis. De même pour l’année 2019, nous avons 11577 formations décrites selon 92 variables. Enfin, nous avons pour les années 2016/2017 un total de 17753 formations confondues sur les deux années, avec seulement 37 variables.

Nous avons dans chaque jeu de données des variables qui décrivent la même information pour chaque année, mais pas sous le même nom. Nous avons donc effectué un premier traitement des données en renommant les variables afin de pouvoir regrouper les trois jeux de données en un seul.

Toutefois, toutes les formations n’ont pas renseigné toutes les informations disponibles dans le jeu de données, les données sont donc incomplètes.

1.1 Présentation des variables de Parcoursup session 2018

Ce jeu de données se composent de variables qualitatives ainsi que quantitatives. Analysons d’une part les variables qualitatives puis les variables quantitatives pour en extraire des informations générales.

Les variables qualitatives

Ces variables renseignent sur la session (année), la localisation et la description des formations proposées sur Parcoursup (filière). Nous pouvons retrouver aussi le lien Parcoursup de la formation. Nous avons donc les variables suivantes :

Etablissement : nous renseigne sur le nom de l’établissement dans lequel se trouve la formation.

Departement, Region, Academie, Coordonnees_GPS : nous renseigne sur la situation géographique de la formation.

Filiere_tres_agregee, Filiere, Filiere_detaillee, Filiere_tres_detaillee : nous renseigne sur le nom complet de la formation, avec plus ou moins de précision dans les options.

Voici des exemples des 10697 formations réparties dans 2648 établissements en France, dans l’Outre-mer ainsi qu’à l’étranger, du jeu de données, définies par les 4 variables Filières.

Filiere_tres_agregee Filiere Filiere_detaillee Filiere_tres_detaillee
1 Licence Licence - Arts-lettres-langues Langues étrangères appliquées Anglais - Espagnol
306 DUT DUT - Service Gestion logistique et transport parcours ENEPS destiné aux bacs professionnels

Les variables quantitatives

Les variables quantitatives que nous possédons nous renseignent sur la capacité d’accueil de chaque formation, puis dans un premier temps sur les candidatures par formation et enfin sur les admissions. Pour répondre à notre problématique, nous allons nous concentrer sur les variables en relation avec les admissions, et laisser de côté les variables sur les candidatures.

Les variables quantitatives qui nous renseignent sur les effectifs par rapport aux admissions, sont les suivantes :

Total_admis : nombre total de candidats admis dans la formation.

Total_admis_fille : nombre total de filles parmi tous candidats admis.

Admis_neobachelier : nombre total de nouveaux entrants qui ont obtenu leur baccalauréat au cours de cette année-là.

Admis_neobachelier_boursier : nombre total de nouveaux entrants ayant eu le baccalauréat cette année, qui avait droit à une bourse.

Admis_neobachelier_general, Admis_neobachelier_technologique, Admis_neobachelier_professionnel, Admis_autre_candidat : nous renseigne sur les effectifs des étudiants admis dans la formation en fonction du type de baccalauréat qu’ils ont obtenu.

Admis_neobachelier_general_avec_mention, Admis_neobachelier_technologique_avec_mention, Admis_neobachelier_professionnel_avec_mention : nous renseigne sur les effectifs des étudiants admis qui ont obtenu une mention suivant leur type de baccalauréat.

Admis_neobachelier_sans_info_mention, Admis_neobachelier_sans_mention, Admis_neobachelier_mention_AB, Admis_neobachelier_mention_B, Admis_neobachelier_mention_TB : nous renseigne sur les effectifs des admis dans les formations en fonction des mentions obtenues.

Admis_meme_academie : effectif des admis dans une formation qui proviennent de la même académie dans laquelle ils ont obtenu leur diplôme du baccalauréat.

Nous avons donc des renseignements globaux sur le sexe des candidats, la perception d’une bourse ou non, le type de baccalauréat obtenu ainsi que la mention obtenue. Tous ces renseignements vont nous aider à caractériser les profils des étudiants admis dans chaque formation.

1.2 Présentation des variables de Parcoursup session 2019 et d’APB session 2016 et 2017

Pour le jeu de données de l’année 2019, nous pouvons retrouver les mêmes variables qualitatives et quantitatives concernant les admissions que pour le jeu de données de Parcoursup 2018.

Concernant le jeu de données APB, nous pouvons retrouver certaines variables présentes dans les jeux liés à Parcoursup. Notamment les variables qualitatives sur la localisation des formations (Etablissement, Departement, Region, Academie) à l’exception des coordonnées GPS, ainsi que les noms des filières avec les variables Filiere_tres_agregee, Filiere, Filiere_tres_detaillee.

Les variables quantitatives qui décrivent les effectifs des admis que l’on peut retrouve dans ce jeu de données sont les suivantes : Total_candidat, Total_candidat_fille, Admis_boursier_neobachelier, Admis_neobachelier_sans_mention, Admis_neobachelier_mention_AB, Admis_neobachelier_mention_B, Admis_neobachelier_mention_TB, Admis_meme_academie.

Nous n’avons donc pas les informations sur les mentions obtenues par type de baccalauréat.

Avec toutes ces informations, nous allons pouvoir répondre à notre problématique et comparer les résultats sur chaque année. Commençons d’abord par répondre à la question pour l’année 2018, puis nous comparerons avec les autres années.

2. Analyse sur les données de Parcoursup 2018

Dans un premier temps, nous allons nous concentrer sur l’année 2018, et nous allons chercher à extraire un comportement dans le recrutement des formations.

2.1 Première approche générale

2.1.1 Répartition des établissements français

Tout d’abord, nous pouvons afficher la répartition des différentes formations sur tout le territoire français.

Nous avons donc affiché l’ensemble des formations que nous avons coloré suivant le type de filière de la formation (qui est la variable Filiere_tres_agregee), c’est-à-dire s’il s’agit d’une licence, d’une CPGE (Classes préparatoires aux grandes écoles), d’une PACES (Première année commune aux études de santé), d’un BTS (Brevet de technicien supérieur), d’un DUT (Diplôme universitaire de technologie) ou d’une autre formation. Avec cette carte, nous pouvons donc déjà avoir un premier aperçu de la répartition des formations proposées sur la plateforme Parcoursup suivant la localisation de l’établissement d’accueil de chaque formation. Ainsi, nous pouvons voir qu’il existe de nombreuses formations en BTS et que celles-ci se situent en majorité dans des zones un peu rurales, à la différence des formations en licence et PACES qui se trouvent principalement dans de grandes villes de la France métropolitaine.

2.1.2 Les effectifs des nouveaux entrants

Sur ce graphique, nous voyons que plus de 53% des 570252 admis dans une formation d’études supérieures sont des filles. Cela peut confirmer la tendance à ce que les filles soient plus enclin à effectuer des études supérieures.

A partir de ce graphique, nous pouvons voir qu’environ 300 000 admis proviennent d’une série générale, ce qui correspond à une grande partie des néobacheliers de cette série. En effet, il y a eu plus de 350 000 lycéens qui ont été diplômés d’un baccalauréat général contre seulement 135 000 diplômés d’un baccalauréat technologique et 180 000 diplômés d’un baccalauréat professionnel. Donc on peut dire qu’une grande partie de ces néobacheliers généraux et technologiques ont décidé de poursuivre leur formation en études supérieures. Pour les séries professionnelles, nous ne retrouvons pas le même constat. En effet, à peine plus de 50 000 néobacheliers professionnels ont été admis en première année d’études supérieures contre plus de 180 000 diplômés.

Intéressons nous à présent à décrire les profils des étudiants suivant la filière choisie. Pour répondre à la question “quels sont les profils des étudiants admis dans une formation ?” nous avons repris les différentes caractéristiques des futurs étudiants de première année, à savoir le sexe, le caractère boursier, le type de diplôme obtenu et la mention obtenue à ce diplôme, et les avons analysés en fonction de la filière.

Tout d’abord, nous pouvons voir par ce diagramme la répartition des admissions suivant le type de filière. Nous pouvons constater que les Licences accueillent pratiquement la moitié des nouveaux entrants en études supérieures.

2.2 L’orientation est-elle sexuée ?

Nous pouvons tout d’abord nous demander si une filière privilégie les filles ou les garçons dans son recrutement.

Dans les filières proposées par Parcoursup, la PACES est la filière qui présente le plus fort taux d’admission de filles avec 70% de filles admises, suivie des licences avec environ 60% de filles admises. Les DUT quant à eux n’ont qu’un taux de 40% d’admissions de filles. On pourrait penser donc que les filières DUT discriminent leurs admissions en fonction du sexe du candidat. Les autres filières ont admis environ 50% de filles. Ces filières respectent donc la parité Homme/Femme dans leur filière.

2.3 Les ressources financières sont-elles un frein dans les admissions ?

Ensuite, nous pouvons nous demander si les formations ont une proportion égale de nouveaux entrants boursiers.

La filière BTS est celle qui présente la plus forte proportion de boursiers dans ces formations avec un taux de 20%, contre un taux autour des 10% pour les CPGE. Le caractère boursier peut sembler entrer en compte dans le choix d’un candidat dans les filières BTS et CPGE.

2.4 L’orientation est-elle influencée par le type de baccalauréat obtenu ?

Nous cherchons maintenant à montrer que le type de baccalauréat (général, technologique, professionnel) dont provient un futur étudiant permet de caractériser les profils selon la filière. A noter que nous rajoutons des admis qui ne sont pas des néobacheliers et qui peuvent être des étudiants en réorientation ou les étrangers qui souhaitent commencer une première année d’études supérieures dans un établissement français.

Ce graphique nous montre que les bacheliers généraux sont les bacheliers avec la plus forte proportion d’admission dans les filières des CPGE, Licence et autres formations. Les bacheliers professionnels et technologiques ont le taux d’admission le plus élevé en filière BTS.

La différence entre les étudiants admis en CPGE ou PACES et BTS est rapide à constater. En effet les bacheliers professionnels sont en très faibles nombres dans les CPGE ou PACES tandis que les bacheliers généraux ont un taux très bas de répartition seulement pour la filière BTS.

La série du baccalauréat nous permettrait sûrement de caractériser les profils.

2.5 Y a-t-il une sélection selon le niveau scolaire ?

Sur ce diagramme en barre, les taux les plus différents à première vue sont ceux de la filière CPGE. En effet, les CPGE ont une proportion élevée de bacheliers ayant eu la mention Très Bien à la différence des autres filières. Cela peut s’expliquer par le fait que les CPGE sont des formations sélectives, à la différence de la majorité des formations dans les autres filières. De même, la filière BTS a le plus faible taux de proportion de bacheliers ayant eu une mention Très Bien. Il semblerait donc que ces deux filières s’opposent en terme de recrutement de nouveaux entrants.

Nous pouvons donc plus facilement caractériser les filières CPGE et BTS avec le type du baccalauréat vu dans la partie précédente et la mention obtenue.

2.6 Caractérisation globale des types de filière

Afin de comparer les effectifs entre eux, nous avons décidé de pondérer nos variables d’admissions par le nombre total d’admis par formations. En effet, chaque formation ne possède pas une capacité d’accueil identique (les licences ont de plus grandes capacités d’accueil que les BTS par exemple). Les résultats peuvent donc être biaisés par de grands effectifs dans certaines formations.

Dans le but de pouvoir caractériser les formations par rapport aux étudiants admis en première année, nous avons choisi d’utiliser deux méthodes de statistiques descriptives multivariées.

2.6.1 Première approche : ACP

Nous allons commencer avec l’Analyse en Composantes Principales (ACP) en prenant la même pondération des effectifs que précédemment expliquée. On applique sur les variables choisies une ACP standardisée dont on affiche ensuite les variables sur le premier plan factoriel ainsi que les formations.

Le premier plan factoriel explique une inertie d’environ 50% ce qui est convenable pour pouvoir interpréter. Nous pouvons alors interpréter les axes en prenant les variables qui ont une position proche du cercle de corrélation et qui ont un petit angle entre leur flèche et l’axe.

Par exemple, les variables sur les néobacheliers généraux, la mention très bien et les néobacheliers professionnels peuvent caractériser le premier axe factoriel. Cependant les variables sur les néobacheliers professionnels sont opposées avec les autres, ce qui signifie que les formations se trouvant à gauche sur le premier plan factoriel auront plus d’admis avec un baccalauréat général et une mention Très Bien (par rapport à la moyenne) tandis que les formations sur la droite ont plus d’admis avec un baccalauréat professionnel.

Le deuxième axe pourrait être caractérisé par les admis qui ont eu un baccalauréat avec une mention Assez Bien ou Bien ainsi que la variable autre candidat. Les formations se trouvant en haut dans le repère possèdent alors plus de bacheliers avec des mentions Assez bien ou Bien.

Expliquons maintenant, grâce aux caractérisations des deux axes, les positions des formations selon leur filière. Les CPGE sont positionnées en grande partie à gauche du plan avec les PACES ce qui confirme le fait que les CPGE et PACES ont bien plus d’admis qui ont eu des mentions très bien que les autres formations, en partie car les CPGE sont des filières très sélectives.

Quant aux BTS, les formations se retrouvent sur la droite du plan. On peut expliquer cette position par le fait que les BTS ont un taux élevé d’admis avec un baccalauréat professionnel.

Les autres filières comme la Licence sont dispersées sur la moitié gauche du plan, ceci peut s’expliquer par le fait que ce ne sont pas des filières sélectives et sont favorables à l’admission de néobacheliers généraux ou technologiques.

Ainsi, une première constatation est que les filières CPGE s’opposent aux BTS dans leur recrutement.

2.6.2 Deuxième approche : NMF

Une deuxième manière de répondre à nos questions grâce à de l’analyse multivariée peut se faire par la Factorisation par matrices positives (NMF). Nos données étant des variables quantitatives positives, car elles nous renseignent sur des effectifs, nous avons pensé que l’ACP ne permettait pas de répondre au mieux à nos questions. Dans cette partie nous allons donc introduire la NMF et expliquer comment cette méthode permet de mieux caractériser les formations.

La NMF est une technique de réduction de dimension adaptée aux matrices contenant des données positives. Cette technique consiste à décomposer une matrice de données positives en un produit de deux matrices de rang plus faible à valeurs positives. Prenons X une matrice de taille n x m, contenant des observations. Les lignes correspondent aux individus et les colonnes correspondent aux variables. Nous nous retrouvons donc avec n individus et m variables.

Le principe de la NMF est de trouver deux matrices W et H telles que :
\[X \approx WH \]

avec \(X_{n*m}\), \(W_{n*r}\), \(H_{r*m}\) et r un rang choisi tel que \(r << min(n,m)\).
Ce rang r correspond à la dimension dans laquelle nous voulons réduire la matrice X.
Dans la suite, nous utiliserons les termes de matrice des bases et matrice de coefficients pour parler respectivement de la matrice W et de la matrice H.

Rappelons les variables utilisées dans cette analyse : (**)

##  [1] "Filiere_tres_agregee"                         
##  [2] "Total_admis"                                  
##  [3] "Total_admis_fille"                            
##  [4] "Admis_boursier_neobachelier"                  
##  [5] "Admis_neobachelier_general"                   
##  [6] "Admis_neobachelier_technologique"             
##  [7] "Admis_neobachelier_professionnel"             
##  [8] "Admis_autre_candidat"                         
##  [9] "Admis_neobachelier_sans_info_mention"         
## [10] "Admis_neobachelier_sans_mention"              
## [11] "Admis_neobachelier_mention_AB"                
## [12] "Admis_neobachelier_mention_B"                 
## [13] "Admis_neobachelier_mention_TB"                
## [14] "Admis_neobachelier_general_avec_mention"      
## [15] "Admis_neobachelier_technologique_avec_mention"
## [16] "Admis_neobachelier_professionnel_avec_mention"

Nous utilisons l’algorithme avec une approche de moindres carrés appelé “snmf/l” et une réduction de rang à 4 composantes car c’est la combinaison d’arguments qui nous permettait d’avoir la meilleure parcimonie.

La méthode nmf nous permet ensuite d’afficher des matrices de chaleur pour visualiser les 2 matrices positives de la décomposition. A noter que l’échelle de couleur varie du plus clair (blanc, jaune), pour les valeurs les plus faibles, au plus foncé (orange, rouge) pour les valeurs les plus élevées.

**Par soucis d’affichage, les variables sont numérotées par rapport à l’ordre vu en début de partie.

La matrice de chaleurs des coefficients nous donne en colonne les variables utilisées dans l’analyse et en ligne les 4 bases, qui correspondent au rang choisi. Chaque variable a une valeur maximum pour une base et cela va nous permettre de caractériser chaque base. En effet, pour la base 2, par exemple, nous pouvons la caractériser par les variables 3 et 8 qui ont de fortes valeurs dans la ligne de cette base, et qui sont respectivement le nombre d’admises et le nombre d’autres candidats.

Les bases les plus intéressantes qui peuvent nous permettre de répondre à la problématique sont les 3 autres bases. La base 1 est caractérisée par les bacheliers professionnels avec ou sans mention, la base 4 par les bacheliers technologiques avec ou sans mention tandis que la base 3 est caractérisée par les bacheliers avec une mention Bien et Très Bien et les bacheliers généraux avec ou sans mention.

L’affichage de la matrice de chaleur des bases serait inutile car nous avons un trop grand nombre de formations. C’est pour cela que nous avons décidé de s’occuper seulement des 1000 formations ayant les plus grandes valeurs pour chaque base.

Nous avons donc affiché les 1000 formations ayant les plus grandes valeurs pour chaque base catégorisées par filière. Pour la base 1, qui est caractérisée par les bacheliers professionnels, nous remarquons que les BTS est la filière dominante. Pour la base 4 caractérisée par les bacheliers technologiques nous avons de nouveau une grande proportion des filières BTS. Cependant, la base 2, caractérisée par les bacheliers ayant des mentions Bien et Très Bien et les bacheliers généraux avec mention, a une proportion de CPGE bien plus élevée que les autres tandis que les BTS présents dans les 3 autres bases sont minoritaires pour cette base.

2.6.3 Conclusion

Les 2 méthodes de statistiques descriptives multivariées nous ont permis de distinguer les filières selon les caractéristiques des nouveaux entrants. Les variables qui ont été pertinentes sont les variables qui se rapportent aux types de baccalauréat et aux mentions. En effet, les deux méthodes ont montré la sélectivité des CPGE, qui ont une grande proportion d’admis avec des mentions élevées, à savoir les mentions Bien et Très Bien, tandis que la filière BTS a des nouveaux entrants qui ont obtenus principalement des baccalauréats technologiques ou professionnels.

Ces méthodes montrent également que l’origine économique (les boursiers) et le sexe n’influent pas sur les décisions d’admissions.

3. Existe-t-il une différence dans le recrutement entre APB et Parcoursup ?

Nous avons vu dans la partie précédente que le recrutement en 2018 se faisait principalement avec le niveau scolaire et le type de baccalauréat obtenu. Avec les informations que nous avons sur la plateforme APB, nous avons voulu voir l’évolution des profils par filières.

3.1 Evolution du nombre d’admis et d’admises

A travers ce graphique, on voit une légère baisse d’admises sur la plateforme APB. Cette baisse est accompagnée par une baisse de nombre total des admis. On observe une hausse assez importante et continue à partir de 2017 des candidates filles qui sont sur la plateforme Parcousup. Cette hausse peut s’expliquer par la hausse du nombre de candidats.

3.2 Evolution de la proportion d’admises par filière

L’évolution des proportions des admissions filles est stable sur les quatre années. A l’exception des autres formations, qui dans le cas de l’année 2019 comptent plus d’établissements privés.

3.3 Evolution du nombre d’admissions de boursiers

La proportion d’admissions de boursiers par filière est comprise entre 10 et 30% en 2016, tandis qu’en 2018 il y a une chute de la proportion des boursiers qui tombe entre 10 et 20%. Nous pouvons penser que cela est dû à une réforme politique dans l’enseignement supérieur, et donc que l’affectation des bourses soit plus restreinte ce qui engendre une baisse des proportions de plus de 10 points pour les licences par exemple. Il s’agit également de la première année de l’ouverture de la plateforme Parcoursup, ce qui a peut être eu un impact sur les candidats boursières.

3.4 Evolution de la sélection par niveau scolaire

Il y a une grande baisse de proportion entre les années 2016/2017 et 2018/2019, qui peut être dûe à l’arrivée de Parcoursup. Notamment pour les bacheliers n’ayant pas eu de mention ou ayant eu une mention Assez Bien. En effet, Parcoursup oblige les filières qui n’étaient pas déjà sélectives, à classer toutes les candidatures reçues et ne plus faire de tirage au sort aléatoire. Néanmoins, les CPGE sont les filières qui ont le plus gros pourcentage de bacheliers avec des mentions Bien et Très Bien, et ce avec une différence nette avec les autres filières.

4. La caractérisation des filières est-elle la même entre la session 2018 et 2019 ?

Dans la session 2019, nous avons constaté en général une diminution dans les proportions quelque soit le niveau scolaire. Nous pouvons donc nous demander si la caractérisation des filières reste inchangée malgré ce changement ?

En général, les types de filière sont identiquement placés dans le premier plan factoriel. De plus, les axes du plan sont caractérisés par les mêmes variables à savoir celles qui se réfèrent aux mentions et aux types de baccalauréat. Ainsi, nous pouvons en conclure que la caractérisation des filières reste la même que lors de la session 2018.

Conclusion

Ce rapport avait pour objectif de répondre à la problématique sur la caractérisation des filières des formations des établissements français. Grâce aux méthodes statistiques multivariées, nous avons pu distinguer les filières par rapport aux mentions et types de baccalauréat obtenus par les nouveaux admis. En effet, les CPGE qui ont une forte sélection admettent des bacheliers de baccalauréat général avec des mentions Bien ou Très Bien. Contrairement aux BTS, qui ont une majorité de bacheliers technologiques et professionnels. Pour finir, pour les filières des universités (Licences, PACES et DUT) regroupent les profils plus “moyen”, c’est-à-dire des bacheliers généraux sans mention ou avec des mentions Assez Bien. Nous pouvons aussi en conclure que le sexe et la dimension financière (bourses) ne rentrent pas en compte dans la sélection des nouveaux entrants en études supérieures.

Qu’en sera-t-il de la session 2020 ?