Introduction

Dans ce projet, on s’intéresse à différents jeux de données en rapport avec la NBA (National Basketball Association). Nous souhaitons couvrir un large spectre de données afin de pouvoir étudier joueurs et équipes sous différents angles. Nous souhaitons créer ainsi un outil de visualisation permettant d’observer un grand nombre de statistiques liées aux joueurs et aux équipes, les salaires, les masses salariales des équipes, la provenance des joueurs en terme de pays d’origine, l’impact de l’âge sur les joueurs, l’évolution du basket et bien d’autres aspects avec l’évolution de ces derniers dans le temps.


Nous souhaitons ensuite fournir un outil de prédiction permettant d’estimer à l’aide de différentes méthodes les joueurs qui hériteront du titre de meilleur joueur de l’année ainsi que de l’équipe championne. Ne disposant pas des données des 2 dernières années nous étudieront ce que l’on peut obtenir en matière de prédictions jusqu’en 2018. Nous réaliserons en parallèle des analyses afin de comprendre et d’exploiter tout ce qui a été décrit précédemment afin de mettre en évidence des similarités et différences entre équipes et joueurs.


Afin de montrer tout cela de la manière la plus précise et parlante possible nous avons donc décidé de réaliser une application shiny qui agit comme un outil de visualisation permettant d’observer tout cela ( https://guerinclement.shinyapps.io/NBA-GUERIN-LABORDE/ ). De nombreux paramétrages sont possibles permettant de réaliser des zooms sur des joueurs ou des équipes spécifiques. Dans le cadre de ce rapport nous ne pourrons bien sur pas couvrir l’ensemble des possibilités de paramétrisation mais nous décrirons de manière globale l’ensemble de ce que l’application permet avec un zoom spécifique sur certains éléments afin d’illustrer le tout.

Présentation des bases de données

Dans le cadre de cette étude nous disposons de nombreuses bases de données afin de pouvoir produire l’étude la plus complète et diversifiée possible. Nous allons les détailler en ne mentionnant que les variables des jeux de données qui servent à notre étude. Un lien s’affiche à coté du nom de chacun des jeux de données afin de pouvoir les retrouver et les télécharger.


  • “NBA_Salary_History” et “NBA_Salary_History_Players” (dataworld stat Salary) sont des jeux de données qui comme leurs noms l’indiquent contiennent toutes les données relatives aux salaires des joueurs en NBA ainsi qu’aux masses salariales des équipes. Le premier est composé de 816 lignes et le second de 13297 lignes. Les variables sont les suivantes :


    • “Season” indique la saison concernée
    • “Team” indique l’équipe concernée
    • “Player” indique le joueur concerné
    • “Salary” indique le salaire du joueur
    • “Salary Cap” indique la masse salariale maximale qu’une équipe peut avoir sans écoper de pénalités
    • “Total Salary” indique la masse salariale réelle de l’équipe


  • “NBA Finals and MVP” (dataworld nba finals and mvps) est un jeu de données qui contient des informations sur les équipes championnes et sur le MVP (Meilleur joueur d’une saison). Il y a 69 lignes pour 69 saisons. Les variables sont les suivantes :


    • “Year” indique la saison
    • “Eastern Champion”, “Western Champion”, “NBA Champion”, “NBA Vice-Champion” indique l’équipe championne de la conférence Est (respectivement : Conférence Ouest, Championne de NBA et Vice championne de NBA)

    • “MVP name” indique le nom du meilleur joueur de la saison


  • “all_seasons” (kaggle nba players data) est un jeu de données qui contient les informations statistiques sur tous les joueurs ayant participé aux différentes saisons NBA depuis 1996-1997. Il y a 11145 entrées et les variables sont les suivantes :


    • “Player_name” indique le nom du joueur
    • “team_abbreviation” indique l’équipe pour laquelle le joueur joue
    • “Season” représente la saison
    • Ensuite plus de 18 informations sont disponibles sur le joueur (son âge, sa taille, son poids, l’université pour laquelle il a joué, son pays d’origine, l’année de son entrée en NBA, l’ordre dans lequel il a été choisi ainsi que toutes ses statistiques pures pour la saison. Il s’agit des moyennes par matches de points marqués, de rebonds pris de passes décisives, etc…



  • “season-stats-advanced” (github season-stats-advanced) est un fichier dans lequel on peut trouver un jeu de données par saison depuis 1996-1997. Chacun contient les statistiques avancées de tous les joueurs. Il y a au total plus de 10000 lignes. “Season_Stats” (kaggle season-stats) est un jeu de données venant rajouter encore des statistiques supplémentaires sur 25000 lignes. De nombreux champs des deux jeux de données sont en commun avec le jeu précédent mais les variables suivantes se rajoutent :


    • Toutes les statistiques pures par matches des joueurs trouvent écho dans une variable représentant le pourcentage de réussite du joueur pour la statistique donnée. Par exemple la variable DRB% représente le pourcentage de rebonds défensifs que le joueur a pris pour son équipe en défense.

    • Des informations sur le “WIN SHARE” (WS : Part des victoires de son équipe revenant au joueur) sont disponibles dont la plus représentative est la part de la victoire revenant au joueur par match (WS/48)

    • Des informations concernant le BPM sont disponibles. Cette statistique est considérée comme la métrique la plus avancée et précise à ce jour à propos de la qualité d’un joueur. Elle sera détaillée lors de son utilisation.



  • “season-standings” (github season-standings) est un fichier dans lequel on peut trouver un jeu de données par saison depuis les années 1980 pour un total de 1170 lignes. Chacun contient les résultats et classements des équipes de NBA au cours des saisons. Les variables sont les suivantes :


    • “Year” représente la saison
    • “Rk” représente le classement de l’équipe lors d’une saison
    • “Overall”, “Home”, “Road”, “E”, “W” représentent le nombre de victoires et de défaites de l’équipe au total (respectivement à domicile, en déplacement, contre les équipes de l’Est, contre les équipes de l’Ouest)

    • “Champion” indique l’équipe championne à une saison donnée

L’argent en NBA

Dans un premier temps nous nous sommes intéressés à l’argent en NBA sous tous ses angles. Il est souvent admis que le “Salary Cap” (mesure qui consiste à plafonner la masse salariale de chaque équipe dans le but de garantir la compétitivité de chacune d’entre elles en empêchant un déséquilibre trop fort) a indirectement impliqué une inflation massive des salaires des joueurs ces dernières années. La NBA est désormais réputée comme étant la ligue de sport professionnelle proposant le meilleur salaire moyen au monde avec des écarts de salaires bien moins important qu’ailleurs (comme dans le football européen par exemple). Nous souhaitons affirmer ou infirmer cela.



Cette visualisation représente l’évolution du salaire moyen en NBA au cours des années avec différents quantiles afin de mieux comprendre l’évolution des salaires de manière générale. De 800 000 dollars en moyenne à la saison 1990-1991 jusqu’à 5,7 millions à la saison 2017-2018, l’augmentation est impressionnante. Cependant, bien que le salaire moyen connaisse une augmentation claire au cours du temps, l’augmentation semble assez hétérogène, centrée principalement sur les plus hauts salaires. Ainsi les contrats des 10% des joueurs les moins bien payés ont même légèrement diminué depuis 1990. Il est sans doute intéressant de considérer cette série sous la forme d’une série chronologique afin de pouvoir mettre en évidence si oui ou non il existe une tendance et effectuer une prédiction par la suite sur les salaires futurs dans la ligue. Dans un premier temps, effectuons le test KPSS permettant de déterminer ou non la stationnarité de la série.



    KPSS Test for Trend Stationarity

data:  diff(time_ser)
KPSS Trend = 0.082616, Truncation lag parameter = 2, p-value = 0.1

On observe ainsi que la p-valeur de la série différenciée est supérieure à 5% ce qui entraine que nous ne rejettons pas l’hypothèse nulle selon laquelle la série différenciée est stationnaire. Cette propriété est importante pour la suite car cela signifie que les propriétés de la série ne semblent pas varier dans le temps. On peut donc effectuer des prédictions en supposant que les propriétés resteront les mêmes dans le futur. Nous utiliserons la fonction “auto.arima” qui détecte automatiquement les paramètres de notre série chronologique.



Nous pouvons observer que la série est ainsi un ARIMA (0,1,0). Ainsi l’ordre de différenciation dans le modèle est de 1 alors que l’ordre de la partie autorégressive et moyenne mobile sont de 0. Il s’agit donc en réalité d’une marche aléatoire où les incréments du salaire moyen en NBA chaque année seront des variables i.i.d. Ainsi on peut effectuer des prédictions pour le futur jusqu’en 2030. Nous observons ainsi que selon nos prédictions le salaire moyen va continuer d’augmenter fortement jusqu’à atteindre plus de 8 millions de dollars en 2030. La zone grise foncée représente l’intervalle de confiance de cette projection à 80% et en gris clair on trouve l’intervalle de confiance à 95%.


Les autres possibilitées de visualisation permises par notre application sont nombreuses. Il est possible d’étudier pour chaque équipe les joueurs qui ont été les mieux payés (en moyenne ainsi que pour une saison donnée). Il est aussi possible d’étudier pour une saison donnée les joueurs les mieux payés toutes équipes confondues. Pour finir une option permet directement de choisir un joueur et d’observer l’évolution de ses contrats en matière de salaires. Afin d’illustrer certaines de ces possibilitées, nous avons décidé d’étudier le cas d’un joueur emblématique de la NBA : Michael JORDAN.


Mise en avant sur Michael JORDAN et son équipe les Chicago BULLS

Nous disposons des données depuis la saison 1990-1991 ainsi le début de la carrière de Michael JORDAN (1984) ne sera pas couvert.



On observe que deux saisons sont associées à des valeurs de salaires assez décorrélées des autres : 1996-1997 et 1997-1998. En effet il s’agit des premières saisons complètes pour le retour de Michael JORDAN après une première retraite sportive pour s’adonner au baseball entre 1993 et 1995. Il continue tout de même de toucher de l’argent provenant de son précédent contrat sur cette période. Cependant à partir de la saison 1996-1997 son équipe, les Chicago BULLS ont acceptés de lui donner un salaire faramineux avant de le faire revenir dans le monde du basket. On observe ensuite un trou entre 1998 et 2001 correspondant à une seconde retraite sportive. Michael JORDAN ne revenant pas à un niveau satisfaisant le salaire qui lui est proposé est moindre que précédemment. Notre outil permet de visualiser l’impact que le salaire de Michael JORDAN a eu sur son équipe :



On observe que les saisons 1996-97 et 1997-98 qui correspondaient à un salaire conséquent pour Michael JORDAN trouvent écho dans la masse salariale des BULLS lors de ces mêmes saisons où le joueur représentait à lui seul plus de la moitié des salaires de son équipe. Ces deux années semblent assez exceptionnelles pour l’équipe par rapport à la tendance de fond et à l’époque.


Un zoom similaire peut être réalisé pour tous les autres joueurs et toutes les autres équipes.


L’évolution du Basket

Par la suite on s’intéresse à la manière dont le basket a évolué depuis les années 1950 afin de devenir ce qu’il est aujourd’hui. Afin de comprendre son évolution nous trouvons qu’il convient d’étudier différentes statistiques (telles que les Points marqués, les minutes jouées, la note des différents joueurs et bien d’autres métriques) en fonction du poste des joueurs. En effet, le basket est un sport qui se joue avec 5 joueurs occupant des postes différents simultanément sur le terrain :

  • Meneur et Arrière (PG et SG, généralement plus petits que les autres joueurs et plus rapides, ils tirent souvent depuis la ligne à trois points). Les meneurs ont de plus un rôle de distribution de ballons.

  • Ailier (SF, généralement un joueur très équilibré).

  • Ailier fort et Pivot (PF et C, généralement plus grands que les autres joueurs, ils sont souvent des joueurs meilleurs en défense que les autres).

Chaque poste a un intérêt précis et il est souvent admis qu’historiquement dans les années 50, 60 et 70 les pivots étaient les joueurs les plus importants d’une équipe. Nous souhaitons donc étudier si cela peut être mis en avant et observer l’état du jeu actuel. Il convient de noter que notre application permet d’observer l’ensemble de ces statistiques en prenant en compte tous les joueurs ou en prenant en compte seulement les 5 majeurs de chaque équipe (les joueurs principaux de l’effectif et non les remplaçants) qui sont les principaux artisans des résultats des différentes équipes. Dans le cadre de ce rapport nous activerons donc l’option pour prendre en compte seulement les joueurs des 5 majeurs. La première statistique intéressante pour étudier l’évolution du jeu est celle des points marqués :



On observe dans un premier temps que depuis le début des années 50 jusqu’au milieu des années 60 les pivots étaient malgré leur rôle à vocation relativement défensive les meilleurs marqueurs de la ligue. Cette importance s’est grandement atténuée au cours du temps pour revenir dans la moyenne des autres postes à partir des années 1970. Cependant on n’observe pas réellement ce à quoi on s’attendait en matière d’importance de ce poste. En revanche on observe une explosion récente en matière de points marqués pour les meneurs. Cela correspond avec le fait que depuis les années 2010 le jeu s’oriente de plus en plus vers la ligne à 3 points, zone ou se situe principalement les meneurs. Depuis cette période quelques joueurs (meneurs) présentant des statistiques exceptionnelles en matière de tir à 3 points ont fait leur apparition dans la ligue, cependant il est difficile de conclure s’ils sont la cause ou la conséquence de ce changement du jeu.


Une seconde statistique intéressante pour étudier l’évolution du jeu et de l’impact des différents postes est le temps joué par matches.



A l’aide de cette nouvelle statistique, on observe de nouveau que les pivots étaient des joueurs absolument centraux dans un effectif dans les années 1960 avant que cela s’atténue par la suite. Dans les années récentes la tendance s’est même inversée, confirmant le fait que le basket se centralise plus autour de la ligne à trois points désormais. Nous souhaitons donc nous attarder pour finir sur une dernière statistique. Il s’agit d’un indicateur mis au point récemment s’intitulant le BPM (Box Plus-Minus). La formule selon laquelle cette statistique extrêmement complexe est calculée prend en compte le poste, l’ensemble des statistiques, le temps de jeu et bien d’autres données sur chaque joueur. Le détail des coefficients appliqués à chaque statistique peut se trouver sur cette page web :

https://www.basketball-reference.com/about/bpm2.html

Il s’agit aujourd’hui de la statistique unanimement considérée par les experts comme la plus à même de traduire la qualité d’un joueur sur une saison donnée. Une note de 0.0 correspond à un joueur moyen dans la ligue, les notes négatives sont possibles. Une note de 2 correspond à un bon joueur, 4 à un excellent joueur (top 30 dans la ligue environ), 6 à un joueur du top 5 de la ligue pour une saison donnée. Des notes encore plus hautes peuvent ressortir. Cette statistique récente a donc été calculée de manière rétrospective depuis la saison 1973-1974, première saison à partir de laquelle l’ensemble des statistiques nécessaires sont disponibles.



Cette fois-ci cette statistique traduisant l’importance générale d’un joueur montre que les pivots ont été les éléments les plus importants d’une équipe jusqu’en 1980. Cependant les données étant manquantes avant 1973, il est difficile de conclure qu’il s’agit indiscutablement du poste majeur des années 50, 60 et 70 bien qu’il semble en effet avoir de solides arguments pour clamer ce titre. Finalement, en accord avec ce que l’on a pu dire plus tôt on observe une explosion de l’importance des meneurs selon la mesure BPM ajoutant un argument sur le basculement du basket moderne vers la ligne à 3 points.

Origine des joueurs

On s’intéresse désormais aux pays d’origine des différents joueurs de la NBA. Encore une fois de nombreux observateurs considèrent que la NBA s’ouvre de plus en plus aux joueurs étrangers. Là où avant les années 2000, un joueur non américain dans la NBA constituait une exception, il s’agit d’une chose de plus en plus courante désormais. Nous avons choisi deux visualisations pour illustrer ce changement. Dans un premier temps, nous étudions l’évolution en matière de pourcentage du nombre de joueurs non américains dans la ligue :


On observe que le pourcentage de joueurs étrangers en NBA a effectivement augmenté au cours du temps pour s’établir à plus de 20% en 2018. On peut de nouveau essayer de prédire les valeurs futures de la proportion de joueurs étrangers en NBA :


On obtient ainsi que le modèle utilisé pour prédire les valeurs est cette fois encore un ARIMA (0,1,0). Ainsi l’ordre de différenciation dans le modèle est de 1 alors que l’ordre de la partie autorégressive et moyenne mobile sont de 0. Il s’agit donc en réalité d’une marche aléatoire où l’incrément de la proportion de joueur étranger chaque année seront des variables i.i.d. Ainsi la projection à l’horizon 2030 de la proportion de joueur étranger en NBA est de 32%. La zone grise foncée représente l’intervalle de confiance de cette projection à 80% et en gris clair on trouve l’intervalle de confiance à 95%.

L’impact de l’âge en NBA

Pour finir nos études sur différentes statistiques de la NBA nous nous sommes intéressés à l’impact de l’âge sur les performances des joueurs afin de mettre en évidence : l’âge à partir du quel les joueurs peuvent réellement s’éveiller en NBA, le pic de forme et l’âge de déclin. Il est possible encore une fois de sélectionner de nombreuses statistiques pour visualiser l’évolution de cette donnée en fonction de l’âge des joueurs en NBA. Afin de ne pas surcharger la section nous avons décidé d’afficher seulement l’évolution de la statistique avancée BPM discutée précédemment et renommée à l’occasion “note du joueur” ainsi que l’évolution du nombre de minutes jouées en fonction de l’âge.


Avant de proposer une analyse de ce graphe il convient de noter un point extrêmement important : la NBA n’est pas une ligue fermée mais il est peu fréquent d’y rentrer à un âge avancé ! Ainsi pour la plupart, les joueurs à l’âge n+1 sont des joueurs qui se trouvaient déjà dans la ligue à l’âge n. Ce graphique est donc dans une certaine mesure aussi le reflet de l’évolution des joueurs. Ainsi on observe que l’arrivée dans la ligue des nouveaux joueurs (pour la plupart entre 18 et 20 ans) est synonyme d’apprentissage pour eux. En effet ceux-ci n’ont en moyenne pas le niveau de jeu de leurs ainés mais s’améliorent rapidement pour atteindre un plateau de 21 à 25 ans. S’ensuit une amélioration de leur niveau de jeu vers un nouveau plateau dans ce que de nombreux observateurs appellent la force de l’âge au basket (la période 25-35 ans). On observe ensuite une baisse du niveau moyen de jeu jusqu’aux 40 ans du joueur. Cependant il convient de prendre en compte une nuance : cette baisse de niveau ne semble pas être de la même intensité pour tous les joueurs. Les meilleurs connaissent une baisse de niveau assez faible alors que pour les moins bons la baisse est plus prononcée. Etudions désormais l’évolution du temps de jeu.



Désormais nous observons l’évolution du temps de jeu des joueurs en fonction de leur âge. On peut voir que le temps de jeu augmente drastiquement lors des premières années de présence dans la ligue entre 18 et 20 ans. L’évolution des courbes est assez similaire à ce que l’on a pu observer précédemment mais bien plus prononcée. Ainsi bien que l’augmentation du temps de jeu soit extrêmement significative pour la plupart des joueurs jusqu’à atteindre un plateau de 21 à 33 ans, la diminution du temps de jeu est elle aussi assez importante au-delà de cet âge. Les raisons possibles sont : l’augmentation du nombre de blessures ainsi que la diminution du niveau de jeu comme on l’a vu précédemment.

Statistiques additionnelles

Désormais nous allons présenter brièvement des statistiques additionnelles que permet de visualiser notre application.

1) Les records

Notre application permet de visualiser les records détenus par les joueurs sur leur carrière selon différentes statistiques : les points marqués, le nombre de passes décisives effectuées, les interceptions réalisées, les matchs joués, les blocages effectués et pour finir les meilleures saisons réalisées dans l’histoire selon la statistique avancée BPM. Ci-dessous un exemple d’une de ces statistiques : les points marqués.



2) Un ensemble de statistiques sur tous les joueurs

Nous mettons de plus à disposition un outil de visualisation de l’ensemble des statistiques et données majeures de l’ensemble des joueurs pour toutes les saisons. Nous recommandons de limiter la visualisation aux joueurs ayant joué plus d’un certain nombre de minutes lorsque l’on souhaite visualiser les statistiques comme les Points, les rebonds, les passes ou encore “impact victoire” et “note du joueur”. En effet les premières peuvent ne pas être représentatives si le joueur a peu joué et les dernières ne sont robustes que lorsque les joueurs ont un temps de jeu minimum d’environ 50 minutes. Ci-dessous une pré-selection à l’année 2018 et aux joueurs ayant joué plus de 1500 minutes.



3) Un élément important du basket : le BIG Five

Un autre élément de visualisation apprécié des spécialistes du basket américain est la sélection d’un BIG Five selon une ligne statistique. Un BIG Five est une sélection du meilleur joueur à chaque poste selon une statistique. Ainsi si l’on souhaite disposer lors de l’année 2017 de la meilleure équipe en matière de points marqués la réponse doit être constituée du meilleur meneur, arrière, ailier, ailier fort et pivot en matière de points marqués. Voici la visualisation résultante de l’exemple décrit précédemment :



Il est possible de choisir de nombreuses autres statistiques : Rebonds, Passes, Minutes, Impact Victoire, Note du joueur. De plus il est possible de choisir toutes les années depuis 1997 et il est aussi possible choisir les meilleurs joueurs de tous les temps par poste selon toutes ces statistiques en ne choisissant pas d’année.

4) Les équipes

Une dernière visualisation permet d’avoir rapidement une vue d’ensemble sur les forces et faiblesses des différentes équipes NBA au cours des différentes saisons mais aussi au cours de l’ensemble de leurs histoires. Ci-dessous nous avons affiché la saison 2015-2016 avec les victoires de manière générale. Cette année-là Golden state a survolé la saison régulière en battant le record de victoires de l’histoire de la NBA sur une saison. Cependant comme on l’observe dans les encarts en haut cette année-là c’est Cleveland, troisième au classement général qui remportera le titre contre toutes les attentes.



Il est aussi possible de sélectionner un affichage par victoire à domicile ou en déplacement. Nous allons désormais nous intéresser à de nouvelles prédictions que l’on peut faire sur la NBA. L’exemple choisi ci-dessus est un exemple de la difficulté que pourront rencontrer nos algorithmes pour prédire par exemple l’équipe championne d’une saison.


Prédictions du MVP

A l’aide de toutes les données dont on dispose nous avons trouvé très intéressant de prédire à l’aide de différents algorithmes le joueur qui au vu de la saison réalisée sera élu meilleur joueur de la saison. Pour cela nous disposons d’un jeu de données composé de plus de 50 variables explicatives ainsi que d’une variable réponse que nous avons fabriqué “MVP” qui vaut 1 si le joueur a été élu meilleur joueur de la saison et 0 sinon. Le nombre de joueurs par saison étant supérieur à 500 on comprend ainsi que les données sont extrêmement déséquilibrées. En effet plus de 99,8% des données ont pour valeur 0 pour cette variable et moins de 0,2% ont pour valeur 1. Ainsi bon nombre d’algorithmes considéreront minimiser l’erreur en prédisant seulement des 0 mais cela n’a aucun intérêt dans le cadre de notre étude. Une des solutions possible à ce problème est alors de s’intéresser aux probabilités estimées par notre algorithme que la donnée soit un 1 et de les observer par ordre décroissant de valeurs. Ainsi afin de prédire le MVP d’une saison nous utilisons les méthodes des forêts aléatoires, la méthode knn, la méthode LDA et la méthode du bayésien naïf. Nous optimisons les paramètres de ces différentes méthodes lorsqu’il y en a. Afin d’utiliser knn, LDA et le bayésien naif les données ont été centrées et réduites car cela améliore grandement les résultats. Ainsi les résultats obtenus sont les suivants.



Les cellules colorées en rouge correspondent à une erreur de l’algorithme et celles en vert correspondent à la bonne réponse. La première observation est que les méthodes LDA et du bayésien naïf ne trouvent jamais de manière correcte le MVP d’une saison. Avec un taux de réussite de 0% elles semblent totalement inefficaces, cependant il convient de se rappeler du déséquilibre très important sur nos données et de nuancer. Bien que ces méthodes aient un pourcentage de réussite de 0% une réflexion légèrement plus poussée amène à réfléchir sur les noms qui ressortent. En effet les prédictions réalisées à chaque saison sont très loin d’être mauvaise avec la sélection de très grands joueurs qui à chacune des saisons concernées étaient des joueurs ayant tout à fait leur chance d’être sacré parmi une dizaine. Prenons les exemples les plus récents. En 2018 James HARDEN est sacré MVP, la méthode LDA prédit le sacre et Jimmy BUTLER et la méthode du bayésien naïf de Paul GEORGE. Ces deux joueurs ont été élu dans le Top 15 des meilleurs joueurs de cette saison ! Ainsi ces deux algorithmes fournissent des résultats qui ne sont pas déconnectés de la réalité et ont appris mais pas suffisamment les caractéristiques qui font d’un joueur un MVP.


La méthode knn a été optimisée et nous avons observé qu’une cinquantaine de voisins fournissaient les meilleurs résultats. Avec ces paramètres nous obtenons 11 prédictions correctes sur 22 ce qui traduit un taux de réussite de 50%. Ce résultat semble très convaincant et traduit une bonne capacité d’apprentissage du problème par l’algorithme. Ce qui est d’autant plus intéressant est d’observer les erreurs commises. En effet en s’attardant sur les trois erreurs les plus récentes en exemple : 2018, 2015 et 2013, on observe que le MVP prédit est tout simplement le second en termes de votes reçus cette saison-là. Des erreurs qui sont donc minimes car très proches de la réalité. Si on observe notre ordre des prédictions faites, on se rend compte que ces années-là, le réel MVP est prédit en seconde position ! Le constat s’étend de manière générale aux autres années. Ainsi la méthode knn correctement optimisée fournit de très bonnes prédictions.


Pour finir la méthode des forêts aléatoires produit 13 prédictions correctes sur 22, pour un taux de réussite proche de 60% ! Le même constat que précédemment s’impose, les erreurs de prédiction sont généralement associées à la prédiction de joueurs qui ont occupé la deuxième ou troisième place du classement du MVP réel. Ainsi cette méthode semble la plus efficace.


Cependant, nous observons que les erreurs de prédictions des deux méthodes efficaces que sont knn et forêts aléatoires se situent généralement aux mêmes années. On peut citer l’exemple de l’année 2011. Les deux méthodes prédisent le sacre de Lebron JAMES en tant que meilleur joueur cette saison alors que Derrick ROSE est sacré. Cette année-là Lebron James venait de quitter son équipe de toujours Cleveland pour rejoindre une équipe avec deux joueurs dits “all-star”. La formation de “Super-équipes” comme elles sont appelées outre-Atlantique est vue de manière assez négative et les journalistes votant pour le sacre du MVP ont pour certains reconnu publiquement prendre cela en compte dans le vote d’un MVP. Ainsi bien que cette année-là Lebron JAMES possédait les meilleures statistiques de toute la ligue à presque tous les niveaux il n’a été élu que 3ème. Il est assez difficile de prendre le changement d’équipe et la perception de cette action en compte par un algorithme, on comprend ainsi la difficulté de prédictions pour certaines années. Un autre exemple serait la rivalité Karl MALONE et Michael JORDAN de 1997 et 1998. JORDAN affiche de meilleures statistiques en 1997 et pourtant MALONE est élu MVP ce qui ne manque pas de faire scandale dans une certaine mesure puis l’année suivante la situation inverse se produit, certains évoquant une compensation pour Michael JORDAN.


Les méthodes se focalisant sur les statistiques pures, prédisent donc l’inverse de ce qui s’est passé ces années-là.

Prédiction du champion

Une autre prédiction pouvant s’avérer intéressante est celle de l’équipe sera couronnée championne à l’issue d’une saison. Une saison se déroule en deux temps : une saison régulière où les équipes s’affrontent afin d’avoir un classement qui déterminera si elles peuvent participer à la phase finale et une phase finale justement lors de laquelle ces équipes s’affrontent sur de courtes séries de matchs et progressent par système d’élimination. Ainsi nous recueillons des données sur les équipes à l’issue de la saison régulière et nous pouvons essayer de prédire celle qui gagnera la phase finale. De nouveau nous avons comparé plusieurs méthodes mais celle produisant les meilleurs résultats est la méthode des forêts aléatoires à laquelle nous nous intéresserons ici. Les variables explicatives dont nous disposons ou que nous créons sont : le pourcentage de victoires, le pourcentage de victoires à domicile, le pourcentage de victoires en déplacement, le pourcentage de victoires contre des équipes de la conférence Est et celle de l’Ouest, le X3, le X10 et le classement général. Nous disposons de plus d’une variable réponse prenant la valeur 1 si l’équipe est championne une saison donnée et 0 sinon. Encore une fois les données sont très déséquilibrées : une seule équipe championne pour 30 équipes chaque année. En procédant de manière similaire au problème précédent, on obtient les résultats suivants :


captioncaption

caption


Pour ce problème, la méthode des forêts aléatoires permet d’obtenir la prédiction correcte de 19 équipes championnes sur 38 soit un résultat d’exactement 50%. Encore une fois il est informatif de s’intéresser aux erreurs commises. Nous n’allons pas toutes les étudier mais s’intéresser aux deux plus récentes : 2018 et 2016. Ces deux erreurs sont assez différentes et représentent l’ensemble des cas de figure que l’on retrouve. En 2018 la méthode des forêts aléatoires prédit la victoire des Rockets de Houston qui termine premier de la conférence Ouest cette année-là, cependant en demi-finale ils perdent de peu (4-3) contre le futur vainqueur du championnat. En 2016, alors que la méthode prédit la victoire des Golden state Warriors, c’est Cleveland qui est sacré à la surprise générale en finale contre cette équipe. En effet la surprise est assez grande car l’équipe de golden state vient de réaliser la meilleure saison régulière de l’histoire avec des records de victoires dans toutes les catégories. Ainsi on peut comprendre la difficulté pour la méthode de prédire Cleveland en tant que réel vainqueur cette année-là. De manière générale l’algorithme ne pouvant se baser sur autre chose que la saison régulière pour prédire la phase finale il est assez difficile pour lui de prédire qu’une équipe ayant performé exceptionnellement bien lors de la saison régulière ne gagnera pas et vice-versa. De manière générale lorsque l’algorithme commet une erreur, sa deuxième ou troisième option s’avère être le réel champion.

Liens entre joueurs et équipes

Pour finir nous avons souhaité mettre en évidence des liens entre joueurs et entre équipes. Dans un premier temps nous allons étudier les liens que peuvent lier ou différencier des joueurs. Pour cela en se servant de l’ensemble des statistiques disponibles pour les joueurs, nous avons construit des clusters qui sont au nombre de 4. Notre outil de visualisation permet de choisir une saison afin d’observer les similarités et différences pour une année donnée. Dans le cadre de ce rapport nous avons choisi d’illustrer les clusters de joueurs lors de l’année 2010 en fonction de leurs statistiques.



Etant donné que le jeu de données est composé d’un grand nombre de variables il peut être difficile de lire le résultat, nous l’avons donc mis sous forme d’image afin de pouvoir l’afficher plus grand. Heureusement un point facilite la lisibilité : Pour l’ensemble des statistiques présente, plus un joueur possède des valeurs élevées dans ces statistiques plus le joueur sera bon dans cette statistique. Ainsi pour être un bon joueur il faut avoir des statistiques plus élevées que la moyenne dans plusieurs catégories différentes. Le résultat se lit de la manière suivante : pour un cluster donné une barre rouge implique que les joueurs de ce cluster ont des valeurs plus élevées que la moyenne pour la statistique concernée alors qu’une barre bleue indique l’inverse. La taille de la barre indique la force de cette liaison. On peut donc réaliser l’interprétation suivante :

  • Le cluster 1 est celui des moins bons joueurs : Ils ont des valeurs de statistiques moins élevées que la moyenne pour une majorité de statistiques.

  • Le cluster 2 est celui des joueurs bons en attaque et assez faible en défense : les statistiques pour lesquelles ils ont des valeurs plus élevées que la moyenne sont en lien avec l’attaque alors que celles pour lesquelles ils ont des valeurs plus faibles que la moyenne sont des statistiques liées à la défense.

  • Le cluster 3 est celui des joueurs bons en défense mais faibles en attaque : statistiques plus élevées que la moyenne dans les catégories défensives mais situation inverse pour les catégories offensives.

  • Le cluster 4 est celui des meilleurs joueurs bons aussi bien en défense et en attaque : statistiques plus élevées que la moyenne dans une grande majorité de catégories.

Une information qui n’apparaît pas sur ce graphique est qu’il y a senseiblement plus de joueurs dans le cluster 1 que dans les autres. Ainsi ces 4 clusters réunis permettent d’avoir l’ensemble des profils de la NBA.

Désormais intéressons-nous aux clusters des équipes lors de l’année 2016 que nous avons décidé d’étudier. Cette année-là est marquée par le record de victoires absolu par ce qui est considéré comme l’équipe la plus forte de tous les temps en NBA : les Golden State Warriors de 2015-2016. Cette équipe est composée de 3 joueurs “all-star” (parmi les 30 meilleurs de la ligue) ainsi que bon nombre d’autres très bons joueurs.


captioncaption

caption


On observe concernant les clusters des équipes de manière attendue que Golden State Warriors (GSW) est une équipe à part qui forme à elle seule un cluster (le 4). Interprétons les clusters :

  • Le cluster 1 est composé d’équipes qui sont globalement assez faible en attaque mais solide en défense (ce qui est en phase avec la réputation des équipes correspondantes cette année-là).

  • Le cluster 2 est composé d’équipes très orientées vers l’attaque (elles marquent plus que la moyenne notamment).

  • Le cluster 3 est composé des moins bonnes équipes de la ligue : très fébrile en défense et qui marquent peu.

  • Le cluster 4 de GSW est le seul à être lié à une équipe extrêmement forte en attaque comme en défense.

Ainsi les répartitions faites semblent être en accord avec le déroulement de la saison.

Ces analyses sont très intéressantes et peuvent être faite pour toutes les années depuis 2003. Notre application permet d’aller encore plus loin et de prendre en compte les catégories de joueurs qui composent les équipes notamment dans la formation de clusters.

Conclusion

Ainsi à l’aide d’un grand nombre de jeux de données et des croisements que l’on a pu en faire nous avons pu mener une étude assez étendue sur le monde de la NBA. A l’occasion de statistiques descriptives nous avons pu mettre en avant de nombreux éléments.

Premièrement on observe une tendance de fond sur l’évolution des salaires en NBA qui semble être assez nettement à la hausse et cela est relayé assez largement dans les médias, cependant une étude un peu plus approfondie montre que la situation n’est pas la même pour tout le monde, les joueurs les mieux payés le sont toujours plus alors que les moins bons n’ont vu que très peu d’évolution. Dans un deuxième temps une étude sur l’évolution du jeu a pu partiellement confirmer une idée largement partagée au sein de la NBA sur la domination des pivots dans ses premières années après sa création avant de montrer l’émergence du poste de meneur ces dernières années. Les statistiques sur les pays d’origine des joueurs montrent aussi que l’augmentation récente de la proportion de joueurs non américains n’est pas qu’un bruit et que la tendance pourrait se poursuivre. Notre étude sur l’âge en NBA permet aussi d’avoir une idée de l’évolution des pics de forme des joueurs. Pour finir sur les statistiques descriptives nous avons évoqué en ouverture ce que notre application shiny, principale force de ce projet permet de visualiser en plus de ce qui a été mentionné.

Ensuite nous avons effectué des prédictions afin d’étudier les résultats que l’on peut obtenir en essayant de prédire l’équipe championne à l’issue d’une saison ainsi que le joueur qui obtiendra le titre de MVP. Nous avons étudié différentes méthodes et celle qui a fourni les meilleurs résultats fut la forêt aléatoire. Nous avons pu obtenir un taux de réussite de prédiction du MVP de 60% et de prédiction du champion de 50%. L’étude approfondie des résultats fournis a été assez informative. Nous avons aussi réalisé des prédictions sur l’évolution du salaire moyen des joueurs en NBA et de la proportion de joueurs étrangers de la partie précédente via des séries chronologiques. Il s’est avéré que les algorithmes ont estimé que les series chronologiques étaient simplement des ARIMA (0,1,0) soit des marches aléatoires. La prédiction a tout de même était intéressante mettant en évidence des tendances de fond.

Pour finir nous avons étudié via ACP et clustering notamment les liens entre joueurs et équipes afin de mettre en évidence similarités et différences. L’étude d’une année en particulier a permis de mettre en avant des groupes d’équipes et de joueurs se ressemblant.

Notre application shiny mise à disposition permet d’étendre encore ce spectre de visualisations et prédictions et de pousser de nombreux curseurs plus loin dans la personnalisation de ce qui peut être vu. (https://guerinclement.shinyapps.io/NBA-GUERIN-LABORDE/)