Une introduction à Sabermetrics par Jim Albert

Qu’est-ce que Sabermetrics?

Sabermetrics est l’analyse mathématique et statistique des records de baseball. Pour comprendre le domaine de la sabermétrie, il faut d’abord se familiariser avec le jeu du baseball. Ce sport est l’un des jeux les plus populaires aux États-Unis. on l’appelle souvent le {\ it passe-temps national}. Le baseball a commencé dans l’est des États-Unis au milieu des années 1800. Le baseball professionnel a commencé vers la fin du 18ème siècle; la Ligue nationale a été fondée en 1876 et la Ligue américaine en 1900. Actuellement aux États-Unis, il y a 28 équipes professionnelles dans les ligues américaines et nationales et des millions de personnes regardent des matchs au stade ou à la télévision.

Le jeu de baseball

Le jeu de baseball se joue entre deux équipes composées chacune de neuf joueurs. Les neuf joueurs sont un lanceur, un receveur, le joueur de premier but, le joueur de base, le joueur de base, le joueur de troisième but, le joueur de champ gauche, le joueur de centre et le joueur de champ droit. Une partie de baseball consiste en neuf manches. Une manche est divisée en deux moitiés; dans la moitié supérieure de la manche, une équipe joue sur le terrain et la deuxième équipe vient au bâton, et dans la moitié inférieure, les équipes inversent les rôles. L’équipe qui bat au cours d’une demi-manche particulière tente de marquer des points. L’équipe avec le plus grand nombre de points à la fin des neuf manches est le vainqueur.

Au cours d’une manche, un joueur de l’équipe sur le terrain, appelé un lanceur, lance une balle de baseball vers un joueur de l’équipe au bâton, appelé le frappeur. Le frappeur essaiera de frapper la balle en utilisant un bâton en bois (appelé batte) dans un endroit hors de la portée des joueurs sur le terrain. En frappant la balle, le frappeur a la possibilité de courir autour de quatre buts sur le terrain. Si un joueur avance sur toutes les bases, il a marqué un point. Si un frappeur frappe une balle qui peut être attrapée, ou qui peut être lancée au premier but avant de courir jusqu’à cette base, il est dit être absent et ne peut pas marquer un point. Un frappeur est aussi absent s’il ne réussit pas à frapper le baseball à trois reprises ou si trois bons lancers (appelés frappes) ont été lancés. L’objectif de l’équipe au bâton au cours d’une manche est de marquer le plus de points possible avant d’obtenir trois retraits.

Les statistiques de base au bâton

Un aspect notable du jeu de baseball est la richesse des informations numériques enregistrées sur le jeu. L’efficacité des frappeurs et des lanceurs est généralement évaluée par des mesures numériques particulières. La mesure habituelle de l’efficacité d’un coup pour un joueur est la moyenne au bâton qui est calculée en divisant le nombre de coups par le nombre de coups frappés. Cette statistique donne la proportion d’opportunités (at-bat) dans lesquelles le frappeur réussit (obtient un coup). Le frappeur ayant la moyenne au bâton la plus élevée au cours d’une saison de baseball est appelé le meilleur frappeur de cette année. Les batteurs sont également évalués sur leur capacité à atteindre un, deux, trois ou quatre buts sur un seul coup; ces hits sont appelés respectivement singles, doubles, triples et home run. La moyenne de slugging est calculée en divisant le nombre total de bases (en bref, les bases totales) par le nombre d’opportunités. Puisqu’elle pondère les frappes par le nombre de buts atteints, cette mesure reflète l’aptitude d’un frappeur à frapper une longue balle sur une distance. Le hit le plus apprécié au baseball est le home run où un joueur avance de quatre buts sur un coup. Le nombre de courses à la maison est enregistré pour tous les joueurs et le frappeur ayant le plus grand nombre de courses à la maison à la fin de la saison reçoit une reconnaissance spéciale.

Les statistiques de base de tangage

Un certain nombre de statistiques sont également utilisées dans l’évaluation des lanceurs. Pour un lanceur particulier, on compte le nombre de parties dans lesquelles il a été déclaré vainqueur ou perdant et le nombre de coups permis. Les lanceurs sont généralement notés en fonction du nombre moyen de courses «méritées» autorisées pour un jeu à neuf manches. D’autres statistiques sont utiles pour comprendre la capacité au lancer. Un lanceur enregistre un retrait en retrait lorsque le frappeur ne frappe pas le ballon sur le terrain et enregistre une promenade quand il lance quatre frappes (balles) inexactes au frappeur. Un lanceur qui peut lancer la balle très rapidement peut enregistrer un grand nombre de retraits sur des prises. Un lanceur qui est « sauvage » ou relativement imprécis enregistrera un grand nombre de promenades .
Meilleure mesure de la capacité de frappe – pistes créées

Un des objectifs de sabermetrics est de trouver de bonnes mesures de performance de frappe et de tangage. Bill James (1982) compare les records de frappeurs de deux joueurs, Johnny Pesky et Dick Stuart, qui ont joué dans les années 1960. Pesky était un frappeur qui a frappé pour une moyenne au bâton élevée, mais qui a frappé peu de circuits. Stuart, en revanche, a eu une moyenne au bâton modeste, mais a frappé un nombre élevé de circuits. Qui était le frappeur le plus précieux? James soutient qu’un frappeur devrait être évalué par sa capacité à créer des manches pour son équipe. À partir d’une étude empirique d’une vaste collection de données sur les frappes de l’équipe, il a établi la formule suivante pour prédire le nombre de points marqués au cours d’une saison en fonction du nombre de touches, de promenades à la batte et de totaux enregistrés au cours d’une saison.

(HITS + WALKS) (BASES TOTALES)
RUNS = —————————-
AT-BATS + BALADES

Cette formule reflète deux aspects importants dans les points marqués au baseball. Le nombre de coups et marches d’une équipe reflète sa capacité à amener les coureurs sur une base. Le nombre total de bases d’une équipe reflète sa capacité à déplacer les coureurs qui se trouvent déjà sur la base. Cette formule créée de tours peut être utilisée à un niveau individuel pour calculer le nombre de tours qu’un joueur crée pour son équipe. En 1942, Johnny Pesky totalisait 620 tirs au but, 205 coups sûrs, 42 buts sur balles et 258 bases au total; En utilisant la formule, il a créé 96 courses pour son équipe. Dick Stuart en 1960 avait 532 attrapés avec 160 lancers, 34 allées et 309 bases totales pour 106 points créés. La conclusion est que Stuart en 1960 était un meilleur frappeur que Pesky en 1942 puisqu’il avait créé quelques courses supplémentaires pour son équipe.

Poids linéaires

Une autre approche pour évaluer les performances au bâton est basée sur une formule de pondération linéaire. George Lindsey (1963) a été la première personne à attribuer des valeurs de passage à chaque événement susceptible de se produire pendant la frappe d’une équipe. En utilisant des données enregistrées de jeux de baseball et de la théorie des probabilités, il a développé la formule

RUNS = (.41) 1B + (.82) 2B + (1.06) 3B + (1.42) HR

où 1B, 2B, 3B et HR représentent respectivement le nombre de simples, de doubles, de triples et de circuits réussis dans une partie. Un aspect remarquable de cette formule est qu’elle reconnaît qu’un frappeur crée une passe de trois manières. Il y a un potentiel de lancer direct lorsqu’un frappeur obtient un coup et se retrouve sur la base. De plus, le frappeur peut faire avancer les coureurs déjà sur la base. De plus, en ne sortant pas un buteur, le frappeur donne à un nouveau frappeur une chance de réussir un coup sûr, ce qui crée un potentiel de lancer indirect. Thorn et Palmer (1993) présentent une version plus sophistiquée de la formule de pondération linéaire qui prédit le nombre de points produits par une équipe de baseball moyenne en fonction de tous les événements offensifs enregistrés au cours du match. À l’instar de la formule créée par James, la règle de pondération linéaire peut être utilisée pour évaluer les performances au bâton d’un joueur.

S’exécute pour gagner

Bien que marquer des points soit important au baseball, l’objectif de base est qu’une équipe marque plus de points que son adversaire. Pour en savoir plus sur le rapport entre les points marqués et le nombre de victoires, James (1982) a examiné le nombre de points produits, le nombre de points autorisés, le nombre de victoires et le nombre de défaites au cours d’une saison pour un grand nombre de équipes de ligues majeures. James a noté que le ratio des victoires aux pertes d’une équipe était approximativement égal au carré du ratio des points marqués par rapport aux points autorisés. De manière équivalente,

WINS RUNS ^ 2
RUNS = ————– = —————————.
Victoires + Pertes Exécutées ^ 2 + Opposition Exécutées ^ 2

Cette relation peut être utilisée pour mesurer la performance d’un frappeur en termes de nombre de victoires qu’il crée pour son équipe.

Meilleure mesure de la capacité de tangage
Sabermetrics a également mis au point de meilleurs moyens d’évaluer la capacité de tangage. Les statistiques de tangage standard, le nombre de victoires et les points gagnés par match (ERA) sont erronés. Le nombre de victoires d’un lanceur ne peut que refléter le fait qu’il lance pour une bonne équipe offensive (buteur). L’ERA mesure le taux d’efficacité d’un lanceur, mais ne vous indique pas les avantages réels de ce lanceur pendant une saison entière. Thorn et Palmer (1993) ont mis au point la formule des lancers

Ligue ERA
PITCHING RUNS = Entrées Pitched x ———– – ER.
9

Le facteur (League ERA / 9) mesure la moyenne des manches autorisées par manche pour toutes les équipes de la ligue. Cette valeur est multipliée par le nombre de manches lancées par ce lanceur – ce produit représente le nombre de courses qu’un lanceur autoriserait au cours de la saison s’il était moyen. Enfin, on soustrait le nombre de points réellement gagnés par le lanceur autorisé pour cette saison. Si le lancer est supérieur à 0, alors ce lanceur est meilleur que la moyenne. Cette nouvelle mesure semble être utile pour mesurer l’efficacité et la durabilité d’un pichet.

Pourcentage de jeu de joueur

De bonnes mesures de la frappe, du lancer et de la performance des joueurs de baseball ont été développées. Cependant, ces statistiques ne mesurent pas directement la contribution d’un joueur à la victoire de son équipe. Bennett et Flueck (1984) ont utilisé les données de deux saisons de baseball pour estimer la probabilité pour l’équipe locale de gagner un match compte tenu du différentiel de lancers (l’équipe recevant moins de visiteurs), la nombre d’outs et la situation sur la base. En utilisant ces probabilités estimées, on peut voir comment la probabilité de gagner change pour chaque événement de jeu. On peut mesurer la contribution d’un joueur à la victoire dans un jeu en faisant la somme des changements dans les probabilités de gains pour chaque jeu auquel le joueur a participé. Bennett (1993) a utilisé cette statistique, appelée Pourcentage de joueurs (Player Game Percentage), pour évaluer les performances de Joe Jackson au bâton. Ce joueur a été banni du baseball pour avoir prétendument lancé la Série mondiale de 1919. Une analyse statistique utilisant le pourcentage du jeu du joueur a montré que Jackson avait utilisé tout son potentiel au cours de cette série.

Faire des ajustements

Les gens sont souvent intéressés à comparer des frappeurs ou des lanceurs de différentes époques. Lors de ces comparaisons, il est important de visualiser les statistiques sur les frappes ou les lancers dans le contexte dans lequel elles ont été réalisées. Par exemple, Bill Terry a dirigé la Ligue nationale en 1930 avec une moyenne au bâton de .401, une marque dépassée depuis par un seul frappeur. En 1968, Carl Yastrzemski a mené la Ligue américaine des frappes avec une moyenne de .301. Il semble à la surface que Terry était le frappeur nettement supérieur. Cependant, par rapport aux frappeurs qui ont joué au même moment, les deux frappeurs étaient environ 27% meilleurs que le frappeur moyen (Thorn et Palmer, 1993). Les exploits marquants de Terry en 1930 et de Yastrzemski en 1968 étaient en réalité très similaires. De même, il y a des différences significatives dans les frappes dans différents parcs de balle, et les statistiques de frappes doivent être ajustées pour le jeu de balle joué afin de permettre des comparaisons précises entre les joueurs.

Apprendre des données sélectionnées

Regarder un match de baseball soulève des questions qui motivent des analyses statistiques intéressantes. Lors de la diffusion d’une partie, un annonceur de baseball rapportera les données de frappe sélectionnées pour un joueur. Par exemple, il peut être rapporté que Barry Bonds a 10 hits dans ses 20 plus récents at-chauves-souris. Qu’avez-vous appris sur la moyenne au bâton de Bonds sur la base de ces informations? De toute évidence, la moyenne au bâton de Bonds ne peut pas être aussi grande que 10/20 = .500 puisque ces données ont été choisies pour maximiser le pourcentage rapporté. Casella et Berger (1994) construisent la fonction de vraisemblance pour la vraie moyenne au bâton d’un joueur sur la base des informations sélectionnées et trouvent l’estimation de maximum de vraisemblance. Ils concluent que ces données sélectionnées fournissent uniquement un aperçu des données de la moyenne au bâton «données complètes» obtenues à partir des records au bâton tout au long de la saison.

Streakiness?

Une autre question intéressante concerne l’existence de stries dans la frappe des données. Pendant une saison, il a été observé que certains joueurs de base-ball connaîtront des périodes de frappe « chaude » où ils obtiendront une forte proportion de coups. D’autres frappeurs connaîtront des périodes de ralentissement ou des périodes de frappe avec très peu de coups. Mais ces périodes de chaleur et de froid frapper est peut-être simplement un reflet de la variabilité naturelle observée dans le lancer de pièces. Existe-t-il des preuves statistiques d’une « main brûlante » parmi les frappeurs de baseball où la probabilité d’obtenir un coup dépend de la récente batte? Albright (1993) a examiné une vaste collection de données de frappes de baseball et a utilisé un certain nombre de statistiques telles que le nombre de passes pour détecter les pertes de frappe. Sa principale conclusion était qu’il y avait peu de preuves statistiques en général d’une main chaude dans le baseball.

Données situationnelles

Actuellement, les données concernant le baseball situationnel suscitent un grand intérêt chez les partisans et les médias. La performance des frappeurs est enregistrée dans un certain nombre de situations différentes, telles que les matchs de jour et de nuit, sur les terrains en gazon et artificiels, contre les lanceurs qui jettent droitier et gaucher, et lors de matchs à domicile et à l’extérieur. L’analyse statistique de ce type de données soulève deux questions fondamentales. Premièrement, existe-t-il des situations particulières pouvant expliquer une variation importante des données de frappe? Deuxièmement, y a-t-il des joueurs de baseball qui fonctionnent particulièrement bien ou mal dans une situation donnée? Albert (1994) a analysé un grand nombre de données de situation publiées et a utilisé des modèles hiérarchiques bayésiens pour combiner les données d’un grand groupe d’acteurs. Sa conclusion fondamentale est qu’il existe des situations importantes. Par exemple, les frappeurs frappent en moyenne 20 points de plus devant un lanceur du bras opposé et 8 points de plus quand ils jouent à domicile. Cependant, il existe généralement peu de preuves statistiques sur les différences individuelles entre ces effets situationnels.

Prédiction

La ligue majeure de baseball est actuellement divisée en six divisions et l’un des objectifs de toute équipe est de terminer en tête de sa division. Supposons qu’une partie de la saison soit terminée. En utilisant les records des équipes de cette saison partielle, est-il possible de prédire avec précision les gagnants des divisions? Barry et Hartigan (1993) utilisent un modèle de choix pour la probabilité qu’une équipe gagne un match individuel. Ce modèle permet de distinguer différentes forces entre les équipes, différents avantages pour le foyer et des forces qui peuvent changer de manière aléatoire avec le temps. Les auteurs utilisent ce modèle pour simuler les résultats des futurs matchs de baseball et estimer les probabilités que chaque équipe gagne ses divisions respectives.

Actuellement, les matchs de baseball des ligues majeures sont enregistrés avec des détails très fins. Les informations sur chaque balle lancée, sur le terrain et frappée au cours d’une partie sont notées, créant ainsi une base de données volumineuse contenant les statistiques du baseball. Cette base de données est utilisée de différentes manières. Les départements de relations publiques des équipes utilisent les données pour publier des statistiques spéciales sur leurs joueurs. Les statistiques servent à déterminer les salaires des joueurs de baseball majeur. Plus précisément, les informations statistiques sont utilisées comme preuves dans l’arbitrage salarial, une procédure judiciaire qui fixe les salaires. Un certain nombre d’équipes ont employé des analystes statistiques professionnels à temps plein et certains responsables utilisent des informations statistiques pour décider de la stratégie à adopter lors d’une partie. Bill James et d’autres statisticiens du baseball ont montré qu’il était possible de répondre à diverses questions sur le jeu du baseball au moyen d’analyses statistiques.

Références

Albert, J. (1994), « ` Explorer les données de frappe de baseball: qu’en est-il de ces statistiques de ventilation? « , Journal de l’American Statistical Association, 89, 1066-1074.

Albright, S. C. (1993), « Une analyse statistique des séries de frappes au baseball », Journal de l’Association américaine de la statistique, 88, 1175-1183.

Barry, D. et Hartigan, J. A. (1993), « Modèles de choix pour prédire les vainqueurs de division dans les ligues majeures de baseball », Journal de l’American Statistical Association, 88, 766-774.

Bennett, J.M. (1993), « Shoeless Joe Jackson a-t-il jeté la Série mondiale de 1919? », The American Statistician, 47, 241-250.

Bennett, J. M. et Flueck, J. A. (1984), « Player Game Percentage », dans les Actes de la Section de statistiques sociales, American Statistical Association, 378-380.

Casella, G. et Berger, R. (1993), « Estimation à l’aide d’informations binomiales sélectionnées ou croyez-vous vraiment que Dave Winfield batte .471? », Journal de l’American Statistical Association, 89, 1080-1090.

James, B. (1982), The Bill James Baseball Abstract, New York: Ballantine Books.

Lindsey, G. (1963) « Une enquête sur les stratégies de baseball », Operations Research, 11, 447-501.

Thorn, J. et Palmer, P. (1993), Baseball total, New York: Harper Collins.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *