Informative prior distributions for a binomial model to predict professional tennis results
[Prédiction des résultats de matchs de tennis professionnel par un modèle binomial avec des lois a priori informatives]
Journal de la société française de statistique, Numéro spécial : Sport et Statistique, Tome 156 (2015) no. 2, pp. 25-37.

Le tennis, comme de nombreux sports, a pour caractéristiques d’être à la fois simple dans le type de résultat obtenu (victoire de l’un des deux joueurs) et complexe dans les facteurs explicatifs de ce résultat. La collecte des données liées aux matchs de tennis professionnel ne cessant d’augmenter, l’information disponible est de plus en plus précise. Nous avons étudié les propriétés prédictives d’un modèle binomial représentant la victoire d’un joueur sur un autre. Le cadre d’inférence bayésien permet d’utiliser un prior informatif sur la probabilité de victoire (une loi Bêta) afin d’inclure cette information collectée. Nous avons comparé sur l’année 2013 du circuit ATP (et ajusté sur les années 2011-2012) trois méthodes de choix de prior. Les deux premières sont basées sur des modèles à variables latentes (Elo et Bradley-Terry). La troisième est une méthode de simulation de chaque point joué pendant un match reposant sur les statistiques MatchFacts de l’ATP. Chaque méthode est séparée en deux étapes : déterminer la moyenne de la loi a priori sur la base d’information collectée, puis sa variance sur la base des propriétés prédictives du modèle. La deuxième partie de cet article propose plusieurs utilisations possibles de ces méthodes, que cela soit pour la prédiction de matchs, de tournoi ou pour proposer un nouveau système de classement des joueurs.

Tennis is a sport, as many others, that appears to be quite simple in the type of results (victory of one of the two players) but rather quite complex in factors that leads to this binary outcome. The perpetual evolution and increase of the way to collect data leads to more and more accurate available information about professional tennis matches. We studied the predictive properties of the binomial model representing the victory of one player against the other. Bayesian framework enables the updating of an informative prior distribution on the probability of winning (Beta distribution) by the collected information. After model calibration on the years 2011-2012, we test on the result 2013 of the ATP tour three methodologies for the choice of prior. The two firsts are based on latent variable models (Elo and Bradley-Terry). The third one is a point-by-point game simulation method based on the MatchFact statistics of the ATP. Each method is separated in two steps: specify the mean of the a priori distribution based on gathered data, and then its variance according to predictive characteristics. The second part of this article deals with possible uses of these methods for match result predictions, for whole tournament simulations or to propose a new ranking system for professional tennis players.

Keywords: tennis, Bayesian, prior, binomial model, effective sample size, prediction, ranking
Mot clés : tennis, bayésien, prior, modèle binomial, nombre équivalent d’observations, prédiction, classement
@article{JSFS_2015__156_2_25_0,
     author = {Colin, Pierre and Bechler, Aur\'elien},
     title = {Informative prior distributions for a binomial model to predict professional tennis results},
     journal = {Journal de la soci\'et\'e fran\c{c}aise de statistique},
     pages = {25--37},
     publisher = {Soci\'et\'e fran\c{c}aise de statistique},
     volume = {156},
     number = {2},
     year = {2015},
     mrnumber = {3372764},
     zbl = {1381.62296},
     language = {en},
     url = {http://www.numdam.org/item/JSFS_2015__156_2_25_0/}
}
TY  - JOUR
AU  - Colin, Pierre
AU  - Bechler, Aurélien
TI  - Informative prior distributions for a binomial model to predict professional tennis results
JO  - Journal de la société française de statistique
PY  - 2015
SP  - 25
EP  - 37
VL  - 156
IS  - 2
PB  - Société française de statistique
UR  - http://www.numdam.org/item/JSFS_2015__156_2_25_0/
LA  - en
ID  - JSFS_2015__156_2_25_0
ER  - 
%0 Journal Article
%A Colin, Pierre
%A Bechler, Aurélien
%T Informative prior distributions for a binomial model to predict professional tennis results
%J Journal de la société française de statistique
%D 2015
%P 25-37
%V 156
%N 2
%I Société française de statistique
%U http://www.numdam.org/item/JSFS_2015__156_2_25_0/
%G en
%F JSFS_2015__156_2_25_0
Colin, Pierre; Bechler, Aurélien. Informative prior distributions for a binomial model to predict professional tennis results. Journal de la société française de statistique, Numéro spécial : Sport et Statistique, Tome 156 (2015) no. 2, pp. 25-37. http://www.numdam.org/item/JSFS_2015__156_2_25_0/

[1] ATP ATP World Tour History (2014) http://www.atpworldtour.com/Corporate/History.aspx

[2] Bayes, Mr.; Price, Mr. An Essay towards Solving a Problem in the Doctrine of Chances. By the Late Rev. Mr. Bayes, F. R. S. Communicated by Mr. Price, in a Letter to John Canton, A. M. F. R. S., Philosophical Transactions, Volume 53 (1763), pp. 370-418 http://rstl.royalsocietypublishing.org/content/53/370.full.pdf+html | DOI | Zbl

[3] Brier, Glenn W. Verification of forecasts expressed in terms of probability, Mon. Wea. Rev., Volume 78 (1950) no. 1, pp. 1-3 | DOI

[4] Bradley, R.A.; Terry, M.E. Rank analysis of incomplete block designs, I. the method of paired comparisons, Biometrika, Volume 39 (1952), pp. 324-345 | MR | Zbl

[5] Elo, Arpad The Rating of Chessplayers, Past and Present, Arco Pub, 1978

[6] International Federation of Tennis ITF Pro Circuit regulations (2014) ( http://www.itftennis.com/media/163754/163754.pdf )

[7] Luce, Robert Duncan Individual Choice Behaviours: A Theoretical Analysis, Wiley, 1959 | MR | Zbl

[8] Morita, Satoshi; Thall, Peter F; Müller, Peter Determining the Effective Sample Size of a Parametric Prior, Biometrics, Volume 64 (2008) no. 2, pp. 595-602 | DOI | MR | Zbl

[9] Quidet, Christian La Fabuleuse Histoire du tennis (1976)

[10] R Core Team R: A Language and Environment for Statistical Computing (2013) http://www.R-project.org/

[11] Stephenson, Alec Rating Australian Rules Football Teams With The PlayerRatings Package, R vignette (2012) http://cran.r-project.org/web/packages/PlayerRatings/vignettes/AFLRatings.pdf

[12] Turner, Heather; Firth, David Bradley-Terry Models in R: The BradleyTerry2 Package, Journal of Statistical Software, Volume 48 (2012) no. 9, pp. 1-21 http://www.jstatsoft.org/v48/i09