Le taux de fausse découverte (FDR) est habituellement estimé en utilisant un mélange de deux distributions, la distribution nulle et la distribution alternative. Dans cet article nous étudions une proposition de Rice et Spiegelhalter (2008), qui utilisent comme point de départ une distribution nulle et une famille parametrique de courbes sigmoïdes pour le FDR. Dans ces familles nous considerons les modèles half-normal decay et beta-uniform mixture. Nous utilisons des simulations et des données réelles pour comparer l’idée de Rice et Spiegelhalter avec des méthodes établies. Nos analyses montrent que si la distribution alternative est mal spécifiée et si une estimation empirique de la distribution nulle est appliquée, on voit une dégradation substantielle de la précision de l’estimation du FDR. Donc, bien que le formalisme proposé soit assez élégant, il est nécessaire de l’appliquer avec une diligence particulière.
False discovery rates (FDR) are typically estimated from a mixture of a null and an alternative distribution. Here, we study a complementary approach proposed by Rice and Spiegelhalter (2008) that uses as primary quantities the null model and a parametric family for the local false discovery rate. Specifically, we consider the half-normal decay and the beta-uniform mixture models as FDR threshold functions. Using simulations and analysis of real data we compare the performance of the Rice-Spiegelhalter approach with that of competing FDR estimation procedures. If the alternative model is misspecified and an empirical null distribution is employed the accuracy of FDR estimation degrades substantially. Hence, while being a very elegant formalism, the FDR threshold approach requires special care in actual application.
Mot clés : FDR, Taux de fausse découverte, tests multiples, mauvaise spécification des modèles
@article{JSFS_2011__152_2_39_0, author = {Klaus, Bernd and Strimmer, Korbinian}, title = {Learning false discovery rates by fitting sigmoidal threshold functions}, journal = {Journal de la soci\'et\'e fran\c{c}aise de statistique}, pages = {39--50}, publisher = {Soci\'et\'e fran\c{c}aise de statistique}, volume = {152}, number = {2}, year = {2011}, zbl = {1316.62114}, language = {en}, url = {http://www.numdam.org/item/JSFS_2011__152_2_39_0/} }
TY - JOUR AU - Klaus, Bernd AU - Strimmer, Korbinian TI - Learning false discovery rates by fitting sigmoidal threshold functions JO - Journal de la société française de statistique PY - 2011 SP - 39 EP - 50 VL - 152 IS - 2 PB - Société française de statistique UR - http://www.numdam.org/item/JSFS_2011__152_2_39_0/ LA - en ID - JSFS_2011__152_2_39_0 ER -
%0 Journal Article %A Klaus, Bernd %A Strimmer, Korbinian %T Learning false discovery rates by fitting sigmoidal threshold functions %J Journal de la société française de statistique %D 2011 %P 39-50 %V 152 %N 2 %I Société française de statistique %U http://www.numdam.org/item/JSFS_2011__152_2_39_0/ %G en %F JSFS_2011__152_2_39_0
Klaus, Bernd; Strimmer, Korbinian. Learning false discovery rates by fitting sigmoidal threshold functions. Journal de la société française de statistique, Tome 152 (2011) no. 2, pp. 39-50. http://www.numdam.org/item/JSFS_2011__152_2_39_0/
[1] Y. Benjamini. Simultaneous and selective inference: current successes and future challenges. Biom. J., 52:708–721, 2010. | Zbl
[2] Y. Benjamini and Y. Hochberg. Controlling the false discovery rate: a practical and powerful approach to multiple testing. J. R. Statist. Soc. B, 57:289–300, 1995. | Zbl
[3] B. Efron. Microarrays, empirical Bayes, and the two-groups model. Statist. Sci., 23:1–22, 2008.
[4] O. Muralidharan. An empirical Bayes mixture model for effect size and false discovery rate estimation. Ann. Applied Statistics, 4:422–438, 2010. | Zbl
[5] S. Pounds and S. W. Morris. Estimating the occurrence of false positives and false negatives in microarray studies by approximating and partitioning the empirical distribution of -values. Bioinformatics, 19:1236–1242, 2003.
[6] K. Rice and D. Spiegelhalter. Comment: Microarrays, empirical Bayes and the two-groups model. Statist. Sci., 23:41–44, 2008.
[7] T. Schweder and E. Spjøtvoll. Plots of -values to evaluate many tests simultaneously. Biometrika, 69:493–502, 1982.
[8] K. Strimmer. fdrtool: a versatile R package for estimating local and tail area-based false discovery rates. Bionformatics, 24:1461–1462, 2008.
[9] K. Strimmer. A unified approach to false discovery rate estimation. BMC Bioinformatics, 9:303, 2008.