Hamis felfedezési arány

A statisztikában a hamis felfedezési arány (false discovery rate, FDR) egy többszörös összehasonlítást használó módszer az elsőfajú hibák arányának felderítésére nullhipotézis tesztelése során. Az FDR-kontrolláló eljárások feladata, hogy ellenőrizzék azon „felfedezések” (elvetett nullhipozézisek) várható eloszlását, amelyek hamisak (a nullhipotézis helytelen elvetése). [1] Az FDR-kontrolláló eljárások kevésbé szigorú ellenőrzést használnak az elsőfajú hiba kontrollálására, mint az FWER (familywise error rate) kontrolláló eljárások (mint a Bonferroni-korrekció), amelyek legalább egy elsőfajú hiba valószínűségét ellenőrzik. Ezért az FDR kontrolláló eljárások nagyobb statisztikai erővel bírnak, viszont magasabb számú elsőfajú hiba árán.[2]

Története

Technológiai motivációk

Az FDR széleskörű használatához a technológiai fejlődés vezetett, amely lehetővé tette számos különböző változó együttes vizsgálatát egyénenként.[3] Az 1980-as és 1990-es évekre az olyan gyorsan növekvő tudományterületek, mint a genomika - amely automatizáltan, rengeteg próbát vizsgál egyszerre -, lehetővé tették a gyors adatbeszerzést. Ez a számítástechnikai teljesítmény növekedésével párosulva lehetővé tette több ezer statisztikai teszt zökkenőmentes elvégzését egy adott adathalmazon.[4]

Ahogy a nagy áteresztőképességű technológiák általánossá váltak, a technológiai és/vagy pénzügyi korlátok arra késztették a kutatókat, hogy viszonylag kis mintaméretet (pl. kevés tesztelt egyénnel) és mintánként nagyszámú változót (például génexpressziós szintek ezreit) dolgozzanak fel. Ezekben az adathalmazokban a mért változók közül kevés mutatott statisztikai szignifikanciát a többszörös összehasonlítási eljárások során használt klasszikus korrekciókat követően. Ez sok tudományos közösségben életre hívta az FWER és a kiigazítatlan többszörös hipotézis-tesztelések elhagyását annak érdekében, hogy más módokon emelhessék ki és rangsorolhassák azokat a változókat a publikációkban, amelyek egyéneken vagy kezeléseken keresztül jelentős hatást mutatnak, viszont nem szignifikáns eredményként elvetésre kerülnének a többszöri tesztelés szokásos korrekciója után. Erre válaszul számos olyan hibaarányra született javaslat, amely kevésbé konzervatív az FWER-nél a jelentős megfigyelések megjelölésében.

Irodalom

Az FDR koncepcióját Yoav Benjamini és Yosef Hochberg (1995)[1] alkották meg (Benjamini–Hochberg-eljárás, BH-eljárás), amely egy kevésbé konzervatív eljárás és hatékonyan azonosítja a fontosabb hatásokat a sok egyéb hatás közül. Az FDR volt az FWER első olyan alternatívája, amely számos tudományos területen széles körben elfogadottá vált (genetikától a biokémiáig, az onkológiáig és a növénytudományig).[3] 2005-ben így Benjamini és Hochberg tanulmányát a 25 legtöbbet idézett statisztikai cikk közé sorolták.[5]

Az FDR koncepció 1995-ös bevezetésének több előfutára is volt a statisztikai szakirodalomban. 1979-ben Holm megalkotta a Holm-eljárást,[6] amely egy lépésenkénti algoritmus az FWER vezérlésére, és amely legalább olyan hatékony, mint a Bonferroni-korrekció. Ez a lépésenkénti algoritmus rendezi a p-értékeket, és a hipotéziseket a legkisebb p-értéktől kiindulva egymást követően elutasítja.

Benjamini (2010)[3] elmondása szerint az 1995-ös tanulmányuk két, többszörös teszteléssel foglalkozó tanulmányból ered:

  • Az első ilyen Scweder és Spjotvoll (1982)[7] munkája, akik javasolták a rangsorolt p-értékek ábrázolását, és a valódi nullhipotézisek értékelését azok vonalra illesztésével, a legnagyobb p-értéktől indulva, amelyek így egy egyenest alkotnak. Az ettől az egyenestől eltérő p-értékek a nullhipotézisnek felelnek meg. Ezt az ötletet később algoritmussá fejlesztették, és a nullhipotézist olyan eljárásokba építették be, mint a Bonferroni-, Holm- vagy Hochberg-eljárás.[8] Ez az elképzelés szorosan kapcsolódik a BH-eljárás grafikus értelmezéséhez.
  • A másik ilyen tanulmány Branko Soric (1989)[9] munkája, amely a „felfedezés” terminológiáját vezeti be többszörös hipotézistesztelés összefüggésében. Soric figyelmeztetőként használta a hamis felfedezések várható számát elosztva az összes felfedezés számával ( E [ V ] / R ) {\displaystyle \left(E[V]/R\right)} , mondván: „a statisztikai felfedezéseink nagy része téves lehet”. Ez arra az elképzelésre vezette Benjaminit és Hochberget, hogy egy hibaarányt ahelyett, hogy figyelmeztetésként szolgálna, érdemes lenne kontrollálni.

1995-ben Benjamini és Hochberg bebizonyította, hogy a BH-eljárás egymástól független teszteknél kontrollálja az FDR-t.[1] 1986-ban R.J. Simes ugyanezt az eljárást javasolta "Simes eljárás" néven annak érdekében, hogy a gyenge értelemben vett FWER-t kontrollálják egymástól független teszteknél.[10]

Definíciók

Az alábbi definíciók alapján meghatározhatjuk a Q -t, mint a hamis felfedezések arányát az összes felfedezés között (a nullhipotézisek elutasítása):

Q = V / R = V / ( V + S ) {\displaystyle Q=V/R=V/(V+S)} ,

ahol V {\displaystyle V} a hamis felfedezések száma, S {\displaystyle S} az igazi felfedezések száma, R {\displaystyle R} pedig az összes felfedezés száma.

A hamis felfedezési arány (FDR) ezután egyszerűen:[1]

F D R = Q e = E [ Q ] {\displaystyle \mathrm {FDR} =Q_{e}=\mathrm {E} \!\left[Q\right]} ,

ahol E [ Q ] {\displaystyle \mathrm {E} \!\left[Q\right]} a várható értéke Q {\displaystyle Q} -nak. A cél, hogy az FDR-t egy adott q érték alatt tartsuk. A 0-val való osztás elkerülése érdekében Q {\displaystyle Q} -t 0-nak definiáljuk, amikor R {\displaystyle R} = 0:

F D R = E [ V / R | R > 0 ] P ( R > 0 ) {\displaystyle \mathrm {FDR} =\mathrm {E} \!\left[V/R|R>0\right]\cdot \mathrm {P} \!\left(R>0\right)} .[1]

Többszörös hipotézistesztelések osztályozása

A következő táblázat a többszörös hipotézistesztelés lehetséges kimeneteleit definiálja. Tegyük fel, hogy m számú nullhipotézisünk van, amelyeket a következőképp jelölünk: H1 , H2, …, Hm. Statisztikai tesztet használva szignifikáns eredmény esetén elutasítjuk a nullhipotézist. Ha a teszt eredménye nem szignifikáns, nem utasítjuk el a nullhipotézist. Az összes Hi -re vonatkozó eredménytípust összesítve a következő random változókat kapjuk:

A nullhipotézis igaz (H0) Az alternatív hipotézis igaz (HA) Összegezve
A teszt szignifikáns V S R
A teszt nem szignifikáns U T m-R
Összegezve m0 m-m0 m
  • m {\displaystyle m} : az összes tesztelt hipotézisek száma
  • m 0 {\displaystyle m_{0}} : az igaz nullhipotézisek száma, nem ismert paraméter
  • m m 0 {\displaystyle m-m_{0}} : az igaz alternatív hipotézisek száma
  • V {\displaystyle V} : a fals pozitívok száma (elsőfajú hiba) („false discoveries”)
  • S {\displaystyle S} : az valódi pozitívak száma („true discoveries”)
  • T {\displaystyle T} : a fals negatívak száma (másodfajú hiba)
  • U {\displaystyle U} : A valódi negatívak száma
  • R = V + S {\displaystyle R=V+S} : Az elvetett nullhipotézisek száma (igaz vagy hamis felfedezések)
  • m {\displaystyle m} hipotézistesztelésben, ahol m 0 {\displaystyle m_{0}} -k az igaz nullhipotéziseket jelölik, R {\displaystyle R} egy megfigyelhető véletlen változó, S {\displaystyle S} , T {\displaystyle T} , U {\displaystyle U} és V {\displaystyle V} pedig nem megfigyelhető véletlen változók.

Kontrolláló eljárások

A legtöbb eljárás során H1….Hm számú nullhipotézis tesztelés, és a hozzájuk tartozó P1….Pm áll rendelkezésünkre. A p-értékeket növekvő sorrendben soroljuk fel és P(1)….P(m) -ként jelöljük. Az alacsonytól magas p-érték felé tartó eljárásokat emelkedő („step up”), míg a magastól alacsony p-érték felé tartó eljárásokat ereszkedő („step down”) folyamatoknak nevezzük.

Benjamini–Hochberg-eljárás (BH-eljárás)

A Benjamini–Hochberg-eljárás (BH-emelkedő eljárás) az FDR-t kontrollálja α {\displaystyle \alpha } szintjén.[1] A következőképpen működik:

1. Egy adott α esetén keresse meg a legnagyobb k értéket, amely: P ( k ) k m α {\displaystyle P_{(k)}\leq {\frac {k}{m}}\alpha } ( k = a r g m a x j ( i , . . . , n ) ( I P ( j ) j m α ) {\displaystyle k={\underset {j\in (i,...,n)}{\operatorname {arg\,max} }}\,\left(I_{P_{(j)}\leq {\frac {j}{m}}\alpha }\right)} ).

2. Vesse el a nullhipotézist az i-re minden H(i)-nél = 1,…,k.

Geometriai értelemben ez megegyezik P(k) és k (pl. y és x tengelyen) ábrázolásával, áthúzva az egyenest az origón α m {\displaystyle {\frac {\alpha }{m}}} meredekséggel, igazolva a bal oldali pontok felfedezését egészen az utolsó, vonal alatti pontig.

A BH-eljárás akkor érvényes, ha az m-tesztek függetlenek, és sok olyan esetben is, amikor fennáll a függőség, de ezek nem általánosan érvényesek.[11] Egyenlőtlenség esetén is működőképes: E ( Q ) m 0 m α α {\displaystyle E(Q)\leq {\frac {m_{0}}{m}}\alpha \leq \alpha }

Ha az m 0 {\displaystyle m_{0}} becslő értékét beillesztjük a BH-eljárásba, már nem garantált az FDR kontroll elérése a kívánt szinten.[3] Szükség lehet kiigazításokra a becslő értékben, és erre számos módosítást javasoltak.[12][13][14][15]

Az m- tesztek α {\displaystyle \alpha } átlaga: α ( m + 1 ) 2 m {\displaystyle {\frac {\alpha (m+1)}{2m}}} , FDR α {\displaystyle \alpha } átlaga (vagy MFDR), α {\displaystyle \alpha } az m független vagy pozitív korrelációihoz igazítva (lásd AFDR). Az MFDR kifejezés az α {\displaystyle \alpha } egyetlen újraszámított értékére vonatkozik, és nem része a Benjamini–Hochberg-módszernek.

Benjamini–Yekutieli-eljárás

A Benjamini-Yekutieli-eljárás tetszőleges függőségi feltételezések alapján ellenőrzi a hamis felfedezési arányt (FDR-t).[11] Ez a finomítás módosítja a küszöbértéket, és a következőképpen találja meg k értékét:

P ( k ) k m c ( m ) α {\displaystyle P_{(k)}\leq {\frac {k}{m\cdot c(m)}}\alpha }

  • Ha a tesztek függetlenek vagy pozitívan korrelálnak (mint a Benjamini–Hochberg-eljárásban): c ( m ) = 1 {\displaystyle c(m)=1}
  • Tetszőleges függőség esetén (beleértve a negatív korrelációkat), c(m) a harmonikus szám: c ( m ) = i = 1 m 1 i {\displaystyle c(m)=\sum _{i=1}^{m}{\frac {1}{i}}}

A c(m)-et a Taylor-sor és az Euler-Mascheroni-állandó γ = 0.57721... {\displaystyle \gamma =0.57721...} segítségével becsülhetjük meg:

Az MFDR és a fenti képletek használatával, a korrigált MFDR (AFDR) az m-függő tesztek min( α {\displaystyle \alpha } átlaga) értéke = M F D R c ( m ) {\displaystyle {\frac {\mathrm {MFDR} }{c(m)}}} . A függőség kezelésének másik módja a bootstrapping és az újbóli randomizálás.[4][16][17]

Tulajdonságok

Adaptív és skálázható

Az FDR-t kontrolláló többszörös összehasonlító eljárások adaptívak és skálázhatóak. Ez azt jelenti, hogy az FDR kontrollálása lehet nagyon megengedő (ha az adatok ezt igazolják) vagy konzervatív (az FWER kontrollálása esetén) -mindez a tesztelt hipotézisek számától és a szignifikancia szintjétől függ.[3]

Az FDR kritérium úgy igazodik, hogy ugyanannyi hamis felfedezésnek (V) különböző következtetései legyenek, a felfedezések teljes számától (R) függően. Ez ellentétes az FWER kritériummal. Például ha 100 hipotézist vizsgálunk (pl. 100 genetikai mutációt, amelyek valamilyen populáció valamilyen fenotípusához kapcsolódnak):

  • Ha 4 felfedezést teszünk (R), akkor ezek közül 2 hamis felfedezés (V) nagyon költséges, míg
  • Ha 50 felfedezést teszünk (R), akkor ezek közül 2 hamis felfedezés (V) általában nem túl költséges

Az FDR kritérium skálázható, mivel az összes felfedezés (Q) hamis felfedezései ugyanolyan arányban maradnak szenzitívek az össze felfedezés különböző számaira (R). Például:

  • Ha 100 felfedezést teszünk (R), akkor 5 hamis felfedezés (q = 5%) nem túl költséges;
  • Hasonlóképpen, ha 1000 felfedezést teszünk (R), akkor 50 hamis felfedezés (q = 5%) szintén nem túl költséges.

Függőség a tesztstatisztikák között

Az FDR kontrollálása lineáris emelkedő BH-eljárással q szinten számos tulajdonsággal rendelkezik az m null hipotézis teszt-statisztikái közötti struktúrához kapcsolódva, amelyek javításra kerülnek. Amennyiben a tesztstatisztika:

  • Független:[11] F D R m 0 m q {\displaystyle \mathrm {FDR} \leq {\frac {m_{0}}{m}}q}
  • Független és folytonos:[1] F D R = m 0 m q {\displaystyle \mathrm {FDR} ={\frac {m_{0}}{m}}q}
  • Pozitív-függő:[11] F D R m 0 m q {\displaystyle \mathrm {FDR} \leq {\frac {m_{0}}{m}}q}
  • Általános esetben:[11] F D R m 0 m q / ( 1 + 1 2 + 1 3 + + 1 m ) m 0 m q / ( ln ( m ) + γ + 1 2 m ) {\displaystyle \mathrm {FDR} \leq {\frac {m_{0}}{m}}q/\left(1+{\frac {1}{2}}+{\frac {1}{3}}+\cdots +{\frac {1}{m}}\right)\approx {\frac {m_{0}}{m}}q/(\ln(m)+\gamma +{\frac {1}{2m}})} , ahol γ {\displaystyle \gamma } az Euler–Mascheroni-állandó.

Az igaz hipotézisek aránya

Amennyiben az összes nullhipotézis igaz ( m 0 = m {\displaystyle m_{0}=m} ), az FDR kontrollálása q szinten garantálja az FWER feletti ellenőrzést (az FWER „gyenge kontrolljának” is nevezik): F W E R = P ( V 1 ) = E ( V R ) = F D R q {\displaystyle \mathrm {FWER} =P\left(V\geq 1\right)=E\left({\frac {V}{R}}\right)=\mathrm {FDR} \leq q} , mivel legalább egy igaz nullhipotézis elutasításának esete { V 1 } {\displaystyle \{V\geq 1\}} megegyezik { V / R = 1 } {\displaystyle \{V/R=1\}} esettel, és { V = 0 } {\displaystyle \{V=0\}} esete megegyezik { V / R = 0 } {\displaystyle \{V/R=0\}} (ahol V = R = 0 {\displaystyle V=R=0} , V / R = 0 {\displaystyle V/R=0} definíció alapján). Amennyiben viszont van valódi felfedezés ( m 0 < m {\displaystyle m_{0}<m} ), akkor F W E R F D R {\displaystyle FWER\geq FDR} . Ebben az esetben helye lesz a detektálási teljesítmény javításának. Ez azt is jelenti, hogy minden olyan eljárás, amely az FWER-t ellenőrzi, az FDR-t is ellenőrzi.

Kapcsolódó fogalmak

Az FDR felfedezését sok más típusú hibaarány előzte meg és követte. Ezek a következők:

  • PCER (per-comparison error rate – összehasonlításonkénti hibaarány), amelynek definíciója: P C E R = E [ V m ] {\displaystyle \mathrm {PCER} =E\left[{\frac {V}{m}}\right]} . Az egyes hipotézisek egyenként történő tesztelése az α {\displaystyle \alpha } szinten garantálja, hogy: P C E R α {\displaystyle \mathrm {PCER} \leq \alpha } (ebben az esetben nem alkalmazunk korrekciót a multiplicitásra).
  • FWER (familywise rate error), amelynek definíciója: F W E R = P ( V 1 ) {\displaystyle \mathrm {FWER} =P(V\geq 1)} , kontrollálására számos eljárás létezik.
  • Q {\displaystyle Q'} : A hamis felfedezések aránya a felfedezések között Soric (1989)[9] javaslatára, definíciója: Q = E [ V ] R {\displaystyle Q'={\frac {E[V]}{R}}} . Ez az elvárások és felismerések keveréke, és problémás a kontrollálás, mivel m 0 = m {\displaystyle m_{0}=m} .[1]
  • k -FDR {\displaystyle k{\text{-FDR}}} : Sarkar (2007)[18][19] által általánosított FDR-ként is emlegetett eljárás, definíciója: k -FDR = E ( V R I ( V > k ) ) q {\displaystyle k{\text{-FDR}}=E\left({\frac {V}{R}}I_{(V>k)}\right)\leq q} .
  • F D R 1 {\displaystyle \mathrm {FDR} _{-1}} : Benjamini és Hochberg[3] használták először, Efron (2008)[20] később „Fdr”-nek hívta. Definíciója: F D R 1 = F d r = E [ V ] E [ R ] {\displaystyle \mathrm {FDR} _{-1}=Fdr={\frac {E[V]}{E[R]}}} . Ezt a hibaarányt nem lehet szigorúan kontrollálni, mert mikor m = m 0 {\displaystyle m=m_{0}} , akkor értéke 1.
  • F D R + 1 {\displaystyle \mathrm {FDR} _{+1}} : Benjamini és Hochberg[3] használták először, Storey (2002)[21] később „pFDR” -nek hívta. Definíciója: F D R + 1 = p F D R = E [ V R | R > 0 ] {\displaystyle \mathrm {FDR} _{+1}=pFDR=E\left[\left.{\frac {V}{R}}\right|R>0\right]} . Ezt a hibaarányt nem lehet szigorúan kontrollálni, mert mikor m = m 0 {\displaystyle m=m_{0}} , akkor értéke 1.
  • Hamis túllépési arány: Az FDR farok-valószínűségének értéke.[22] Definíciója: P ( V R > q ) {\displaystyle \mathrm {P} \left({\frac {V}{R}}>q\right)}
  • W -FDR {\displaystyle W{\text{-FDR}}} (súlyozott FDR): Minden i hipotézishez tartozik egy súly w i 0 {\displaystyle w_{i}\geq 0} , ahol a súlyok a fontosságot/árat jelölik. Definíciója: W -FDR = E ( w i V i w i R i ) {\displaystyle W{\text{-FDR}}=E\left({\frac {\sum w_{i}V_{i}}{\sum w_{i}R_{i}}}\right)} .
  • FDCR (False Discovery Cost Rate): Statisztikai folyamat-kontrollálásból ered. Minden i hipotézishez tartozik egy ár c i {\displaystyle \mathrm {c} _{i}} és egy kereszt-hipotézis H 00 {\displaystyle H_{00}} c 0 {\displaystyle c_{0}} árral. A motivációja, hogy a folyamat leállítása fix költségekkel járhat. Definíciója: F D C R = E ( c 0 V 0 + c i V i c 0 R 0 + c i R i ) {\displaystyle \mathrm {FDCR} =E\left(c_{0}V_{0}+{\frac {\sum c_{i}V_{i}}{c_{0}R_{0}+\sum c_{i}R_{i}}}\right)} .
  • PFER (per-family error rate), definíciója: P F E R = E ( V ) {\displaystyle \mathrm {PFER} =E(V)} .
  • FNR (False non-discovery rates), Genovesse & Wasserman (2002) nevéhez fűződik, definíciója: F N R = E ( T m R ) = E ( m m 0 ( R V ) m R ) {\displaystyle \mathrm {FNR} =E\left({\frac {T}{m-R}}\right)=E\left({\frac {m-m_{0}-(R-V)}{m-R}}\right)} .
  • F D R ( z ) {\displaystyle \mathrm {FDR} (z)} , definíciója: F D R ( z ) = p 0 F 0 ( z ) F ( z ) {\displaystyle \mathrm {FDR} (z)={\frac {p_{0}F_{0}(z)}{F(z)}}} .

Hamis lefedettségi arány

A hamis lefedettségi arány (false coverage rate; FCR) az FDR-analógja a konfidencia-intervallumnál. Az FCR a hamis lefedettség átlagos arányát jelöli, vagyis nem fedi le a valódi paramétereket a kiválasztott intervallumok között. Az FCR egyidejűleg biztosít lefedettséget 1 – α {\displaystyle \alpha } szinten a problémában figyelembe vett összes paraméter számára. Azok az intervallumok, amelyek egyidejű lefedettséget biztosítanak 1 – q szintjén, szabályozhatják az FCR-t úgy, hogy a q-val határolják. Több FCR-eljárás is létezik, mint: Bonferroni-eljárás (Bonferronival kiválasztott, Bonferronival korrigált); BH-val kiválasztott és FCR-rel korrigált konfidenciaintervallumok (Benjamini és Yekutieli (2005),[23] Bayes FCR (Yekutieli, 2008) és egyéb Bayes-módszerek.[24]

Bayesiánus módszerek

Az FDR és Bayes-féle megközelítések összekapcsolódtak (beleértve az empirikus Bayes-módszereket),[20][25][26] megadva a Wavelet-együtthatók és a modellválasztás küszöbértékét,[27][28][29][30] valamint általánosítva a konfidencia-intervallumot az FCR-be.[23]

Fordítás

Ez a szócikk részben vagy egészben a False Discovery Rate című angol Wikipédia-szócikk fordításán alapul. Az eredeti cikk szerkesztőit annak laptörténete sorolja fel. Ez a jelzés csupán a megfogalmazás eredetét és a szerzői jogokat jelzi, nem szolgál a cikkben szereplő információk forrásmegjelöléseként.

Források

  1. a b c d e f g h Benjamini, Yoav; Hochberg, Yosef. (1995) „Controlling the false discovery rate: a practical and powerful approach to multiple testing”. Journal of the Royal Statistical Society, Series B 57 (1), 289–300. o.  
  2. Shaffer J.P. (1995) Multiple hypothesis testing, Annual Review of Psychology 46:561-584, Annual Reviews
  3. a b c d e f g Benjamini, Y. (2010) „Discovering the false discovery rate”. Journal of the Royal Statistical Society, Series B 72 (4), 405–416. o. DOI:10.1111/j.1467-9868.2010.00746.x.  
  4. a b Storey, John D.; Tibshirani, Robert. (2003) „Statistical significance for genome-wide studies”. Proceedings of the National Academy of Sciences 100 (16), 9440–9445. o. DOI:10.1073/pnas.1530509100. PMID 12883005.  
  5. Ryan, T. P.; Woodall, W. H. (2005) „The most-cited statistical papers”. Journal of Applied Statistics 32 (5), 461. o. DOI:10.1080/02664760500079373.  
  6. Holm, S. (1979). „A simple sequentially rejective multiple test procedure”. Scandinavian Journal of Statistics 6 (2), 65–70. o.  
  7. Schweder, T.; Spjøtvoll, E. (1982) „Plots of P-values to evaluate many tests simultaneously”. Biometrika 69 (3), 493. o. DOI:10.1093/biomet/69.3.493.  
  8. Hochberg, Y.; Benjamini, Y. (1990) „More powerful procedures for multiple significance testing”. Statistics in Medicine 9 (7), 811–818. o. DOI:10.1002/sim.4780090710. PMID 2218183.  
  9. a b Soric, Branko (1989. június 1.). „Statistical "Discoveries" and Effect-Size Estimation”. Journal of the American Statistical Association 84 (406), 608–610. o. DOI:10.1080/01621459.1989.10478811.  
  10. Simes, R. J. (1986) „An improved Bonferroni procedure for multiple tests of significance”. Biometrika 73 (3), 751–754. o. DOI:10.1093/biomet/73.3.751.  
  11. a b c d e Benjamini, Yoav; Yekutieli, Daniel (2001) „The control of the false discovery rate in multiple testing under dependency”. Annals of Statistics 29 (4), 1165–1188. o. DOI:10.1214/aos/1013699998.  
  12. Storey, J. D.; Taylor, J. E.; Siegmund, D. (2004) „Strong control, conservative point estimation and simultaneous conservative consistency of false discovery rates: A unified approach”. Journal of the Royal Statistical Society, Series B 66, 187–205. o. DOI:10.1111/j.1467-9868.2004.00439.x.  
  13. Benjamini, Y.; Krieger, A. M.; Yekutieli, D. (2006) „Adaptive linear step-up procedures that control the false discovery rate”. Biometrika 93 (3), 491. o. DOI:10.1093/biomet/93.3.491.  
  14. Gavrilov, Y.; Benjamini, Y.; Sarkar, S. K. (2009) „An adaptive step-down procedure with proven FDR control under independence”. The Annals of Statistics 37 (2), 619. o. DOI:10.1214/07-AOS586.  
  15. Blanchard, G.; Roquain, E. (2008) „Two simple sufficient conditions for FDR control”. Electronic Journal of Statistics 2, 963–992. o. DOI:10.1214/08-EJS180.  
  16. Yekutieli D, Benjamini Y. (2003) „Statistical significance for genome-wide studies”. Proceedings of the National Academy of Sciences 100 (16), 9440–9445. o. DOI:10.1073/pnas.1530509100. PMID 12883005.  
  17. van der Laan, M. J.; Dudoit, S. (1999) „Resampling based False Discovery Rate controlling procedure for dependent test statistics”. J. Statist. Planng Inf. 82 (1–2), 171–196. o. DOI:10.1016/S0378-3758(99)00041-5.  
  18. Sarkar, Sanat K. "Stepup procedures controlling generalized FWER and generalized FDR." The Annals of Statistics (2007): 2405-2420.
  19. Sarkar, Sanat K., and Wenge Guo. "On a generalized false discovery rate." The Annals of Statistics (2009): 1545-1565.
  20. a b Efron B (2008). „Microarrays, empirical Bayes and the two groups model”. Statistical Science 23, 1–22. o. DOI:10.1214/07-STS236.  
  21. Storey, John D. (2002) „A direct approach to false discovery rates”. Journal of the Royal Statistical Society, Series B 64 (3), 479–498. o. DOI:10.1111/1467-9868.00346.  
  22. Benjamini, Y. (2010) „Simultaneous and selective inference: Current successes and future challenges”. Biometrical Journal 52 (6), 708–721. o. DOI:10.1002/bimj.200900299. PMID 21154895.  
  23. a b Benjamini Y, Yekutieli Y. (2005) „False discovery rate controlling confidence intervals for selected parameters”. Journal of the American Statistical Association 100 (469), 71–80. o. DOI:10.1198/016214504000001907.  
  24. Zhao, Z.; Gene Hwang, J. T. (2012) „Empirical Bayes false coverage rate controlling confidence intervals”. Journal of the Royal Statistical Society, Series B 74 (5), 871–891. o. DOI:10.1111/j.1467-9868.2012.01033.x.  
  25. Storey, John D. (2003) „The positive false discovery rate: A Bayesian interpretation and the q-value”. Annals of Statistics 31 (6), 2013–2035. o. DOI:10.1214/aos/1074290335.  
  26. Efron, Bradley. Large-Scale Inference. Cambridge University Press (2010). ISBN 978-0-521-19249-1 
  27. Abramovich F, Benjamini Y, Donoho D, Johnstone IM. (2006) „Adapting to unknown sparsity by controlling the false discovery rate”. Annals of Statistics 34 (2), 584–653. o. DOI:10.1214/009053606000000074.  
  28. Donoho D, Jin J. (2006) „Asymptotic minimaxity of false discovery rate thresholding for sparse exponential data”. Annals of Statistics 34 (6), 2980–3018. o. DOI:10.1214/009053606000000920.  
  29. Benjamini Y, Gavrilov Y. (2009) „A simple forward selection procedure based on false discovery rate control”. Annals of Applied Statistics 3 (1), 179–198. o. DOI:10.1214/08-AOAS194.  
  30. Donoho D, Jin JS. (2004) „Higher criticism for detecting sparse heterogeneous mixtures”. Annals of Statistics 32 (3), 962–994. o. DOI:10.1214/009053604000000265.