Falešný vztah - Spurious relationship

Zatímco mediátor je faktorem v kauzálním řetězci (1), matoucí je falešný faktor, který nesprávně naznačuje příčinnou souvislost (2)

V statistiky , je falešný vztah nebo falešné korelace je matematický vztah , ve kterém dvě nebo více událostí nebo proměnných jsou spojeny , ale ne v příčinné souvislosti , buď v důsledku náhody nebo přítomnost určitého třetiny, neviditelný faktor (dále jako „společná reakce proměnná “,„ matoucí faktor “nebo„ číhající proměnná “).

Příklady

Příklad falešného vztahu lze nalézt v literatuře časových řad , kde falešná regrese je regrese, která poskytuje zavádějící statistické důkazy o lineárním vztahu mezi nezávislými nestacionárními proměnnými. Nestacionarita může být ve skutečnosti způsobena přítomností jednotkového kořene v obou proměnných. Zejména je pravděpodobné , že jakékoli dvě nominální ekonomické proměnné budou navzájem korelovat, i když ani jedna nebude mít na druhou příčinný účinek, protože každá se rovná skutečné proměnné krát cenová hladina a společná přítomnost cenové hladiny v těchto dvou datové řady jim dodávají korelaci. (Viz také falešná korelace poměrů .)

Další příklad falešného vztahu lze vidět při zkoumání prodejů zmrzliny ve městě . Tržby mohou být nejvyšší, když je nejvyšší míra utonutí v městských bazénech . Tvrdit, že prodeje zmrzliny způsobují utonutí, nebo naopak, by znamenalo implicitní vztah mezi nimi. Ve skutečnosti mohla vlna horka způsobit obojí. Vlna veder je příkladem skryté nebo neviditelné proměnné, známé také jako matoucí proměnná .

Dalším běžně známým příkladem je řada nizozemských statistik, které ukazují pozitivní korelaci mezi počtem čápů hnízdících v řadě pramenů a počtem narozených lidských mláďat v té době. Samozřejmě neexistovala žádná příčinná souvislost; korelovali spolu jen proto, že korelovali s počasím devět měsíců před pozorováním. Nicméně Höfer a kol. (2004) ukázal, že korelace je silnější než pouhé výkyvy počasí, jak mohl ukázat v Německu po znovusjednocení, že ačkoli počet klinických porodů nesouvisel s nárůstem populace čápů, dodávky mimo nemocnici korelovaly s populací čápů.

Ve vzácných případech může mezi dvěma zcela nesouvisejícími proměnnými nastat falešný vztah bez jakékoli matoucí proměnné, jako tomu bylo mezi úspěchem profesionálního fotbalového týmu Washington Redskins v konkrétní hře před každými prezidentskými volbami a úspěchem dosavadní politické strany prezidenta v uvedených volbách. U 16 po sobě jdoucích voleb v letech 1940 až 2000 se pravidlo Redskins správně shodovalo, zda by politická strana úřadujícího prezidenta udržela nebo ztratila předsednictví. Pravidlo nakonec selhalo krátce poté, co Elias Sports Bureau v roce 2000 zjistila korelaci; v letech 2004, 2012 a 2016 se výsledky hry Redskins a voleb neshodovaly. V podobném falešném vztahu zahrnujícím národní fotbalovou ligu v sedmdesátých letech Leonard Koppett zaznamenal korelaci mezi směrem akciového trhu a vítěznou konferencí toho roku Super Bowl , indikátor Super Bowl ; vztah se udržoval po většinu 20. století, než se v 21. vrátil k náhodnějšímu chování .

Testování hypotéz

Často se testuje nulová hypotéza o žádné korelaci mezi dvěma proměnnými a předem se rozhodne hypotézu odmítnout, pokud by korelace vypočítaná ze vzorku dat nastala u méně než (řekněme) 5% vzorků dat, pokud by byla nulová hypotéza pravdivá. Zatímco pravdivá nulová hypotéza bude přijata 95% času, ostatních 5% případů, které mají skutečnou nulovou hodnotu bez korelace, bude nulová korelace chybně odmítnuta, což způsobí přijetí korelace, která je falešná (událost známá jako Typ Mýlím se ). Zde falešná korelace ve vzorku vyplynula z náhodného výběru vzorku, který neodrážel skutečné vlastnosti podkladové populace.

Odhalování falešných vztahů

Termín „falešný vztah“ se běžně používá ve statistikách a zejména v experimentálních výzkumných technikách, které se pokoušejí porozumět a předvídat přímé kauzální vztahy (X → Y). Nekauzální korelaci může falešně vytvořit předchůdce, který způsobí obojí (W → X a W → Y). Zprostředkující proměnné , (X → W → Y), pokud nejsou detekovány, odhadují celkový účinek spíše než přímý účinek bez úpravy pro zprostředkující proměnnou M. Z tohoto důvodu experimentálně identifikované korelace nepředstavují kauzální vztahy, pokud nelze vyloučit falešné vztahy.

Experimenty

V experimentech lze falešné vztahy často identifikovat kontrolou jiných faktorů, včetně těch, které byly teoreticky identifikovány jako možné matoucí faktory. Zvažte například výzkumníka, který se snaží zjistit, zda nový lék zabíjí bakterie; když výzkumník aplikuje lék na bakteriální kulturu, bakterie zemřou. Ale aby pomohla vyloučit přítomnost matoucí proměnné, je další kultura vystavena podmínkám, které jsou co nejvíce totožné s těmi, které čelí první zmíněné kultuře, ale druhá kultura není léčivu vystavena. Pokud v těchto podmínkách existuje neviditelný matoucí faktor, tato kontrolní kultura také zemře, takže z výsledků první kultivace nelze vyvodit žádný závěr o účinnosti léčiva. Na druhou stranu, pokud kontrolní kultura nezemře, pak výzkumník nemůže odmítnout hypotézu, že lék je účinný.

Neexperimentální statistické analýzy

Disciplíny, jejichž data jsou většinou neexperimentální, jako je ekonomie , obvykle používají pozorovací data k navázání příčinných vztahů. Soubor statistických technik používaných v ekonomii se nazývá ekonometrie . Hlavní statistickou metodou v ekonometrii je multivariační regresní analýza . Typicky lineární vztah, jako je

je hypotéza, ve které je závislá proměnná (předpokládá se, že je způsobená proměnná), pro j  = 1, ...,  k je j -ta nezávislá proměnná (předpokládá se, že je příčinnou proměnnou), a je chybový termín (obsahující kombinované efekty všech ostatních příčinných proměnných, které musí být nekorelované se zahrnutými nezávislými proměnnými). Pokud existuje důvod se domnívat, že žádný z s není způsoben y , pak se získají odhady koeficientů . Pokud je nulová hypotéza, která je zamítnuta, nelze odmítnout alternativní hypotézu, která a ekvivalentně to způsobuje y . Na druhou stranu, pokud nulovou hypotézu, kterou nelze odmítnout, pak ekvivalentně nelze odmítnout hypotézu o žádném příčinném účinku na y . Zde je pojem kauzality jedním z přispívajících kauzalit : Pokud je skutečná hodnota , pak změna v bude mít za následek změnu y, pokud některé jiné kauzativní proměnné, buď zahrnuté v regresi, nebo implicitní v chybovém termínu, změní takovým způsobem, aby přesně kompenzoval jeho účinek; tedy změna je nestačí na změnu  y . Podobně, změna je není nutné , aby změny y , protože změna v y může být způsobena něčím implicitní v chybové termínu (nebo jinými původci vysvětlující proměnné do modelu zahrnuty).

Regresní analýza kontroluje další relevantní proměnné jejich zahrnutím jako regresory (vysvětlující proměnné). To pomáhá vyhnout se mylnému odvození kauzality v důsledku přítomnosti třetí, podkladové proměnné, která ovlivňuje jak potenciálně příčinnou proměnnou, tak potenciálně způsobenou proměnnou: její účinek na potenciálně způsobenou proměnnou je zachycen jejím přímým zahrnutím do regrese, takže tento účinek nebude zachycen jako falešný účinek potenciálně příčinné proměnné, která nás zajímá. Kromě toho použití vícerozměrné regrese pomáhá vyhnout se nesprávnému závěru, že nepřímý účinek, řekněme x 1 (např. X 1x 2y ), je přímým účinkem ( x 1y ).

Stejně jako experimentátor musí dávat pozor, aby použil experimentální design, který kontroluje každý matoucí faktor, musí si také uživatel vícenásobné regrese dávat pozor na kontrolu všech matoucích faktorů tím, že je zařadí mezi regresory. Pokud je při regresi vynechán matoucí faktor, jeho účinek je standardně zachycen v chybovém termínu a pokud je výsledný chybový termín v korelaci s jedním (nebo více) zahrnutými regresory, pak může být odhadovaná regrese zkreslená nebo nekonzistentní ( viz vynechaná variabilita ).

Kromě regresní analýzy lze data prozkoumat a určit, zda existuje Grangerova kauzalita . Přítomnost Grangerovy kauzality naznačuje, že x předchází y a že x obsahuje jedinečné informace o  y .

Jiné vztahy

Existuje několik dalších vztahů definovaných ve statistické analýze následovně.

Viz také

Poznámky pod čarou

Reference

externí odkazy