sobota 12. září 2009

Iluze, zákon velkých čísel a Bayesovské metody


Schopný iluzionista dokázal přimět bloggery k psaní článků o tom, jak kolektivní vědomí (možná) dokáže předvídat čísla v loterii.

O co jde? Britský iluzionista Derren Brown v jedné ve svých show přesně "předpověděl" výsledky středečního tahu britské národní loterie. Prý k tomu použil tým 24 lidí, kteří přesné předpovědi dosáhli pomocí kolektivního vědomí.

Co na tom, že se nic takového nestalo. Brown pouze nejprve na jevišti v televizi pustil přímý přenos losování, a poté odhalil míčky, na kterých byla napsána tatáž čísla.

Pěkný trik, proč ne. Lidé věří různým iluzím. Horší však je, když bloggeři začnou psát o tom, jak se výše uvedený mechanismus kolektivního vědomí podobá jiným situacím, které jsou naopak založené na exatních matematicko-statistických principech.
Prvním příkladem, které výše uvedený článek uvádí, je epizoda ze života polyhistora Francise Galtona, který v roce 1906 navštívil trh s dobytkem, kde přihlížel soutěži, ve které přihlížející tipovali váhu býka určeného k porážce. Galton po soutěži posbíral lístečky a odhady zprůměroval. Průměr se od skutečné hodnoty lišil pouze o jednu libru.

Pro Galtona coby vynikajícího statistika to samozřejmě nemohlo být tak překvapivé - zákon velkých čísel byl už tehdy dobře známý. (Dost silnou) postačující podmínkou je, když je odhad tipujícího nevychýlený s konečným druhým momentem a odhady jsou vzájemně nezávislé - potom bude průměr odhadů skutečně konvergovat ke skutečné hodnotě. Vzhledem k tomu, že přihlížejícími na trhu byli pravděpodobně většinou zkušení farmáři, předpoklady jsou v rozumné míře splněné.

Druhým příkladem je práce Johna Cravena, kterému se pomocí variací na téma bayesovských lokačních metod podařilo s velkou přesností určit polohu vraku ponorky USS Scorpion.

Craven spolu s kolegou Wiltonem Hardym nejprve na základě studia akustických dat vyhodnotili, že se ponorka musela vydat jiným směrem, než kde ji hledalo námořnictvo. Potom nechal odborníky sázet na to, kde se vrak ponorky bude nacházet (v sázce byla prý láhev whisky). Odhady statisticky zpracoval a výsledkem byla poloha lišící se od skutečné polohy jen o 200 metrů.

I zde zapracoval zákon velkých čísel, i když v trochu složitější podobě. Představme si, že každý z expertů má svou teorii o tom, kde by ponorka měla být. Takovou teorii lze znázornit pravděpodobnostním rozdělením místa vraku na mapě. Pokud platí analogické předpoklady o nevychýlenosti takových odhadů, pak můžeme zagregovat všechny takové teorie do posteriorního rozdělení, ze kterého odečteme polohu vraku.

Dva vybrané případy samozřejmě nejsou žádnými reprezentativními vzorky - historie je taková, že si pamatuje úspěšné výsledky, ale na neúspěchy zapomíná. Na oba výše zmíněné případy tak připadá mnoho dalších, které tak úspěšné nebyly (ale tak to je v pořádku, protože pracujeme s pravděpodobností). Přesto jsou oba případy ilustrací korektních matematických postupů.

Proč je ale snaha aplikovat stejné matematické postupy na výše zmíněnou loterii naprostým nesmyslem? Dva zmíněné případy totiž mají společnou vlastnost - výzkumníci mají jasně definovanou metriku, přes kterou můžou průměrovat (ať už to jsou hmotnosti býků nebo vzdálenosti na mapě).

U loterie ale nic takového neexistuje. Pokud by jeden člen týmu odhadoval, že padne čtyřka, a druhý, že padne šestka, znamená to, že je pravděpodobné, že padne pětka? Nikoliv, žádná taková metrika na množině míčku v osudí definovaná není. Stačí si představit, že čísla nahradíme názvy zeleniny. Když jeden člověk hádá salát a druhý mrkev, znamená to, že padne celer?

Jediná potenciálně smysluplná metrika je v takovém případě diskrétní metrika - člen týmu se buď trefí nebo netrefí. Tým potom vybere takovou odpověď, kterou na lísteček napsalo nejvíce lidí.

To je zajímavý nápad, obzvláště v kombinaci s Brownovým tvrzením, že metoda bude fungovat jen tehdy, když každý ze členů týmů učiní svůj úsudek nezávisle na ostatních a na základě vlastních informací. Potom ale v případě diskrétní metriky žádný tým nepotřebujeme, každý si může napsat na lísteček svá vlastní čísla a pravidelně budeme vídat miliony lidí vyhrávat první ceny (protože první cena je s velkou pravděpodobností ta, kterou na lísteček napsalo nejvíce lidí). Z nějakého důvodu se tak ale neděje.

Konečně je v záloze poslední možnost - že skupina skutečně dokázala čísla uhodnout na základě "kolektivního vědomí" čísla uhodnout. Pak nám nezbývá než zrušit šipku času a jít od základu přepsat celou fyziku, protože s něčím takovým naše teorie relativity nepočítá.

Jaké je poučení? Že někdy by více studia matematiky, statistiky a fyziky neškodilo ani humanitně zaměřeným bloggerům. Užívat si iluzi jako zábavu je fajn. Snažit se odvodit její potenciální reálnost naprosto chybným připodobňováním k fungujícím statistickým metodám je zvěrstvo (bez ohledu na to, nakolik se jedná "jen o přejatý materiál").

3 komentáře:

  1. Chybaju Ti nejake znaky, vyzera to na uvodne \"

    OdpovědětVymazat
  2. Aj mne to useklo cast komentara... za tou poslednou uvodzovkou nasledoval zobacik, potom koniec uvodzoviek a dalsie pokracovanie. Niet nad dobry parsing.

    V nom bola pochvala za zaujimavy clanok.

    OdpovědětVymazat