úterý 21. prosince 2010

Bayesův vzorec a ostrostřelcův klam


Dnešní téma přirozeně navazuje na předchozí diskusi bayesovské (jinými slovy též subjektivistické nebo epistemické) pravděpodobnosti. Pokusím se o poněkud netradiční pohled na logickou chybu, která se nazývá "ostrostřelcův klam". Před vlastní diskusí o klamu provedu nutnou "dělostřeleckou přípravu".

Už jsem psal o tom, že apriorní pravděpodobnost by měla být volena tak, aby zvýhodňovala jednoduché hypotézy před složitými. Teď ještě říct, jak přesně to provést. Je očividně potřeba nějak kvantifikovat složitost. Můžeme to udělat tak, že zapíšeme hypotézu na papír a spočítáme, kolik nám na to stačilo znaků. Jelikož výsledek závisí na formulaci, vybereme tu nejkratší, a její délku označíme za hledanou složitost hypotézy.

Takto určená složitost závisí na jazyku, ve kterém hypotézu formulujeme, a to dvěma způsoby. První, ten triviálnější, je, že slova mají v různých jazycích různou délku. Bezmyšlenkovité počítání znaků by mohlo vést k tomu, že Angličan by a priori považoval možnost "the apple is green" (18 znaků) za o něco pravděpodobnější než "the apple is yellow" (19 znaků), zatímco Čech by spíše věřil, že "jablko je žluté" (15 znaků), než že "jablko je zelené" (16 znaků). To nevypadá příliš racionálně.

Druhý, zapeklitější, problém se skrývá ve skryté složitosti pojmů. Zdůvodnění typu "protože platí gravitační zákon" není příliš dlouhé v textové podobě, ale jen díky tomu, že skutečná složitost se skrývá pod nálepkou "gravitační zákon". Fráze "protože platí gravitační zákon" je srozumitelná tomu, kdo ví, co je gravitační zákon. Pokud bychom ale komunikovali s nevzdělancem, který o gravitačním zákonu nikdy neslyšel, museli bychom použít mnohem delší vysvětlení [1].

Pro vyhnutí se uvedeným obtížím se můžeme shodnout na nějakém formálním jazyku, jako je například sada instrukcí pro Turingův stroj [2] nebo libovolný zvolený programovací jazyk (ale viz též pozn. [3]). Pochopitelně potřebujeme, aby uvažované hypotézy, nebo aspoň ta jejich část, ve které se liší, byly v tomto formálním jazyce formulovatelné. To může v praxi být problém, ale nastíním příklad, kdy to jde.

Uvažujme generátor, který chrlí číslice. O vnitřním uspořádání generátoru není nic známo. Lze ale přijímat hypotézy o jeho výstupu a posléze je testovat. Jedna z možných hypotéz například je, že generátor vrací samé nuly. Jiná hypotéza může být, že generátor vrací postupně čísla 2, 4, 5, 3, 8, 2, 9 a pak zase dokola od začátku. Ještě jiná možná hypotéza je ta, že výstup generátoru je náhodný. Nyní můžeme složitost hypotéz formálně porovnat tak, že ve zvoleném programovacím jazyku napíšeme co nejkratší program, který bude generátor simulovat [3], a jehož výstup bude s výstupem generátoru kompatibilní. Délka tohoto programu bude udávat složitost jemu odpovídající hypotézy.

Je jasné, že i tady závisí na výběru jazyka. Náplastí na tuto bolest je skutečnost, že různé programovací jazyky se pro dlouhé hypotézy asymptoticky chovají stejně. Konkrétně tím myslím následující: Složitost hypotézy H v jazyce J označím jako s(H,J). Pro každé dva jazyky J1 a J2 existují čísla d12 a d21 taková, že pro libovolnou hypotézu H je

s(H,J1) < s(H,J2) + d12
s(H,J2) < s(H,J1) + d21

Vtip je v tom, že d12 a d21 nezávisí na hypotéze, takže pro dostatečně složité hypotézy bude rozdíl relativně zanedbatelný [4]. Dostat se blíže k ideálu objektivní, jazykově nezávislé kvantifikace složitosti hypotéz dost dobře možná nelze.

Ponechme tedy konečně otázku nejednoznačnosti pojmu "složitosti" stranou, a podívejme se, jak popsaný přístup pomáhá vyřešit jeden zdánlivý paradox pravděpodobnosti.

Když náš pomyslný generátor vygeneruje dvacet číslic, a všechny z nich budou nuly, rozumně uvažující člověk usoudí, že generátor vrací systematicky nulu; bude tedy mimo jiné očekávat, že dvacátá první číslice bude také nula. Kdyby ale generátor vrátil posloupnost 11576596326956881032, není nerozumné připustit, že generátor je náhodný, a očekávat na dvacítém prvním místě každou z číslic 0 až 9 se stejnou pravděpodobností. "Paradox" je, že u skutečně náhodného generátoru je výstup x = 00000000000000000000 naprosto přesně stejně pravděpodobný jako výstup y = 11576596326956881032. Jak je tedy možné, že první výstup svědčí o tom, že výstup není náhodný, zatímco druhý nikoliv?

Jedním možným řešením by bylo zkousnout nepříjemné zjištění, že běžná intuice je špatně, a akceptovat, že oba výstupy x i y stejným způsobem svědčí o nenáhodnosti generátoru. To by znamenalo, že žádný výstup nemůže v principu svědčit o tom, že výstup není náhodný, a v důsledku je tedy rozumné si myslet, že všechna zákonitost je pouze zdánlivá. Nebo, což je druhá možnost, jakýkoli konkrétní výsledek svědčí o nenáhodné povaze výstupu. Není mi známo, že by lidé běžně akceptovali první z těchto možností, ale čas od času někdo akceptuje tu druhou - a tady se právě dostáváme k tématu ostrostřelcova klamu.

Ostrostřelcův klam získal své jméno z této paraboly: Ostrostřelec (ideálně z Texasu [5]) přijde do stáje a začne střílet na protější zeď. Po vystřílení několika desítek ran najde místo s největší koncentrací děr ve zdi, a namaluje na zeď terč se středem právě v tomto místě. Potom může ostatním dokazovat, že to s puškou umí: důkazem je terč s mnoha zásahy ve středu.

Ze strany ostrostřelce se pochopitelně jedná o vědomý podvod, ale podobného jednání se lze snadno dopustit nevědomě. Stačí vzít jakýkoli výsledek jakéhokoli procesu a zpětně argumentovat, že pravděpodobnost zrovna tohoto výsledku je extrémně malá za předpokladu, že proces je náhodný. Tudíž, proces nemůže být náhodný. Pravděpodobnost, že náhodný generátor vrátí zrovna posloupnost y je 10-20, tudíž generátor, který vrátil posloupnost y téměř jistě nemůže být náhodný.

Tradiční reakce na ostrostřelcův klam je požadavek, že abychom mohli na základě výsledku usuzovat na nenáhodnost procesu, musí onen konkrétní výsledek být nějakým způsobem privilegován ještě předtím, než jsou výsledky známy. Ostrostřelec je tedy povinnen namalovat terč a teprve potom střílet, jinak nemůže výsledek použít jako důkaz svého střeleckého umění [6]. Stejně tak by musel obsluhovatel generátoru předem uhádnout, že výstup bude posloupnost y, aby tento výstup stál za pozornost. V této formulaci je ale požadavek stále poněkud neuspokojivý, protože neřeší rozdílný přístup k sekvencím x a y: výstup sestávající z dvaceti nul evidentně ukazuje na to, že generátor není náhodný, ať už si onen výsledek někdo předem tipne nebo nikoli.

Podívejme se tedy konečně, co nám říká formální analýza problému. Označím Dz hypotézu, že generátor je deterministický a produkuje postupně číslice z posloupnosti z (a po jejím skončení začne znovu od začátku; je-li z tvořeno několikrát se opakující podposloupností r, jsou samozřejmě Dz a Dr jedna a tatéž hypotéza). Jako N označím hypotézu, že generátor je náhodný, to jest každá jeho číslice se určuje nezávisle na ostatních náhodně s rovnoměrným rozdělením. Připadají v úvahu i možnosti, že funkce generátoru je někde mezi úplnou náhodností a úplným determinismem, ale jejich zanedbáním neztratíme nic podstatného. Jako obvykle označím znakem P0 apriorní pravděpodobnosti.

Nechť tedy pozorujeme posloupnost x = 00000000000000000000. Toto pozorování vyloučí všechny hypotézy Dz kromě těch, kde z začíná dvaceti nulami, a pochopitelně kromě D0. Ve hře zůstane i N. Přitom máme



Pro "náhodnou" hypotézu je podobně



Přesné vyčíslení by vyžadovalo stanovit apriorní pravděpodobnosti některých dalších hypotéz, ale je možné říct, že pokud na začátku byly hypotézy N a D0 srovnatelně pravděpodobné, pak na konci je deterministická hypotéza 1020krát pravděpodobnější.

Naprosto stejný postup proběhne i v případě pozorování y = 11576596326956881032, pouze ve všech vzorcích se nahradí index 0 indexem 11576596326956881032 [8]. Protože se nechceme stát texaskými ostrostřelci, musíme nějak zabránit tomu, aby aposteriorní pravděpodobnost P(Dy) byla srovnatelná s P(N), natož 1020krát větší. K tomu ale vede jediná cesta: příslušným způsobem zmenšit apriorní pravděpodobnost. Tedy, P0(Dy) < 10-20.

Věc lze zobecnit: hypotéza, která obsahuje jako svůj definiční parametr číslo sestávající z n (desítkových) číslic, by měla mít apriorní pravděpodobnost řádu 10-n. V úvodu jsem napsal, že by apriorní pravděpodobnosti měly záviset na složitosti hypotézy, a ta je definována jako délka nejkratšího programu, který je schopen hypotézu reprodukovat. Apriorní pravděpodobnosti pak budou úměrné exponenciále z této složitosti. Aby to dobře fungovalo pro posloupnosti 20 číslic, musel by se použít nějaký výrazně abstraktní programovací jazyk; v Pascalu by se asi nejkratší programy vypisující x a y moc nelišily (něco jako write('00000000000000000000'), versus write('11576596326956881032')). Pokud ale budeme zacházet s posloupnostmi výrazně delšími, bude funkčnost modelu vidět i při užití vysokoúrovňového jazyka. Nejkratší pascalovský program, který vypíše miliardu nul, zcela jistě nezačíná na write('000000.....


Poznámky:
1. Do této kategorie spadají problémy s náboženskými vysvětleními. Vysvětlení typu "Bůh to udělal" je zdánlivě velmi jednoduché (13 znaků), ale aby se pod ním skrývala konkrétní informace, musíme rozbalit pojem "Bůh": vysvětlit, co Bůh je a jakým způsobem "funguje". Autor výroku zpravidla má docela konkrétní představu o Bohu a možná pro něho výrok má konkrétní smysl (tato představa ale nikdy nemůže být tak detailní a konkrétní, aby vysvětlila existenci celého vesmíru), zpravidla ale zapomíná, že jeho představa Boha je složitá a jeho teorie není jednodušší než naturalistické vysvětlení (viz též diskuse pod minulým článkem v sérii).
2. Turingův stroj je jednoduchý počítač, který pohybuje čtecí hlavou po pásce čte a přepisuje znaky na této pásce. Pro plnou specifikaci jeho funkce je třeba zadat tzv. přechodovou funkci, která určuje, jak se chová hlava v závislosti na přečteném znaku a tzv. vnitřím stavu stroje. Turingův stroj je možno považovat za idealizaci skutečných počítačů.
3. Pro hypotézy obsahující náhodu budeme potřebovat, aby programovací jazyk obsahoval funkci vracející náhodné číslo; Turingův stroj je v takovém případě nepoužitelný.
4. Tvrzení se opírá o vcelku triviální pozorování, že když už je jazyk J2 o moc výhodnější pro zápis vybrané hypotézy než J1, vyplatí se prostě v jazyce J1 naprogramovat překladač jazyka J2; minimální délka tohoto překladače je de facto číslo d12.
5. V angličtině se klam jmenuje "Texas sharpshooter fallacy", ačkoli je záhada, co celá věc má společného zrovna s Texasem.
6. Tradiční diskuse ostrostřeleckého klamu je třeba tady s různými příklady reálného výskytu klamné argumentace.
7. Pro jednoduchost předpokládám, že generátor je na začátku resetovaný, a tudíž Dz implikuje, že prvním získanou číslicí bude taktéž první číslice z posloupnosti z.
8. Pouze u D0, ne u P0; čtenář omluví dvojí význam nuly v předchozí sekci

pondělí 20. prosince 2010

Pondělní šifra XXVI.

Následující obrázek v sobě skrývá zašifrovanou tajenku, kterou může být slovo, výraz nebo věta dávající v češtině dobrý význam (může to být i vlastní jméno nebo cizí slovo, pokud je v češtině dostatečně často používáno). Způsob šifrování není předem specifikován, ale měl by být odhalitelný na základě relativně jednoduchých pozorování. V některých případech může být k rozluštění potřeba znalost Morseovy abecedy nebo Braillova písma.

úterý 14. prosince 2010

Jazyk a číselná soustava


Desítková soustava je natolik zakořeněná v naší kultuře, že ji považujeme za naprosto přirozenou. Její užití je navíc rozšířené po celém světě, a počítání v jiné soustavě je pro nás velmi těžko představitelné. Občas se sice setkáme s přežitky jiných číselných soustav, třeba při návštěvě anglosaských zemí, kde je stále dvanáct palců do stopy a osm pint do galonu, nebo obyčejněji při pohledu na hodinky nebo úhloměr; ve všech těchto případech se ale desítková soustava přebrala aspoň část práce: počet hodin, minut a sekund zapisujeme číslicemi desítkové soustavy, a hlavně, používáme názvy číslovek uzpůsobené pro desítkovou soustavu.

Univerzálnost desítkové soustavy se obvykle vysvětluje počítáním na prstech; jelikož všichni lidé mají deset prstů, je desítka přirozený základ pro číselné soustavy. Přesto existují jazyky, jejichž číselný systém má jiný základ. Jedná se výhradně o izolované jazyky ze zaostalejších částí světa. Tento fakt je snadno pochopitelný. S rozvojem přichází gramotnost, jejíž součástí je matematika a arabské číslice, a jejich užití vytváří tlak na jazyk: užití jazyka s dvanáctkovou bází číslovek zároveň s desítkovou soustavou číslic by vyžadovalo aktivně přepočítávat každé napsané číslo předtím, než jej vyslovíme, a nepraktičnost takového počínání je zjevná. Sice by bylo možné adaptovat arabská čísla potřebám domorodého jazyka (například zavedením speciálních symbolů pro desítku a jedenáctku, je-li domorodý jazyk duodecimální), ale výsledný stav by ztěžoval komunikaci mezi domorodci a zbytkem světa: při překladu číslic z jednoho jazyka do druhého by zase tlumočník musel aktivně počítat.

V dřívějších dobách, kdy běžný život nebyl tak úzce svázán s čísly jako dnes, byla situace pestřejší, a pozůstatky nedesítkových soustav z těch dob lze najít i v evropských jazycích.

Podívejme se detailněji, s jakými soustavami se lze setkat.

Jedna-dvě-moc
Přísně vzato se nejedná o číselnou soustavu, ale pro úplnost tento nejprimitivnější způsob počítání stojí za zmínku. V jazycích pralesních sběračů a lovců často neexistuje způsob tvoření složených číslovek. To znamená, že existují slova pro číslovky 1 až z a nejvyšší číslovku zpravidla lze použít i pro označení jakéhokoli vyššího množství než z. Hodnota z je typicky rovna čtyřem nebo šesti, ale v některých jazycích údajně z=2. Nejslavnější je dnes zřejmě amazonský jazyk Pirahã, který údajně postrádá přesné číslovky vůbec, jelikož význam jeho výrazů pro "jedna" a "moc" závisí na kontextu (zajímavost navíc je, že oba výrazy jsou prakticky stejné (hoi) - liší se pouze tónem).

Jednoduché vs. kombinované systémy
Je přirozené předpokládat, že všechny jazyky (pokud nejsou umělé) prošly fází popsanou o odstavec výše. S tím, jak se objevila potřeba počítání, přestala existující slova pro číslovky 1 až z stačit, a z se snadno mohlo stát základem složitější číselné soustavy. Systém počítání, kde existují nezávislá slova pro číslice 1 až z a pro několik nejnižších celočíselných mocnin z budu nazývat jednoduchými. V takových systémech je každá číslovka analyzovatelná jako součet členů tvaru x-krát zn. (Čeština má takový systém: každá číslovka ve standardním tvaru [1] je složena výhradně z kořenů "jedna" až "devět" a slov označujících mocniny desítky.)

Kombinované jsou ty soustavy, ve kterých existuje více základů. Například v babylónské soustavě číslovek se číslo 89 vyjádřilo jako šedesát a dvakrát deset a devět [2]. V této soustavě tedy existovaly dva základy: deset a šedesát.

Je vhodné mít na paměti, že v dřevních dobách bylo počítání s velkými čísly charakteristické pro určité kontexty (obchod, zeměměřičství) a potřeba mít jednu univerzální soustavu nebyla pociťována; mohlo tak docházet k užívání jedné soustavy pro počítání peněz a jiné pro měření polí.

3
Trojka je asi nejnižší reálně užívaný základ číselné soustavy. Hammarström [3] uvádí pět jazyků s trojkovým počítáním, z nich čtyři na Nové Guinei a jeden v Amazonii. Z uvedené tabulky pro novoguinejský jazyk Ambulas je ale vidět, že užitá soustava je spíše kombinovaná se základy 3 a 6 a dost nepravidelná (viz odkaz v pozn. [3]).

4, 5
Čtyřka je základem číselných soustav pro mnoho jazyků, z nichž je ovšem většina již mrtvých. Jednoduchý čtyřkový systém existoval v jazyce Čumašů (etnikum původně žijící v Kalifornii), mnoho dalších jazyků mělo kombinované systémy, se sekundárními základy 8, 10 nebo 20. Australský domorodý jazyk Gumatj [4] má údajně jednoduchý systém se základem 5, přičemž řada dalších jazyků v oblasti používá kombinované systémy se základy 5 a 20.

Možným pozůstatkem výrazné role pětky je počítání v jazycích slovanských: ve spojeních číslovka+jméno je jméno ve shodě s číslovkou v prvním pádě pouze tehdy, je-li číslovka menší než pět (a v češtině i u složených číslovek končících na "jedna" až "čtyři"); od pětky nahoru je pak jméno v genitivu plurálu (srovnej čtyři prasata vs. pět prasat). V prvním případě se tak číslovka chová jako shodný přívlastek, zatímco v druhém formálně hraje jméno roli přívlastku (tentokrát neshodného). Interpretace této skutečnosti ale není jistá, a pravděpodobně s číselnými soustavami užívanými u starých Slovanů přímo nesouvisí. (Zajímavost je, že v baltských jazycích je tato hranice až u desítky; tedy v lotyšském vepříně je rozdíl mezi deviņi cūkas (9) a desmit cūku (10)).

6, 8
Základ 6 se vyskytuje u některých jazyků na Nové Guineji. Osmičkovou soustavu údajně využívá mexický jazyk Otopame.

Podobně jako se v baltoslovanské skupině mění pádová koncovka počítaného jména pro čísla větší než 4 resp. 9, mění se počáteční mutace počítaného slova v irštině pro čísla větší než 6. Tudíž v irském vepříně je sé mhuc (6) vs. seacht muc (7). Zde se ale téměř jestě nejedná o pozůstatek staré šestkové či sedmičkové číselné soustavy, ale pouhý následek skutečnosti, že staroirské číslovky 7-10 končily na nosovou souhlásku, zatímco číslovky nižší na samohlásku. Koncové hlásky během vývoje splynuly s počátečními hláskami následujících slov, a různé koncovky vedly k různým druhům mutací.

12
Dvanáctková číselná soustava se dodnes vyskytuje v řadě jazyků (i navzájem nepříbuzných) ve střední Nigérii, z nichž největší je zřejmě jazyk Berom s třemi sty tisíci mluvčími.

Dvanáctka hrála výraznou roli v různých evropských soustavách měr, vah a peněz [5], a pozůstatkem toho je existence slova tucet v evropských jazycích (tucet, stejně tak jako jeho anglický ekvivalent dozen, ovšem pochází ze složeného latinského duodecim). Častý výskyt dvanáctky v anglicky mluvících zemích dokonce vedl k seriózně míněným návrhům na nahrazení desítkové soustavy dvanáctkovou.

15 a výše
Novoguinejský jazyk Huli užívá údajně patnáctkovou soustavu. Šedesátková soustava, jak již bylo řečeno, byla užívána ve starověkém Sumeru a Babylóně. Náznaky speciální role padesátky nebo šedesátky jsou patrné v turečtině, jejíž číselný systém je sice jinak pravidelně desítkový, ale slova pro číslovky 20 (yirmi), 30 (otuz), 40 (kırk) a 50 (elli) nemají nic společného s 2 (iki), 3 (üç), 4 (dört) a 5 (beş).

Dvacítka je relativně běžná jako druhotná báze, a dvacítkový systém byl přítomen v keltských jazycích. Tradiční počítání, které přežilo do dnešních dnů ve velštině, používá báze 10, 20 a 100, navíc s několika dalšími anomáliemi. Spolu s ním existuje standardní desítková soustava; oba systémy jsou dobře kompatibilní, protože "přepočet" je jednoduchý. Srovnejte sami:


číslotradiční formadoslovný významdesítková forma
10 deg deg
11 un ar ddeg jeden na deseti un deg un
12 deuddeg un deg dau
13 tri ar ddeg tři na deseti un deg tri
14 pedwar ar ddeg čtyři na deseti un deg pedwar
15 pymtheg un deg pump
16 un ar bymtheg jeden na patnácti un deg chwech
17 dau ar bymtheg dva na patnácti un deg saith
18 deunaw dvě devítky un deg wyth
19 pedwar ar bymtheg čtyři na patnácti un deg naw
20 ugain dau ddeg
21 un ar hugain jeden na dvaceti dau ddeg un
30 deg ar hugain deset na dvaceti tri deg
31 un ar deg ar hugain jeden na deseti na dvaceti tri deg un
40 deugain dvě dvacítky pedwar deg
41 deugain ac un dvě dvacítky a jeden pedwar deg un
50 hanner cant půl sta pum deg
51 hanner cant ac un půl sta a jeden pum deg un
60 trigain tři dvacítky chwe deg
70 deg a thrigain deset a tři dvacítky saith deg
71 un ar ddeg a thrigain jedna na deseti a tři dvacítky saith deg un
80 pedwar ugain čtyři dvacítky wyth deg
90 deg a phedwar ugain deset a čtyři dvacítky naw deg
100 cant cant


Pozůstatky dvacítkové soustavy a různé napravidelnosti jsou patrné i v dalších jazycích, nejtypičtěji ve francouzštině, kde stále (jako i v ostatních románských jazycích kromě rumunštiny) dvacet (vingt) je nezávislý kořen a čísla nad 60 jsou tvořena starým dvacítkovým způsobem (např. 97 = quatre-vingt-dix-sept) [6].

Z výše uvedeného, informace o číselných soustavách primitivních jazyků je nutno přijímat s rezervou. Primitivní početní systémy bývají nestálé, různí mluvčí mohou používat různé číslovky, číselné soustavy mohou být vytvářeny ad hoc. Při kontaktu s jinými jazyky snadno dochází k přejímání cizích číslovek. Navíc jsou informace získávány pouze sporadickým kontaktem, a řadu jazyků odlehlých oblastí nikdo z civilizovaného světa pořádně neovládá. I pokud informace existují, může být problém je najít a ověřit. Wikipedie například zmiňuje dva jazyky užívající jako základ číselné soustavy číslo 27; nezávislý zdroj jsem nenašel, a považuji toto tvrzení za krajně podezřelé.

Ideální soustava
Nehledě na to, jaké soustavy jsou nebo byly v historii používány, zajímavá je otázka, jaká soustava je pro člověka nejpřirozenější. To se sice těžko posuzuje bez experimentálních dat (a experimentální data by se v tomto případě dala získat asi jen tak, že donutíte subjekty dosáhnout zběhlosti v provádění početních operací ve vybrané soustavě a budete pak testovat jejich schopnosti), ale některé požadavky, které by měla taková soustava splňovat, se jeví být intuitivně jasné.

Prvním požadavkem je rozumná velikost základu. Dvojka je příliš málo. I nepříliš velká čísla by v dvojkové soustavě byla popisována nehezky dlouhými slovy, a číselný zápis by nebyl příliš přehledný (mimochodem, Jana Husa upálili v roce 101100001112). Šedesát je zase příliš mnoho. Nejen, že jednoduchá šedesátková soustava by vyžadovala šedesát různých slov pro číslice 0-59. Horší by bylo, že umět násobit by znamenalo pamatovat si výsledky 1830 různých součinů (desítková malá násobilka jich vyžaduje 55). Podobně pro sčítání.

Druhou rozumnou věcí je co nejvyšší počet dělitelů základu. Výhoda spočívá mimo jiné v tom, že čím více dělitelů, tím větší množství zlomků má konečný rozvoj. V desítkové soustavě mají konečný rozvoj ty zlomky, jejichž jmenovatel v základním tvaru obsahuje v prvočíselném rozkladu pouze dvojky a pětky. Násobení a dělení dvojkou a pětkou (a jejich součiny a mocninami) je v desítkové soustavě jednodušší, než násobení a dělení jinými čísly. Číselný základ soustavy by měl být sudý, pokud chceme, aby bylo snadno vidět, které číslo je sudé. Jak by situace vypadala, kdybychom tyto požadavky nesplnili, lze nahlédnout na příkladu sedmičkové soustavy. Zkuste si schválně tipnout, zda 1437 je sudé, nebo jak vypadá desetinný zápis jedné poloviny [7].

Desítka z tohoto posouzení nevychází špatně, i když dvanáctka, která je dělitelná dvěma, třemi a čtyřmi, a přibližně stejně velká, je téměř jistě lepší volba. Osmičková nebo šestnáctková soustava by připadaly v úvahu, i když jejich negativem je, že prvočíselném rozkladu základu je pouze dvojka.


Poznámky:
1. Přívlastek "ve standartním tvaru" znamená, že zanedbáváme běžně neužívané číslovky typu "tucet", "kopa", "mandel" atd.
2. Nejsem si jist, zda to tak probíhalo i v mluveném jazyku; z toho, co jsem našel o babylónských číslech vyplývá, že číslovky byly zapisovány číslicemi, nikoli slovy, takže je možné, že v mluveném jazyce byla, aspoň v některých kontextech, užívána pouze desítková soustava. (Babylónština byla semitský jazyk a semitské jazyky užívají desítkovou soustavu. V babylónštině exitovala slova pro "sto" a "tisíc", ačkoli pro šedesátkovou soustavu nebyla nutná. Že ale podobný způsob konstrukce číslovek je možný je patrné z příkladu francouzštiny, kde například 78 má tvar šedesát a deset a osm (soixante-dix-huit).)
3. H.Hammarström, Rarities in numeral systems, [PDF].
4. Nemám ponětí, jak se to čte, "Gumatj" je zřejmě přepis užívaný v angličtině.
5. Před rokem 1971 se britská libra dělila na 20 šilinků, každý po 12 pencích. Tento systém byl standardizován Karlem Velikým a byl (s různými jmény a obměnami) běžný i v jiných částech Evropy.
6. Belgická francouzština ale užívá septante, nonante pro 70, 90. Švýcarská francouzština má i huitante n. octante pro 80.
7. 1437 je sudé (je rovno 80 v desítkové soustavě). Pravidlo v soustavách s lichým základem je, že číslo je sudé tehdy, je-li jeho ciferný součet sudý. 1/2 má v sedmičkové soustavě zápis 0,33333...7.

pondělí 13. prosince 2010

Historie železnic: boje o rozchod

Vnitřní hrany kolejí jsou na většině světových železnic od sebe vzdáleny 1435 mm. Tato vzdálenost je tak běžná, že se nazývá normálním rozchodem. V Evropě dominuje jiný rozchod jen na Pyrenejském poloostrově, ve Finsku, Irsku a na území bývalého Sovětského svazu. Tyto rozchody označujeme jako široké (nejširší z nich je ten španělský, 1672 mm) [1]. Byly ale doby, kdy bylo možno v Evropě narazit na rozchody ještě daleko šiřší.

Standardní rozchod za svou popularitu vděčí Anglii, kde se stal nejrozšířenějším rozchodem velmi brzy. První úspěšné veřejné železnice, Stephensonovy trati Stockton - Darlington a Manchester - Liverpool, byly postaveny s normálním rozchodem - v imperiálních jednotkách je to 4 stopy a 8,5 palce - a protože Stephensonova lokomotivka patřila v dřevních dobách evropských a amerických železnic k nejaktivnějším exportérům, rozšířil se tento rozchod velmi rychle po světě. Výběr rozchodu ale nebyl výsledkem pečlivých úvah o ideální vzdálenosti kol vagónů. Stephenson pouze přejal rozchod, který byl užíván na místní důlní dráze [2].

Nejstarší lokomotivy byly stavěny pro tahání důlních vozíků, které se bez větších problémů vešly mezi necelých jeden a půl metru vzdálené kolejnice. Pro osobní kočár je ale půl druhého metru dost málo, a tím spíš je to málo pro vagón přepravující větší množství lidí. Osobní vagon na normálním rozchodu díky tomu musí mít podlahu nad úrovní kol, což vynucuje vysoká nástupiště, a klade vyšší nároky na stabilitu. Když tedy začalo být jasné, že potenciál železnice převyšuje dopravu uhlí a železné rudy, objevily se pochopitelně úvahy o zavedení šiřších rozchodů.

V roce 1838 zahájila provoz britská Velká západní dráha (GWR), která během následujících několika let propojila Londýn a Bristol. Jejím hlavním inženýr, Isambard Kingdom Brunel, rozhodl o použití rozchodu 7 stop, tedy 2140 mm. Tato šířka měla původně stačit k tomu, aby kola vozů byla na jejich vnější straně. To nakonec nebylo dodrženo, a vagóny GWR byly stejně vysoké jako na jiných železnicích. Mohly ale být šiřší, a stabilita širokého rozchodu umožňovala jízdu vysokou rychlostí.



Nejstarší lokomotivy GWR nevynikaly výkonem ani spolehlivostí. To se změnilo, když se za konstrukci lokomotiv stal zodpovědným Daniel Gooch. Jeho lokomotivy třídy Firefly dosahovaly počátkem čtyřicátých let devatenáctého století na některých úsecích průměrné rychlosti kolem 80 km/h. Nejvyšší rychlost podobných lokomotiv třídy Iron Duke (na obr.), uváděných do provozu od roku 1847, překračovala 130 km/h.



Všechny lokomotivy u GWR byly individuálně označeny jmény. U nákladních lokomotiv s uspořádáním pojezdu C (tj. tři spřažené hnací nápravy) byla často pro jména inspirace čerpána z antiky. Na druhém obrázku je lokomotiva třídy Ariadne.

Široký rozchod nebyl jedinou konstrukční zvláštností. Před běžným způsobem konstrukce trati, kdy se do štěrkového lože umístí příčné pražce, Brunel upřednostňoval tzv. baulk road. Tato metoda spočívala v připevnění kolejí na podélné dřevěné klády, které byly udržovány v odpovídající vzdálenosti od sebe dřevěnými rozporníky (viz obrázek, jedná se o krátký širokorozchodný úsek v železničním muzeu v Didcotu). V některých místech došlo i k využití nestandardní Barlowovy kolejnice, jejíž průřez je patrný na obrázku níže.



Již v průběhu čtyřicátých let devatenáctého století vyvstaly problémy při styku železnic s různými rozchody. To vedlo k ustavení parlamentní komise, která sice shledala Brunelův "broad gauge" lepším než Stephensonův normální rozchod, ale protože většina britských železnic používala právě rozchod Stephensonův, bylo rozhodnuto v jeho prospěch. V roce 1846 byl vydán Railway Regulation Act, který, s několika výjimkami, zakazoval stavbu nových železnic s jiným rozchodem než normálním. Širokorozchodné trati na GWR se ještě nějakou dobu rozrůstaly, a největšího rozsahu (kolem 1300 km) dosáhly v polovině šedesátých let. V té době byla už na některých tratích položena splítka širokého a normálního rozchodu, a počátkem devadesátých let zůstalo čistě širokorozchodných jen několik tratí v Cornwallu. GWR přešla plně na normální rozchod v roce 1892. (Vývoj sítě zde.)

Velmi podobný osud měly širokorozchodné železnice v Holandsku, a tak dnes nejširší používaný rozchod je 1676 mm, se kterým se lze setkat v Indii a Argentině.

<< Habsburská monarchie | připravuje se >>


Poznámky:
1. Španělský a portugalský rozchod se liší jen nepatrně, o osm milimetrů, což umožňuje vlakům přejíždět hranici bez výměny podvozků (na milimetr přesně udaná hodnota je stejně pouze oficiální standard, reálné trati mají rozchod v mezích předepsané tolerance, která bývá kolem deseti milimetrů). Podobná situace panuje na Východě: Sovětský svaz v šedesátých letech změnil svou normu z 1524 mm na 1520 mm (tratě se upravovaly postupně), čímž vznikl čtyřmilimetrový rozdíl oproti normě finské. Estonsko se vrátilo k původním 1524mm po získání samostatnosti, přesto mezi oběma řečenými zeměmi a Ruskem vlaky jezdí bez výměny podvozků.
2. Koluje legenda, že standardní rozchod byl určen výnosem římského senátu v dobách Caesarových pro vozy užívané na římských silnicích; jednotný rozchod byl údajně nutný, aby kola dobře zapadla do vyježděných kolejí, a zvyk se udržel prý až do počátku devatenáctého století. Ačkoli při stavbě vozů dává smysl brát na vyježděné koleje ohled, historka o římské normě je pouze nepodložená pověst.

středa 1. prosince 2010

Testování hypotéz II.


Toto je druhý díl mikrosérie o testování hypotéz (první zde). Nyní se podíváme na to, jak vypadá frekventistická rutina.

Pro ilustraci může posloužit testování účinnosti hypotetického léku. (V minulém díle jsem popisoval bayesovský přístup na příkladu testování vyváženosti mince. Jiný, byť v zásadě analogický, problém jsem zvolil z důvodu jeho větší realističnosti.) Každý lék musí takovým testováním projít má-li být uvolněn na trh [1].

Formálně máme rozhodnout mezi dvěma hypotézami. První z nich je, že lék nefunguje. Tato hypotéza se nazývá nulová. Alternativní hypotéza je pochopitelně ta, že lék funguje. Je dost obvyklé, že se v podobných případech netestuje, jak silně lék účinkuje, pouze je třeba stanovit, zda účinkuje vůbec nějak.

Jelikož není na počátku jasné, jaké výsledky očekávat za předpokladu platnosti nulové hypotézy, klinická studie obvykle zahrnuje dvě skupiny pacientů, z nichž jedna dostává testovaný lék a druhá (tzv. kontrolní) placebo [2]. Výsledky kontrolní skupiny nám říkají, kolik pacientů se uzdraví bez testovaného léku, a jsou tím, s čím porovnáváme výsledky testované skupiny [3]. Uvažujme zjednodušený případ, kdy se zjišťuje pouze to, zda se pacient uzdravil (nezajímá nás tedy rychlost uzdravení, vedlejší účinky léku atd.).

Pokud se uzdraví více pacientů v kontrolní skupině, lék testem samozřejmě neprojde. Složitější je případ, kdy si vedou lépe ti pacienti, kteří lék skutečně dostali. V takové situaci káží zásady frekventismu zjistit pravděpodobnost, že by ke stejnému nebo ještě výraznějšímu výsledku došlo vlivem náhody za předpokladu, že platí nulová hypotéza. Tato pravděpodobnost se nazývá hodnota p, nebo v lehce germanistní formě p-hodnota. Pokud je p-hodnota nižší, než určitá mez, která se obvykle značí α, frekventista řekne, že nulová hypotéza je vyvrácena. Hodnota α je ryze konvenční záležitost, a často se pokládá rovna 0,05; v některých případech (tuším, že testování léků sem spadá) je ale vyžadována výrazně nižší α. Aby hantýrky nebylo málo, tak je-li p < α, říká se, že výsledek testu je statisticky signifikantní (na úrovni α).

Chce to příklad. Nechť jsou výsledky shrnuty následující tabulkou:



-uzdravenýchneuzdravenýchcelkem
testovaná skupina8210
kontrolní skupina4610

Z kontrolní skupiny usoudíme, že spontánní míra uzdravení je 40%. V testované skupině se ale uzdravilo 80%. Naše p-hodnota je tedy pravděpodobnost, že ve skupině deseti lidí, z nichž každý má čtyřicetiprocentní šanci na uzdravení, se uzdraví osm nebo více (připomínám, ptáme se na pravděpodobnost stejného nebo výraznějšího výsledku). Tato pravděpodobnost je

p = 45 . 0,48 . 0,62 + 10 . 0,49 . 0,6 + 0,410 = 0.012

To znamená, že výsledky testu jsou statisticky signifikantní na úrovni 0,05, na této úrovni tudíž můžeme nulovou hypotézu zamítnout. Kdybychom ale požadovali úroveň 0,001, výsledky by signifikantní nebyly.

Povšimněte si skutečnosti, že na rozdíl od bayesovského přístupu je role dvou soupeřících hypotéz nesymetrická. Nulová hypotéza je základní a potřebujeme relativně silnou podporu dat pro její zamítnutí. Na druhou stranu, nesplnění kritérií statistické signifikance ještě neznamená, že můžeme zamítnout alternativní hypotézu. Hodnota p totiž nezávisí pouze na míře účinnosti léku, ale i na velikosti testované skupiny. I kdybychom měli lék se stoprocentní účinností, bude-li testovaná skupina dostatečně malá a míra spontánního uzdravení dostatečně velká, kritérium p < α nesplníme.

Situace je tedy podobná jako u soudu. Stejně jako tam platí presumpce neviny, a vina je uznána až po shromáždění předepsaného množství důkazů, tak ve frekventistickém testování platí presumpce platnosti nulové hypotézy, dokud není shromážděna předepsaně silná statistika v její neprospěch.

Zmatení
Uvádění p-hodnoty spolu s výsledky testů má poměrně velký potenciál mást čtenáře, a bývá proto dobrým zvykem zdůraznit, co p-hodnota nevyjadřuje. Takže,

1. p-hodnota není pravděpodobnost platnosti nulové hypotézy. V rámci frekvenční interpretace pojem pravděpodobnost hypotézy vůbec nemá smysl.
2. p-hodnota není pravděpodobnost, že při opakování testu dostaneme opačné výsledky.
3. Vysoká p-hodnota neznamená "nedostatek dat", a tedy nutnost odložit úsudek o hypotéze na dobu, kdy bude k dispozici větší statistika. Ačkoli malý statistický soubor implikuje vysokou p-hodnotu, opačně implikace nesměřuje.
4. Statistická signifikance není praktická signifikance. Užití slova "signifikance", tj. "významnost", by mohlo vést k závěru, že lék je tím účinnější, čím je p-hodnota nižší. Nízkou p-hodnotu ale můžeme získat i pro marginálně účinný lék, máme-li dostatečně velký statistický soubor.

Potíže
Navzdory jejich oblíbenosti může být těžké frekventistické metody obhájit proti mnohým námitkám. Zde jsou některé z nich:

1. Nulová hypotéza je vždy špatně. Předcházející věta je sice trochu nadsázka, ale poukazuje na reálný problém spojený s tím, že při konvenčním testování se zjišťuje pouze přítomnost efektu bez ohledu na jeho sílu.

Typicky je tato námitka relevantní třeba při zjišťování férovosti hrací kostky. Žádná kostka není perfektní, a tak je jasné, že když shromáždíme dost velkou statistiku hodů, na úrovni 0,05 - nebo na jakékoli jiné předepsané úrovni - nulovou hypotézu vyvrátíme. Co nám to ale říká? Prakticky nic - nulová hypotéza neplatí u podvodnické kostky, na které padá šestka každým druhým hodem, stejně tak jako u profesionální kostky v kasinu, kde je výchylka pravděpodobnosti šestky od předepsané 1/6 v řádu miliontin. Je jasné, v čem je zde problém: nulová hypotéza je "bodová", tj. zabírá množinu nulové míry v prostoru všech přípustných hypotéz. Její platnost by vyžadovala naprosto přesné naladění parametrů, a jakkoli malá odchylka ji neguje.

Při testování léků nejsme ve stejné situaci pouze proto, že testovaný lék může teoreticky škodit. Prakticky ale problém existuje i tak. Každý "lék" má nějakou účinnost. U libovolné substance máme slušnou šanci, že o trochu zlepší pacientovy vyhlídky, byť třeba v řádu tisícin procenta. Pak stačí udělat dostatečně velkou studii. I když možnost, že lék škodí, zahrneme do nulové hypotézy, její vyvrácení znamená právě a jenom to, že testovaný "lék" neškodí. Zda také léčí je ovšem jiná otázka.

2. Jak určit, co je nulová hypotéza? Protože nulová hypotéza hraje ve frekventistické analýze dat význačnou roli, je velmi postatná otázka, kterou hypotézu vybrat jako nulovou. V mnoha případech je to intuitivně jasné - lék neúčinkuje, kostka je férová, telepatie neexistuje. Není ale příliš těžké představit si situaci, kdy intuice nepomáhá. Co když třeba vidím, jak protihráč drží v ruce hrací kostku a dýchá na ni, aby vevnitř roztál vosk a pohnulo se olověné závažíčko? Vím, že potom bude kostka vychýlená, ale nevím, ve prospěch které strany. Jsem-li si skutečně jistý, že protihráč kostku cinknul, férovost kostky nemá smysl uvažovat. Mám tedy vzít cinknutost ve prospěch šestky jako nulovou hypotézu? Nebo ve prospěch trojky? V bayesovském přístupu mohu všem možnostem přiřadit stejnou apriorní pravděpodobnost. Frekventistická praxe mě nutí mezi nimi vybrat.

3. Co je "výraznější výsledek"? K určení p-hodnoty potřebuji spočítat pravděpodobnost, že stejného nebo výraznějšího výsledku dosáhnu čistě náhodou. Výraznějším výsledkem se míní výsledek, který více svědčí ve prospěch alternativní hypotézy. Zase, v mnoha případech je to jasné: výraznější výsledek je více uzdravených pacientů nebo více správných odpovědí telepata. A stejně tak to v jiných případech jasné není. Která z následujících sekvencí šesti hodů kostkou svědčí víc o tom, že kostka je cinknutá? 5 2 5 3 5 5, protože ve čtyřech případech padla stejná strana, a tak je kostka cinknutá ve prospěch pětky? Nebo 4 1 1 4 4 1, protože za celou dobu nepadlo nic kromě jedničky a čtyřky, a tak kostka zjevně zvýhodňuje tyto dvě hodnoty?

4. Stejná data, různé řeči, různé p-hodnoty. Rozhodneme se testovat férovost mince tím, že provedeme čtyři hody. Padne třikrát hlava a jednou orel. Pravděpodobnost, že orel padne jednou, je 1/4, a že nepadne vůbec, je 1/16. Tudíž máme potvrzeno, že mince je cinknutá ve prospěch hlavy s p = 5/16 = 0.3125. Nyní se rozhodneme výsledek ověřit trochu jiným postupem: budeme házet mincí tak dlouho, dokud nepadne orel. Orel padne ve čtvrtém hodu. Nyní je p-hodnota rovna pravděpodobnosti, že orel padne na férové minci ve čtvrtém hodu nebo později, tedy p = 0.125.

V obou případech jsme získali stejná data, ale odpovídající p-hodnota se liší, v závislosti na tom, jak byl experiment naplánován. To ale znamená, že když mám k dispozici data, ale nevím, jaký byl plán experimentátora, nemůžu jednoznačně určit p-hodnotu.

Jeden z hlavních důvodů odmítání bayesovského přístupu je jeho subjektivita. Námitky 2, 3 a 4 ale poukazují na značné množství subjektivity ve frekventistické analýze; zatímco bayesovská subjektivita je otevřeně přiznaná ve formě apriorních pravděpodobností, zde se jedná o subjektivitu skrytou. A její zneužití může tak snáze projít bez povšimnutí.

5. Odkud vezmeme požadovanou úroveň signifikance? Je jasné, že pokud chceme dělit hypotézy na ještě nevyvrácené a již vyvrácené (zcela v duchu Popperovy filosofie), musíme někde vytyčit hranici. I tak se ale stěží lze ubránit otázce "a proč zrovna 0,05?" (nebo "0,001", nebo jakákoli jiná tradičně uznávaná mez statistické signifikance). Při praktickém posuzování toho, jaký výsledek přijmout k publikování, nějakou hranici potřebujeme, a ta hranice je nutně umělá - ale vzít tento přístup za teoretický popis procesu poznávání? V hlavách skutečných lidí neexistuje tato ostrá hranice: některým věcem věříme, jiné považujeme za možné, o dalších v různé míře pochybujeme. Je absurdní tuto škálu redukovat na dva protipóly, kde hypotéza potvrzená na p = 0.049 patří do prvního, zatímco kdyby byl výsledek 0.051, spadla by do opačného.

6. Složitost, nenázornost a velké množství metod. Popsal jsem velmi primitivní variantu testování. Pro testování složitějších hypotéz existují příslušně složitější testy, jako například test test chí kvadrát. Používané testy závisí na pravděpodobnostním rozdělení které nulová hypotéza předpokládá a jsou často pouze přibližné; sdílejí obvykle jednu vlastnost, a to je obtížná pochopitelnost.

7. Publikační efekt. Poslední z námitek se sice dotýká frekventistické rutiny pouze nepřímo, zato je ovšem prakticky nejvážnější. Jde o zvyk publikovat pouze statisticky signifikantní výsledky. Není-li výsledek statisticky signifikantní, podle teorie nevede k ničemu novému (nulová hypotéza stále není vyvrácena), takže motivace takový výzkum publikovat je malá. Je na první pohled vidět, co je špatně. Na úrovni 0,05 je statisticky signifikantní efekt zjištěn náhodně v jednom z dvaceti případů. O devatenáct negativních se ale nikdo nedozví, zatímco jeden pozitivní je publikován. Tato praxe vede k tomu, že považujeme za statisticky prokázané mnoho jevů, které ve skutečnosti neexistují. Jistě je možné pokusit se poté pokus replikovat, problém ale je, že negativní výsledek má menší váhu: pouze nevyvrací nulovou hypotézu. Od toho se potom odvíjí počet citací a prestiž, která z článku vyplývá.

Poutavou kritiku frekventistických metod si lze přečíst v Yudkowského článku, ze kterého jsem čerpal inspiraci, i na Wikipedii.

Jak je asi z posledních dvou příspěvků jasné, nejsem příliš velkým příznivcem frekventistických metod. V příštím, posledním, díle se tak vrátím k některým otázkám bayesovské analýzy.


Poznámky:
1. S výjimkou homeopatik, o kterých se i bez testu ví, že nefungují.
2. Skupiny by měly být rozděleny tak, aby příslušnost k jedné ze skupin nebyla korelována s dalšími faktory, které by mohly ovlivňovat uzdravení, jako je věk, pohlaví, rasa a podobně. Mimo testovaného léku musí obě skupiny musí dostat přesně tutéž léčbu. Navíc je třeba dbát na to, aby sami lékaři před hodnocením výzkumu neznali, který z pacientů dostává testovaný lék a který placebo - zásada dvojitě slepých testů.
3. V některých případech kontrolní skupina není potřeba. Jsou to situace, kdy výsledky za předpokladu platnosti nulové hypotézy jsou jasné: zjišťování férovosti mince nebo kostky, zkoumání telepatie apod.

neděle 28. listopadu 2010

Bilance - listopad 2010


Po třech měsících od prvního podobného zhodnocení je tu další přehledový příspěvek. Původní plán se nepodařilo zcela splnit, a tak se na některé příspěvky stále čeká. Bohužel mi vypověděl službu starý laptop, a v důsledku toho momentálně nemám přístup k souborům na starém disku, což se doufám brzy změní. Výměnu počítače jsem spojil s přechodem z Windowsů na Linux (je to takhle snažší, protože prostředí zabudovaných Windows 7 je mi velmi nesympatické). Přesto doufám, že se mi podaří i nadále udržet tempo aktualizací na 7-8 měsíčně, nepočítaje v to administrativní sdělení jako je toto.

V rubrice Cesty stále dlužím slíbené reportáže z Istanbulu, Smolenska a Cardiffu. Doplnění bude mít prioritu, jakmile se dostanu k obsahu starého disku. Žádnou další reportáž na další čtvrtletku neplánuji, protože tak jako tak jsem pomalejší oproti očekávání.

Rubriku Dráhy by měla obohatit další pokračování série Historie železnic, s tématy anglického širokého rozchodu a severoamerických lokomotiv. Dlužím ještě článek o moskevských tramvajích, a přibyde i informace o instanbulské veřejné dopravě.

Rubrika Racionalita je v zásadě jediná, kde se mi podařilo splnit prakticky vše, co jsem deklaroval. Na další tři měsíce jsou zde v plánu témata konspiračních teorií a Pascalova sázka.

Do rubriky Paradoxy přibyde článek o Simpsonově paradoxu, a možná ještě jeden paradox vážící se na antropický princip. Oba plánované paradoxy připadají v úvahu i pro novou rubriku Pravděpodobnost, která se kromě toho rozroste o druhý díl článku o testování hypotéz a o článek na téma zneužívání statistiky.

Rubriky Jazyk a Rébusy by měly pokračovat obvyklým volným tempem (nezapomínám na slíbené číselné soustavy v různých jazycích).

No a v rubrice Fyzika přijdou články o šipce času a termodynamice.

Stále ještě není hotova stránka odkazů; v této věci se hodlám ještě nějakou dobu vymlouvat na technické problémy.

A nakonec, mám už statistiku přístupů. Za poslední měsíce to bylo postupně 1368, 2057 a 2355 přístupů (celkem, ne individuálních, jejich počet neznám). Nic moc, ale trend je aspoň positivní.

Etymologický zpravodaj - J

Prvním dnešním slovem je jachta. Pochází z holandského jacht, původně jagtschip, tj. honící loď (viz německé jagen). Původně to bylo označení pro rychlé pirátské lodě.

Jetel je sice rostlina, ale přeqapivě souvisí se slovem , a to tak, že sice mají pravděpodobně různý původ (jetel se odvozuje od dmout protože nadýmá, zatímco datel od dlabat), ale v praslovanštině zněla obě slova stejně. Ve staré češtině bylo dětel.

Slovo jádro sice nemá úplně jasný původ, ale zdá se, že má stejný původ se zdánlivě nepříbuznými slovy játra, útroby, vnitřní, ňadro a dokonce i s latinskou předponou inter-. Původní význam základního kořene by byl vnitřek.

úterý 23. listopadu 2010

Testování hypotéz I.


Poslední článek, ve kterém jsem vymezil dvě interpretace pravděpodobnosti – bayesovskou a frekvenční – neobsahoval příliš informací o tom, jak se oba přístupy liší prakticky. Tento dluh částečně splatím dnes. Původně jsem chtěl nejdřív poodhalit roušku frekventistické rutiny, ale diskuse pod minulým článkem mě vedla k přehození pořadí.

Budu mluvit o statistickém testování hypotéz. Porovnávání hypotéz a teorií s pozorováním patří k základům vědecké praxe. V ideálním případě položíme vedle sebe výsledek experimentu a předpověď teorie; shodují-li se, je teorie, aspoň v příslušné části, dobře, liší-li se, můžeme teorii zahodit. Reálné teorie ale obsahují prostor pro vliv náhody, ať už následkem chyb stanovení vstupních dat (typické pro všechny vědy, kde je nutné něco měřit), nebo nedostatečných znalostí o měřeném vzorku (třeba v lékařských pokusech), či je-li náhoda přímou součástí teorie (kvantová fyzika). V takových případech ale žádný výsledek jednoznačně neurčí, zda teorie je dobře nebo špatně. Odchylka může být způsobena právě vlivem náhody. Kdybychom se ale spokojili s takovýmto tvrzením, nikdy bychom nebyli schopni říct, zda předložená teorie je dobře nebo špatně. Míra shody zjištěných faktů s teoretickou předpovědí přitom musí nějak ovlivňovat náš postoj k testované teorii.

Bayesovský přístup se vyznačuje tím, že každé teorii je přiřazena pravděpodobnost její platnosti. Porovnání experimentu s teorií pak níže popsaným postupem ovlivňuje tuto pravděpodobnost. Dobře otestované teorie mají pravděpodobnost blízkou 1, teorie vzpírající se pozorování ji mají blízkou 0. V rámci frekvenční interpretace pravděpodobnosti toto nelze činit, protože pravděpodobnost teorií nelze smysluplně interpretovat v jazyce četností. Proto jsou s frekventismem asociovány jiné metody testování (více v příštím článku), které porovnávají statistické soubory získané experimentem s teoretickou předpovědí, a teorii prohlásí za vyvrácenou, pokud odlišnost přesahuje určitou stanovenou velikost. Bayesiáni samozřejmě také mohou hovořit o vyvrácených nebo potvrzených teoriích, tato slova ale nemají striktně technický smysl, a jsou pouze zkratkou za velmi velkou, respektive velmi malou pravděpodobnost.

Osudí s kuličkami
Je dobrým zvykem různé aspekty pravděpodobnostní analýzy ilustrovat na příkladu házení kostkou nebo micní. K házení mincí se dostanu na konci dnešního článku; z jistých důvodů považuji pro začátek za vhodnější jiný příklad, a to pytel s kuličkami. Mějme pytel, ve kterém je určité množství kuliček, které jsou buď černé nebo bílé. Z důvodu jednoduchosti výpočtů je v rámci této ilustrace příjemné držet počet kuliček nízký, nechť jsou tedy kuličky třeba tři (zobecnění na libovolný počet kuliček je prosté). Máme za úkol zjistit, jaký je poměr počtu černých a bílých. Můžeme z pytle po jedné tahat kuličky (poslepu, předpokládá se, že po hmatu nelze barvu poznat, takže výběr je skutečně, na rozdíl od karlovarské praxe, náhodný). Po každém tahu ale musíme kuličku vrátit zpět do osudí (dá-li se pytel nazvat osudím) a zamíchat.

Takže, kolik kuliček je černých?

Je jasné, že popsaným způsobem se to s absolutní jistotou nikdy nedozvíme. Na druhé straně, pokud kuličku táhnu milionkrát a vytáhnu černou v 665 934 případech, je velmi pravděpodobné, že poměr černých k bílým je 2:1. Zbývá říct, jak přesně je to pravděpodobné.

Otázku na počet černých kuliček můžu dostat hned na počátku, dříve než vytáhnu první kuličku z osudí. Jedna z určujících vlastností bayesovského přístupu je to, že musím být připraven na tuto otázku odpovědět. Nemusím si samozřejmě být jist, ale musím každé v úvahu připadající odpovědi přiřadit pravděpodobnost. Frekventista v takové situaci může různě kličkovat: může například tvrdit, že dokud není k dispozici statistický soubor dat, není nic, z čeho by šlo pravděpodobnost spočítat, a otázka tak nemá smysl. Bayesián musí odněkud vytáhnout pravděpodobnosti. Tyto pravděpodobnosti se nazývají apriorní.

Odkud se berou apriorní pravděpodobnosti? Odpověď je, že odkudkoli. Z předsudků, obecných úvah, odhadů. Cynická odpověď je, že apriorní pravděpodobnosti si bayesián prostě vycucá z prstu.

Existuje samozřejmě pár osvědčených a konsensuálních způsobů, jak apriorní pravděpodobnosti z prstu konkrétně cucat. Nejpřirozenější se často jeví každé logicky přípustné hypotéze dát stejnou pravděpodobnost, nebo obecněji, v případě nekonečného množství přípustných hypotéz, užít principu maximální entropie. Jsou ovšem situace, kdy tento rovnostářský přístup selhává. Bylo by například zvláštní, kdyby porota na začátku soudního jednání apriorně přiřadila stejnou pravděpodobnost hypotézám A) otisk obžalovaného se na místo činu dostal proto, že obžalovaný na místě byl a B) otisk se tam dostal tak, že skutečný pachatel podplatil sekretářku obžalovaného, ta mu dala do kávy rohypnol, ve spánku mu pak sejmula otisk a předala jej pachateli, který ho potom za pomocí pokročilých technologií přenesl na místo činu. V podobných případech bývá zvykem aplikovat něco na způsob Occamovy břitvy, tj. dávat vyšší apriorní pravděpodobnost jednodušším hypotézám.

V našem modelovém případě připadá v úvahu pouze konečné množství srovnatelně složitých hypotéz, a to, že poměr černé:bílé je A) 3:0, B) 2:1, C) 1:2 a D) 0:3. Přiřadíme tedy každé z možností apriorní pravděpodobnost 0,25. Radši ještě jednou zdůrazním, že toto nejsou jediné správné hodnoty apriorních pravděpodobností. Můžu třeba volit

P(A) = P(D) = 0,125,
P(B) = P(C) = 0,375,

[1] nebo jakkoli jinak. Nakonec, když mi důvěryhodná osoba předem poví, že viděla, jak se do osudí kuličky dávají, a že jsou tam dvě černé, byla by blbost přikládat možnosti B stejnou pravděpodobnost jako zbylým třem [2].

Subjektivita apriorní pravděpodobnosti může na první pohled připomínat postmoderní relativismus, který si libuje v množství subjektivních "pravd" a jakýchkoli pevných pravidel se štítí jako čert kříže. První pohled je ale v tomto případě zavádějící. Jakkoli jsou totiž apriorní pravděpodobnosti libovolné, získaná statistická data na ně mají jednoznačný vliv.

Ať už jsou apriorní pravděpodobnosti jakékoli, naším úkolem je říct, jak svůj pohled na věc upravíme poté, co z osudí vytáhneme několik kuliček. Kupříkladu v okamžiku, kdy vytáhneme poprvé černou kuličku, padne hypotéza D, která tvrdí, že v osudí jsou pouze bílé kuličky. I ostatní pravděpodobnosti se změní. Každá další vytažená černá kulička zvyšuje (respektive nesnižuje [3]) pravděpodobnost možností A a B, zatímco bílé kuličky vypovídají pro konkurenční teorie C a D. S každým pozorováním - to znamená s každou kuličkou - jsme povinni aktualizovat sadu pravděpodobností.

A takhle to vypadá konkrétně:

Před prvním tahem:
Na počátku máme stav

P0(A) = P0(B) = P0(C) = P0(D) = 1/4.

(index 0 značí počet provedených tahů jejichž výsledek je v pravděpodobnosti zahrnut - to je v tuto chvíli žádný). Řekněme, že první vytažená kulička je černá. Víme, jaká je pravděpodobnost vytažení černé kuličky v případě, kdy platí jednotlivé hypotézy:

P(č|A) = 1
P(č|B) = 2/3
P(č|C) = 1/3
P(č|D) = 0

Co potřebujeme udělat, je obrátit tyto podmíněné pravděpodobnosti. Tedy ze znalosti pravděpodobnosti vytažení černé kuličky, platí-li hypotéza A, chceme získat pravděpodobnost, že platí A, když jsme vytáhli černou kuličku. Pochopitelně, použijeme Bayesův vzorec

P1(A) = P(A|č) = P(č|A)P0(A) / P0(č).

Pravděpodobnost P0(č) je celková nepodmíněná pravděpodobnost, že vytáhneme černou kuličku. Spočteme ji z podmíněných pravděpodobností

P0(č) = P(č|A)P0(A) + P(č|B)P0(B) + P(č|C)P0(C) + P(č|D)P0(D) = 1/2.


Po prvním tahu a druhý tah
Se zahrnutím všech potřebných dat vypadají aposteriorní pravděpodobnosti po vytažení jedné černé kuličky takto:

P1(A) = 1/2
P1(B) = 1/3
P1(C) = 1/6
P1(D) = 0


Je vidět, že jediný pokus pohnul s pravděpodobnostmi vcelku znatelně, ale odepsat zatím můžeme pouze hypotézu D. Takže kuličku vrátíme a táhneme znovu. Řekněme, že vyjde černá. Musíme tedy opakovat celý postup znovu, ovšem s tou změnou, že aposteriorní pravděpodobnosti z předchozího kroku budou hrát roli apriorních pravděpodobností. Odpovídajícím způsobem se také změní P(č), již je nutno přepočítat s užitím nových apriorních pravděpodobností, místo 1/2 odpovídající čistě symetrickému rozložení pravděpodobnosti mezi čenými a bílými máme v tuto chvíli P1(č) = 7/9. Po provedení celé mašinérie jsou aposteriorní pravděpodobnosti

P2(A) = 9/14
P2(B) = 4/14
P2(C) = 1/14
P2(D) = 0


Třetí tah a dál...
Nechť pro změnu ve třetím tahu vytáhneme bílou kuličku. Aktualizace pravděpodobností je tentýž rutinní proces jako předtím. Tento rutinní proces je ale schopen způsobit v hierarchii pravděpodobností malou revoluci: doposavad nejpravděpodobnější hypotéza A je eliminována, a dostaneme

P2(A) = P2(D) = 0
P2(B) = 2/3
P2(C) = 1/3

A tak pořád dál.

Čtenář si může snadno ověřit, že ke stejným pravděpodobnostem by bylo možno dospět i kdyby byly kuličky taženy v jiném pořadí; vytáhnu-li dvakrát černou a jednou bílou, je dvoutřetinová pravděpodobnost, že v osudí jsou dvě čené a jedna bílá, nezávisle na pořadí, v jakém jsem táhnul (tyto konkrétní hodnoty pochopitelně za předpokladu, že začínám s rovnoměrným apriorním rozdělením, nezávislost na pořadí ale platí obecně).

Co je ale důležitější, výslednou pravděpodobnost po třech tazích není nutné počítat pomocí aktualizace po každém tahu zvlášť. Ke stejnému výsledku dojdeme přímo:

P2(B) = P(ččb|B)P(B) / P(ččb)

Zde pravděpodobnost sekvence ččb za předpokladu hypotézy B (tj. dvě černé v osudí) je 4/27 a celková (apriorní) pravděpodobnost ččb, která vystupuje ve jmenovateli, je 1/18. Výsledek je podle očekávání 2/3.

Možnost aktualizovat pravděpodobnosti až za celý statistický soubor najednou se hodí v situacích typu "spočítej pravděpodobnost, že v osudí jsou dvě černé, když z tisíce tahů byla černá tažena právě 712krát". Dělat tisíc aktualizací by byla odporná činnost.

Předchozí má ale možná ještě důležitější aspekt: jakmile aktualizuji své pravděpodobnosti, můžu zapomenou na data, která jsem k tomu použil. Když pak získám nová data, nemusím je připojit ke starým a udělat statistickou analýzy s celým sjednoceným souborem. Stačí použít pouze nová data s tím, že aposteriorní pravděpodobnosti starých dat užiji jako apriorní pravděpodobnosti nové analýzy. Pochopitelně ale nesmím žádná data užít dvakrát.

Mince
K ilustraci procesu aktualizace bayesovských pravděpodobností jsem použil osudí s kuličkami místo možná přirozenějšího házení mincí nebo kostkou. Vedl mě k tomu prostý fakt, že zatímco u osudí je počet rozumných hypotéz konečný, přirozená analogie s házení kostkou vede ke složitější situaci, kde je nutno uvažovat spojitá rozdělení pravděpodobnosti. Přestože je postup pro hod mincí pouze přímočarým zobecněním toho, co se dělalo s kuličkami, stručně jej popíšu (zobecnění na kostku již přenechám čtenářům). Mimo jiné i proto, že se jedná o model, který je velmi podobný reálným statistickým problémům, jako je testování léků nebo měření fyzikálních konstant.

Pokud házíme mincí, obvykle nás zajímá pravděpodobnost, že padne hlava nebo orel (mince v myšlených experimentech na sobě mají vždy hlavu a orla, zřejmě aby byl jasný rozdíl od reálných mincí). Když neuvažujeme detaily provedení hodu, závisí tato pravděpodobnost na fyzikálních vlastnostech mince, jako je její vyvážení, tvarování okraje a podobně. Pokud mince padá stejně často orlem navrch i hlavou navrch, říkám, že je férová. Není-li tomu tak, budu mluvit o cinknuté minci ve prospěch buď hlavy, nebo orla [4].

Míru cinknutosti mince nechť parametrizuje číslo h, a to přirozeným způsobem: h je relativní frekvence hodů, kdy padne hlava. Číslo h je fyzikální parametr charakterizující minci, z bayesovského hlediska to tedy není pravděpodobnost (i když, "shodou okolností", jeho správná hodnota je rovna pravděpodobnosti hypotézy, že při hodu padne hlava). Naopak, budeme se ptát po rozdělení pravděpodobnosti čísla h. (Kdybychom přeci jen o h mluvili jako o pravděpodobnosti, pak bychom byli nuceni mluvit o "pravděpodobnosti pravděpodobnosti", a možná i k jiným nepěknostem. Z hlediska přehlednosti je skutečně lepší považovat h primárně za fyzikální konstantu definující konkrétní hypotézu; různé relevantní pravděpodobnosti se z ní dají spočítat, a jedna z nich, konkrétně P(hlava|h), je přímo rovna hodnotě konstanty.)

Na počátku musíme, jako obvykle, určit apriorní rozdělení hustoty pravděpodobnosti P(h). Nechť je naše absolutní neznalost vyjádřena rovnoměrným rozdělením na intervalu (0,1) [5], tedy P(h) = 1. Nechť v prvním hodu padne hlava. Aposteriorní rozdělení je znovu dáno Bayesovým vzorcem, který v tuto chvíli vypadá takto:

P(h|hlava) = P(hlava|h) P(h) / P(hlava).

Jak již bylo uvedeno, je P(hlava|h) = h a P(h) = 1. Zbývá určit P(hlava), což je, jako obvykle, přesčítaná pravděpodobnost P(hlava|h) přes všechny možná h. Jediný rozdíl oproti kuličkovému modelu je, že hypotézy tvoří kontinuum, a tak sčítání nahradí integrace:

P(hlava) = ∫ P(hlava|h)P(h) dh = ∫ 1 dh = 1/2.

(Integruje se od nuly do jedné, nevím ale, jak v html vysázet meze integrace, aby to vypadalo aspoň trochu normálně.) Ve výsledku máme aposteriorní rozdělení pravděpodobnosti po hození jedné hlavy rovno

P(h|hlava) = 2h.

Další postup je zřejmý...

Námitky, protiargumenty, podivnosti
Bayesiánství sice představuje konsistentní model pro práci se statistikou, ale má i své nevýhody, ať už skutečné, nebo zdánlivé. Jako překážka se může jevit třeba to, že potřebujeme několik konkurenčních hypotéz, abychom mohli smysluplně pravděpodobnosti aktualizovat. Když se tedy ptáme "nakolik pravděpodobná je hypotéza X", pak musíme jasně říct, jaké jsou alternativy. Alespoň tak jasně, abychom byli schopni spočítat pravděpodobnost získaných statistických dat za předpokladu, že X neplatí. To je docela nepříjemné omezení. Dost často totiž alternativní teorie nejsou k dispozici. Vezmeme-li za bernou minci historickou zkušenost, pak naše současné teorie ve fyzice budou téměř jistě jednoho dne překonány nějakou lepší teorií. Jenže dokud nevíme, jaká tato lepší teorie je, nemůžeme ji zahrnout do statistické analýzy. Ve výsledku toho jako alternativa kvantové mechaniky může stát newtonovská mechanika a třeba aristotelská mechanika (je-li něco takového vůbec jednoznačně formulováno), a z příslušného porovnání této sady teorií s daty vychází, že kvantová mechanika je téměř stoprocentně jistá. Problém je, že by to vycházelo i v situaci, kdyby kvantová mechanika nebyla příliš v souladu s daty - stačilo by, aby konkurenční teorie byly s daty v ještě mnohem větším rozporu.

Uvedený problém se dá částečně obejít postulováním nějaké velmi obecné hypotézy typu "výsledky měření jsou naprosto náhodné". Ve statistickém žargonu se tomu říká nulová hypotéza a hraje roli i ve frekventistickém testování hypotéz. Jelikož nulová hypotéza je k dispozici vždy, máme prakticky vždy s čím porovnávat, a hypotézy má smysl testovat i tehdy, nemají-li zrovna konkurenční alternativy.

S předchozí námitkou souvisí nejasnost v tom, jaké všechny hypotézy je třeba brát v potaz. V obou případech, které jsem zde popisoval, jsem předpokládal, že jednotlivá "měření" - ať už tažení z osudí nebo hody mincí - nejsou korelovaná. U mince ale třeba přichází v úvahu možnost, že se hodnoty pravidelně střídají, takže po hození hlavy je pravděpodobnější, že padne orel, a naopak. Takováto ztělesnění hráčského bludu jsem neuvažoval, protože jejich platnost by vyžadovala, aby v minci byl zabudován jakýsi mechanismus s pamětí, ale přísně vzato by do analýzy měly být zahrnuty. Je rozumné podobným překomplikovaným teoriím přiřadit od začátku nízké apriorní pravděpodobnosti. Protože si ale člověk může vymyslet podobných teorií miliardy, prakticky není možné počítat se všemi. Reálná bayesovská aktualizace tak vždy bere v úvahu jen malou podskupinu a priori nejpravděpodobnějších hypotéz.

Subjektivita apriorních pravděpodobností byla již zmíněna. Je to asi nejnápadnější potenciálně problematický rys pravděpodobnostního subjektivismu. Naráží na silné přesvědčení, že ve vědě má být vše objektivní a jednoznačné. Ačkoli je absence objektivity asi nejčastěji zmiňovaným nedostatkem bayesiánství, osobně považuji tuto výtku za lichou. Jisté úrovně subjektivity se totiž nelze zbavit. Frekventismus ve svých praktických vtěleních není roven bayesiánství bez subjektivity, spíš je ekvivalentní bayesiánství s přidanými pevnými pravidly o konsensuální volbě apriorních pravděpodobností. Existence takových pravidel je v praktické rovině přínosná, protože umožňuje eliminovat předpojatost a další neřesti přítomné v každém subjektivním hodnocení. To ale neznamená, že je praktický frekventismus blíže reálnému popisu procesu poznávání [6].

Ať už je bayesovský přístup jakkoli subjetivní ve věci apriorní pravděpodobnosti, je velmi objektivní ve vztahu k datům. Pozorování vždy tlačí pravděpodobnosti jedním směrem, nezávisle na apriorním stavu. V ideální limitě, po posouzení nekonečného množství dat, se pak všichni pozorovatelé musí shodnout na výsledku (s výjimkou těch, kteří správné hypotéze přisuzovali na začátku přesně nulovou pravděpodobnost; před přesně nulovými (a přesně jednotkovými) pravděpodobnostmi je třeba varovat.

Důležitá praktická poznámka: Apriorní pravděpodobnosti jsou apriorní od toho, že se stanovují předem. Potenciálně lákavou praxí by bylo vsadit apriorní pravděpodobnost P0 naší oblíbené teorie do analýzy jako proměnnou, spočítat, jak na ní závisí výsledná pravděpodobnost aposteriorní P, a potom příslušně naštelovat hodnotu P0 tak, aby P vyšlo dostatečně vysoké a my mohli oblíbené teorii pořád věřit. Tak takhle ne!

Nakonec a pro úplnost, může se objevit námitka, že popsaný způsob uvažování může člověka vést k mylným závěrům. Když hodím tisíckrát za sebou orla, nabydu zákonitě přesvědčení, že mince je téměř jistě cinknutá ve prospěch orla. Přitom, i s férovou mincí se může stát, že těch tisíc orlů padne (koneckonců, tisíc orlů není o nic méně pravděpodobný výsledek než jakákoli jiná konkrétní posloupnost tisíci hodů). V takové situaci pak zákonitě dojdu k chybnému výsledku. Podle mého soudu je to ale klad, nikoli nevýhoda, zvoleného přístupu. Jestliže má nějaký postup vést k odhalení pravdy, musí být citlivý ke vstupním datům. A tato citlivost souvisí s tím, že jsou-li díky náhodným vlivům data matoucí, je z nich odvozený závěr nesprávný. Žádná testovací procedura nemůže být vůči podobnému zmatení imunní.


Poznámky:
1. Toto rozdělení apriorních pravděpodobností můžeme podložit například následující úvahou: Pokud ten, kdo osudí připravil, losoval barvu pro každou kuličku zvlášť, tak mohl vylosovat osm sekvencí: ččč, ččb, čbč, čbb, bčč, bčb, bbč, bbb. Z nich po jedné odpovídá hypotézám A a D a po třech hypotézám B a C. Odtud uvedené pravděpodobnosti. "Správnost" takto zvolených apriorních pravděpodobností samozřejmě závisí na tom, zda skutečně autor osudí losoval každou kuličku zvlášť, nebo naopak nejdřív vylosovat číslo od nuly do tří a podle něho pak vybral počet kuliček.
2. Apriorní pravděpodobnost nemusí být úplně vycucaná z prstu, naopak, je rozumné ji zakládat na všech známých relevantních informacích. Apriornost je relativní: výsledná pravděpodobnost podložená rozsáhlou statistikou může sloužit jako apriorní pravděpodobnost třeba pro další ještě detailnější zkoumání.
3. Pravděpodobnosti A a D mohou kdykoli spadnout na nulu; pokud se tak stane, tak už je samozřejmě žádné další pozorování neresuscituje.
4. Není asi příliš těžké cinknout kostku, ale relativně těžko si představuji, jak udělat totéž s mincí. Přesto jsem volil příklad s mincí, protože její cinknutí lze parametrizovat jedním číslem, zatímco u kostky jich musíme mít přinejmenším pět.
5. V souladu s poznámkou [4] je nutno přiznat, že rovnoměrné rozdělení je dost hloupou apriorní pravděpodobností, už jen proto, že udělat minci tak, že při házení na ní padne vždycky hlava a nikdy orel je zjevně nemožné (tedy když vyloučíme podvodnickou minci s hlavou na obou stranách). Příklad ale uvádím jako ilustraci bayesovské aktualizace, ne jako ilustraci chytré volby apriorní pravděpodobnosti.
6. Současný "prakticky frekventistický" standard v posuzování vědeckých teorií bych přirovnal k zásadám soudního jednání. Jsou situace, kdy je třeba obžalovaného osvobodit, přestože jeho vina je nade vší pochybnost zřejmá. Stává se tak v situacích, kdy důkazy svědčící o jeho vině mluví jasně, ale jedná se o typ důkazů, který zákon nepřipouští, zpravidla proto, že v době přijetí zákona si podobnou konfiguraci důkazů nikdo nebyl schopen představit. I když tedy o vině obžalovaného není pochyb, je přesto dána přednost zákonné normě, protože přijetí nezákonných důkazů v jednom případě by otřáslo zásadou zákonnosti a vedlo by k právní nejistotě. V důsledku by sice jeden rozsudek byl spravedlivější, ale rozvolnění norem by hrozilo otevřít cestu zaujatosti a nespravedlnosti v případech, které nejsou tak jasné.

pátek 19. listopadu 2010

Odkazy

(stránka permanentně ve výstavbě)

Vzhledem k poněkud omezeným možnostem vestavěného systému odkazů jsem se rozhodl své odkazy shromáždit na samostatnou stránku ve formě standardního (v budoucnu průběžně upravovaného) příspěvku. To mi umožní u odkazů uvést stručný popis stránek, a odkazy tematicky řadit. V postranním panelu bude nadále pouze odkaz na tento příspěvek.

Odkazy v seznamu jsou stránky, které pravidelně sleduji (přesný význam slova "pravidelně" ponechávám nespecifikovaný). Neuvádím odkazy na Seznam, Wikipedii, Google a podobné známé servery, navzdory tomu, že je "sleduji" častěji, než cokoli jiného. Odkazy jsou přibližně tématicky řazené.

Přítomnost odkazu zde nijak neimplikuje, že s názory uvedenými na dané stránce souhlasím.

Racionalita a skepticismus

Massive Error. Blog F.Tvrdého o filosofii, vědě a ateismu sestává z komentářů k aktuálně publikovaným článkům, novým objevům, probíhajícím politickým a filosofickým debatám. Články bývají relativně stručné (byť ne příliš), zpravidla vtipné a nekompromisní; nadpis vždy odkazuje na to, co konkrétní článek komentuje. Autor je zaměřením klasický skeptik, odmítající pověry, náboženství, alternativní medicínu, kontinentální filosofii a další podobné věci. Aktualizace častá, někdy i vícekrát denně. Komentování možné, byť delší diskuse nebývají příliš časté (chcete-li komentovat, doporučuji podepsat se plným jménem). Česky.

Roman Polach. Blog na iDNESu je zaměřen na klasická skeptická témata: nové objevy, pseudověda, náboženství. Komentování možné, diskuse bývá bouřlivá a její úroveň je nevalná, jak už vyplývá z umístění stránek. Česky.

Marek Picha. Bohužel zřídka aktualizované stránky věnující se logice, především pomocí rozboru reálných argumentů a poukazování na jejich nedostatky. Komentovat nelze. Česky.

Sisyfos. Web Českého klubu skeptiků, jehož tematické zaměření snad není nutno blíže popisovat. Nové články na titulní stránce se objevují řádově v měsíčních intervalech, ale stránky disponují velkým množstvím odkazů a rozsáhlým archivem. Česky.

Less Wrong. Něco mezi komunitním blogem a diskusním fórem, s podle mého soudu nejlepším souborem materiálů na téma racionality. Značná část přispěvatelů se zaobírá problematikou umělé inteligence, a další úchylkou je silný zájem o kryoniku. Okruh témat ale zahrnuje filosofii, kognitivní vědu, morálku, teorii her, kvantovou fyziku, logické paradoxy a další. Kvalitní jsou především starší články archivované jako Posloupnosti. K diskusi je nutná registrace. Anglicky.

Overcoming bias. Původně blog R.Hansona a E.Yudkowského o kognitivních chybách a racionalitě, ze kterého se oddělil výše odkazovaný Less Wrong. Jako autor dnes pokračuje pouze Hanson, a téma je nejsnáze charakterizovat právě vlastnostmi autora, který je jednak ekonom, ale především cynik, jehož oblíbená teorie je, že většina lidského jednání je motivována snahou o posun směrem vzhůru na společenském žebříčku. Aktualizace časté, komentáře možné. Anglicky.

You Are Not So Smart. Blog D.McRaneyho věnovaný chybám v úsudku, kterých se lidé systematicky dopuštějí. Příspěvky jsou psány čtivě a jsou přitom podložené fakty (včetně odkazů). Diskuse možná, aktualizace v poslední době ne tak časté, ale archiv je poměrně rozsáhlý. Anglicky.

Depleted Cranium. "Blog o špatné vědě" kritizuje chyby a absurdity činěné ve spojitosti s vědou, ať už se konkrétně jedná o alternativní medicínu nebo protijaderný aktivismus. Články jsou obvykle psány informovaně s udáním spolehlivých faktů. Zásadní estetický problém ale je to, že autor neumí pravopis vlastního jazyka a zřejmě se ani nenaučil používat spellchecker. Komentáře jsou možné, diskuse bývá na rozumné úrovni, i když se v ní občas objeví někdo "z druhé strany barikády". Anglicky.

Measure of doubt. Těžko stručně vymezit okruh témat tohoto blogu, ale mám podezření, že zdejším pravidelným čtenářům by se líbil. Anglicky.

Daylight Atheism. Jeden z amerických ateistických blogů, často se věnuje kritickému rozboru argumentů křesťasnských apologetů nebo kreacionistů. Značná část je věnována specificky americkým tématům. Komentáře možné, bývají na relativně slušné úrovni. Pochopitelně anglicky.

Skeptic's Annotated Bible. Celý text Bible, Koránu a Knihy Mormonů v angličtině opatřený komentáři z pohledu nevěřícího skeptika. K dispozici jsou seznamy nekonsistencí, problematických pasáží, absurdních tvrzení, ale i dobrých doporučení obsažených v každém ze tří svatých textů.

Źeleznice, tramvaje, doprava

The European railway server. Obsahuje informace o železnicích ve všech evropských zemích, včetně některých odkazů. Hlavní náplní je ale fotogalerie, ve které lze najít pravděpodobně každý typ lokomotivy, elektrické nebo motorové jednotky, vagonu, tramvaje a trolejbusu provozovaný dnes v Evropě (a něco málo i z jiných kontinentů). Anglicky.

The Man in Seat Sixty-One. Stránka plná informací o cestování vlakem po Evropě. Jelikož je autor Angličan, je stránka optimalizována pro obyvatele britských ostrovů, kteří zde najdou doporučené spoje, přestupy, jízdní řády, tarif, popis a fotografie vozů a kupé a další potřebné informace. Mnoho z těchto informací se může hodit i pro Čechy, zejména pro cesty do Británie nebo naopak na východ Evropy. Anglicky.

K-Report. Občasně aktualizované české stránky s železniční tématikou. Přidružené fórum obsahuje aktuální informace o všech druzích dopravy. Česky.

Želpage. Stránky věnující se především železniční fotografii, v menší míře pak informacím o novinkách na železnici. Česky a slovensky.

Tramways du monde. Snímky z více než 170 tramvajových provozů celého světa, pořízené za posledních dvacet let. Pravidelně aktualizováno. Francouzsky.

World Tramways. Současná i historická schémata tramvajových sítí. V současnosti přes 90 měst z 25 zemí. Anglicky.

KIJ film. Jedinečný soubor videí pořízených z kabiny řidiče tramvaje či strojvedoucího. Mapuje prakticky celou síť tramvají v Praze, Brně, Plzni, Liberci, Olomouci a Mostu, některé linky v Bratislavě a pár železničních tratí. Česky.

Humor

xkcd. Webový komiks. Anglicky.

Engrish.com. Anglické nápisy vyfotografované na Dálném Východě. Škoda, že podobná stránka neexistuje i pro češtinu, i když bychom se museli většinou omezit na produkci tuzemských čínských restaurací.

Různé

Cosmic Variance. Blog Seana Carrolla, hlavně, ale ne výhradně o fyzice. Komentáře možné. Anglicky.

The Reference Frame. Fyzikální blog Luboše Motla. Často aktualizováno, komentáře možné. Anglicky.

Essays. Řada zajímavých článků Paula Grahama. Anglicky.

raikoth.net. Několik dalších esejů, mimo jiné vtipná a racionální kritika libertariánství. Anglicky.

Paul Falstad. Javovské interaktivní applety simulující vlnění, elektromegnetismus, diferenciální rovnice apod. A k tomu spousta odkazů. Anglicky.

Richard Wiseman. Optické a jiné iluze, a k tomu každý pátek jedna hádanka. (Zdejší Pondělní šifry jsem začal vydávat dříve, než jsem na Wisemanův blog narazil, takže je to pouhá shoda okolností.) Anglicky.

Optical Illusions and Visual Phenomena. Zajímavá sbírka více než devadesáti optických klamů. Anglicky a německy.

Paleoglot. Blog o zaniklých jazycích a etymologii. Anglicky.

Omniglot. Rozsáhlé a podrobné stránky obsahující informace o prakticky všech aspoň trochu významných jazycích a písmech (a mnohých nevýznamných k tomu). Přidružený blog s obecně jazykovou tématikou a pravidelnými kvizy, kde si člověk může vyzkoušet schopnost rozpoznat cizí jazyky podle nahrávky (doba „jednoduchých“ jazyků typu švédštiny nebo turečtiny je ovšem dávno pryč). Jak stránky, tak blog jsou často aktualizovány. Anglicky.

Dříve sledované

Amor Vacui. Blog J.Poláka obsahoval čas od času zajímavé téma týkající se racionality, vědy nebo filosofie. Autor v mnoha otázkách zaujímal skeptické postoje, má však pro mě těžko pochopitelný sklon k jistým druhům okultismu, což se projevuje u nezanedbatelné části jeho článků. V poslední době je sklon k okultismu patrnější, přestal jsem proto blog pravidelně navštěvovat. Komentáře možné, diskuse bývá na slušné úrovni. Česky.

pinus@chicago. Ekonomický blog J.Borovičky. Dříve často aktualizováno, komentáře byly možné. Dnes je blog ukončen a funguje pouze jako archiv. Česky.

Britské listy. Internetový deník, kam jsem napsal pár článků, většinou ve formě rozhořčených reakcí. Poměrně liberální publikační politika Blistů vede k nepříliš vysoké úrovni většiny článků. V poslední době jsem přestal číst. Česky.

úterý 16. listopadu 2010

Bayes proti frekventismu



Už jsem na těchto stránkách uvěřejnil dost článků o pravděpodobnostních paradoxech, a čtenář je může snadno vyhledat kliknutím na štítek "pravděpodobnost" uvedený dole. Některé z těchto paradoxů lze korektně rozřešit, mnohé ale končily dosti neuspokojivě, bez finální odpovědi. Byly to například petrohradská loterie, paradox Šípkové Růženky, paradox roztržitého řidiče nebo paradox soudného dne. Tyto paradoxy nemají žádné konsensuální řešení. Jsou samozřejmě lidé, kteří se domnívají, že jim rozumějí, ale obvykle existuje několik navzájem se vylučujících "řešení" se svými zastánci a odpůrci, a žádná zřejmá objektivní cesta, jak je rozsoudit. V takových případech bývá moudré podívat se, kde konkrétně leží jádro sporu, a zda spor náhodou nevyvěrá z nejasně definovaného problému. Jak jsem již ve výše odkazovaných článcích naznačil, minimálně v jednom případě se odpovědi antagonistů liší proto, že to jsou z praktického hlediska odpovědi na různé otázky; tento fakt je zatemněn nepříliš jasným užitím slova pravděpodobnost.


Je proto na čase řešit otázku, co je vlastně pravděpodobnost. Ne, po přečtení tohoto článku nebude jasné, jaké je pravděpodobnost konce světa do sta let nebo co si má myslet řidič s amnézií na neoznačeném dálničním sjezdu. Pouze vyplňuji dluh, který jsem vytvořil mluvě o pravděpodobnosti bez bližšího vysvětlení.


Možná se domníváte, že je přece jasné, co je to pravděpodobnost. Nuže, příliš jasné to asi není, když existují dvě konkurenční interpretace, z nichž každá má své zastánce. Jde o interpretaci bayesovksou a interpretaci frekvenční [1].


Frekventismus je pohled, který říká, že pravděpodobnost jevu je definována jeho relativní četností (frekvencí). Při hodu kostkou má to, že padne trojka, pravděpodobnost 1/6, protože házíme-li kostkou mnohokrát po sobě, zhruba jedna šestina z hodů skončí tak, že padne trojka. Pravděpodobnosti různých událostí jsou tak objektivními vlastnostmi k nim vedoucích procesů: například, šestinová pravděpodobnost hození trojky je vlastností házení necinknutou kostkou. Frekvence, a tudíž i frekventistické pravděpodobnosti je možno měřit.


Bayesovská nebo též subjektivistická pravděpodobnost nese jméno presbyteriánského kněze Thomase Bayese, který se krom teologie zabýval i matematikou a logikou, a je autorem Bayesova vzorce zmíněného v minulém příspěvku. Důležitá role, kterou tento vzorec v rámci bayesovské pravděpodobnosti hraje, je nepochybně důvodem k pojmenování interpretace jako takové; jaký byl skutečný Bayesův osobní postoj k interpretaci pravděpodobnosti není dnes úplně jasné [2]. Bayesovci zastávají názor, že pravděpodobnost je čistě subjektivní kvantita, vyjadřující sílu víry v pravdivost výroku. Pravděpodobnosti 0 a 1 vyjadřují naprostou a nezpochybnitelnou jistotu, že udaný výrok je (ne)pravdivý, cokoli mezi pak měří míru nejistoty, ve které se kloníme k přijetí či naopak odmítnutí výroku.


Subjektivisté se obvykle s frekventisty shodnou na šestinové pravděpodobnosti toho, že na kostce padne trojka. Ale ne vždy.


Jaké jsou výhody a nevýhody obou přístupů, a v čem vlastně spočívá kontroverze? Podívejme se blíže na základní argumenty.


Pro frekventismus:
Frekventistická pravděpodobnost je jasně definovaná věc. Dá se měřit. Praktická ověřitelně fungující užití teorie pravděpodobnosti se opírají o statistickou četnost různých jevů, ať už se jedná o kvantovou fyziku, testování účinnosti léků nebo hazardní hry. Oproti tomu subjektivistická pravděpodobnost je ... subjektivní. Lidé věří různým věcem a často se neshodnou. Bayesovská síla víry, či míra důvěry, chceme-li se vyhnout náboženským asociacím, je naprosto libovolná. Pokud se kdy různí lidé na nějaké pravděpodobnosti většinově shodnou, je to vždy pravděpodobnost nějakého opakovaného jevu, kdy lze měřit jednotlivé frekvence. Zaměňovat míru důvěry a pravděpodobnost je totéž, jako zaměňovat pravdu a názor.


Nezávislým detailem je pak to, že lidé, kteří o pravděpodobnosti uvažují přímo ve smyslu relativních frekvencí, přitom činí mnohem méně chyb typu konjunkčního či prokurátorského bludu. Tato skutečnost je podložena psychologickými experimenty.


Pro subjektivismus:
Především, bayesovská pravděpodobnost není libovolná. Má subjektivní složku, ale pro zacházení s ní platí určitá pevná pravidla (která budu blíže diskutovat v některém z dalších příspěvků). Teorie pravděpodobnosti je abstraktní matematická teorie a pravděpodobnosti jsou abstraktní objekty podléhající určitým pravidlům manipulace. Není potřeba, aby byly přiřazeny k něčemu objektivně měřitelnému.


Co hůře, frekventistické užití slova "pravděpodobnost" nerespektuje jeho užití v běžném jazyce. Bežně mluvíme o pravděpodobnosti událostí, jejichž okolnosti není možno nekonečněkrát opakovat a změřit tak pravděpodobnosti jednotlivých možných výsledků. Mluvíme například o tom, jaká je pravděpodobnost, že Viktoria Plzeň vyhraje ligu, ačkoli česká první liga v letošním složení, s nynějšími hráči a za stávajících podmínek bude těžko zopakována. Podobné pravděpodobnosti mají i praktické využití, nejvýraznější příklad je kursové sázení.


Hlavní námitka je ale ta, že i ikony frekvenční pravděpodobnosti, jako je házení kostkou, se jeví mít pravděpodobnostní charakter jen díky naší neznalosti. Kostka po hodu přistane na jedné konkrétní straně, kulička rulety se zastaví na jednom určitém čísle. Kdybychom byli schopni zrakem přesně zachytit rychlost kuličky a rychle a přesně aplikovat zákony mechaniky, byli bychom s to i předpovědět, kde přesně se kulička zastaví, a proces by se přestal jevit náhodným. V podobných situacích pracujeme s pravděpodobnostmi, protože neznáme přesné detaily nebo nejsme schopni včas spočítat výsledky.


Frekvenční pravděpodobnost je navíc, přísně vzato, také subjektivní, ačkoli se to tak třeba nejeví na první pohled. K jejímu určení je nutno vymezit množinu jevů, v jejímž rámci počítáme frekvence. U onoho kanonického hodu kostkou musíme implicitně předpokládat, že kostka není cinknutá, nebo že kostkou nehází stroj přesně nastavený tak, že vždy padne šestka. Aby se vyloučily předchozí případy musí být "hod kostkou" vymezen dostatečně úzce, ale zároveň ne příliš úzce: musíme ponechat dostatečnou volnost počátečním podmínkám hodu (jeho síle, tvaru podložky atd.), abychom nevyloučili variabilitu výsledků. U kostky je ono vymezení statistické množiny intuitivně jasné a těžko u toho vzniknou spory. Když se ale obrátím na zmíněnou pravděpodobnost plzeňského titulu, jakou četnost má pravověrný frekventista vzít v úvahu? Množství titulů, které Viktoria Plzeň v historii získala, podělené buď celkovým počtem odehraných prvoligových sezon, nebo počtem sezon, kdy Plzeň v lize startovala, nebo kdy startovala v lize pod současným jménem, nebo počtem sezon v samostatné české lize (ve všech případech vyjde nula)? Množství titulů vlastněných současnými plzeňskými hráči, podělené počtem hráčů a jejich odehraných sezon? Četnost sezon, kdy podzimní půlmistr obhájil svou pozici?


A nakonec: frekventisté užívají slovo "pravděpodobnost" jako synonymum pro "četnost". Proč ale mít dvě slova pro jednu a tutéž věc? Můžeme vypracovávat matematické teorie pro četnosti, aniž bychom potřebovali je nazývat pravděpodobnostmi, a "pravděpodobnosti" nechat její subjektivní smysl, jaký nepochybně v normálním užití toho slova je přítomen.


Ačkoli se z uvedených argumentů kloním spíše na stranu přístupu bayesovského, beru na vědomí, že i argumenty frekventistů mají svou váhu. Kdykoli máme určit přesnou hodnotu pravděpodobnosti, nemajíce přitom statistický vzorek pro zjištění frekvence, dostáváme se do potíží; frekventismus je mimo jiné imunní vůči nepříjemným paradoxům točícím se kolem antropického principu a jeho variant, například paradoxu soudného dne. Je sice možné modelovat proces poznávání pomocí bayesovských sítí, je ale otázka, nakolik přesně takový přístup popisuje myšlení skutečných lidí. Na druhou stranu, frekventismus bývá často spojován s různými ne příliš košer postupy ve statistice; tyto věci ale neplynou přímo z frekvenční interpretace pravděpodobnosti, jakkoli jsou s ní v praxi korelovány. Ale o tom zase příště.


Poznámky:
1. Ve skutečnosti existuje interpretací více, ale detailnější rozlišení se opírá o rozdíly relativně malé oproti základnímu rozporu mezi Bayesovskou a frekvenční pravděpodobností.
2. Samotný Bayesův vzorec lze samozřejmě užít i v rámci frekvenčně pojaté pravděpodobnosti, či v jakékoli jiné interpretaci.

pondělí 15. listopadu 2010

O podmíněných pravděpodobnostech


Známá logická chyba, pro kterou lidé mají vrozené dispozice, je oblíbené "obracení implikací". Víme-li, že "pokud A, pak B", máme sto chutí ze znalosti B usuzovat na platnost A. Že (doufám) většina lidí nakonec odolá a podobného úsudku se zdrží, za to vděčíme mimo jiné i škole, ve které se rozdíl mezi "pokud A, pak B" a "pokud B, pak A" v rámci jinak dle mého soudu nedostatečné výuky logiky probírá.


Zatímco tak gramotní lidé obvykle chápou, že implikaci A→B nelze beztrestně obrátit na B→A, přidáme-li do problému nejistotu ― a uvažování v pravděpodobnostech ― pravděpodobně tím nachytáme většinu populace na švestkách. Bohužel, mnohdy i mezi těmi, jejichž profese by v ideálním případě měla jisté porozumění pravděpodobnosti a statistice vyžadovat.


Klasická ilustrace problému je tato. Existuje choroba Ch (obvykle je tím Ch nějaká forma zhoubného bujení, případně AIDS, ale na konkrétním výběru choroby nesejde), kterou lze diagnostikovat určitým testem ještě před nástupem příznaků. Jak už to ale bývá, není tento test ideální: má přesnost pouze 99%. To znamená, že jedno procento z těch, kteří chorobu mají, projde testem s negativním výsledkem, a jedno procento těch, kdo chorobu nemají, projde testem s pozitivním výsledkem [1]. Představte si tedy, že absolvujete test s pozitivním výsledkem. Jaká je pravděpodobnost, že skutečně máte chorobu Ch?


Většina lidí v takové situaci usoudí, že pravděpodobnost je 99%. Tato odpověď se jednoduše nabízí. Je to nakonec jediné číslo, které máme k disposici. Jenže 99% je pravděpodobnost, že člověk, který trpí Ch, bude pozitivně diagnostikován. Otázka ale byla: jaká je pravděpodobnost, že člověk, který je pozitivně diagnostikován, skutečně má nemoc Ch? Rozdíl ve formulaci se může zdát nevelkým, ale rozdíl v číslech bývá dramatický.


Co je tedy správná odpověď? Předpokládejme, že chorobou Ch trpí jeden člověk z tisíce. Nezávisle na tom, jak velká část lidí se dostaví na testy, lze potom předpokládat, že z tisíce testovaných je jeden nemocný a 999 zdravých. Jeden nemocný je téměř jistě odhalen testem (pravděpodobnost chyby je jen 1%), na druhou stranu ale stejné procento zdravých obdrží chybnou pozitivní diagnózu. Jedno procento z 999 lidí je deset osob. Mezi pozitivně diagnostikovanými je tak poměr skutečně nemocných ku zdravým 1:10, a tak hledaná pravděpodobnost je pouze kolem 9%, nikoli 99%.


Položíte-li otázku lékařům, tak i když je seznámíte s četností výskytu Ch v populaci, šance dostat správnou odpověď je dost malá [2]. O závažnosti podobné chyby lze přitom těžko pochybovat. Stres, jemuž je pacient vystaven, dozví-li se, že má závažnou chorobu s jistotou 99%, je zcela zbytečný, je-li ve skutečnosti téměř jistě (90%) zdráv.


Chceme-li záležitost formalizovat, vyplatí se užít matematickou notaci. Označme T+ situaci, kdy test dá pozitivní výsledek, a analogicky T- situaci, kdy dá test negativní výsledek. Podobně, Ch+ a Ch- označuje stav, kdy pacient má, respektive nemá, diskutovanou chorobu. Podmíněné pravděpodobnosti se označují s užitím svislé čáry: P(A|B) označuje pravděpodobnost A, víme-li B; tedy P(T+|Ch+) je pravděpodobnost, že člověk, který má chorobu, bude pozitivně diagnostikován. S takto zavedeným označením lze výše uvedené pravděpodobnosti zapsat jako


P(T+|Ch+) = P(T-|Ch-) = 0,99
P(T-|Ch+) = P(T+|Ch-) = 0,01


Co chceme znát, a neznáme, je P(Ch+|T+). K tomu lze užít Bayesův vzorec


P(B|A) = P(A|B)P(B) / P(A)


V našem případě na pravé straně figuruje známá P(T+|Ch+) = 0,99, a dále dvě další pravděpodobnosti. P(Ch+) je pravděpodobnost, že člověk má chorobu bez ohledu na výsledků testu. Je přirozené tuto pravděpodobnost identifikovat s četností výskytu choroby v populaci ― neznáme-li výsledky testu, či nebyl-li test ještě proveden, je to rozumný předpoklad [3] ― tedy 0,001. Do jmenovatele pak potřebujeme dodat P(T+), což je celková pravděpodobnost, že test dopadne pozitivně, bez ohledu na skutečný zdravotní stav pacienta. Jak velká je tato pravděpodobnost? Můžeme ji rozdělit na dvě části: Pravděpodobnost, že pacient je nemocný, a test dopadne pozitivně, je rovna P(Ch+)P(T+|Ch+), což je v daném případě 0,000 99. Druhou možnost zastupuje pravděpodobnost, že pacient je zdravý a získá pozitivní test, P(Ch-)P(T+|Ch-); zjevně P(Ch-) = 1 - P(Ch+) = 0,999, takže hledané číslo je 0,009 99. Obě možnosti se vylučují, jejich pravděpodobnosti tak lze sečíst, a získat tak jmenovatel 0,010 98. Když to dáme dohromady, vyjde 0,000 99 / 0,010 98 = 0.090 2, tedy přibližně 9%.


Bayesův vzorec působí na první pohled neprůhledně, ale v zásadě se při jeho použití neděje nic jiného, než intuitivně jasný výpočet, který jsem verbálně popsal o několik odstavců výše. Číslo v čitateli udává množství testovaných, kteří mají nemoc a zároveň pozitivní test (v poměru k celkovému počtu testovaných), číslo ve jmenovateli je celkový počet lidí s pozitivním výsledkem (zase v poměru k počtu testovaných).


Pro lepší názornost uvedu ještě jeden "kanonický" příklad, tentokráte ze soudní síně. V tomto případě policie vyšetřuje strašný zločin, a jediné vodítko je otisk prstu nalezený na místě činu. Je jisté, že otisk mohl zanechat pouze pachatel. V databázi recidivistů se podobný otisk nenachází. Policie ale požádá o spolupráci veřejnost, a ozve se jí jistá firma, která pro kontrolu identity svých zaměstnanců při vstupu do střežených prostor užívá otisků prstů. Firemní databáze je předána policii [4] a ta provede porovnání, přičemž najde jeden shodný otisk. Jeho majitel je zatčen a obžalován.


U soudu je shoda otisku jediným důkazem viny obžalovaného. Státní zástupce pak předvolá policejního experta, který vypoví, že otisk prstu nalezený na místě činu nebyl zcela zachovalý, nicméně byl natolik kompletní, že šance, že otisk náhodně vybraného člověka se bude jevit shodným, je jedna ku sto tisícům. Obhájce sice zmíní dosavadní bezúhonnost klienta, absenci motivu a možnost náhodné shody otisků. Přesto je obžalovaný odsouzen. V odůvodnění rozsudku soudce uvede, že pravděpodobnost 1:100 000 je tak malá, že je o vině obžalovaného rozhodnuto nade vší rozumnou pochybnost.


Ponechavše stranou právní stránku věci, bylo by takové rozhodnutí v pořádku? Odpověď zní: nebylo. Obhajoba, kdyby postupovala správně, by upozornila na to, že i pokud je číslo 0,000 01 ve výpovědi policejního experta v pořádku, nelze ho interpretovat jako pravděpodobnost neviny obžalovaného. Jedna ku sto tisícům je pravděpodobnost náhodné shody u neviného, tj. P(shoda|nevinen), nikoli hledané P(nevinen|shoda). Obžalovaný je sice občanem státu, ve kterém došlo ke zločinu, jinak ale o jeho vině nic nenasvědčuje. Má-li stát deset milionů obyvatel, uvedená pravděpodobnost implikuje, že je mezi nimi sto takových, jejichž otisky se shodují s otiskem pachatele. Za předpokladu, že vrah není cizinec, je tedy pravděpodobnost viny obžalovaného 1%. Je to sice výrazně větší pravděpodobnost, než původní 1:10 000 000, jakou bylo rozumné předpokládat před provedením testu [5], ale pořád je obžalovaný téměř jistě nevinen [6].


Hlavní poučení je, že P(A|B) a P(B|A) jsou jiné pravděpodobnosti, a mohou se dramaticky lišit. Pro přepočtení jedné na druhou potřebujeme znát navíc i P(A) a P(B). Máme-li k dispozici P(A|B), ale ne již P(B), hodnotu P(B|A) spočítat nelze. Nejlepší, co za takového stavu je možno udělat, je pokusit se P(B) rozumně odhadnout. V žádném případě ale nesmíme podlehnout pokušení a přiřadit P(B|A) = P(A|B). A znovu, tak jako v jiných případech, kde jde o pravděpodobnosti, platí univerzální rada: Je snažší dojít ke správné odpovědi, pokud místo o pravděpodobnostech uvažujeme o četnostech výskytu. Je snadné zaměnit pravděpodobnost viny při předložených důkazech a pravděpodobnost nalezení předložených důkazů za předpokladu viny. Je o dost těžší udělat chybu podobného rázu při odpovídání na otázku: kolik dalších lidí má stejné otisky?


Poznámky:
1. Ve skutečnosti nebývá důvod, aby procento chybných pozitiv bylo rovno procentu chybných negativ, stejné hodnoty jsem zvolil pouze pro jednoduchost ilustrace.
2. Nepodařilo se mi v rozumném čase najít původní zdroje. Tento článek mluví o 15% úspěšnosti lékařů při řešení podobného problému (s uvedením původní literatury).
3. Jsou-li k dispozici další informace o daném člověku, může se racionálně vybraná pravděpodobnost lišit. Například, známe-li věk onoho člověka, je lepší položit za P(Ch+) frekvenci výzkytu choroby v jeho věkové skupině.
4. Nejsem si jist, zda by v rámci našeho právního řádu takový postup byl legální. Pokud ne, čtenář má plnou volnost vymyslet si alternativní průpovídku.
5. Zanedbávám, že někteří občané (například nemluvňata) jako pachatelé nepřicházejí v úvahu.
6. Upozorňuji na to, že popsaný scénář nelze aplikovat jako univerzální argument proti otiskům prstů či jiné identifikační proceduře. V reálných případech jsou obvykle k dipozici další důkazy, a četnost náhodných shod u běžných identifikačních metod může být nižší, než 1:100 000. Přesto existují reálné případy, kde pravděpodobnostní argumenty týkající se identifikace viníka hrály roli: Adams, Collins. Nesprávné zacházení s pravděpodobnostmi u soudu má v angličtině i své standardní pojmenování: prosecutor's fallacy.