Systém hodnocení Elo - Elo rating system

Arpad Elo , vynálezce systému hodnocení Elo

Systém hodnocení Elo je metoda pro výpočet relativních úrovní dovedností hráčů v hrách s nulovým součtem, jako jsou šachy . Je pojmenována po svém tvůrci Arpadu Elovi , maďarsko-americkém profesorovi fyziky.

Systém Elo byl původně vynalezen jako vylepšený systém hodnocení šachů oproti dříve používanému systému Harkness , ale používá se také jako systém hodnocení v asociačním fotbale , americkém fotbalu , basketbalu , Major League Baseball , stolním tenise , deskových hrách , jako je Scrabble a Diplomacie a esporty , zejména Counter Strike: Global Offensive a League of Legends .

Rozdíl v hodnocení mezi dvěma hráči slouží jako prediktor výsledku zápasu. Od dvou hráčů se stejným hodnocením, kteří hrají proti sobě, se očekává stejný počet výher. Od hráče, jehož hodnocení je o 100 bodů vyšší než u soupeře, se očekává, že dosáhne 64%; pokud je rozdíl 200 bodů, pak je očekávané skóre pro silnějšího hráče 76%.

Hodnocení hráče Elo je reprezentováno číslem, které se může měnit v závislosti na výsledku hodnocených hraných her. Po každé hře vyhrává vítězný hráč body prohrávajícího. Rozdíl mezi hodnocením vítěze a poraženého určuje celkový počet bodů získaných nebo ztracených po hře. Pokud vyhraje hráč s vysokým hodnocením, bude hráči s nízkým hodnocením odebráno pouze několik bodů. Pokud však hráč s nižším hodnocením získá rozrušenou výhru , bude přeneseno mnoho bodů hodnocení. V případě remízy získá hráč s nižším hodnocením také několik bodů od hráče s vyšším hodnocením. To znamená, že tento systém hodnocení se sám opravuje. Hráči, jejichž hodnocení je příliš nízké nebo příliš vysoké, by si z dlouhodobého hlediska měli vést lépe nebo hůře, než předpovídá systém hodnocení, a tak získávat nebo ztrácet body hodnocení, dokud hodnocení neodráží jejich skutečnou herní sílu.

Hodnocení Elo je pouze srovnávací hodnocení a je platné pouze v rámci skupiny hodnocení, kde bylo stanoveno.

Dějiny

Arpad Elo byl šachový hráč na mistrovské úrovni a aktivní účastník šachové federace Spojených států (USCF) od jejího založení v roce 1939. USCF používal numerický systém hodnocení navržený Kennethem Harknessem , který členům umožňoval sledovat jejich individuální pokrok v podmínky jiné než turnajové výhry a prohry. Systém Harkness byl přiměřeně spravedlivý, ale za určitých okolností vedl k hodnocení, které mnoho pozorovatelů považovalo za nepřesné. Elo jménem USCF vymyslel nový systém se spolehlivějším statistickým základem.

Systém Elo nahradil dřívější systémy konkurenčních odměn systémem založeným na statistických odhadech. Systémy hodnocení mnoha sportů udělují body v souladu se subjektivním hodnocením „velikosti“ určitých úspěchů. Například vítězství v důležitém golfovém turnaji může mít hodnotu libovolně zvoleného pětkrát více bodů než vítězství v menším turnaji.

Statistické úsilí naopak používá model, který spojuje výsledky hry se základními proměnnými představujícími schopnosti každého hráče.

Ústředním předpokladem Ela bylo, že šachový výkon každého hráče v každé hře je normálně distribuovaná náhodná proměnná . Ačkoli hráč může od jedné hry k druhé hrát výrazně lépe nebo hůře, Elo předpokládal, že průměrná hodnota výkonů jakéhokoli daného hráče se v průběhu času mění jen pomalu. Elo považoval skutečnou dovednost hráče za průměr náhodné proměnné výkonu tohoto hráče.

Je nutný další předpoklad, protože šachový výkon ve výše uvedeném smyslu stále není měřitelný. Nelze se dívat na posloupnost tahů a odvodit číslo, které by reprezentovalo dovednosti daného hráče. Výkon lze odvodit pouze z výher, remíz a ztrát. Pokud tedy hráč vyhraje hru, předpokládá se, že v dané hře předvedl vyšší úroveň než jeho soupeř. Naopak, pokud hráč prohraje, předpokládá se, že podal výkon na nižší úrovni. Pokud je hra nerozhodná, předpokládá se, že oba hráči podali téměř stejnou úroveň.

Elo přesně nespecifikoval, jak blízko by dvě představení měla vést k remíze na rozdíl od výhry nebo prohry. A i když si myslel, že je pravděpodobné, že hráči mohou mít různé standardní odchylky od svých výkonů, učinil zjednodušující předpoklad o opaku.

Aby Elo ještě více zjednodušil výpočet, navrhl přímou metodu odhadu proměnných ve svém modelu (tj. Skutečné dovednosti každého hráče). Z tabulek lze poměrně snadno vypočítat, kolik her by hráči očekávali na základě srovnání jejich hodnocení s hodnocením jejich soupeřů. Hodnocení hráče, který vyhrál více her, než se očekávalo, bude upraveno směrem nahoru, zatímco hodnocení hráče, který vyhrál méně, než se očekávalo, bude upraveno směrem dolů. Navíc tato úprava měla být v lineárním poměru k počtu výher, o které hráč překročil nebo nedosáhl svého očekávaného počtu.

Z moderní perspektivy nejsou Elovy zjednodušující předpoklady nutné, protože výpočetní výkon je levný a široce dostupný. Několik lidí, zejména Mark Glickman , navrhlo použít sofistikovanější statistický aparát k odhadování stejných proměnných. Na druhou stranu se ukázalo, že výpočetní jednoduchost systému Elo je jedním z jeho největších přínosů. S pomocí kapesní kalkulačky může informovaný šachový konkurent do jednoho bodu vypočítat, jaké bude jejich další oficiálně zveřejněné hodnocení, což pomáhá podpořit dojem, že hodnocení jsou spravedlivá.

Implementace Elova schématu

USCF realizovány návrhy ELO v roce 1960, a systém rychle získal uznání jako bytí oba spravedlivější a přesnější než ratingového systému Harkness . Elův systém byl přijat Světovou šachovou federací (FIDE) v roce 1970. Elo popsal svou práci poměrně podrobně v knize Hodnocení šachistů, minulosti a současnosti , vydané v roce 1978.

Následné statistické testy naznačily, že šachový výkon není téměř jistě distribuován jako normální rozdělení , protože slabší hráči mají větší šance na výhru, než předpovídá Elův model. Proto USCF a některé šachové weby používají vzorec založený na logistické distribuci . Významné statistické anomálie byly také zjištěny při použití logistické distribuce v šachu. FIDE nadále používá tabulku rozdílů hodnocení, jak navrhuje Elo. Tabulka je vypočítána s očekáváním 0 a standardní odchylkou 200.

Normální a logistické distribuční body jsou svým způsobem libovolné body ve spektru distribucí, které by fungovaly dobře. V praxi obě tyto distribuce fungují velmi dobře pro řadu různých her.

Různé systémy hodnocení

Fráze „Hodnocení Elo“ se často používá k označení šachového hodnocení hráče vypočítaného FIDE. Toto použití je však matoucí a zavádějící, protože obecné myšlenky Elo přijalo mnoho organizací, včetně USCF (před FIDE), mnoha dalších národních šachových federací, krátkodobé profesionální šachové asociace (PCA) a online šachových serverů, včetně Internet Chess Club (ICC), Free Internet Chess Server (FICS) a Yahoo! Hry. Každá organizace má jedinečnou implementaci a žádná z nich se přesně neřídí původními návrhy Elo. To by bylo přesnější odkazovat na všechny výše uvedené hodnocení je ELO hodnocení a žádný z nich jako o ratingu Elo.

Místo toho se lze obrátit na organizaci udělující hodnocení. Například: "V srpnu 2002 měl Gregory Kaidanov hodnocení FIDE 2638 a USCF 2742." Hodnocení Elo těchto různých organizací není vždy přímo srovnatelné, protože hodnocení Elo měří výsledky spíše v uzavřeném souboru hráčů než v absolutních dovednostech. Existují také rozdíly ve způsobu, jakým organizace implementují hodnocení Elo.

Hodnocení FIDE

Pro špičkové hráče je nejdůležitější hodnocení jejich hodnocení FIDE . FIDE vydal následující seznamy:

V letech 1971 až 1980 byl vydáván jeden seznam ročně.
Od roku 1981 do roku 2000 byly vydávány dva seznamy ročně, v lednu a červenci.
Od července 2000 do července 2009 byly vydávány čtyři seznamy ročně, na začátku ledna, dubna, července a října.
Od července 2009 do července 2012 bylo vydáno šest seznamů ročně, na začátku ledna, března, května, července, září a listopadu.
Od července 2012 je seznam aktualizován každý měsíc.

Následující analýza seznamu hodnocení FIDE z července 2015 poskytuje hrubý obraz o tom, co dané hodnocení FIDE znamená z hlediska světového hodnocení:

5323 hráčů mělo aktivní hodnocení v rozmezí 2200 až 2299, což je obvykle spojeno s titulem Candidate Master .
Aktivní hodnocení v rozmezí 2300 až 2399, které je obvykle spojeno s titulem FIDE Master, mělo 2869 hráčů .
1420 hráčů mělo aktivní hodnocení mezi 2400 a 2499, z nichž většina měla buď titul International Master nebo International Grandmaster .
542 hráčů mělo aktivní hodnocení mezi 2500 a 2599, z nichž většina měla titul International Grandmaster .
187 hráčů mělo aktivní hodnocení mezi 2600 a 2699, z nichž všichni měli titul International Grandmaster .
40 hráčů mělo aktivní hodnocení mezi 2700 a 2799.
4 hráči měli aktivní hodnocení přes 2800. ( Magnus Carlsen byl ohodnocen 2853 a 3 hráči byli ohodnoceni mezi 2814 a 2816).

Dosud nejvyšší hodnocení FIDE bylo 2882, což měl Magnus Carlsen na seznamu z května 2014. Seznam nejlépe hodnocených hráčů všech dob je v Porovnání nejlepších šachistů v celé historii .

Hodnocení výkonu

${\ displaystyle p}$	${\ displaystyle d_ {p}}$
1,00	+800
0,99	+677
0,9	+366
0,8	+240
0,7	+149
0,6	+72
0,5	0
0,4	-72
0,3	−149
0,2	-240
0,1	−366
0,01	-677
0,00	-800

Hodnocení výkonu je hypotetické hodnocení, které by vyplývalo pouze z her jedné události. Některé šachové organizace používají k výpočtu hodnocení výkonu „algoritmus 400“. Podle tohoto algoritmu se hodnocení výkonu pro událost vypočítá následujícím způsobem:

Ke každé výhře přidejte hodnocení svého soupeře plus 400,
Za každou prohru přidejte hodnocení svého protivníka mínus 400,
A vydělte tuto částku počtem hraných her.

Příklad: 2 výhry, 2 prohry

{\ Displaystyle {\ begin {aligned} & {\ frac {w+400+x+400+y-400+z-400} {4}} \\ [6pt] & {\ frac {w+x+y+ z+400 (2) -400 (2)} {4}} \ end {zarovnaný}}}

To lze vyjádřit následujícím vzorcem:

{\ displaystyle {\ text {Performance performance}} = {\ frac {{\ text {Celkem hodnocení oponentů}}+400 \ krát ({\ text {Wins}}-{\ text {Losses}})} { \ text {Games}}}}

Příklad: Pokud porazíte hráče s hodnocením Elo 1000,

{\ displaystyle {\ text {Performance performance}} = {\ frac {1000+400 \ times (1)} {1}} = 1400}

Pokud porazíte dva hráče s hodnocením Elo 1000,

{\ displaystyle {\ text {Hodnocení výkonu}} = {\ frac {2000+400 \ times (2)} {2}} = 1400}

Pokud kreslíš,

{\ displaystyle {\ text {Performance rating}} = {\ frac {1000+400 \ times (0)} {1}} = 1000}

Toto je zjednodušení, ale nabízí snadný způsob, jak získat odhad PR (hodnocení výkonu).

FIDE však vypočítává hodnocení výkonu podle vzorce: Průměr hodnocení soupeře + rozdíl v hodnocení. Rozdíl v hodnocení je založen na procentuálním skóre turnaje hráče , které je poté použito jako klíč ve vyhledávací tabulce, kde je jednoduše počet získaných bodů vydělený počtem odehraných her. Všimněte si, že v případě dokonalého nebo žádného skóre je 800. Úplnou tabulku najdete v manuálu de la FIDE, B. Stálé provize, 02. Pravidla pro hodnocení FIDE (kvalifikační komise), předpisy pro hodnocení FIDE účinné od 1. července 2017 , 8.1a online. Zjednodušená verze této tabulky je vpravo. ${\ displaystyle d_ {p}}$ ${\ displaystyle p}$ ${\ displaystyle p}$ ${\ displaystyle d_ {p}}$

Kategorie turnaje FIDE

Kategorie	Průměrné hodnocení
Kategorie	Minimální	Maximum
14	2576	2 600
15	2601	2625
16	2626	2650
17	2651	2675
18	2676	2700
19	2701	2725
20	2726	2750
21	2751	2775
22	2776	2800
23	2801	2825

FIDE klasifikuje turnaje do kategorií podle průměrného hodnocení hráčů. Každá kategorie má šířku 25 bodů. Kategorie 1 je pro průměrné hodnocení 2251 až 2275, kategorie 2 je 2276 až 2300 atd. U ženských turnajů jsou kategorie o 200 bodů nižší, takže kategorie 1 je průměrné hodnocení 2051 až 2075 atd. Nejvyšší -hodnocený turnaj je kategorie 23 s průměrem od 2801 do 2825. Nejlepší kategorie jsou v tabulce.

Živé hodnocení

FIDE aktualizuje svůj seznam hodnocení na začátku každého měsíce. Neoficiální „Živé hodnocení“ naopak počítá změnu v hodnocení hráčů po každé hře. Tato živá hodnocení vycházejí z dříve publikovaných hodnocení FIDE, takže živé hodnocení hráče má odpovídat tomu, jaké by bylo hodnocení FIDE, kdyby FIDE ten den vydal nový seznam.

Přestože jsou živá hodnocení neoficiální, zájem o Živé hodnocení se objevil v srpnu/září 2008, když se pět různých hráčů dostalo do žebříčku „Živé“ číslo 1.

Neoficiální live hodnocení hráčů nad 2700 zveřejnil a udržuje Hans Arild Runde na webových stránkách Live Rating do srpna 2011. Další web, 2700chess.com , udržuje od května 2011 Artiom Tsepotan , který pokrývá také 100 nejlepších hráčů. jako 50 nejlepších hráček.

Změny hodnocení lze vypočítat ručně pomocí kalkulačky změn hodnocení FIDE. Všichni špičkoví hráči mají K-faktor 10, což znamená, že změna maximálního hodnocení z jedné hry je o něco méně než 10 bodů.

Hodnocení šachové federace Spojených států

Spojené státy Chess federace (USCF) používá vlastní klasifikaci hráčů:

2400 a výše: Senior Master
2200–2399: národní mistr
- 2200–2399 plus 300 her nad 2200: Original Life Master
2000–2199: expert nebo kandidátský mistr
1800–1999: Třída A
1600–1799: Třída B
1400–1599: Třída C
1200–1399: Třída D
1000–1199: Třída E
800–999: Třída F
600–799: Třída G
400–599: Třída H
200–399: Třída I
100–199: Třída J

K-faktor používaný USCF

K-faktor , v systému hodnocení USCF, lze odhadnout vydělením 800 efektivním počtu her hráčův rating je založen na ( N _e ) plus počtu hry Hráč dokončen v turnaji ( m ).

{\ displaystyle K = {\ frac {800} {N_ {e}+m}} \,}

Hodnocení podlaží

USCF udržuje absolutní minimální úroveň hodnocení 100 pro všechna hodnocení. Žádný člen tedy nemůže mít hodnocení nižší než 100, bez ohledu na jeho výkon na akcích schválených USCF. Hráči však mohou mít vyšší individuální minimální hodnoty absolutního hodnocení, vypočítané podle následujícího vzorce:

{\ displaystyle AF = \ operatorname {min} \ {100+4N_ {W}+2N_ {D}+N_ {R}, 150 \}}

kde je počet vyhraných hodnocených her, počet remízovaných hodnocených her a počet událostí, ve kterých hráč dokončil tři nebo více hodnocených her. ${\ displaystyle N_ {W}}$ ${\ displaystyle N_ {D}}$ ${\ displaystyle N_ {R}}$

Vyšší úrovně hodnocení existují pro zkušené hráče, kteří dosáhli významných hodnocení. Taková vyšší hodnocení existují, počínaje hodnocením 1200 v krocích po 100 bodech až do 2100 (1200, 1300, 1400, ..., 2100). Minimální úroveň hodnocení se vypočítá tak, že se vezme nejvyšší dosažené hodnocení hráče, odečte se 200 bodů a poté se zaokrouhlí dolů na nejbližší nejnižší úroveň hodnocení. Například hráč, který dosáhl maximálního hodnocení 1464, by měl minimální úroveň hodnocení 1464 - 200 = 1264, která by byla zaokrouhlena dolů na 1200. V tomto schématu mohou mít vyšší hodnocení pouze hráči třídy C a výše patro, než je jejich absolutní hodnocení hráčů. Všichni ostatní hráči by měli mít podlahu maximálně 150.

Existují dva způsoby, jak dosáhnout vyšších úrovní hodnocení, než podle výše uvedeného standardního schématu. Pokud hráč dosáhl hodnocení Original Life Master, jeho minimální úroveň hodnocení je stanovena na 2200. Dosažení tohoto titulu je jedinečné v tom, že žádný jiný uznávaný titul USCF nepovede k nové úrovni. U hráčů s hodnocením nižším než 2 000 zvýší peněžní odměna 2 000 $ a více spodní hranici hodnocení hráče na nejbližší 100bodovou úroveň, která by hráče diskvalifikovala pro účast na turnaji. Pokud by například hráč vyhrál 4 000 $ v turnaji 1750 a méně, měl by nyní hodnotící dno 1800.

Teorie

Párová srovnání tvoří základ metodiky hodnocení Elo. Elo se zmínil o novinách Good, David, Trawinski a David a Buhlman a Huber.

Matematické detaily

Výkon není měřen absolutně; je odvozeno z výher, proher a remíz proti jiným hráčům. Hodnocení hráčů závisí na hodnocení jejich soupeřů a na výsledcích, které byly proti nim dosaženy. Rozdíl v hodnocení mezi dvěma hráči určuje odhad očekávaného skóre mezi nimi. Průměr i šíření hodnocení lze libovolně zvolit. Elo navrhl škálování hodnocení tak, aby rozdíl 200 ratingových bodů v šachu znamenal, že silnější hráč má očekávané skóre (což je v zásadě očekávané průměrné skóre) přibližně 0,75 a USCF původně usiloval o to, aby průměrný klubový hráč měl hodnocení 1500.

Očekávané skóre hráče je jeho pravděpodobnost výhry plus polovina pravděpodobnosti remízy. Očekávané skóre 0,75 by tedy mohlo představovat 75% šanci na výhru, 25% šanci na prohru a 0% šanci na remízu. Na druhé straně to může představovat 50% šanci na výhru, 0% šanci na prohru a 50% šanci na remízu. Pravděpodobnost čerpání, na rozdíl od rozhodujícího výsledku, není v systému Elo specifikována. Místo toho je remíza považována za polovinu vítězství a polovinu prohry. V praxi, protože skutečná síla každého hráče není známa, se očekávané skóre vypočítá pomocí aktuálního hodnocení hráče následujícím způsobem.

Pokud má hráč A hodnocení a hráč B hodnocení , přesný vzorec (pomocí logistické křivky ) pro očekávané skóre hráče A je ${\ displaystyle R_ {A}}$ ${\ displaystyle R_ {B}}$

{\ displaystyle E_ {A} = {\ frac {1} {1+10^{(R_ {B} -R_ {A})/400}}}.}

Podobně je očekávané skóre pro hráče B

{\ displaystyle E_ {B} = {\ frac {1} {1+10^{(R_ {A} -R_ {B})/400}}}.}

To lze také vyjádřit pomocí

{\ displaystyle E_ {A} = {\ frac {Q_ {A}} {Q_ {A}+Q_ {B}}}}

a

{\ displaystyle E_ {B} = {\ frac {Q_ {B}} {Q_ {A}+Q_ {B}}},}

kde a . Všimněte si, že v druhém případě platí pro oba výrazy stejný jmenovatel, a je to jasné . To znamená, že studiem pouze čitatelů zjistíme, že očekávané skóre pro hráče A je několikanásobně větší než očekávané skóre pro hráče B. Z toho pak vyplývá, že pro každých 400 hodnotících bodů výhody oproti soupeři se očekávané skóre zvětší desetkrát ve srovnání s očekávaným skóre soupeře. ${\ displaystyle Q_ {A} = 10^{R_ {A}/400}}$ ${\ displaystyle Q_ {B} = 10^{R_ {B}/400}}$ ${\ displaystyle E_ {A}+E_ {B} = 1}$ ${\ displaystyle Q_ {A}/Q_ {B}}$

Když skutečné výsledky turnajů hráče překročí jejich očekávané skóre, systém Elo to bere jako důkaz, že hodnocení hráče je příliš nízké a je třeba jej upravit směrem nahoru. Podobně, když skutečné výsledky turnajů hráče nedosahují očekávaných skóre, hodnocení tohoto hráče se upraví směrem dolů. Elo původní návrh, který je stále široce používán, byla jednoduchá lineární úprava úměrná částce, o kterou hráč překonal nebo nedosáhl svého očekávaného skóre. Maximální možná úprava na hru, nazývaná K-faktor, byla stanovena na K = 16 u pánů a K = 32 u slabších hráčů.

Předpokládalo se, že hráč A získá body, ale ve skutečnosti body získal . Vzorec pro aktualizaci hodnocení tohoto hráče je ${\ displaystyle E_ {A}}$ ${\ displaystyle S_ {A}}$

{\ displaystyle R_ {A}^{\ prime} = R_ {A}+K (S_ {A} -E_ {A}).}

Tuto aktualizaci lze provést po každé hře nebo každém turnaji nebo po jakémkoli vhodném období hodnocení. K objasnění může pomoci příklad. Předpokládejme, že hráč A má hodnocení 1613 a hraje v pětikolovém turnaji. Prohrávají s hráčem s hodnocením 1609, remizují s hráčem s hodnocením 1477, porazí hráče s hodnocením 1388, porazí hráče s hodnocením 1586 a prohrají s hráčem s hodnocením 1720. Skutečné skóre hráče je (0 + 0,5 + 1 + 1 + 0 ) = 2,5. Očekávané skóre, vypočtené podle výše uvedeného vzorce, bylo (0,51 + 0,69 + 0,79 + 0,54 + 0,35) = 2,88. Nové hodnocení hráče je tedy (1613 + 32 (2,5-2,88)) = 1601 za předpokladu, že je použit K-faktor 32. Ekvivalentně lze říci, že o každé hře, o které hráč dává, byla vložena ante K násobek jejího očekávaného skóre pro hru do banku, soupeř to dělá podobně a vítěz sbírá plný pot hodnoty K; v případě remízy si hráči rozdělí pot a získají každý K/2 body.

Všimněte si toho, že i když dvě výhry, dvě prohry a jedna remíza se mohou zdát jako par skóre, je to horší, než se očekávalo u hráče A, protože jejich soupeři byli průměrně hodnoceni níže. Hráč A je proto mírně penalizován. Pokud by hráč A zaznamenal dvě vítězství, jednu prohru a dvě remízy, při celkovém skóre tří bodů by to bylo o něco lepší, než se očekávalo, a nové hodnocení hráče by bylo (1613 + 32 (3 - 2,88)) = 1617.

Tento postup aktualizace je jádrem hodnocení používaných FIDE , USCF , Yahoo! Games , Internet Chess Club (ICC) a Free Internet Chess Server (FICS). Každá organizace však zvolila jinou cestu, jak se vypořádat s nejistotou spojenou s hodnocením, zejména s hodnocením nově příchozích, a s problémem inflace/deflace hodnocení. Novým hráčům je přiděleno prozatímní hodnocení, které se upravuje razantněji než zavedené hodnocení.

Principy použité v těchto ratingových systémech lze použít pro hodnocení jiných soutěží - například mezinárodních fotbalových zápasů.

Hodnocení Elo bylo aplikováno také na hry bez možnosti remíz a na hry, ve kterých může mít výsledek kromě kvality (výhra/prohra) také kvantitu (malé/velké rozpětí). Více viz Hodnocení Go s Elo .

Nejpřesnější distribuční model

První matematický problém, který USCF řešil, bylo použití normální distribuce . Zjistili, že to přesně nereprezentuje skutečné dosažené výsledky, zejména u hráčů s nižším hodnocením. Místo toho přešli na model logistické distribuce , který podle USCF lépe odpovídá skutečným dosaženým výsledkům. FIDE také používá přiblížení k logistickému rozdělení.

Nejpřesnější K-faktor

Druhým hlavním problémem je správný použitý „K-faktor“. Šachový statistik Jeff Sonas se domnívá, že původní hodnota K = 10 (pro hráče s hodnocením nad 2400) je v Elově práci nepřesná. Pokud je koeficient K-faktoru nastaven příliš vysoký, bude příliš velká citlivost jen na několik nedávných událostí, pokud jde o velký počet bodů vyměněných v každé hře. A pokud je hodnota K příliš nízká, citlivost bude minimální a systém nebude reagovat dostatečně rychle na změny skutečné úrovně výkonu hráče.

Elo původní odhad K-faktoru byl proveden bez výhody obrovských databází a statistických důkazů. Sonas naznačuje, že K-faktor 24 (pro hráče s hodnocením nad 2400) může být přesnější jak jako prediktivní nástroj budoucího výkonu, tak také citlivější na výkon.

Zdá se, že některé internetové šachové weby se vyhýbají třístupňovému K-faktoru, který se rozprostírá na základě hodnocení. Zdá se například, že ICC přijímá globální K = 32 kromě případů, kdy hraje proti prozatímně hodnoceným hráčům.

USCF (který využívá logistickou distribuci na rozdíl od normální distribuce ) dříve rozložil K-faktor podle tří hlavních rozsahů hodnocení:

Hráči pod 2100: K-faktor 32 použit
Hráči mezi 2100 a 2400: K-faktor 24 použit
Hráči nad 2400: K-faktor 16 použit.

V současné době USCF používá vzorec, který vypočítává K-faktor na základě faktorů, včetně počtu hraných her a hodnocení hráče. K-faktor je také snížen pro hráče s vysokým hodnocením, pokud má událost kratší časové kontroly.

FIDE používá následující rozsahy:

K = 40, pro hráče, který je nový v žebříčku hodnocení do dokončení událostí s celkem 30 hrami a pro všechny hráče do 18. narozenin, pokud jejich hodnocení zůstane pod 2300.
K = 20, pro hráče s hodnocením vždy pod 2400.
K = 10, pro hráče s jakýmkoli publikovaným hodnocením alespoň 2400 a alespoň 30 her hraných v předchozích akcích. Poté zůstává trvale v 10.

FIDE používala do července 2014 následující rozsahy:

K = 30 (bylo 25), pro hráče nového v žebříčku hodnocení do dokončení událostí s celkem 30 hrami.
K = 15, pro hráče s hodnocením vždy pod 2400.
K = 10, pro hráče s jakýmkoli publikovaným hodnocením alespoň 2400 a alespoň 30 her hraných v předchozích akcích. Poté zůstává trvale v 10.

Gradace K-faktoru snižuje změny hodnocení na horním konci hodnotícího spektra, což snižuje možnost rychlé inflace nebo deflace u osob s nízkým K-faktorem. To by teoreticky mohlo platit stejně pro online šachové stránky nebo pro hráče na palubě, protože pro hráče je obtížnější získat mnohem vyšší hodnocení, když je jejich K-faktor snížen. Při hraní online může jednoduše výběr vysoce hodnocených protivníků umožnit 2800+ hráčům další zvýšení jejich hodnocení, protože velmistr na herním webu ICC může hrát řadu různých protivníků, kteří jsou všichni hodnoceni nad 2 700. na palubních akcích, pouze v případě all-play-all událostí velmi vysoké úrovně by byl hráč schopen zapojit tento počet 2 700+ soupeřů, zatímco v běžném otevřeném šachovém turnaji švýcarských párů by často existovalo mnoho soupeři ohodnotili méně než 2 500, čímž se snížily možné zisky z hodnocení z jediné soutěže.

Praktické problémy

Herní aktivita versus ochrana vlastního hodnocení

V některých případech může systém hodnocení odradit herní aktivitu hráčů, kteří si chtějí své hodnocení chránit. Aby odradil hráče od vysokého hodnocení, návrh britského velmistra Johna Nunna z roku 2012 na výběr kvalifikace na mistrovství světa v šachu zahrnoval bonus za aktivitu, který bude spojen s hodnocením.

Kromě šachového světa kvůli obavám z toho, že se hráči vyhýbají konkurenční hře, aby ochránili své hodnocení, Wizards of the Coast upustili od systému Elo pro Magic: The Gathering ve prospěch systému, který si sami vymysleli s názvem „Planeswalker Points“.

Selektivní párování

Subtilnější problém souvisí s párováním. Když si hráči mohou vybrat své vlastní soupeře, mohou si vybrat soupeře s minimálním rizikem ztráty a maximální odměnou za vítězství. Mezi konkrétní příklady hráčů s hodnocením 2 800+, kteří si vybírají soupeře s minimálním rizikem a maximální možností získání hodnocení, patří: výběr soupeřů, o kterých vědí, že je mohou s určitou strategií porazit; výběr oponentů, které považují za nadhodnocené; nebo vyhýbání se hraní silných hráčů, kteří jsou ohodnoceni několika stovkami bodů pod nimi, ale mohou mít šachové tituly jako IM nebo GM. V kategorii výběru nadhodnocených protivníků jsou teoreticky vhodným cílem noví účastníci systému hodnocení, kteří odehráli méně než 50 her, protože mohou být ve svém prozatímním hodnocení nadhodnoceni. ICC tento problém kompenzuje přiřazením nižšího K-faktoru zavedenému hráči, pokud vyhraje proti novému účastníkovi hodnocení. K-faktor je ve skutečnosti funkcí počtu hodnocených her hraných novým účastníkem.

Hodnocení Elo online proto stále poskytuje užitečný mechanismus pro poskytování hodnocení na základě hodnocení oponenta. Jeho celkovou důvěryhodnost je však třeba vidět v kontextu alespoň výše uvedených dvou hlavních popsaných problémů - zneužívání motoru a selektivní párování protivníků.

ICC také nedávno zavedl hodnocení „automatického párování“, které je založeno na náhodném párování, ale s každou výhrou v řadě zajišťuje statisticky mnohem těžšího soupeře, který také vyhrál x her v řadě. S potenciálně stovkami zapojených hráčů to vytváří některé z výzev velké velké švýcarské události, o kterou se urputně bojuje, kde se vítězové kola potkávají s vítězi kola. Tento přístup ke párování určitě maximalizuje riziko hodnocení účastníků s vyšším hodnocením, kteří mohou například čelit velmi tvrdé opozici hráčů pod 3000. Toto je samostatné hodnocení a spadá do kategorií hodnocení „1 minuta“ a „5 minut“. Maximální hodnocení dosažená nad 2 500 jsou výjimečně vzácná.

Hodnocení inflace a deflace

Grafy pravděpodobností a Elo hodnocení změn (pro K = 16 a 32) očekávaného výsledku (plná křivka) a neočekávaného výsledku (tečkovaná křivka) vs. počáteční rozdíl v hodnocení. Například hráč A začíná s hodnocením 1400 a B s 1800 v turnaji s K = 32 (hnědé křivky). Modrá čára s pomlčkou označuje počáteční rozdíl hodnocení 400 (1800-1400). Pravděpodobnost výhry B, očekávaný výsledek, je 0,91 (průsečík černé plné křivky a modré čáry); pokud k tomu dojde, hodnocení A se sníží o 3 (průsečík hnědé plné křivky a modré čáry) na 1397 a B se zvýší o stejnou částku na 1803. Naopak pravděpodobnost výhry A, neočekávaný výsledek, je 0,09 (průsečík černých teček) křivka a modrá čára); pokud k tomu dojde, hodnocení A se zvýší o 29 (průsečík hnědé tečkované křivky a modré čáry) na 1429 a B se sníží o stejnou částku na 1771.

Termín „inflace“, použitý na hodnocení, má naznačovat, že úroveň hráčské síly předváděná hodnoceným hráčem se v průběhu času snižuje; naopak „deflace“ naznačuje, že úroveň postupuje. Například pokud existuje inflace, moderní rating 2500 znamená méně než historický rating 2500, zatímco v případě deflace platí opak. Používání hodnocení k porovnávání hráčů mezi různými obdobími je obtížnější, pokud je přítomna inflace nebo deflace. (Viz také Porovnání nejlepších šachistů v celé historii .)

Jeff Sonas při analýze hodnotících seznamů FIDE v průběhu času naznačuje, že k inflaci mohlo dojít zhruba od roku 1985. Sonas se dívá spíše na nejlépe hodnocené hráče než na všechny hodnocené hráče a uznává, že změny v distribuci hodnocení mohly být způsobeny zvýšení standardu hry na nejvyšších úrovních, ale hledá i jiné příčiny.

Počet lidí s hodnocením nad 2700 se zvýšil. Kolem roku 1979 byl pouze jeden aktivní hráč ( Anatolij Karpov ) s tak vysokým hodnocením. V roce 1992 byl Viswanathan Anand teprve osmým hráčem v šachové historii, který v té době dosáhl hranice 2 700. Do roku 1994 to stouplo na 15 hráčů. 33 hráčů mělo hodnocení 2700+ v roce 2009 a 44 v září 2012. Aktuální benchmark pro elitní hráče přesahuje 2800.

Jednou z možných příčin této inflace byla spodní hranice hodnocení, která byla dlouhou dobu 2200, a pokud hráč klesl pod tuto úroveň, byl vyřazen ze seznamu hodnocení. V důsledku toho by hráči na úrovni dovedností těsně pod podlahou byli na seznamu hodnocení pouze v případě, že by byli nadhodnoceni, a to by způsobilo, že by bodovali do hodnocení. V červenci 2000 bylo průměrné hodnocení 100 nejlepších 2644. V červenci 2012 se zvýšil na 2703.

Regan a Haworth pomocí silného šachového motoru vyhodnotili tahy hrané ve hrách mezi hodnocenými hráči a analyzovaly soubory her z turnajů s hodnocením FIDE a vyvodily závěr, že od roku 1976 do roku 2009 došlo k malé nebo žádné inflaci.

V čistém systému Elo každá hra končí stejnou transakcí hodnocení bodů. Pokud vítěz získá N hodnotících bodů, poražený klesne o N hodnotících bodů. Tím se zabrání tomu, aby se body dostaly do systému nebo jej opustily, když se hry hrají a jsou hodnoceny. Hráči však obvykle vstupují do systému jako nováčci s nízkým hodnocením a ze systému odcházejí jako zkušení hráči s vysokým hodnocením. Proto má systém s přísně stejnými transakcemi z dlouhodobého hlediska za následek deflaci ratingu.

V roce 1995 USCF uznala, že několik mladých akademických hráčů se zlepšovalo rychleji, než byl systém hodnocení schopen sledovat. Výsledkem je, že etablovaní hráči se stabilním hodnocením začali ztrácet body za hodnocení pro mladé a podceňované hráče. Několik starších zavedených hráčů bylo frustrováno tím, co považovali za nespravedlivý pokles hodnocení, a někteří kvůli tomu dokonce přestali šachovat.

Boj proti deflaci

Vzhledem k významnému rozdílu v načasování, kdy dochází k inflaci a deflaci, a za účelem boje proti deflaci má většina implementací hodnocení Elo mechanismus pro vkládání bodů do systému za účelem udržení relativního hodnocení v průběhu času. FIDE má dva inflační mechanismy. Za prvé, výkony pod „úrovní hodnocení“ se nesledují, takže hráče se skutečnými dovednostmi pod úrovní lze pouze nehodnotit nebo přeceňovat, nikdy není správně ohodnocen. Za druhé, zavedení hráči s vyšším hodnocením mají nižší K-faktor. Noví hráči mají K = 40, které klesne na K = 20 po 30 odehraných hrách a na K = 10, když hráč dosáhne 2400. Současný systém v USA obsahuje schéma bonusových bodů, které do systému přivádí body hodnocení za účelem sledování zlepšujících se hráčů a různých hodnot K pro různé hráče. Některé metody, používané například v Norsku, rozlišují mezi juniory a seniory a používají pro mladé hráče větší faktor K, dokonce zvyšují postup hodnocení o 100%, pokud dosahují skóre výrazněji než jejich předpokládaný výkon.

Minimální hodnocení ve Spojených státech funguje tak, že zaručuje, že hráč nikdy neklesne pod určitý limit. To také bojuje proti deflaci, ale předseda Výboru pro hodnocení USCF byl k této metodě kritický, protože nepřináší body navíc zlepšujícím se hráčům. Možným motivem těchto hodnotících úrovní je boj proti pískování, tj. Záměrné snižování hodnocení, aby bylo způsobilé pro sekce a ceny nižších tříd hodnocení.

Hodnocení počítačů

Šachy mezi člověkem a počítačem v letech 1997 ( Deep Blue versus Garry Kasparov ) a 2006 ukázaly, že šachové počítače jsou schopné porazit i ty nejsilnější lidské hráče. Nicméně, šachový stroj hodnocení je obtížné kvantifikovat, vzhledem k proměnných faktorů, jako jsou časové kontroly a hardware je program spuštěn. Zveřejněné seznamy hodnocení motorů, jako je CCRL, jsou založeny na hrách pouze pro motory se standardními hardwarovými konfiguracemi a nejsou přímo srovnatelné s hodnocením FIDE.

Některé odhady hodnocení viz šachový modul § Hodnocení .

Používejte mimo šachy

Atletické sporty

V šachové části šachového boxu se používá systém hodnocení Elo . Aby byl člověk způsobilý k profesionálnímu šachovému boxu, musí mít hodnocení Elo nejméně 1600 a také soutěžit v 50 a více zápasech amatérského boxu nebo bojových umění.

Americký vysokoškolský fotbal používal metodu Elo jako součást svých hodnotících systémů Bowl Championship Series od roku 1998 do roku 2013, poté byl BCS nahrazen play -off College Football . Jeff Sagarin z USA Today vydává žebříčky týmů pro většinu amerických sportů, které zahrnují hodnocení systému Elo pro školní fotbal. Využití systémů hodnocení bylo účinně sešrotováno s vytvořením College Football Playoff v roce 2014; účastníky společné rybářské politiky a souvisejících her na míči vybírá výběrová komise.

V jiných sportech si jednotlivci udržují hodnocení na základě algoritmu Elo. Ty jsou obvykle neoficiální, neschválené řídícím orgánem sportu. The World Football Elo hodnocení je příkladem metody aplikované na pánskou fotbalu . V roce 2006, Elo hodnocení byly upraveny pro Major League Baseball týmy Nate Silver , pak Baseball Prospectus . Na základě této adaptace oba také vytvořili simulace Monte Carla založené na Elo, které ukazují, zda se týmy dostanou do play-off. V roce 2014 společnost Beyond the Box Score, stránka SB Nation , zavedla systém hodnocení Elo pro mezinárodní baseball.

V tenise hodnotí Universal Tennis Rating (UTR) založené na Elo hráče v globálním měřítku bez ohledu na věk, pohlaví nebo národnost. Jedná se o oficiální systém hodnocení hlavních organizací, jako je Intercollegiate Tennis Association a World TeamTennis, a často se používá v segmentech na Tennis Channel . Algoritmus analyzuje více než 8 milionů výsledků zápasů od více než 800 000 tenistů na celém světě. 8. května 2018 měl Rafael Nadal -když vyhrál 46 po sobě jdoucích sad v antukových kurtech-téměř dokonalý antukový UTR 16,42.

Jedním z mála žebříčků založených na Elo schválených řídícím orgánem sportu je světový žebříček žen FIFA , založený na zjednodušené verzi algoritmu Elo, který FIFA používá jako svůj oficiální systém hodnocení národních týmů v ženském fotbale .

Z prvního žebříčku po mistrovství světa ve fotbale 2018 FIFA použila Elo pro své světové žebříčky FIFA .

V roce 2015 produkovali Nate Silver, šéfredaktor statistického webového portálu FiveThirtyEight a Reuben Fischer-Baum hodnocení Elo pro každý tým Národní basketbalové asociace a pro sezónu 2014. V roce 2014 společnost FiveThirtyEight vytvořila hodnocení a projekce vítězství založené na Elo pro americkou profesionální národní fotbalovou ligu .

Anglická korfbalová asociace hodnotila týmy na základě hodnocení Elo, aby určila handicapy pro jejich pohárovou soutěž pro sezónu 2011/12.

Byl vytvořen žebříček hráčů National Hockey League založený na Elo . Metrika hokej-Elo hodnotí celkovou oboustrannou hru hráče: bodování A obrana jak v situacích síly, tak v power-play/penaltovém zabití.

Rugbyleagueratings.com používá systém hodnocení Elo k hodnocení mezinárodních a klubových týmů rugbyové ligy .

Ostatní deskové a karetní hry

Národní organizace Scrabble počítají běžně distribuovaná hodnocení Elo s výjimkou Spojeného království , kde se používá jiný systém. North American Scrabble asociace hráčů má největší jmenovitý populaci aktivních členů, číslování asi 2,000 ode dne počátkem roku 2011. Lexulous také používá systém ELO.

Oblíbený First Internet Backgammon Server (FIBS) vypočítává hodnocení na základě upraveného systému Elo. Novým hráčům je přiděleno hodnocení 1500, přičemž nejlepší lidé a roboti mají hodnocení přes 2000. Stejný vzorec převzalo několik dalších stránek pro vrhcáby, jako jsou Play65 , DailyGammon , GoldToken a VogClub . VogClub stanoví hodnocení nového hráče na 1600. Britská federace backgammonů používá pro svá britská národní hodnocení vzorec FIBS.

European Go federace přijala elo založený původně propagoval Českou Go federace.

Navzdory otázkám o vhodnosti používání systému Elo k hodnocení her, ve kterých hraje roli štěstí, výrobci karetních her s obchodními kartami často používají hodnocení Elo pro své organizované herní úsilí. DCI (dříve duelists' Shromáždění International) používá ELO stanovení sazeb pro turnajích Magic: the Gathering a další Wizards of the Coast her. V roce 2012 však DCI od tohoto systému upustilo ve prospěch nového kumulativního systému „Planeswalker Points“, a to především z důvodu výše uvedených obav, že Elo vybízí hráče s vysokým hodnocením, aby se vyhnuli hře „za účelem ochrany svého hodnocení“. Pokémon USA používá systém Elo k hodnocení svých konkurentů organizovaných her TCG. Ceny pro špičkové hráče v různých regionech zahrnovaly prázdniny a pozvání na mistrovství světa až do sezóny 2011–2012, kde byly ceny založeny na systému mistrovských bodů, jejichž odůvodnění je stejné jako u DCI pro Magic: The Gathering . Podobně společnost Decipher, Inc. používala systém Elo pro své hodnocené hry, jako je Star Trek Customizable Card Game a Star Wars Customizable Card Game .

Video hry a online hry

Mnoho videoher používá v konkurenčním hraní upravené systémy Elo. MOBA hry League of Legends použil elo před druhou sezónu konkurenční hry. Esports hra Overwatch , je základem jedinečného Overwatch League profesionální sportovní organizací , používá derivát systému Elo zařadit výkonnostní hráče s různými úpravami mezi soutěžní sezóny. Counter-Strike: Global Offensive a GO Battle League v Pokemon Go používá Glicko-2 , upravený systém Elo, zatímco mimo profesionální ligy pro hru (například ESEA League a Faceit ) používají hodnocení Elo. World of Warcraft také dříve používal systém Glicko-2 ke spojování a porovnávání hráčů Arena, ale nyní používá systém podobný systému TrueSkill od Microsoftu . Hra Puzzle Pirates používá systém hodnocení Elo k určení pořadí v různých hádankách. Roblox představil hodnocení Elo v roce 2010. Tento systém se používá také ve FIFA Mobile pro režimy Division Rivals. Prohlížečová hra Quidditch Manager používá k měření výkonnosti týmu hodnocení Elo. Další nedávnou hrou, která začala používat systém hodnocení Elo, je AirMech , který používá hodnocení Elo pro náhodné/týmové dohazování 1v1, 2v2 a 3v3. RuneScape 3 použil systém Elo při vydání minihry lovců odměn v roce 2016. Mechwarrior Online zavedl systém Elo pro svůj nový režim „Comp Queue“, účinný s patchem 20. června 2017.

Jen málo videoher používá původní systém hodnocení Elo. Podle Lichess , online šachového serveru, je systém Elo zastaralý a Glicko-2 nyní používá mnoho šachových organizací. PlayerUnknown's Battlegrounds je jednou z mála videoher, která využívá úplně první systém Elo. Ve hře Guild Wars se hodnocení Elo používá k zaznamenávání hodnocení cechu získaného a ztraceného v cechovních bitvách. League of Legends původně používalo pro hodnocené hraní klasický systém Elo, ale po třetí sezóně přešlo na jedinečný systém hodnocení. Různé další online hry používají hodnocení Elo pro hodnocení hráčů proti hráčům. Od roku 2005 Golden Tee Live hodnotí hráče na základě systému Elo. Noví hráči začínají na 2100 s hodnocením nejlepších hráčů přes 3000. Počáteční K-hodnota byla 30, ale v lednu 2007 byla změněna na 5, v červenci 2009 pak změněna na 15. V roce 1998 byl spuštěn online herní žebříček s názvem Clanbase , který používal k hodnocení týmů bodovací systém Elo. Stránka byla později offline v roce 2013. Podobná alternativní stránka byla spuštěna v roce 2016 pod názvem Scrimbase , která také používala bodovací systém Elo pro hodnocení týmů.

Navzdory mnoha videohrám využívajícím různé systémy pro dohazování , je běžné, že hráči hodnocených videoher označují všechna hodnocení dohazování jako Elo .

Jiné použití

V měkké biometrii se používá systém hodnocení Elo , který se týká identifikace jedinců pomocí popisu člověka. Srovnávací popisy byly použity společně s hodnotícím systémem Elo, aby poskytly robustní a diskriminační „relativní měření“, což umožňuje přesnou identifikaci.

Systém hodnocení Elo byl také použit v biologii pro hodnocení hierarchií dominance mužů a v automatizaci a počítačovém vidění pro inspekci tkanin .

Kromě toho, on-line rozhodčí místa jsou také pomocí elo nebo jeho deriváty. Topcoder například používá upravenou verzi založenou na normální distribuci, zatímco Codeforces používá jinou verzi založenou na logistické distribuci.

Systém hodnocení Elo byl zaznamenán také v seznamovacích aplikacích, například v aplikaci pro hledání zápasů Tinder , která používá variantu systému hodnocení Elo.

Reference v médiích

Systém hodnocení Elo byl prominentně uveden v sociální síti během scény algoritmu, kde Mark Zuckerberg vydal Facemash . Ve scéně Eduardo Saverin píše matematické vzorce pro systém hodnocení Elo na okno Zuckerbergovy koleje. V zákulisí, tvrdí film, je systém Elo využíván k hodnocení dívek podle jejich atraktivity. Rovnice pohánějící algoritmus jsou krátce zobrazeny napsané na okně; jsou však mírně nesprávné.

Viz také

Systém hodnocení šachů , pojednává o dalších systémech hodnocení šachů
Systém hodnocení Glicko , metody hodnocení vyvinuté Markem Glickmanem
Elo peklo
Model Bradley – Terry

Poznámky

Reference

Další čtení

Elo, Arpad (1986). Hodnocení šachistů, minulost a současnost (druhé vydání.). Arco. ISBN 978-0-668-04721-0.
Harkness, Kenneth (1967). Oficiální šachová příručka . McKay.

externí odkazy

Mark Glickman's research page, with a number of links to technical papers on chess rating systems

Languages

In other projects