Elo-Zahl

Aus besserwiki.de
Arpad Elo, der Erfinder des Elo-Bewertungssystems

Das Elo-Bewertungssystem ist eine Methode zur Berechnung der relativen Fähigkeiten von Spielern in Nullsummenspielen wie Schach. Benannt ist es nach seinem Erfinder Arpad Elo, einem ungarisch-amerikanischen Physikprofessor.

Das Elo-System wurde ursprünglich als verbessertes Schach-Bewertungssystem gegenüber dem zuvor verwendeten Harkness-System erfunden, wird aber auch als Bewertungssystem im Vereinsfußball, American Football, Baseball, Basketball, Poolbillard, Tischtennis, Go, bei Brettspielen wie Scrabble und Diplomacy sowie im Esport verwendet.

Der Unterschied in der Bewertung zwischen zwei Spielern dient als Vorhersage für den Ausgang eines Spiels. Wenn zwei Spieler mit gleicher Bewertung gegeneinander spielen, wird erwartet, dass sie die gleiche Anzahl von Siegen erzielen. Ein Spieler, dessen Wertung um 100 Punkte höher ist als die seines Gegners, wird voraussichtlich 64 % erzielen; beträgt der Unterschied 200 Punkte, so liegt die erwartete Punktzahl des stärkeren Spielers bei 76 %.

Die Elozahl eines Spielers wird durch eine Zahl dargestellt, die sich je nach dem Ergebnis der gespielten gewerteten Partien ändern kann. Nach jedem Spiel nimmt der Gewinner dem Verlierer Punkte ab. Die Differenz zwischen der Wertung des Gewinners und des Verlierers bestimmt die Gesamtzahl der gewonnenen oder verlorenen Punkte nach einem Spiel. Gewinnt der höher bewertete Spieler, werden dem niedriger bewerteten Spieler nur wenige Punkte abgezogen. Gelingt dem niedriger eingestuften Spieler jedoch ein Überraschungssieg, werden ihm viele Punkte abgezogen. Im Falle eines Unentschiedens erhält der niedriger eingestufte Spieler ebenfalls einige Punkte vom höher eingestuften Spieler. Das bedeutet, dass dieses Bewertungssystem selbstkorrigierend ist. Spieler, deren Bewertung zu niedrig oder zu hoch ist, sollten auf lange Sicht entsprechend besser oder schlechter abschneiden, als es das Bewertungssystem vorhersagt, und somit Bewertungspunkte gewinnen oder verlieren, bis die Bewertungen ihre wahre Spielstärke widerspiegeln.

Elo-Ratings sind nur vergleichend und gelten nur innerhalb des Rating-Pools, in dem sie berechnet wurden, und sind kein absolutes Maß für die Stärke eines Spielers.

Go

Ausgehend vom Bradley-Terry-Modell (benannt nach R. A. Bradley und M. E. Terry, die es im Jahr 1952 präsentierten), das wiederum auf einer Arbeit von Ernst Zermelo aus den 1920er Jahren basiert, entwickelte Arpad Elo 1960 ein objektives Wertungssystem für den US-amerikanischen Schachverband USCF. Es wurde 1970 auf dem Kongress in Siegen vom Weltschachverband FIDE übernommen. Der Weltschachverband nennt sein System FIDE rating system. Eine Wertungszahl heißt offiziell FIDE rating, wird umgangssprachlich aber zumeist einfach als „Elo-Zahl“ bezeichnet. Neben dem internationalen Wertungssystem der FIDE existieren auch nationale Wertungssysteme mit unterschiedlichen Namen. In Deutschland heißt das nationale Wertungssystem Deutsche Wertungszahl (DWZ), in Österreich werden (nationale) Elo-Zahlen berechnet, und in der Schweiz gibt es eine Führungsliste mit Führungszahlen. Diese Systeme werten wesentlich mehr lokale Turniere aus, berechnen die Wertungszahlen aber ebenso nach den Methoden von Arpad Elo mit meist nur geringen Modifikationen und abweichenden Faktoren.

Geschichte

Arpad Elo war ein Schachspieler auf Meisterebene und ein aktiver Teilnehmer des amerikanischen Schachverbands (USCF) seit dessen Gründung im Jahr 1939. Der USCF verwendete ein numerisches Bewertungssystem, das von Kenneth Harkness entwickelt wurde, um den Mitgliedern die Möglichkeit zu geben, ihre individuellen Fortschritte anhand von anderen Kriterien als Turniersiegen und -niederlagen zu verfolgen. Das Harkness-System war einigermaßen fair, führte aber unter bestimmten Umständen zu Bewertungen, die viele Beobachter für ungenau hielten. Im Auftrag des USCF entwickelte Elo ein neues System mit einer solideren statistischen Grundlage. Etwa zur gleichen Zeit entwickelten György Karoly und Roger Cook unabhängig voneinander für den Schachverband von New South Wales ein System, das auf den gleichen Prinzipien beruhte.

Das Elo-System ersetzte frühere Systeme zur Belohnung von Wettkämpfen durch ein System, das auf statistischen Schätzungen beruht. Bewertungssysteme für viele Sportarten vergeben Punkte in Übereinstimmung mit subjektiven Einschätzungen der "Größe" bestimmter Leistungen. So kann beispielsweise der Sieg bei einem wichtigen Golfturnier fünfmal so viele Punkte wert sein wie der Sieg bei einem weniger wichtigen Turnier.

Bei einem statistischen Verfahren wird dagegen ein Modell verwendet, das die Spielergebnisse mit zugrunde liegenden Variablen in Beziehung setzt, die die Fähigkeiten der einzelnen Spieler darstellen.

Die zentrale Annahme von Elo war, dass die Schachleistung jedes Spielers in jeder Partie eine normalverteilte Zufallsvariable ist. Obwohl ein Spieler von einer Partie zur nächsten deutlich besser oder schlechter abschneiden kann, ging Elo davon aus, dass sich der Mittelwert der Leistungen eines jeden Spielers im Laufe der Zeit nur langsam verändert. Elo betrachtete das tatsächliche Können eines Spielers als den Mittelwert der Zufallsvariablen der Leistung dieses Spielers.

Eine weitere Annahme ist notwendig, weil die Schachleistung im obigen Sinne immer noch nicht messbar ist. Man kann sich nicht eine Folge von Zügen ansehen und daraus eine Zahl ableiten, die das Können des Spielers darstellt. Die Leistung kann nur aus Siegen, Unentschieden und Niederlagen abgeleitet werden. Wenn also ein Spieler eine Partie gewinnt, wird davon ausgegangen, dass er in dieser Partie eine höhere Leistung als sein Gegner erbracht hat. Verliert der Spieler hingegen, wird davon ausgegangen, dass er eine niedrigere Leistung erbracht hat. Bei einem Unentschieden wird davon ausgegangen, dass die Leistungen der beiden Spieler nahezu gleich sind.

Elo hat nicht genau festgelegt, wie nahe zwei Leistungen beieinander liegen müssen, damit es zu einem Unentschieden im Gegensatz zu einem Sieg oder einer Niederlage kommt. Tatsächlich gibt es eine Wahrscheinlichkeit für ein Unentschieden, die von der Leistungsdifferenz abhängt, so dass es sich eher um ein Konfidenzintervall als um eine deterministische Grenze handelt. Und obwohl er es für wahrscheinlich hielt, dass die Spieler unterschiedliche Standardabweichungen ihrer Leistungen haben könnten, hat er eine gegenteilige, vereinfachende Annahme getroffen.

Um die Berechnung noch weiter zu vereinfachen, schlug Elo eine unkomplizierte Methode zur Schätzung der Variablen in seinem Modell vor (d. h. der wahren Fähigkeiten der einzelnen Spieler). Anhand von Tabellen konnte man relativ einfach berechnen, wie viele Partien die Spieler im Vergleich zu ihren Gegnern voraussichtlich gewinnen würden. Die Bewertung eines Spielers, der mehr Partien als erwartet gewonnen hat, würde nach oben korrigiert, während die Bewertung eines Spielers, der weniger Partien als erwartet gewonnen hat, nach unten korrigiert würde. Außerdem sollte diese Anpassung linear proportional zu der Anzahl der Siege erfolgen, um die der Spieler die erwartete Anzahl über- oder unterschritten hatte.

Aus heutiger Sicht sind die vereinfachenden Annahmen von Elo nicht notwendig, da die Rechenleistung kostengünstig und weithin verfügbar ist. Mehrere Personen, vor allem Mark Glickman, haben vorgeschlagen, anspruchsvollere statistische Verfahren zur Schätzung derselben Variablen zu verwenden. Andererseits hat sich die rechnerische Einfachheit des Elo-Systems als einer seiner größten Vorteile erwiesen. Mit Hilfe eines Taschenrechners kann ein informierter Schachspieler bis auf einen Punkt genau ausrechnen, wie seine nächste offiziell veröffentlichte Wertung ausfallen wird, was dazu beiträgt, den Eindruck zu vermitteln, dass die Wertungen fair sind.

Einführung des Elo-Systems

Der USCF setzte Elos Vorschläge 1960 um, und das System fand schnell Anerkennung, da es sowohl fairer als auch genauer als das Harkness-Rating-System war. Elos System wurde 1970 vom Weltschachbund (FIDE) übernommen. Elo beschrieb seine Arbeit ausführlich in The Rating of Chessplayers, Past and Present, das erstmals 1978 veröffentlicht wurde.

Spätere statistische Tests haben ergeben, dass die Schachleistung mit ziemlicher Sicherheit nicht normalverteilt ist, da schwächere Spieler größere Gewinnchancen haben, als das Elo-Modell vorhersagt. In der Praxis gibt es kaum einen Unterschied zwischen der Form der logistischen und der normalen Kurve. Es spielt also keine Rolle, ob die logistische oder die Normalverteilung für die Berechnung der erwarteten Punktzahlen verwendet wird.

Mathematisch gesehen ist die logistische Funktion jedoch bequemer zu handhaben.

Die FIDE verwendet weiterhin die von der Elo vorgeschlagene Ratingdifferenztabelle.

Die Entwicklung der prozentualen Erwartungstabelle (Tabelle 2.11) wird von Elo wie folgt näher beschrieben:

Die normalen Wahrscheinlichkeiten können direkt aus den Standard den Standardtabellen der Flächen unter der Normalkurve entnommen werden, wenn der Unterschied in der Bewertung als z-Score ausgedrückt wird. Da die Standardabweichung σ der individuellen Leistungen mit 200 Punkten definiert ist, wird die Standardabweichung σ' der Leistungsunterschiede σ√2 oder 282,84. Der z-Wert eines Differenz ist dann D/282,84. Damit wird die Fläche unter der Kurve Kurve in zwei Teile, wobei der größere Teil P für den höher bewerteten Spieler und den kleineren, der P für den niedriger bewerteten Spieler ergibt.

Ein Beispiel: D = 160. Dann ist z = 160/282,84 = 0,566. Die Tabelle gibt .7143 und .2857 als die Flächen der beiden Teile unter der Kurve an. Diese Wahrscheinlichkeiten werden in Tabelle 2.11 auf zwei Zahlen gerundet.

Die Tabelle ist mit der Standardabweichung 2000/7 als Näherung für 200√2 erstellt worden.

Die Normalverteilung und die logistische Verteilung sind in gewisser Weise willkürliche Punkte in einem Spektrum von Verteilungen, die gut funktionieren würden. In der Praxis funktionieren diese beiden Verteilungen sehr gut für eine Reihe verschiedener Spiele.

Verschiedene Bewertungssysteme

Der Ausdruck "Elo-Rating" wird oft verwendet, um das von der FIDE berechnete Schachrating eines Spielers zu bezeichnen. Diese Verwendung ist jedoch verwirrend und irreführend, da die allgemeinen Ideen von Elo von vielen Organisationen übernommen wurden, darunter der USCF (vor der FIDE), viele andere nationale Schachverbände, die kurzlebige Professional Chess Association (PCA) und Online-Schachserver wie der Internet Chess Club (ICC), Free Internet Chess Server (FICS) und Yahoo! Games. Jede Organisation hat eine eigene Implementierung, und keine von ihnen hält sich genau an die ursprünglichen Vorschläge von Elo. Es wäre genauer, alle oben genannten Ratings als Elo-Rating zu bezeichnen und keines von ihnen als Elo-Rating.

Stattdessen kann man sich auf die Organisation beziehen, die das Rating vergibt. Zum Beispiel: "Im August 2002 hatte Gregory Kaidanov ein FIDE-Rating von 2638 und ein USCF-Rating von 2742." Die Elo-Bewertungen dieser verschiedenen Organisationen sind nicht immer direkt vergleichbar, da Elo-Bewertungen die Ergebnisse innerhalb eines geschlossenen Pools von Spielern und nicht das absolute Können messen. Es gibt auch Unterschiede in der Art und Weise, wie die Organisationen Elo-Ratings einsetzen.

FIDE-Ratings

Für Spitzenspieler ist die wichtigste Bewertung ihre FIDE-Bewertung. Die FIDE hat die folgenden Listen herausgegeben:

  • Von 1971 bis 1980 wurde eine Liste pro Jahr herausgegeben.
  • Von 1981 bis 2000 wurden zwei Listen pro Jahr herausgegeben, im Januar und im Juli.
  • Von Juli 2000 bis Juli 2009 wurden vier Listen pro Jahr herausgegeben, jeweils zu Beginn der Monate Januar, April, Juli und Oktober.
  • Von Juli 2009 bis Juli 2012 wurden sechs Listen pro Jahr herausgegeben, und zwar zu Beginn der Monate Januar, März, Mai, Juli, September und November.
  • Seit Juli 2012 wird die Liste monatlich aktualisiert.

Die folgende Analyse der FIDE-Ratingliste vom Juli 2015 vermittelt einen groben Eindruck davon, was ein bestimmtes FIDE-Rating in Bezug auf die Weltrangliste bedeutet:

  • 5323 Spieler hatten ein aktives Rating im Bereich von 2200 bis 2299, was in der Regel mit dem Titel Candidate Master verbunden ist.
  • 2869 Spieler hatten eine aktive Wertung im Bereich von 2300 bis 2399, was in der Regel mit dem FIDE-Meistertitel verbunden ist.
  • 1420 Spieler hatten eine aktive Wertung zwischen 2400 und 2499, von denen die meisten entweder den Titel Internationaler Meister oder Internationaler Großmeister trugen.
  • 542 Spieler hatten eine aktive Wertung zwischen 2500 und 2599, von denen die meisten den Titel eines Internationalen Großmeisters trugen.
  • 187 Spieler hatten eine aktive Wertung zwischen 2600 und 2699, die alle den Titel eines Internationalen Großmeisters trugen.
  • 40 Spieler hatten ein aktives Rating zwischen 2700 und 2799.
  • 4 Spieler hatten ein aktives Rating von über 2800. (Magnus Carlsen wurde mit 2853 bewertet, und 3 Spieler hatten eine Bewertung zwischen 2814 und 2816).

Das höchste FIDE-Rating aller Zeiten war 2882, das Magnus Carlsen auf der Liste vom Mai 2014 hatte. Eine Liste der am höchsten bewerteten Spieler aller Zeiten finden Sie unter Vergleich der besten Schachspieler der Geschichte.

Leistungsbewertung

1.00 +800
0.99 +677
0.9 +366
0.8 +240
0.7 +149
0.6 +72
0.5 0
0.4 −72
0.3 −149
0.2 −240
0.1 −366
0.01 −677
0.00 −800

Die Leistungsbewertung oder spezielle Bewertung ist eine hypothetische Bewertung, die sich nur aus den Partien einer einzigen Veranstaltung ergeben würde. Einige Schachorganisationen verwenden den "Algorithmus von 400" zur Berechnung der Leistungsbewertung. Nach diesem Algorithmus wird die Leistungsbewertung für eine Veranstaltung wie folgt berechnet:

  1. Für jeden Sieg wird die Wertung des Gegners plus 400 addiert,
  2. Für jede Niederlage addieren Sie die Wertung Ihres Gegners minus 400,
  3. Diese Summe wird dann durch die Anzahl der gespielten Partien geteilt.

Beispiel: 2 Siege, 2 Niederlagen

Dies kann durch die folgende Formel ausgedrückt werden:

Beispiel: Wenn Sie einen Spieler mit einer Elozahl von 1000 besiegen,

Wenn Sie zwei Spieler mit einer Elo-Zahl von 1000 besiegen,

Wenn Sie unentschieden spielen,

Dies ist eine Vereinfachung, aber sie bietet eine einfache Möglichkeit, eine Schätzung der PR (Performance Rating) zu erhalten.

Die FIDE hingegen berechnet die Leistungsbewertung mit Hilfe der Formel: Ratingdurchschnitt des Gegners + Ratingdifferenz. Ratingdifferenz basiert auf der prozentualen Turnierpunktzahl eines Spielers die dann als Schlüssel in einer Nachschlagetabelle verwendet wird, in der einfach die Anzahl der erzielten Punkte geteilt durch die Anzahl der gespielten Partien ist. Beachten Sie, dass im Falle einer perfekten oder keiner Punktzahl 800 ist. Die vollständige Tabelle ist im Manual de la FIDE, B. Permanente Kommissionen, 02. FIDE Rating Regulations (Qualifikationskommission), FIDE Rating Regulations effective from 1 July 2017, 8.1a online zu finden. Eine vereinfachte Version dieser Tabelle finden Sie rechts.

Live-Ratings

Die FIDE aktualisiert ihre Ratingliste zu Beginn eines jeden Monats. Im Gegensatz dazu berechnen die inoffiziellen "Live-Ratings" die Veränderung der Spielerbewertungen nach jeder Partie. Diese Live-Ratings basieren auf den zuvor veröffentlichten FIDE-Ratings, so dass das Live-Rating eines Spielers dem FIDE-Rating entsprechen soll, das sich ergeben würde, wenn die FIDE an diesem Tag eine neue Liste veröffentlichen würde.

Obwohl Live-Ratings inoffiziell sind, entstand das Interesse an Live-Ratings im August/September 2008, als fünf verschiedene Spieler die "Live"-Rangliste auf Platz 1 führten.

Die inoffiziellen Live-Ratings von Spielern über 2700 wurden bis August 2011 von Hans Arild Runde auf der Live-Rating-Website veröffentlicht und gepflegt. Eine weitere Website, 2700chess.com, wird seit Mai 2011 von Artiom Tsepotan betrieben, die die 100 besten Spieler und die 50 besten Spielerinnen umfasst.

Ratingveränderungen können manuell mit dem FIDE-Ratingveränderungsrechner berechnet werden. Alle Spitzenspieler haben einen K-Faktor von 10, was bedeutet, dass die maximale Ratingänderung bei einer einzigen Partie etwas weniger als 10 Punkte beträgt.

Ratings der United States Chess Federation

Die United States Chess Federation (USCF) verwendet ihre eigene Klassifizierung von Spielern:

  • 2400 und darüber: Senior Meister
  • 2200-2399: Nationaler Meister
    • 2200-2399 plus 300 Partien über 2200: Original Life Master
  • 2000-2199: Expert oder Candidate Master
  • 1800-1999: Klasse A
  • 1600-1799: Klasse B
  • 1400-1599: Klasse C
  • 1200-1399: Klasse D
  • 1000-1199: Klasse E
  • 800-999: Klasse F
  • 600-799: Klasse G
  • 400-599: Klasse H
  • 200-399: Klasse I
  • 100-199: Klasse J

Der von der USCF verwendete K-Faktor

Der K-Faktor im USCF-Ratingsystem kann geschätzt werden, indem 800 durch die effektive Anzahl der Partien, auf denen die Bewertung eines Spielers basiert (Ne), plus die Anzahl der Partien, die der Spieler in einem Turnier absolviert hat (m), geteilt wird.

Wertungsgrenzen

Der USCF hält eine absolute Untergrenze von 100 für alle Wertungen aufrecht. Somit kann kein Mitglied eine Wertung unter 100 haben, unabhängig von seiner Leistung bei von der USCF anerkannten Veranstaltungen. Spieler können jedoch höhere individuelle absolute Ratingwerte haben, die nach der folgenden Formel berechnet werden:

wobei die Anzahl der gewonnenen gewerteten Partien ist, die Anzahl der bewerteten Partien, die Remis sind, und die Anzahl der Veranstaltungen ist, bei denen der Spieler drei oder mehr gewertete Partien absolviert hat.

Für erfahrene Spieler, die eine hohe Wertung erreicht haben, gibt es höhere Wertungsgrenzen. Solche höheren Rating-Floors gibt es ab einem Rating von 1200 in 100-Punkte-Schritten bis zu 2100 (1200, 1300, 1400, ..., 2100). Eine Mindestpunktzahl wird errechnet, indem man die Höchstpunktzahl des Spielers nimmt, 200 Punkte abzieht und dann auf die nächste Mindestpunktzahl abrundet. Ein Spieler, der beispielsweise eine Höchstpunktzahl von 1464 erreicht hat, hätte eine Mindestpunktzahl von 1464 - 200 = 1264, die auf 1200 abgerundet wird. Nach diesem Schema können nur Spieler der Klasse C und höher eine höhere Mindestpunktzahl haben als ihre absolute Spielerbewertung. Alle anderen Spieler hätten eine Untergrenze von höchstens 150.

Es gibt zwei Möglichkeiten, höhere Rating-Floors zu erreichen als nach dem oben dargestellten Standardschema. Wenn ein Spieler den Titel "Original Life Master" erlangt hat, wird seine Mindestpunktzahl auf 2200 festgelegt. Die Erlangung dieses Titels ist insofern einzigartig, als dass kein anderer anerkannter USCF-Titel zu einer neuen Mindestpunktzahl führt. Bei Spielern mit einer Wertung unter 2000 wird durch den Gewinn eines Geldpreises in Höhe von 2.000 $ oder mehr die Wertungsuntergrenze auf die nächstgelegene 100-Punkte-Stufe angehoben, die den Spieler für die Teilnahme an dem Turnier disqualifiziert hätte. Wenn ein Spieler beispielsweise 4.000 $ in einem Turnier mit einem Rating von 1750 und darunter gewonnen hat, hätte er jetzt ein Rating von 1800.

Theorie

Paarweise Vergleiche bilden die Grundlage der Elo-Rating-Methodik. Elo bezieht sich dabei auf die Arbeiten von Good, David, Trawinski und David sowie Buhlman und Huber.

Mathematische Details

Die Leistung wird nicht absolut gemessen; sie wird aus Siegen, Niederlagen und Unentschieden gegen andere Spieler abgeleitet. Die Bewertungen der Spieler hängen von den Bewertungen ihrer Gegner und den gegen sie erzielten Ergebnissen ab. Der Unterschied in der Bewertung zwischen zwei Spielern bestimmt eine Schätzung für die erwartete Punktzahl zwischen ihnen. Sowohl der Durchschnitt als auch die Streuung der Wertungen können willkürlich gewählt werden. Elo schlug vor, die Ratings so zu skalieren, dass ein Unterschied von 200 Ratingpunkten im Schach bedeutet, dass der stärkere Spieler eine erwartete Punktzahl (die im Grunde eine erwartete Durchschnittspunktzahl ist) von etwa 0,75 hat, und der USCF strebte ursprünglich an, dass ein durchschnittlicher Clubspieler ein Rating von 1500 hat.

Die erwartete Punktzahl eines Spielers ist seine Gewinnwahrscheinlichkeit plus die Hälfte seiner Remiswahrscheinlichkeit. Eine erwartete Punktzahl von 0,75 könnte also eine Gewinnchance von 75 %, eine Verlustchance von 25 % und eine Remiswahrscheinlichkeit von 0 % bedeuten. Im anderen Extremfall könnte es eine 50%ige Gewinnchance, eine 0%ige Verlustchance und eine 50%ige Ziehungswahrscheinlichkeit bedeuten. Die Wahrscheinlichkeit eines Unentschiedens, im Gegensatz zu einem entscheidenden Ergebnis, ist im Elo-System nicht festgelegt. Stattdessen wird ein Unentschieden zur Hälfte als Sieg und zur Hälfte als Verlust gewertet. Da in der Praxis die tatsächliche Stärke der einzelnen Spieler nicht bekannt ist, werden die erwarteten Punktzahlen anhand der aktuellen Bewertungen der Spieler wie folgt berechnet.

Wenn Spieler A eine Bewertung von und Spieler B eine Bewertung von so lautet die genaue Formel (unter Verwendung der logistischen Kurve zur Basis 10) für die erwartete Punktzahl von Spieler A

Analog dazu lautet die erwartete Punktzahl für Spieler B

Dies könnte auch ausgedrückt werden durch

und

wobei und Beachten Sie, dass im letzteren Fall für beide Ausdrücke derselbe Nenner gilt, und es ist klar, dass Das heißt, wenn man nur die Zähler betrachtet, stellt man fest, dass die erwartete Punktzahl für Spieler A Daraus folgt, dass für jede 400 Ratingpunkte Vorsprung vor dem Gegner die erwartete Punktzahl im Vergleich zur erwarteten Punktzahl des Gegners verzehnfacht wird.

Wenn die tatsächlichen Turnierergebnisse eines Spielers die erwarteten Ergebnisse übersteigen, nimmt das Elo-System dies als Beweis dafür, dass die Bewertung des Spielers zu niedrig ist und nach oben korrigiert werden muss. Wenn die tatsächlichen Turnierergebnisse eines Spielers hinter den erwarteten Ergebnissen zurückbleiben, wird die Bewertung des Spielers entsprechend nach unten korrigiert. Der ursprüngliche Vorschlag von Elo, der immer noch weit verbreitet ist, war eine einfache lineare Anpassung proportional zu dem Betrag, um den ein Spieler sein erwartetes Ergebnis über- oder unterschritten hat. Die maximal mögliche Anpassung pro Spiel, der so genannte K-Faktor, wurde festgelegt auf für Meister und für schwächere Spieler.

Angenommen, Spieler A (wiederum mit der Bewertung ) würde erwartungsgemäß Punkte erzielt, tatsächlich aber Punkte. Die Formel für die Aktualisierung der Bewertung dieses Spielers lautet

Diese Aktualisierung kann nach jedem Spiel oder jedem Turnier oder nach einem beliebigen Bewertungszeitraum vorgenommen werden.

Ein Beispiel kann zur Verdeutlichung beitragen:

Angenommen, Spieler A hat eine Wertung von 1613 und nimmt an einem Turnier mit fünf Runden teil. Er verliert gegen einen Spieler mit der Wertung 1609, spielt unentschieden gegen einen Spieler mit der Wertung 1477, besiegt einen Spieler mit der Wertung 1388, besiegt einen Spieler mit der Wertung 1586 und verliert gegen einen Spieler mit der Wertung 1720. Die tatsächliche Punktzahl des Spielers ist (0 + 0,5 + 1 + 1 + 0) = 2,5. Die erwartete Punktzahl, berechnet nach der obigen Formel, beträgt (0,51 + 0,69 + 0,79 + 0,54 + 0,35) = 2,88 . Die neue Wertung des Spielers ist also [1613 + 32-(2,5 - 2,88)] = 1601 , vorausgesetzt, es wird ein K-Faktor von 32 verwendet. Entsprechend kann man sagen, dass der Spieler in jedem Spiel ein Ante in Höhe des K-fachen seiner erwarteten Punktzahl für das Spiel in einen Pott einzahlt, der gegnerische Spieler tut dasselbe, und der Gewinner erhält den vollen Pott mit dem Wert K; im Falle eines Unentschiedens teilen sich die Spieler den Pott und erhalten Punkte.

Beachten Sie, dass zwei Siege, zwei Niederlagen und ein Unentschieden zwar wie ein gleichwertiges Ergebnis aussehen mögen, aber für Spieler A schlechter sind als erwartet, da seine Gegner im Durchschnitt schlechter bewertet waren. Daher wird Spieler A leicht benachteiligt. Hätte Spieler A zwei Siege, eine Niederlage und zwei Unentschieden erzielt, also insgesamt drei Punkte, wäre dies etwas besser als erwartet gewesen, und die neue Bewertung des Spielers hätte [1613 + 32-(3 - 2,88)] = 1617 betragen.

Dieses Aktualisierungsverfahren ist der Kern der von FIDE, USCF, Yahoo! Games, dem Internet Chess Club (ICC) und dem Free Internet Chess Server (FICS) verwendeten Ratings. Jede Organisation hat jedoch einen anderen Weg eingeschlagen, um mit der den Ratings innewohnenden Unsicherheit umzugehen, insbesondere mit den Ratings von Neulingen, und um das Problem der Inflation/Deflation der Ratings zu lösen. Neuen Spielern werden vorläufige Ratings zugewiesen, die drastischer angepasst werden als etablierte Ratings.

Die in diesen Bewertungssystemen angewandten Grundsätze können auch für die Bewertung anderer Wettbewerbe verwendet werden, beispielsweise für internationale Fußballspiele.

Elo-Ratings wurden auch auf Spiele ohne die Möglichkeit eines Unentschiedens und auf Spiele angewendet, bei denen das Ergebnis neben der Qualität (Sieg/Niederlage) auch eine Quantität (kleine/große Marge) haben kann. Siehe Go-Bewertung mit Elo für weitere Informationen.

Genauestes Verteilungsmodell

Das erste mathematische Problem, mit dem sich die USCF befasste, war die Verwendung der Normalverteilung. Es wurde festgestellt, dass diese die tatsächlichen Ergebnisse nicht genau wiedergibt, insbesondere bei Spielern mit niedrigerem Rating. Stattdessen wurde ein logistisches Verteilungsmodell verwendet, das nach Ansicht des USCF die tatsächlich erzielten Ergebnisse besser abbildet. Auch die FIDE verwendet eine Annäherung an die logistische Verteilung.

Der genaueste K-Faktor

Das zweite wichtige Anliegen ist der korrekte "K-Faktor", der verwendet wird. Der Schachstatistiker Jeff Sonas glaubt, dass der ursprüngliche Wert (für Spieler mit einer Wertung über 2400) in der Arbeit von Elo ungenau ist. Wenn der K-Faktor-Koeffizient zu hoch angesetzt wird, gibt es eine zu große Empfindlichkeit gegenüber einigen wenigen, kürzlich stattgefundenen Ereignissen, in Form einer großen Anzahl von ausgetauschten Punkten in jeder Partie. Ist der K-Faktor zu niedrig, ist die Empfindlichkeit minimal, und das System reagiert nicht schnell genug auf Veränderungen im tatsächlichen Leistungsniveau eines Spielers.

Die ursprüngliche K-Faktor-Schätzung von Elo wurde ohne den Nutzen riesiger Datenbanken und statistischer Daten vorgenommen. Sonas weist darauf hin, dass ein K-Faktor von 24 (für Spieler mit einer Wertungszahl von über 2400) sowohl als Vorhersageinstrument für künftige Leistungen als auch in Bezug auf die Leistung präziser sein könnte.

Einige Schachseiten im Internet scheinen eine dreistufige K-Faktor-Staffelung auf der Grundlage des Ratingbereichs zu vermeiden. Der ICC beispielsweise scheint einen globalen K=32 anzunehmen, außer bei Spielen gegen vorläufig bewertete Spieler.

Der USCF (der eine logistische Verteilung im Gegensatz zu einer Normalverteilung verwendet) hat früher den K-Faktor nach drei Hauptbewertungsbereichen gestaffelt:

K-Faktor Verwendet für Spieler mit Ratings ...
unter 2100
zwischen 2100 und 2400
über 2400

Derzeit verwendet der USCF eine Formel, die den K-Faktor auf der Grundlage von Faktoren wie der Anzahl der gespielten Partien und der Bewertung des Spielers berechnet. Der K-Faktor wird für hoch eingestufte Spieler auch reduziert, wenn die Veranstaltung kürzere Zeitkontrollen hat.

Die FIDE verwendet die folgenden Bereiche:

K-Faktor Wird für Spieler mit Ratings verwendet ...
für einen Spieler, der neu in die Ratingliste aufgenommen wird, bis zum Abschluss von Veranstaltungen mit insgesamt 30 Spielen, und für alle Spieler bis zu ihrem 18. Geburtstag, solange ihr Rating unter 2300 bleibt.
für Spieler, die immer unter 2400 bewertet wurden.
für Spieler mit einer veröffentlichten Wertung von mindestens 2400 und mindestens 30 gespielten Partien in früheren Veranstaltungen. Danach bleibt sie dauerhaft bei 10.

Vor Juli 2014 verwendete die FIDE die folgenden Bereiche:

K-Faktor! Wird für Spieler mit Ratings verwendet ...

(war 25)
für einen Spieler, der neu in die Ratingliste aufgenommen wurde, bis zum Abschluss von Veranstaltungen mit insgesamt 30 Spielen.
für Spieler, die immer unter 2400 bewertet wurden.
für Spieler mit einer veröffentlichten Wertung von mindestens 2400 und mindestens 30 gespielten Partien in früheren Veranstaltungen. Danach bleibt sie dauerhaft bei 10.

Durch die Abstufung des K-Faktors werden Ratingveränderungen am oberen Ende des Ratingbereichs reduziert, wodurch die Möglichkeit eines schnellen Anstiegs oder Falls des Ratings für Spieler mit einem Rating, das hoch genug ist, um einen niedrigen K-Faktor zu erreichen, verringert wird.

Theoretisch könnte dies gleichermaßen für Online-Schachspieler und Spieler am Brett gelten, da es für alle Spieler schwieriger ist, ihr Rating zu erhöhen, nachdem ihr Rating hoch geworden ist und ihr K-Faktor folglich reduziert wurde. Beim Online-Spielen können Spieler mit einer Wertungszahl von 2800+ ihre Wertungszahl jedoch leichter erhöhen, indem sie einfach Gegner mit hohen Wertungszahlen auswählen - auf der ICC-Spielseite kann ein Großmeister gegen eine Reihe verschiedener Gegner spielen, die alle eine Wertungszahl von über 2700 haben. Bei Turnieren mit offenem Brett könnte ein Spieler nur bei All-Play-All-Turnieren auf sehr hohem Niveau gegen eine solche Anzahl von Gegnern mit einer Wertungszahl von 2700+ antreten. In einem normalen, offenen Schachturnier mit Schweizer Paarung gäbe es häufig viele Gegner mit einer Wertungszahl unter 2500, was die möglichen Wertungsgewinne eines einzelnen Wettkampfs für einen hoch eingestuften Spieler verringert.

Praktische Fragen

Spielaktivität versus Schutz der eigenen Wertung

In manchen Fällen kann das Ratingsystem Spieler, die ihre Wertung schützen wollen, von einer aktiven Teilnahme am Spiel abhalten. Um Spieler davon abzuhalten, sich auf einer hohen Wertung auszuruhen, schlug der britische Großmeister John Nunn 2012 vor, bei der Auswahl der Qualifikanten für die Schachweltmeisterschaft einen Aktivitätsbonus vorzusehen, der mit der Wertung kombiniert werden sollte.

Außerhalb der Schachwelt veranlasste die Besorgnis über Spieler, die Wettkämpfe meiden, um ihre Wertung zu schützen, Wizards of the Coast dazu, das Elo-System für Magic: the Gathering-Turniere zugunsten eines eigenen Systems namens "Planeswalker Points" aufzugeben.

Selektive Paarung

Ein subtileres Problem ist das Pairing. Wenn die Spieler ihre Gegner selbst wählen können, können sie Gegner mit minimalem Verlustrisiko und maximaler Belohnung für den Sieg wählen. Zu den Beispielen für Spieler mit einer Wertungszahl von 2800+, die Gegner mit minimalem Risiko und maximaler Gewinnchance wählen, gehören: die Wahl von Gegnern, von denen sie wissen, dass sie sie mit einer bestimmten Strategie schlagen können; die Wahl von Gegnern, die sie für überbewertet halten; oder die Vermeidung von Spielen gegen starke Spieler, die mehrere hundert Punkte unter ihnen eingestuft sind, aber vielleicht einen Schachtitel wie IM oder GM haben. In der Kategorie der Auswahl überbewerteter Gegner sind Neueinsteiger in das Ratingsystem, die weniger als 50 Partien gespielt haben, theoretisch ein geeignetes Ziel, da sie in ihrem vorläufigen Rating überbewertet sein könnten. Die ICC kompensiert dieses Problem, indem sie dem etablierten Spieler einen niedrigeren K-Faktor zuweist, wenn er gegen einen Neueinsteiger gewinnt. Der K-Faktor ist eine Funktion der Anzahl der bewerteten Partien, die der neue Teilnehmer gespielt hat.

Daher sind Elo-Bewertungen im Internet immer noch ein nützlicher Mechanismus, um eine Bewertung auf der Grundlage der Bewertung des Gegners zu erstellen. Ihre allgemeine Glaubwürdigkeit muss jedoch im Zusammenhang mit mindestens den beiden oben beschriebenen Hauptproblemen gesehen werden - dem Missbrauch von Maschinen und der selektiven Auswahl von Gegnern.

Die ICC hat vor kurzem auch "Auto-Pairing"-Bewertungen eingeführt, die auf zufälligen Paarungen beruhen, wobei jedoch jeder Sieg in Folge einen statistisch gesehen viel schwereren Gegner garantiert, der ebenfalls x Spiele in Folge gewonnen hat. Bei potenziell Hunderten von Spielern, die daran beteiligt sind, schafft dies einige der Herausforderungen einer großen Schweizer Veranstaltung, die hart umkämpft ist und bei der Rundengewinner auf Rundengewinner treffen. Dieser Ansatz für die Paarungen maximiert sicherlich das Ratingrisiko der höher eingestuften Teilnehmer, die beispielsweise auf eine sehr starke Konkurrenz von Spielern unter 3000 treffen können. Dies ist eine eigene Wertung, die unter den Kategorien "1-Minuten"- und "5-Minuten"-Wertung geführt wird. Höchstwertungen über 2500 sind äußerst selten.

Inflation und Deflation der Ratings

Diagramme der Wahrscheinlichkeiten und Elo-Rating-Änderungen (für K=16 und 32) des erwarteten Ergebnisses (durchgezogene Kurve) und des unerwarteten Ergebnisses (gepunktete Kurve) im Vergleich zur anfänglichen Ratingdifferenz. Beispiel: Spieler A beginnt mit einem Rating von 1400 und B mit 1800 in einem Turnier mit K = 32 (braune Kurven). Die blaue gestrichelte Linie zeigt die anfängliche Ratingdifferenz von 400 (1800 - 1400) an. Die Wahrscheinlichkeit, dass B gewinnt, ist 0,91 (Schnittpunkt der schwarzen durchgezogenen Kurve und der blauen Linie); in diesem Fall sinkt A's Rating um 3 (Schnittpunkt der braunen durchgezogenen Kurve und der blauen Linie) auf 1397 und B's Rating steigt um den gleichen Betrag auf 1803. Umgekehrt beträgt die Wahrscheinlichkeit, dass A gewinnt, also das unerwartete Ergebnis, 0,09 (Schnittpunkt der schwarz gepunkteten Kurve und der blauen Linie); in diesem Fall steigt die Bewertung von A um 29 (Schnittpunkt der braun gepunkteten Kurve und der blauen Linie) auf 1429 und die von B sinkt um den gleichen Betrag auf 1771.

Der Begriff "Inflation" bedeutet, dass die Spielstärke des bewerteten Spielers im Laufe der Zeit abnimmt; umgekehrt bedeutet "Deflation", dass die Spielstärke zunimmt. Wenn es beispielsweise eine Inflation gibt, bedeutet eine moderne Bewertung von 2500 weniger als eine historische Bewertung von 2500, während das Gegenteil der Fall ist, wenn es eine Deflation gibt. Die Verwendung von Ratings zum Vergleich von Spielern zwischen verschiedenen Epochen wird erschwert, wenn es eine Inflation oder Deflation gibt. (Siehe auch Vergleich der besten Schachspieler im Laufe der Geschichte).

Jeff Sonas hat die FIDE-Ratinglisten im Laufe der Zeit analysiert und kommt zu dem Schluss, dass seit etwa 1985 eine Inflation stattgefunden haben könnte. Sonas betrachtet die Spieler mit der höchsten Wertung und nicht alle Spieler mit einer Wertung und räumt ein, dass die Veränderungen in der Verteilung der Wertungen durch einen Anstieg des Spielniveaus auf den höchsten Ebenen verursacht worden sein könnten, sucht aber auch nach anderen Ursachen.

Die Zahl der Spieler mit einer Wertung von über 2700 hat zugenommen. Um 1979 gab es nur einen aktiven Spieler (Anatoly Karpov) mit einer so hohen Bewertung. Im Jahr 1992 war Viswanathan Anand erst der achte Spieler in der Schachgeschichte, der zu diesem Zeitpunkt die 2700er Marke erreichte. Diese Zahl stieg bis 1994 auf 15 Spieler an. Im Jahr 2009 hatten 33 Spieler ein Rating von 2700+ und im September 2012 waren es 44. Die aktuelle Benchmark für Elitespieler liegt jenseits von 2800.

Eine mögliche Ursache für diese Inflation war die Untergrenze für die Bewertung, die lange Zeit bei 2200 lag. Dies hatte zur Folge, dass Spieler, deren Qualifikationsniveau knapp unter der Untergrenze lag, nur dann auf der Bewertungsliste standen, wenn sie überbewertet waren, was dazu führte, dass sie Punkte in den Bewertungspool einbrachten. Im Juli 2000 lag die durchschnittliche Bewertung der Top 100 bei 2644. Im Juli 2012 war sie auf 2703 gestiegen.

Regan und Haworth verwenden eine starke Schachengine, um die Züge in Partien zwischen bewerteten Spielern zu bewerten, und analysieren Partien aus FIDE-bewerteten Turnieren. Sie kommen zu dem Schluss, dass es von 1976 bis 2009 nur eine geringe oder gar keine Inflation gab.

In einem reinen Elo-System endet jede Partie mit einer gleichwertigen Transaktion von Ratingpunkten. Wenn der Gewinner N Ratingpunkte hinzugewinnt, sinkt der Verlierer um N Ratingpunkte. Dadurch wird verhindert, dass Punkte in das System eingehen oder es verlassen, wenn Spiele gespielt und bewertet werden. Allerdings neigen die Spieler dazu, als Anfänger mit einem niedrigen Rating in das System einzusteigen und als erfahrene Spieler mit einem hohen Rating aus dem System auszuscheiden. Daher führt ein System mit strikt gleichen Transaktionen langfristig eher zu einer Deflation der Wertungen.

1995 räumte der USCF ein, dass sich mehrere junge Schulspieler schneller verbesserten, als das Ratingsystem es erfassen konnte. Infolgedessen begannen etablierte Spieler mit stabilen Ratings, Ratingpunkte an die jungen und unterbewerteten Spieler zu verlieren. Einige der älteren etablierten Spieler waren frustriert über die ihrer Meinung nach ungerechte Verschlechterung der Wertungszahlen, und einige gaben deswegen sogar das Schachspiel auf.

Kampf gegen die Deflation

Wegen des erheblichen Unterschieds im Zeitpunkt des Auftretens von Inflation und Deflation und um die Deflation zu bekämpfen, haben die meisten Implementierungen von Elo-Ratings einen Mechanismus, mit dem Punkte in das System eingespeist werden, um die relativen Ratings im Laufe der Zeit zu erhalten. Die FIDE hat zwei Mechanismen zur Inflationierung. Erstens werden Leistungen unterhalb einer "Untergrenze" nicht erfasst, so dass ein Spieler, dessen wahre Fähigkeiten unterhalb der Untergrenze liegen, nur nicht oder überbewertet, aber niemals korrekt bewertet werden kann. Zweitens haben etablierte und höher bewertete Spieler einen niedrigeren K-Faktor. Neue Spieler haben einen K = 40, der nach 30 gespielten Spielen auf K = 20 und bei Erreichen von 2400 Spielen auf K = 10 sinkt. Das derzeitige System in den Vereinigten Staaten umfasst ein Bonuspunktesystem, das Bewertungspunkte in das System einspeist, um sich verbessernde Spieler zu verfolgen, sowie unterschiedliche K-Werte für verschiedene Spieler. Bei einigen Methoden, die beispielsweise in Norwegen angewandt werden, wird zwischen Junioren und Senioren unterschieden und für junge Spieler ein höherer K-Faktor verwendet, der sogar den Rating-Fortschritt um 100 % erhöht, wenn sie weit über ihre prognostizierte Leistung hinaus punkten.

Die Rating Floors in den Vereinigten Staaten garantieren, dass ein Spieler nie unter eine bestimmte Grenze fällt. Damit wird auch eine Deflation bekämpft, aber der Vorsitzende des USCF-Ratingausschusses hat diese Methode kritisiert, weil die zusätzlichen Punkte nicht an die sich verbessernden Spieler weitergegeben werden. Ein mögliches Motiv für diese Untergrenzen ist die Bekämpfung von Sandbagging, d. h. die absichtliche Herabsetzung der Wertungszahlen, um für niedrigere Ratingklassen und Preise in Frage zu kommen.

Bewertungen von Computern

Schachspiele zwischen Menschen und Computern zwischen 1997 (Deep Blue gegen Garry Kasparov) und 2006 haben gezeigt, dass Schachcomputer in der Lage sind, selbst die stärksten menschlichen Spieler zu besiegen. Die Bewertung von Schachengines ist jedoch aufgrund variabler Faktoren wie der Zeitkontrolle und der Hardware, auf der das Programm läuft, schwer zu quantifizieren. Veröffentlichte Engine-Ratinglisten wie CCRL basieren auf reinen Engine-Partien auf Standard-Hardware-Konfigurationen und sind nicht direkt mit FIDE-Ratings vergleichbar.

Für einige Ratingschätzungen siehe Chess engine § Ratings.

Verwendung außerhalb des Schachs

Andere Brett- und Kartenspiele

  • Go: Der Europäische Go-Verband hat ein Elo-basiertes Bewertungssystem übernommen, das ursprünglich vom tschechischen Go-Verband entwickelt wurde.
  • Backgammon: Der populäre First Internet Backgammon Server (FIBS) berechnet die Ratings auf der Grundlage eines modifizierten Elo-Systems. Neuen Spielern wird eine Bewertung von 1500 zugewiesen, die besten Menschen und Bots erreichen eine Bewertung von über 2000. Die gleiche Formel wurde von mehreren anderen Backgammon-Seiten übernommen, wie Play65, DailyGammon, GoldToken und VogClub. VogClub setzt die Bewertung eines neuen Spielers auf 1600 fest. Der britische Backgammon-Verband verwendet die FIBS-Formel für seine nationalen Bewertungen im Vereinigten Königreich.
  • Scrabble: Die nationalen Scrabble-Organisationen berechnen normal verteilte Elo-Ratings, außer im Vereinigten Königreich, wo ein anderes System verwendet wird. Die nordamerikanische Scrabble Players Association hat mit etwa 2.000 aktiven Mitgliedern (Stand: Anfang 2011) die größte Anzahl an Spielern. Lexulous verwendet ebenfalls das Elo-System.
  • Obwohl die Eignung des Elo-Systems für die Bewertung von Spielen, bei denen Glück eine Rolle spielt, in Frage gestellt wird, verwenden Hersteller von Sammelkartenspielen häufig Elo-Bewertungen für ihre Bemühungen um organisiertes Spielen. Die DCI (ehemals Duelists' Convocation International) verwendete Elo-Bewertungen für Turniere von Magic: The Gathering und anderen Spielen von Wizards of the Coast. Die DCI hat dieses System jedoch 2012 zugunsten eines neuen kumulativen Systems von "Planeswalker-Punkten" aufgegeben, vor allem wegen der oben erwähnten Bedenken, dass Elo hoch bewertete Spieler dazu verleitet, das Spielen zu vermeiden, um "ihre Bewertung zu schützen". Pokémon USA verwendet das Elo-System, um seine TCG-Teilnehmer für das organisierte Spiel zu bewerten. Zu den Preisen für die besten Spieler in den verschiedenen Regionen gehörten bis zur Saison 2011-2012 auch Einladungen zu Feiertagen und Weltmeisterschaften, wobei die Preise auf einem System von Meisterschaftspunkten basierten, das dem des DCI für Magic: The Gathering entspricht. In ähnlicher Weise verwendete Decipher, Inc. das Elo-System für seine Ranglistenspiele wie das Star Trek Customizable Card Game und das Star Wars Customizable Card Game.

Sportliche Aktivitäten

Das Elo-Bewertungssystem wird im Schachteil des Schachboxens verwendet. Um für professionelles Schachboxen in Frage zu kommen, muss man eine Elo-Bewertung von mindestens 1600 haben und an mindestens 50 Kämpfen im Amateurboxen oder Kampfsport teilnehmen.

Im amerikanischen College-Football wurde die Elo-Methode von 1998 bis 2013 als Teil des Bewertungssystems der Bowl Championship Series verwendet. Danach wurde die BCS durch das College Football Playoff ersetzt. Jeff Sagarin von USA Today veröffentlicht Team-Ranglisten für die meisten amerikanischen Sportarten, darunter auch Elo-Bewertungen für College-Football. Mit der Einführung des College Football Playoff im Jahr 2014 wurde die Verwendung von Bewertungssystemen praktisch abgeschafft; die Teilnehmer am CFP und den dazugehörigen Bowl-Spielen werden von einer Auswahlkommission ausgewählt.

In anderen Sportarten führen Einzelpersonen Ranglisten, die auf dem Elo-Algorithmus basieren. Diese sind in der Regel inoffiziell und werden nicht vom Dachverband der jeweiligen Sportart bestätigt. Die World Football Elo Ratings sind ein Beispiel für die Methode, die im Männerfußball angewendet wird. Im Jahr 2006 wurden die Elo-Ratings von Nate Silver, damals von Baseball Prospectus, für die Teams der Major League Baseball angepasst. Auf der Grundlage dieser Anpassung erstellten beide auch Elo-basierte Monte-Carlo-Simulationen der Chancen, ob Teams die Playoffs erreichen werden. Im Jahr 2014 führte Beyond the Box Score, eine Website von SB Nation, ein Elo-Ranking-System für den internationalen Baseball ein.

Im Tennis bewertet das Elo-basierte Universal Tennis Rating (UTR) Spieler auf einer globalen Skala, unabhängig von Alter, Geschlecht oder Nationalität. Es ist das offizielle Bewertungssystem von großen Organisationen wie der Intercollegiate Tennis Association und World TeamTennis und wird häufig in Beiträgen des Tennis Channel verwendet. Der Algorithmus analysiert mehr als 8 Millionen Matchergebnisse von über 800.000 Tennisspielern weltweit. Am 8. Mai 2018 hatte Rafael Nadal, der 46 aufeinanderfolgende Sätze in Sandplatzmatches gewonnen hat, eine nahezu perfekte UTR von 16,42 auf Sand.

Im Billard wird ein Elo-basiertes System namens Fargo Rate verwendet, um Spieler in organisierten Amateur- und Profiwettbewerben einzustufen.

Eine der wenigen Elo-basierten Ranglisten, die von einem Sportverband unterstützt werden, ist die FIFA-Frauen-Weltrangliste, die auf einer vereinfachten Version des Elo-Algorithmus basiert, den die FIFA als offizielles Ranglistensystem für Nationalmannschaften im Frauenfußball verwendet.

Seit der ersten Rangliste nach der FIFA Fussball-Weltmeisterschaft 2018 verwendet die FIFA Elo für ihre FIFA-Weltrangliste.

Im Jahr 2015 erstellten Nate Silver, Chefredakteur der Statistik-Website FiveThirtyEight, und Reuben Fischer-Baum Elo-Ratings für jedes Team und jede Saison der National Basketball Association bis zur Saison 2014. Im Jahr 2014 erstellte FiveThirtyEight Elo-basierte Bewertungen und Gewinnprognosen für die amerikanische National Football League.

Der englische Korfballverband bewertete Mannschaften auf der Grundlage von Elo-Ratings, um Handicaps für seinen Pokalwettbewerb in der Saison 2011/12 zu ermitteln.

Es wurde eine Elo-basierte Rangliste der Spieler der National Hockey League entwickelt. Die Hockey-Elo-Metrik bewertet das gesamte Zwei-Wege-Spiel eines Spielers: Torschüsse UND Verteidigung sowohl bei ausgeglichener Spielstärke als auch in Powerplay- und Penalty-Kill-Situationen.

Rugbyleagueratings.com verwendet das Elo-Bewertungssystem, um internationale Rugby-Liga-Teams und Vereinsmannschaften zu bewerten.

Videospiele und Online-Spiele

Viele Videospiele verwenden modifizierte Elo-Systeme für wettbewerbsorientiertes Gameplay. Das MOBA-Spiel League of Legends verwendete vor der zweiten Saison des wettbewerbsorientierten Spiels ein Elo-Bewertungssystem. Das Esports-Spiel Overwatch, das die Grundlage für die einzigartige professionelle Sportorganisation Overwatch League bildet, verwendet eine Abwandlung des Elo-Systems zur Einstufung von Wettkampfspielern, wobei zwischen den Wettkampfsaisons verschiedene Anpassungen vorgenommen werden. World of Warcraft nutzte früher ebenfalls das Glicko-2-System, um Arenaspieler zusammenzustellen und zu vergleichen, verwendet jetzt aber ein System, das dem TrueSkill-System von Microsoft ähnelt. Das Spiel Puzzle Pirates verwendet das Elo-Bewertungssystem, um die Platzierungen in den verschiedenen Rätseln zu ermitteln. Roblox führte die Elo-Bewertung 2010 ein. Dieses System wird auch in FIFA Mobile für die Division Rivals-Modi verwendet. Das Browserspiel Quidditch Manager verwendet die Elo-Bewertung, um die Leistung eines Teams zu messen. Ein weiteres Spiel, das seit kurzem das Elo-Bewertungssystem verwendet, ist AirMech, das Elo-Bewertungen für 1v1-, 2v2- und 3v3-Zufalls-/Team-Matchmaking verwendet. RuneScape 3 verwendete das Elo-System bei der Neuauflage des Kopfgeldjäger-Minispiels im Jahr 2016. Mechwarrior Online hat mit dem Patch vom 20. Juni 2017 ein Elo-System für seinen neuen Modus "Comp Queue" eingeführt. Age of Empires II DE verwendet das Elo-System für die Rangliste und das Matchmaking, wobei neue Spieler bei Elo 1000 beginnen.

Nur wenige Videospiele verwenden das ursprüngliche Elo-Bewertungssystem. Laut Lichess, einem Online-Schachserver, ist das Elo-System veraltet, da Glicko-2 inzwischen von vielen Schachorganisationen verwendet wird. PlayerUnknown's Battlegrounds ist eines der wenigen Videospiele, die das allererste Elo-System verwenden. In Guild Wars werden Elo-Ratings verwendet, um die durch Gilde-gegen-Gilde-Kämpfe gewonnene und verlorene Gildenwertung aufzuzeichnen. Im Jahr 1998 wurde eine Online-Gaming-Rangliste namens Clanbase ins Leben gerufen, die das Elo-Punktesystem zur Einstufung von Teams verwendete. Der ursprüngliche K-Wert betrug 30, wurde aber im Januar 2007 auf 5 und im Juli 2009 auf 15 geändert. Die Seite wurde 2013 offline genommen. Eine ähnliche alternative Website wurde 2016 unter dem Namen Scrimbase ins Leben gerufen, die ebenfalls das Elo-Bewertungssystem für die Rangliste der Teams verwendete. Golden Tee Live bewertet seit 2005 Spieler nach dem Elo-System. Neue Spieler fangen bei 2100 an, während die Topspieler über 3000 Punkte erreichen.

Obwohl viele Videospiele unterschiedliche Systeme für das Matchmaking verwenden, ist es üblich, dass Spieler von Videospielen mit Rangliste alle Matchmaking-Bewertungen als Elo bezeichnen.

Andere Verwendung

Das Elo-Bewertungssystem wurde in der Soft-Biometrie verwendet, bei der es um die Identifizierung von Personen anhand von Personenbeschreibungen geht. Vergleichende Beschreibungen wurden zusammen mit dem Elo-Bewertungssystem verwendet, um robuste und diskriminierende "relative Messungen" zu liefern, die eine genaue Identifizierung ermöglichen.

Das Elo-Bewertungssystem wurde auch in der Biologie für die Bewertung männlicher Dominanzhierarchien und in der Automatisierung und der Computer Vision für die Inspektion von Textilien verwendet.

Darüber hinaus verwenden auch Online-Juryseiten das Elo-Bewertungssystem oder seine Derivate. Topcoder zum Beispiel verwendet eine modifizierte Version, die auf der Normalverteilung basiert, während Codeforces eine andere Version verwendet, die auf der logistischen Verteilung basiert.

Das Elo-Bewertungssystem wurde auch in Dating-Apps verwendet, wie z. B. in der Matchmaking-App Tinder, die eine Variante des Elo-Bewertungssystems verwendet.

Referenzen in den Medien

Das Elo-Bewertungssystem wurde in The Social Network während der Algorithmus-Szene, in der Mark Zuckerberg Facemash freigibt, an prominenter Stelle erwähnt. In der Szene schreibt Eduardo Saverin die mathematischen Formeln für das Elo-Bewertungssystem an Zuckerbergs Zimmerfenster im Schlafsaal. Hinter den Kulissen, so behauptet der Film, wird das Elo-System eingesetzt, um Mädchen nach ihrer Attraktivität zu bewerten. Die Gleichungen, die dem Algorithmus zugrunde liegen, werden kurz gezeigt, auf das Fenster geschrieben, sind aber nicht ganz korrekt.

Berechnung

Multiplikativität der Erwartungswerte

Die Erwartungswerte sind multiplikativ – mithilfe von dieser Eigenschaft lässt sich Elos Modell definieren. Wenn etwa Spieler A gegenüber Spieler B ein 3:1-Favorit ist (d. h., A erzielt in Partien gegen B 75 % der Punkte) und B gegenüber C ein 2:1-Favorit, so fordert bzw. folgt aus Elos Modell, dass A gegenüber C ein 6:1-Favorit ist.

Allgemein: Ist A ein x:1-Favorit gegenüber B und B ein y:1-Favorit gegenüber C, so ist gemäß Elos Modell A ein (x*y):1-Favorit gegenüber C.

Dies kann man leicht nachrechnen. Die Multiplikativität ist aber keine Konsequenz aus einer Normalverteilung, was man oft liest. Diese bezieht sich nur auf die Abweichung der tatsächlichen Spielergebnisse eines Spielers vom Erwartungswert (s. u.) und nicht auf eine Normalverteilung der Stärken der Spieler. Die Forderung nach Multiplikativität stellt den besseren Ausgangspunkt für die Entwicklung des Modells dar – insbesondere für die Kalkulation der Spielstärken von Spielern früherer Epochen.

Anpassung der Elo-Zahl

Anpassung nach einer Partie

Beispiel: Alfred (RA = 2306) spielt gegen Berta (RB = 2077). Das entspricht einem Wertungsunterschied . Zu erwarten ist, dass Alfred gegen Berta im Mittel 0,789 Punkte pro Spiel erzielt:

.

Nach einer Partie gibt es drei Möglichkeiten (angenommen sei dabei ): a) Berta gewinnt – also SA = 0.
Die neuen Elo-Punktestände für Alfred und für Berta sind

Alfred büßt 16 Elo-Punkte ein, während Berta 16 Elo-Punkte hinzugewinnt.

b) Alfred gewinnt – also SA = 1.

Alfred erhält 4 Elo-Punkte, Berta verliert 4.

c) Unentschieden – also SA = ½.

Alfred verliert 6 Elo-Punkte, Berta gewinnt 6.

Maximaler Punktgewinn durch eine Partie

Ab welchem Wertungsunterschied (Elo-Differenz zwischen den Spielern) ist bei einem Sieg der maximale Elo-Punktgewinn möglich?

Der maximal mögliche Elo-Punktgewinn/-verlust ist durch den k-Faktor festgelegt. Da Elo-Punkte auf ganze Zahlen gerundet werden, muss der rechnerische Punktgewinn mindestens k − 0,5 betragen. Demnach muss gelten (wegen SA = 1):

.

Mit

erhält man

für die k-Werte 10, 20 bzw. 40. Ein Topspieler (k = 10) kann mit einer Partie maximal 10 Elo-Punkte gewinnen und muss dafür einen Spieler mit einer um 512 höheren Elo-Zahl besiegen.

Spiel gegen einen gleichstarken Spieler

Sind beide Spieler gleich stark, also , ist . Bei einem Sieg werden Elo-Punkte hinzugewonnen, bei einer Niederlage gehen Elo-Punkte verloren. Bei einem Remis bleiben die Elo-Zahlen unverändert.

Probleme und statistische Phänomene von Rating-Systemen

Intransitivität von Wahrscheinlichkeitsrelationen

Ist Spieler A gegenüber Spieler B der Favorit und B gegenüber C, so besitzt A ein höheres Rating als B und B ein höheres als C. Damit besitzt A ein höheres Rating als C und müsste Favorit gegenüber C sein.

Diese Folgerung ist aber keineswegs zwingend, da Wahrscheinlichkeits- bzw. Präferenzrelationen nicht notwendigerweise transitiv sind. Dieses Problem ist keine Besonderheit des Elo-Systems, sondern ein prinzipielles Problem aller Rating-Systeme. (vgl. Condorcet-Paradoxon, „Chinesische Würfel“ oder „Intransitive Würfel“)

Transitivität ist jedoch eine notwendige Voraussetzung für ein sinnvolles Rating-System. Um diese Eigenschaft zu sichern, setzte Arpad Elo bei der Entwicklung seines Rating-Systems voraus, dass das zu erwartende Spielergebnis in Abhängigkeit der Spielstärken mithilfe der Formel beschreibbar ist. Aus dieser Annahme folgt neben der Transitivität auch die oben dargestellte Multiplikativität der Erwartungswerte.

Schwankungsbreite und Aussagekraft

Die Wertungszahlen eines einzelnen Spielers sind intervallskaliert und annähernd normalverteilt und schwanken mit einer Standardabweichung von 200 um einen mittleren Wert. Es gibt viele Schachspieler mit Spielstärken unter 1200. Auf diesem Spielniveau ist das Elo-System in der Vorhersagesicherheit aber nur eingeschränkt anwendbar. Wichtig ist insbesondere auf Hobbyspielerniveau, dass ein Spieler seine Zahl auch gegen stärkere Gegner verteidigen kann, ohne sich auf besondere Eigenschaften wie unbewusste psychische Schwächen oder schlechtes Zeitmanagement von Neulingen konzentrieren zu müssen. Utopisch hohe Werte werden durch Niederlagen schnell, exakt und zuverlässig korrigiert. Die recht stabile Elo-Zahl wird mit verschiedenen Verfahren ermittelt. Manche gehen von wenigen Spielen aus oder von ähnlich starken Turnierteilnehmern. Nach vielen Partien erreichen aber alle sehr ähnliche Gleichgewichte. Bei Computern ist die Verteilung nicht nur per 200-Punkte-Definition gleich, sondern auch vom Kurvenverhalten her darüber hinaus sehr ähnlich, allerdings gibt es bei ähnlich starken Maschinen eine weitere Spielstärkenspreizung in den verschiedenen Partiephasen.

Schach

Historische Elo-Zahl im Schach

Für den Vergleich heutiger Spitzenspieler mit Großmeistern vor der Einführung der Elo-Zahl wird die sogenannte historische Elo-Zahl verwendet.

Spielstärke der Schachprogramme

Die Elo-Zahlen der Schachcomputer bzw. Computerprogramme sind nicht ohne weiteres mit denen menschlicher Schachspieler zu vergleichen, da sie überwiegend durch Partien zwischen Computern ermittelt wurden und nicht durch Teilnahme an offiziellen Turnieren.

Turnierkategorien – Einteilung der Turniere nach Elo-Zahl

Turnier-
kategorie
Elo-Durchschnitt
Von Bis
1 2251 2275
2 2276 2300
3 2301 2325
. . .
7 2401 2425
. . .
11 2501 2525
. . .
15 2601 2625
. . .
19 2701 2725
20 2726 2750
21 2751 2775
22 2776 2800
23 2801 2825

Auch Rundenturniere werden nach der durchschnittlichen Elo-Zahl der Teilnehmer in Kategorien eingeteilt. Hierbei entspricht ein Unterschied um eine Kategorie 25 Elo-Punkten. Als Turnier der Kategorie 1 wird dabei ein Turnier eingestuft, dessen Teilnehmer im Durchschnitt 2251 bis 2275 Elo-Punkte haben. Die zurzeit stärksten Turniere erreichen die Kategorie 22, was einem Durchschnitt von 2776 bis 2800 Elo-Punkten entspricht. Bei der Zürich Chess Challenge 2014 wurde im Januar 2014 erstmals Kategorie 23 (mit einem Elo-Durchschnitt von 2801) erreicht.

Weitere Anwendung und Verbreitung

Go

Bei Go wird die Spielstärke traditionell in Kyū-Graden (jap. ) für Schüler und Dan-Graden (jap. ) für Meister angegeben. Die Ermittlung dieser Spielstärke basiert innerhalb der European Go Federation und bei vielen Go-Servern im Internet auf einem von Elo abgeleiteten System, welches Kyū- und Dan-Grade wie folgt abbildet:

kyu/dan Elo Spielstärke und -erfahrung
weltbeste 9p-KI 5185 AlphaGo Zero auf einem TPU-v2-Modul mit 180 TFLOPS
weltbester 9p-Spieler 3830 Shin Jin-seo, weltbester Gospieler (Stand: 2. Dezember 2021)
1p – 9p ab circa 2600 professioneller Go-Spieler (aus Japan, Korea oder China), der stärker als ein Amateur-6dan spielt
4d – 7d ab 2350 einer der besten Spieler seines Landes
1d – 3d 2050–2349 sehr guter Club-Spieler
4k – 1k 1650–2049 guter Club-Spieler
9k – 5k 1150–1649 regelmäßiger Club-Spieler
13k – 10k 750–1149 Club-Spieler
17k – 14k 350–749 regelmäßiger Hobby-Spieler
21k – 18k 0–349 Hobby-Spieler
24k – 22k   einige Partien gegen Nicht-Anfänger gewonnen
27k – 25k   einige Partien gegen Anfänger gewonnen
29k – 28k   einige Partien gespielt
30k   Regeln verstanden, aber noch keine Partie gespielt

Tischtennis

Swiss Table Tennis nutzt seit der Saison 2010/2011 eine etwas modifizierte Elo-Formel zur Berechnung von Wertungspunkten

EA: Erwarteter Punktestand für Spieler A.
RA: bisherige Punkte-Zahl von Spieler A
RB: bisherige Punkte-Zahl von Spieler B

Der Erwartungswert für A beträgt nun EA · 100 %. Die neue Punkte-Zahl von Spieler A ist

SA: tatsächlich gespielter Punktestand (1 für jeden Sieg, 0 für jede Niederlage, Remis ist im Tischtennis nicht möglich)

In Deutschland wird nach einem analogen System für jeden Aktiven ein TTR-Wert errechnet. Hier wird die Wertungsdifferenz durch 150 geteilt.

Scrabble

Für weltweites Scrabble (Global Scrabble) wird eine Elo-Rangliste von der World English-language Scrabble Players’ Association (WESPA) geführt. Auf Rang 1 dieser Elo-Rangliste liegt der Neuseeländer Nigel Richards (2156 Elo-Punkte, Stand 17. Oktober 2020).

Seit 2009 wird auch für das deutschsprachige Scrabble eine Elo-Rangliste geführt – basierend auf Turnieren ab 2005. Unter 206 Spielern aus 5 Ländern liegt hier der Deutsche Ben Berger mit 1754 Elo-Punkten auf Rang 1 (Stand: 26. Februar 2017).