Wie das Bewertungssystem funktioniert
Das System zur Bewertung von Spielstärken („rating system“) verwendet gängige Konzepte und Methoden der Wahrscheinlichkeitsrechnung und Statistik. Dadurch unterscheidet es sich von nahezu allen anderen Bewertungs- und Ranglistensystemen. Im Folgenden soll die Funktionsweise des Bewertungssystems allgemein verständlich erklärt werden.
Grundlegende Konzepte
Wir gehen davon aus, dass jeder Spieler (mit „Spieler“ sind natürlich immer gleichermaßen auch Spielerinnen gemeint) eine bestimmte Spielstärke hat, die durch eine Punktzahl ausgedrückt werden kann. Die Spielstärke eines Spielers ändert sich nicht innerhalb einer einzelnen Veranstaltung, kann sich aber über einen längeren Zeitraum ändern, in dem der Spieler besser oder schlechter wird. Eine Veranstaltung besteht aus einer Anzahl von Spielen, z.B. einem Turnier oder einer Meisterschaftsrunde, die ein Veranstaltungsleiter („event director“) als Einheit an Ratings Central sendet.
Selbst wenn die Spielstärken zweier Spieler bekannt sind, lässt sich nicht mit Sicherheit vorhersagen, welcher der beiden ein direktes Aufeinandertreffen gewinnen wird, da ja ein schwächerer Spieler manchmal einen stärkeren besiegt. Wir gehen davon aus, dass die Wahrscheinlichkeit eines überraschenden Ergebnisses (also eines Sieges des schwächer bewerteten Spielers) allein vom Spielstärkenunterschied zwischen den beiden Spielern abhängt. Je größer der Unterschied in der Spielstärke ist, umso unwahrscheinlicher ist es, dass der schwächere Spieler gewinnt. Dies kann als Wahrscheinlichkeitsfunktion quantifiziert werden.

Im Bewertungssystem gibt es zwei Größen, die durch Wahrscheinlichkeiten bestimmt werden. Zum einen gibt es die Wahrscheinlichkeit, dass ein Spieler einen anderen besiegt (diese Wahrscheinlichkeit wird durch die Spielstärken der Spieler bestimmt). Zum anderen gibt es die Wahrscheinlichkeit, dass die Spielstärke eines Spielers auch wirklich seinem zugeordnetem Wert entspricht (z.B. 1106). Die erste Wahrscheinlichkeit ist eine Eigenschaft der Spieler, die zweite Wahrscheinlichkeit ist eine Eigenschaft des Bewertungssystems.
Verteilungssfunktionen
Das Bewertungssystem kennt nicht die wahre Spielstärke der Spieler, es kann nur Spielergebnisse verarbeiten. Aus diesen berechnet es für jeden Spieler eine mathematische Verteilungssfunktionen, um die Spielstärke des Spielers zu beschreiben (Die Verteilungsfunktion beinhaltet nicht nur den aktuellen Punktewert des Spielers sondern auch einen Wert, der angibt, wie wahrscheinlich es ist, dass dieser Punktewert auch tatsächlich seiner wahren Spielstärke entspricht).
Die hier verwendete Verteilungsfunktion ist eine Wahrscheinlichkeitsverteilung. Das Bewertungssystem ordnet jedem Spieler eine solche Verteilungsfunktion zu. Sie beschreibt die Kenntnisse des Systems bezüglich der Spielstärke des Spielers, welche sich aus allen gespeicherten Spielergebnissen ableiten. Die Verteilungsfunktion ändert sich für einen Spieler mit jedem Spiel, das vom Bewertungssystem verarbeitet wird (da sich ja die Kenntnisse des Systems über einen Spieler mit jedem Spiel ändern). Durch die einem Spieler zugeordnete Verteilungsfunktion kann nun die Wahrscheinlichkeit bestimmt werden, dass der Spieler eine bestimmte Spielstärke besitzt (z.B. 1106 Punkte).
Der Mittelwert der Verteilungsfunktion liegt in der Mitte der durch die Funktion gegebenen Verteilung. Dieser Mittelwert ist die bestmögliche Abschätzung des Systems hinsichtlich der wahren Spielstärke des Spielers (weil er im Zentrum der Kenntnisse liegt, die das System über die Spielstärke des Spielers hat). Dieser Mittelwert ist die Bewertung („rating“), welche das System dem Spieler zuweist (z.B. 1106 Punkte).
Die Standardabweichung („standard deviation“) ist das Maß für die Breite der Verteilungsfunktion. Je größer die Standardabweichung für einen Spieler ist, umso größer ist die Ungewissheit des Systems über die Spielstärke des Spielers. Die Wahrscheinlichkeit, dass die wirkliche Spielstärke eines Spielers innerhalb eines Bereichs Mittelwert ± 1 Standardabweichung liegt, ist zirka 68 %, die Wahrscheinlichkeit, dass die wirkliche Spielstärke eines Spielers innerhalb des Bereichs Mittelwert ± 2 Standardabweichungen liegt, ist zirka 95 %, und die Wahrscheinlichkeit, dass die wirkliche Spielstärke eines Spielers innerhalb des Bereichs Mittelwert ± 3 Standardabweichungen liegt, ist bereits 99,7 %.
Wenn die Bedeutung des Satzes „Die Wahrscheinlichkeit, dass die wirkliche Spielstärke eines Spielers innerhalb des Bereichs Mittelwert ± 2 Standardabweichungen liegt, ist zirka 95 %“ nicht klar ist, kann man dies auch so ausdrücken: Es ist zu 95 % wahrscheinlich, dass die wahre Spielstärke eines Spielers zwischen den Werten „Mittelwert minus doppelter Standardabweichung“ und „Mittelwert plus doppelter Standardabweichung“ liegt. Wenn also zum Beispiel der Mittelwert eines Spielers 1106 Punkte und seine Standardabweichung 42 Punkte ist, ergibt sich für diesen Spieler:
- eine 68 %ige Wahrscheinlichkeit, dass seine Spielstärke zwischen 1064 und 1148 Punkten liegt,
- eine 95 %ige Wahrscheinlichkeit, dass seine Spielstärke zwischen 1022 und 1190 Punkten liegt,
- eine 99,7 %ige Wahrscheinlichkeit, dass seine Spielstärke zwischen 980 und 1232 Punkten liegt.

Aktualisierungen
Die Spielstärke eines Spielers kann sich mit der Zeit ändern, indem der Spieler stärker oder schwächer wird. Je mehr Zeit seit der letzten im System erfassten Veranstaltung des Spielers vergangen ist, desto ungewisser ist somit seine aktuelle Spielstärke. Der Prozess, der die Änderung der Verteilungsfunktion eines Spielers in der kampflosen Zeit berechnet, wird zeitliche Aktualisierung („temporal update“) genannt. Die zeitliche Aktualisierung verbreitert die Verteilungsfunktion des Spielers und erhöht im geringen Maß den Mittelwert. Hat das System für einen Spieler z.B. seit einem Jahr keine neuen Ergebnisse erhalten, erhöht sich seine Standardabweichung um maximal 79.4 Punkte und sein Mittelwert erhöht sich um 7 Punkte. Die Erhöhung des Mittelwerts wird allerdings erst berücksichtigt, wenn neue Ergebnisse des Spielers in einer neuen Veranstaltung bewertet werden. (Mathematisch gesehen, ist die zeitliche Aktualisierung die Summe aus einem „mean-zero normal random walk“ mit einer Varianz von 70² pro Jahr und einem „Poisson jump process“ mit Sprüngen von 200 Punkten, einem Mittelwert von 7 Punkten pro Jahr und einer Varianz von 200 × 7 pro Jahr. Damit kann ein Spieler langsam besser oder schlechter werden oder auch einen schnelleren Sprung nach oben machen.)

Die Veranstaltungs-Aktualisierung („event update“) aktualisiert die Verteilungsfunktion eines Spielers unter Berücksichtigung der Ergebnisse des Spielers bei einer einzelnen Veranstaltung. Theoretisch müssten alle Resultate einer Veranstaltung als eine einzelne Gruppe verrechnet werden. Wir benötigen jedoch einen Weg, den ein Computer verarbeiten kann. Daher betrachtet das Bewertungssystem bei der Veranstaltungs-Aktualisierung nur die Resultate eines Spielers und die seiner Gegner. Das ähnelt dem, was man selbst bei einem Turnier machen kann, um seine Leistung zu beurteilen. Angenommen, Spieler A verliert gegen Spieler B und denkt, der Gegner ist eigentlich besser, als seine vorherige Bewertung (Setzung) vermuten ließ. Um das zu überprüfen, sieht er sich die Ergebnisse von Spieler B gegen andere Gegner an. Genau dieselben Ergebnisse berücksichtigt auch das Bewertungssystem, wenn es die Funktion von Spieler A aktualisiert.

Eine kleine Standardabweichung erschwert gleichermaßen das Gewinnen wie auch das Verlieren von Punkten. Wenn ein Spieler mit einer geringen Standardabweichung gegen einen Spieler mit großer Standardabweichung spielt, wird sich die Bewertung des ersten weniger ändern als die Bewertung des zweiten.
Das Bewertungssystem berücksichtigt nur, welcher Spieler gewinnt, nicht aber das Satz- und Punkteverhältnis.
Neue Spieler
Das Bewertungssystem ordnet jedem neuen (unbewerteten) Spieler als Funktion eine Anfangs-Verteilungsfunktion zu. Diese Funktion entspricht der Spielstärke, die man von einem neuen Spieler in der jeweiligen Veranstaltung erwarten kann (z.B. einer bestimmten Spielklasse in einem Turnier). Im Allgemeinen teilen uns die Veranstaltungsleiter mit, welche Mittelwerte und Standardabweichungen ihrer Erfahrung gemäß für ihre Veranstaltungen verwendet werden sollten. Normalerweise wird dabei die Standardabweichung für neue, unbewertete Spieler groß sein, was der großen Spanne von Spielstärken entspricht, die bei einer Veranstaltung für neue Spieler zu erwarten ist. Nachdem ein Spieler einige Wettkämpfe bestritten hat, wird die Standardabweichung seiner Verteilungsfunktion deutlich sinken. Wie schnell dies passiert, hängt von Anzahl und Ausgang seiner Spiele sowie von den Verteilungsfunktionen seiner Gegner ab.

Verarbeiten einer Veranstaltung
Um die Ergebnisse einer Veranstaltung zu verarbeiten, führt das Bewertungssystem die folgenden Schritte durch:
- Zuordnen einer Anfangs-Verteilungsfunktion für jeden neuen (zuvor noch nicht erfassten) Spieler.
- Abfragen der Verteilungsfunktion jedes schon bewerteten Spielers aus der Datenbank und Durchführen der zeitlichen Aktualisierung.
- Für jeden Spieler:
- Berechnung einer bereinigten Verteilungsfunktion (wie unten beschrieben) für jeden Gegner des Spielers.
- Aktualisierung der Verteilungsfunktion des Spielers für jedes seiner Spiele unter Verwendung der bereinigten Verteilungsfunktion des jeweiligen Gegners.
Die bereinigteVerteilungsfunktion („adjusted law“) ist die aktualisierte Verteilungsfunktion des Gegners, die alle seine Spiele in der vorliegenden Veranstaltung mit Ausnahme des Spiels gegen den zu aktualisierenden Spieler berücksichtigt. Die bereinigte Verteilungsfunktion hängt sowohl vom Spieler als auch vom Gegner ab. Derselbe Gegenspieler wird daher unterschiedliche bereinigte Verteilungsfunktionen erhalten, je nachdem welcher Spieler gerade in der Berechnung bearbeitet wird.
Kurzbericht (Summary Report)
Nachfolgend ein Auszug aus der Kurzfassung eines Veranstaltungsberichts:
ID | Name | Initial Rating | Point Change | Final Rating |
---|---|---|---|---|
5766 | Bulatao, Jose G. | 1797±58 | −4 | 1793±52 |
5568 | Cembura, Julianne | 1500±450 | −539 | 961±246 |
7355 | Ching, Joe T. | 1984±38 | +2 | 1986±36 |
6655 | Chiu, David | 2050±66 | +20 | 2070±49 |
5925 | Collamore, Gil | 1121±95 | −126 | 995±59 |
5184 | Conley, Denny | 1463±38 | +19 | 1482±34 |
5044 | Cortesi, Tony | 1139±90 | −58 | 1081±54 |
Die Werte hinter den Plus/Minus-Zeichen sind die Standardabweichungen der Verteilungsfunktionen. Die Spalte mit der Anfangsbewertung („Initial Rating“) enthält die Bewertung und Standardabweichung des Spielers zu Beginn der Veranstaltung. Für neue, bisher noch nicht erfasste Spieler sind dies die Werte aus der Anfangs-Verteilungsfunktion, die für neue Spieler für einen bestimmten Bewerb in dieser Veranstaltung erstellt wurden. Für bereits im System erfasste Spieler ergibt sich die Anfangsbewertung aus der zeitlichen Aktualisierung der letzten bekannten Verteilungsfunktion des Spielers. Die Spalte mit der Endbewertung („Final Rating“) enthält die Bewertung und Standardabweichung des Spielers nach der Verarbeitung aller Spielergebnisse der Veranstaltung. Der Wert in der Spalte Punkte-Änderung („Point Change“) ist die Differenz zwischen Endbewertung und Anfangsbewertung.
Ausführlicher Bericht (Detailed Report)
Nachfolgend ein Auszug aus einem ausführlichen Veranstaltungsbericht:
- Boulard, Claude
- Rating Change
1701±53 + 89 = 1790±40 - Wins
- Losses
- Point
Change - Opponent’s
Rating - Opponent
- Score
- Point
Change - Opponent’s
Rating - Opponent
- Score
- +36
- 1915±50
- Chen, Wei Teng
- −8 7 −6 8 9
- 0*
- 1812±34
- Bhatia, Sonu
- 8 9 4
- +14*
- 1812±34
- Bhatia, Sonu
- −8 −9 6 9 8
- −1
- 2016±48
- Maitra, Subhajit
- 7 −8 4 7
- +13*
- 1785±61
- Landsman, Alex
- −8 8 19 −5 11
- 0
- 2189±40
- Wang, Yin
- 8 −6 8 5
- +13*
- 1785±61
- Landsman, Alex
- −3 11 9 −9 9
- +10
- 1750±34
- Kalagher, Chris
- −10 11 8 9
- +3
- 1629±52
- Jordan, Kip
- 4 −6 3 9
- +2
- 1587±67
- Warrier, Sunil
- 10 7 7
- 0
- 1366±53
- Sharma, Rajeev
- 4 −7 4 −9 9
- Landsman, Alex
- Rating Change
1776±64 − 35 = 1741±54 - Wins
- Losses
- Point
Change - Opponent’s
Rating - Opponent
- Score
- Point
Change - Opponent’s
Rating - Opponent
- Score
- +9
- 1630±49
- Baird, Jim
- 8 8 5
- −22*
- 1761±43
- Boulard, Claude
- −3 11 9 −9 9
- −22*
- 1761±43
- Boulard, Claude
- −8 8 19 −5 11
- 0
- 2170±29
- Chui, Lim Ming
- 5 7 8
- Kalagher, Chris
- Rating Change
1752±37 − 7 = 1745±33 - Wins
- Losses
- Point
Change - Opponent’s
Rating - Opponent
- Score
- Point
Change - Opponent’s
Rating - Opponent
- Score
- +8
- 1753±50
- Baylies, Michael
- −5 3 9 8
- −8
- 1771±42
- Boulard, Claude
- −10 11 8 9
- +3
- 1625±52
- Jordan, Kip
- 9 5 5
- −6
- 1798±33
- Bhatia, Sonu
- 3 −6 11 9
- −5
- 1811±42
- Massarsky, Lev
- −10 9 6 9
- 0
- 2015±48
- Maitra, Subhajit
- 6 4 6
- 0
- 2189±40
- Wang, Yin
- 5 9 8
In der obersten Zeile jeder Tabelle befindet sich der Spielername und unter dem Titel „Rating Change“ (Änderung der Bewertung) sind die Anfangs-Bewertung und Anfangs-Standardabweichung, die Punkteänderung für diesen Spieler für diese Veranstaltung, und nach dem Gleichheitszeichen die End-Bewertung und End-Standardabweichung aufgelistet. Darunter sind die Siege und Niederlagen des Spielers angeführt.
Der Wert in der Spalte „Opponent’s Rating“ (Bewertung des Gegners) ist der Mittelwert und die Standardabweichung der bereinigten Verteilungsfunktion des jeweiligen Gegners. Wie oben erwähnt, verwendet das System für denselben Gegenspieler unterschiedliche bereinigte Verteilungsfunktionen, wenn unterschiedliche Spieler bearbeitet werden: z.B. ist Claude Boulards bereinigte Verteilungsfunktion 1761±43 im Spiel gegen Alex Landsman, aber 1771±42 im Spiel gegen Chris Kalagher.
Der Wert in der Spalte „Point Change“ (Punkteänderung) ist die Punkteänderung für den Spieler als Folge dieses Spielergebnisses. Dabei verarbeitet das Bewertungssystem mehrere Spiele gegen den gleichen Gegner innerhalb einer Veranstaltung als eine Einheit. In einem solchen Fall wird die gesamte Punkteänderung auf folgende Weise auf die Spiele verteilt:
- Wenn die gesamte Punkteänderung positiv (oder Null) ist, wird die gesamte Punkteänderung gleichmäßig auf die gewonnenen Spiele aufgeteilt und die Punkteänderung für die verlorenen Spiele wird Null.
- Wenn die gesamte Punkteänderung negativ ist, wird die gesamte Punkteänderung gleichmäßig auf die verlorenen Spiele aufgeteilt und die Punkteänderung für die gewonnen Spiele wird Null.
Wenn zwei Spieler mehr als einmal innerhalb derselben Veranstaltung gegeneinander gespielt haben, wird dies durch ein Sternchen (*) nach dem Wert „Point Change“ (Punkteänderung) angezeigt. Claude Boulard gewann zum Beispiel insgesamt 14 Punkte für einen Sieg und eine Niederlage gegen Sonu Bhatia und insgesamt 26 Punkte für die beiden Siege über Alex Landsman.
Die Punkteänderung pro Spiel hängt von der Reihenfolge ab, in der das Bewertungssystem die Spiele verarbeitet. Daher sind die angegebenen Punkteänderungen pro Spiel nur als Orientierung zu verstehen. Die Summe aller Punkteänderungen pro Spiel entspricht jedoch genau der gesamten Punkteänderung für einen Spieler in der Veranstaltung, und diese ist unabhängig von der Reihenfolge, in der die Spiele verarbeitet werden.
Dass die Punkteänderung pro Spiel von der Verarbeitungsreihenfolge abhängt, lässt sich auch intuitiv nachvollziehen. Angenommen ein 2000 Punkte Spieler besiegt einen 2200 Punkte Spieler. Dadurch würden wir dann unsere Einschätzung seiner Spielstärke deutlich nach oben revidieren. Nun nehmen wir an, dass derselbe Spieler noch einen weiteren 2200 Punkte Spieler schlägt. Wiederum würden wir unsere Einschätzung nach oben revidieren, allerdings nicht mehr um so viel, wie nach seinem ersten Sieg.
Um den ausführlichen Bericht verständlicher zu machen, werden die Spiele in der folgenden Reihenfolge verarbeitet: zuerst werden alle Niederlagen in der Reihenfolge mit zunehmender Punktezahl des Gegners verarbeitet, dann alle Siege in der Reihenfolge mit abnehmender Punktezahl des Gegners. Wenn ein Spieler gegen einen Gegner Siege und Niederlagen aufweist und die Punktezahl des Gegners größer als die des Spielers ist, werden all diese Spiele im Verlauf der Verarbeitung der Siege berücksichtigt, andernfalls werden sie während der Verarbeitung der Niederlagen berücksichtigt.
Die Anzahl an Punkten, die der Sieger eines Spiels hinzugewinnt, wird fast nie gleich der Anzahl an Punkten sein, die sein Gegner dabei verliert. Beispielsweise gewann Claude Boulard insgesamt 26 Punkte für seine zwei Siege über Alex Landsman, aber Alex verlor in denselben Spielen 44 Punkte. In diesem Fall verlor Alex mehr Punkte, weil seine Standardabweichung größer ist als Claudes, und weil seine und Claudes Mittelwerte nach der Verarbeitung der anderen Spiele der beiden ähnlicher geworden sind.
Da die Punkteänderungen zu Darstellungszwecken auf die nächste ganze Zahl gerundet werden, kann es passieren, dass die Summe der Punkteänderungen pro Spiel nicht genau mit der gesamten Punkteänderung des Spielers nach der Veranstaltung übereinstimmt. Falls eine solche Diskrepanz auftritt, beträgt sie jedoch gewöhnlich nur einen Punkt.
Literatur
Marcus, David J. (2001) New Table-Tennis Rating System. Journal of the Royal Statistical Society: Series D (The Statistician), 50: 191–208. doi: 10.1111/1467-9884.00271
Marcus, David J. (2011a) Ratings Central: Accurate, Automated, Bayesian Table Tennis Ratings for Clubs, Leagues, Tournaments, and Organizations. Joint Statistical Meetings, July 30–August 4, 2011.
Marcus, David J. (2011b) Ratings Central: Accurate, Automated, Bayesian Table Tennis Ratings for Clubs, Leagues, Tournaments, and Organizations. NESSIS (New England Symposium on Statistics in Sports), September 24, 2011.
Marcus, David J. (2023) Table Tennis Ratings With Poisson Jumps.
Deutsche Übersetzung von Dieter Baurecht / Michael Rix.