One Hour Test
One Hour Test - "Ein-Stunden-Test"
Im Computer Chess Report 2/1994 veröffentlichte der Schachcomputerexperte Larry Kaufman den "One Hour Test" zur Ermittlung der Spielstärke von Schachcomputern/Programmen. Der Test sollte es ermöglichen, mit möglichst geringem Zeitaufwand eine ungefähre Spielstärkeeinschätzung zu erhalten, wer konzentriert vorgeht und flott im Aufbau von Stellungen ist, kann das auch in etwa einer Stunde bewältigen. Der Test besteht aus 25 Stellungen, die allesamt der Eröffnungstheorie entstammen. Dies hat den Vorteil, dass es sich um analysierte und eindeutige Teststellungen handelt, in denen es nur einen "besten" Zug gibt. Der Nachteil war natürlich, wie L. Kaufman schon bei der Testbeschreibung anmerkte, dass die Bewertung des Endspielverhaltens von Schachcomputern hier völlig außen vor bleibt. Um dieses Manko zu kompensieren, wurde später eine Verbindung zum "Maresch Endspieltest" aus der Computerschachzeitschrift Modul/PC-Schach hergestellt und die Resultate aus beiden Tests verschmolzen.
Testdurchführung:
Bei den 25 Stellungen gibt es jeweils einen richtigen Zug oder einen Zug, der nicht gespielt werden darf. Die Stellungen werden auf der Analysestufe untersucht und der angezeigte Zug wird in den Zeitabständen - 15 Sekunden - 30 Sekunden - 1 Minute und - 2 Minuten kontrolliert. Zeigt ein Computer bei allen vier Intervallen den geforderten Zug an, so erhält er 4 Punkte. Zeigt er beispielsweise bei der Zeitkontrolle 15 Sekunden einen falschen Zug, aber bei den 3 nachfolgenden Zeitkontrollen den korrekten Zug an, so erhält er 3 Punkte. Das Beispiel von Kaufman lautet: Wenn ein richtiger Zug nach 15 Sekunden, nicht aber nach 30 Sekunden und einer Minute, dann aber wieder nach zwei Minuten angezeigt wird, erhält der Computer dafür 2 Punkte. Insgesamt sind somit für die 25 Aufgaben 100 Punkte möglich.
Ungeklärt bleibt die Frage, ob ein Gerät 3 Punkte bekommt, wenn bei den ersten 3 Zeitkontrollen der korrekte Zug angezeigt wird, bei der letzten Kontrolle (2 Minuten) aber nicht mehr. Meiner persönlichen Meinung nach sollten hier keine Punkte vergeben werden.
Auswertung:
Hier hat L. Kaufman bei der Erstveröffentlichung des Tests folgende Formel angegeben: Die erzielte Punktezahl eines Computers wird mit 8 multipliziert und dann zu einem Basiswert von 1800 Elo (um eine Annäherung an die SSDF Elo-Liste zu erreichen) hinzu addiert. Gleichzeitig behielt er sich eine Korrektur des Basiswerts nach Auswertung von umfangreicheren Ergebnissen vor, eine genaue Festlegung war in dieser Phase schwierig, da insbesondere im Bereich der PC-Schachprogramme aufgrund der sich hardwaremäßig starken Veränderungen immer wieder neue Rahmenbedingungen ergaben. Später wurde der Basiswert auf 1700 Elo abgesenkt. Aus den beiden genannten Basiswerten ergibt sich die logische Schlussfolgerung, dass der Test für schwächere Geräte (unter 1900 Elo) nicht anwendbar ist bzw. zu ungenau wird.
Teststellungen
|
Stellung 2 Schwarz zieht
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Ergebnisse und Anmerkungen
Computer | Punkte | Elo (USCF) |
---|---|---|
Tasc R30 2.2 | 63,5 | 2515 |
Mephisto Genius 68030 | 66,5 | 2535 |
Mephisto Berlin Pro | 61,5 | 2495 |
Mephisto Vancouver 68020 | 60 | 2480 |
Mephisto Montreux | 57 | 2450 |
Saitek Risc 2500 | 52 | 2400 |
Mephisto Portorose 68020 | 51 | 2390 |
Mephisto Lyon 68000 | 45,5 | 2335 |
Mephisto Risc 1MB | 50 | 2380 |
Mephisto Vancouver 68000 | 47 | 2350 |
Mephisto Berlin | 44 | 2320 |
Mephisto Almeria 68020 | 41 | 2290 |
Novag Sapphire | 38 | 2260 |
Mephisto Portorose 68000 | 42 | 2300 |
Novag Diablo | 41 | 2290 |
Fidelity Elite Avant Garde Version 9 | 34 | 2220 |
Mephisto Almeria 68000 | 30 | 2180 |
Fidelity Designer 2325 | 29 | 2170 |
Novag Zircon II | 32 | 2200 |
Saitek GK 2100 | 30 | 2180 |
Mephisto Nigel Short | 30 | 2180 |
Fidelity Mach III | 19 | 2070 |
Novag Ruby | 28 | 2160 |
Mephisto Roma 68000 | 27 | 2150 |
Mephisto Dallas 68000 | 25 | 2130 |
Mephisto Amsterdam | 24 | 2120 |
Mephisto Academy | 20 | 2080 |
Mephisto Polgar | 19 | 2070 |
Mephisto Super Mondial II | 19 | 2070 |
Mephisto MM V | 22 | 2100 |
Die genannten Resultate basieren auf der vom Autor angegebenen Berechnungsformel Punkte x 10 + 1800 für das USCF Rating, welches ca. 200 Punkte über dem SSDF Rating angesiedelt ist. Insgesamt gesehen werden mit dem Test relativ gute Annäherungswerte an die schwedische Eloliste erzielt, insbesondere wenn man berücksichtigt, dass der Test nicht sehr zeitaufwendig ist. Wie schon in der Einleitung erwähnt, liegt ein Schwachpunkt des Tests in der Vernachlässigung der Endspielfähigkeiten der getesteten Geräte, was sich zum Beispiel deutlich in den Ergebnissen der Fidelity Geräte widerspiegelt. Die Verknüpfung mit einem Endspieltest führte hier zu einer positiven Annäherung an die schwedischen Elowerte. In einer Phase des Booms der PC-Programme mit immer schneller werdender Hardware verlor der Test an Bedeutung, meiner Meinung nach ist er nur für reine Schachcomputer und PC-Programme auf einer Hardware geeignet, die leistungsmäßig mit einer in Schachcomputern verwendeten Hardware vergleichbar ist.