AI beats Profis in sechs-Spieler-poker

Eine künstliche-Intelligenz-Programm, entwickelt von der Carnegie Mellon University in Zusammenarbeit mit Facebook die KI besiegt hat führende Experten in sechs-Spieler no-limit Texas hold ‚ em poker, die weltweit beliebteste form von poker.

Die KI, genannt Pluribus, besiegte poker-Profi Darren Elias, wer hält den Rekord für die meisten World Poker Tour-Titel, und Chris „Jesus“ Ferguson, Gewinner von sechs der World Series of Poker events. Jeder pro-separat gespielt von 5.000 Hände poker gegen fünf Exemplare Pluribus.

In einem anderen experiment mit 13 Profis, von denen alle gewonnen haben, die mehr als $1 million poker zu spielen, Pluribus spielte fünf Profis in einer Zeit, für insgesamt 10.000 Hände und wieder siegreich.

„Pluribus erreicht übermenschliche Leistung bei multi-player-poker, das ist ein anerkannter Meilenstein in der künstlichen Intelligenz und in der Spieltheorie, die offen für Jahrzehnte“, sagte Tuomas Sandholm, Angel Jordan Professor für informatik, entwickelt Pluribus mit Noam Brown, ist gerade dabei, seinen Ph. D. von der Carnegie Mellon Computer Science Department als wissenschaftlicher Mitarbeiter bei Facebook AI. „So weit, übermenschliche KI Meilensteine in der strategischen Argumentation beschränken sich auf zwei-Parteien-Konkurrenz. Die Fähigkeit zu schlagen, fünf andere Spieler in solch ein kompliziertes Spiel, eröffnet neue Möglichkeiten, um AI zu lösen eine Vielzahl von Problemen der realen Welt.“

„Spielen ein sechs-player-Spiel eher als Kopf-an-Kopf-erfordert grundlegende Veränderungen, wie die KI entwickelt seine Strategie spielen“, sagte Brown, der in Facebook AI letzten Jahr. „Wir sind hochzufrieden mit seiner Leistung und glauben, dass einige Pluribus‘ – spielen-Strategien könnte auch die Weise ändern, die Profis spielen das Spiel.“

Pluribus‘ algorithmen erstellt, die einige überraschende Funktionen in seine Strategie. Zum Beispiel, die meisten menschlichen Spieler zu vermeiden „donk Wetten“ — das ist, endet eine Runde mit einem Anruf, aber dann ab der nächsten Runde mit einem Einsatz. Es sieht aus wie eine schwache Bewegung, die in der Regel nicht machen strategisch Sinn. Aber Pluribus platziert donk-Wetten weit öfter als die Profis besiegt.

„Seine große Stärke ist seine Fähigkeit, gemischte Strategien,“ Elias sagte Letzte Woche, als er die Vorbereitungen für die 2019 World Series of Poker main event. „Das ist die gleiche Sache, die Menschen versuchen zu tun. Es ist eine Frage der Ausführung für den Menschen-zu tun, diese in eine vollkommen zufällige Art und Weise und zu tun, so konsequent. Die meisten Menschen können es einfach nicht.“

Pluribus registriert einen soliden Sieg mit statistischer Signifikanz, das ist besonders beeindruckend angesichts der opposition, Elias sagte. „Der bot war nicht gerade das Spiel gegen einige mitten auf der Straße Profis. Es war, spielen einige der besten Spieler der Welt.“

Michael „Gags“ Gagliano, wer hat verdient fast $2 Millionen im Karriere-Ergebnis, auch schon gegen Pluribus.

„Es war unglaublich faszinierend zu bekommen, um zu spielen gegen die poker-bot und sehen, einige der Strategien, die Sie gewählt haben“, erklärte Gagliano. „Es gab mehrere Stücke, die Menschen sind einfach nicht bei allen, vor allem in Bezug auf seine Einsatzhöhe. Bots/KI sind ein wichtiger Teil in der evolution des poker, und es war erstaunlich, zu Erfahrungen aus Erster hand bei diesem großen Schritt in die Zukunft.“

Sandholm hat ein Forscherteam Studium computer poker für mehr als 16 Jahre. Er und Brown früher entwickelt Libratus, die vor zwei Jahren entscheidend schlagen vier poker-Profis spielen eine Kombination von 120.000 Hände des heads-up no-limit Texas hold ‚ em, ein zwei-Spieler-version des Spiels.

Spiele wie Schach und Go haben lange diente als Meilensteine für die KI-Forschung. In diese Spiele, dass alle Spieler wissen, den status der Spielplan und alle Stücke. Aber poker ist eine größere Herausforderung, weil es ein unvollständiger Informationen verursacht wurden, Spiel; die Spieler können nicht sicher sein, welche Karten im Spiel sind und die Gegner können und bluff. Das macht es sowohl eine härtere KI-Herausforderung und Bedeutung für viele Probleme aus der realen Welt, bei denen mehrere Parteien und fehlende Informationen.

Alle AIs, die angezeigt übermenschliche Fähigkeiten bei zwei-Spieler-Spiele haben so die Annäherung an ein sogenanntes Nash-Gleichgewicht. Benannt nach dem Ende der Carnegie-Mellon-alumnus und Nobelpreisträger John Forbes Nash Jr, ein Nash-Gleichgewicht ist ein paar von Strategien (eine pro Spieler), wo keiner der Spieler kann davon profitieren, Strategie ändern, solange die anderen Spieler die Strategie bleibt die gleiche. Obwohl die KI-Strategie garantiert nur ein Resultat nicht schlimmer als eine Band, die AI siegt, wenn sein Gegner macht Fehlkalkulationen und kann nicht die Balance halten.

In einem Spiel mit mehr als zwei Spieler, das Spiel ein Nash-Gleichgewicht kann ein Verlust-Strategie. So Pluribus verzichtet auf theoretische Garantien für Erfolg und entwickelt Strategien, die das dennoch ermöglichen es, konsequent auszuspielen Gegner.

Pluribus berechnet zuerst eine „Blaupause“ – Strategie durch das spielen von sechs Kopien von sich selbst, die ausreicht, um die erste Runde der Wetten. Von diesem Punkt an, Pluribus stellt eine detaillierte Suche nach möglichen Züge in eine feiner-granulare Abstraktion des Spiels. Es sieht vor mehreren Umzügen wie Sie das tut, aber nicht erfordern einen Blick nach vorne den Weg bis zum Ende des Spiels, das wäre rechnerisch untragbar. Limited lookahead-Suche ist eine standard-Vorgehensweise in perfekter information spielen, aber extrem herausfordernd in imperfect-information Spiele. Eine neue limited lookahead-Suche-Algorithmus ist der wichtigste Durchbruch Pluribus zu erreichen, übermenschliche multi-player-poker.

Insbesondere die Suche ist eine unvollkommene-Informationen-Spiel lösen einer limited lookahead-subgame. An die Blätter, die subgame, die KI hält fünf mögliche Fortführung Strategien, die jedem Gegner und sich selbst vielleicht nehmen Sie für den rest des Spiels. Die Anzahl der möglichen Fortsetzung-Strategien ist weit größer, aber die Forscher fanden, dass Ihr Algorithmus muss nur überlegen, fünf Fortführung Strategien pro Spieler an jedem Blatt, um zu berechnen, eine starke, ausgewogene Gesamtstrategie.

Pluribus auch versucht, unvorhersehbar zu sein. Zum Beispiel, Wetten würde Sinn machen, wenn die KI das beste mögliche hand, aber wenn die KI-Wetten nur, wenn es die beste hand, die Gegner werden sich schnell fangen. So Pluribus berechnet, wie es handeln würde, mit jeder möglichen hand halten konnte, und berechnet dann eine Strategie, die ausgewogen über alle diese Möglichkeiten.

Obwohl poker ist ein unglaublich kompliziertes Spiel, Pluribus effizient nutzen-Berechnung. AIs erreicht haben die jüngsten Meilensteine in spielen, eingesetzt haben einer großen Anzahl von Servern und/oder Betrieb von GPUs; Libratus um 15 Millionen core-Stunden zu entwickeln, Ihre Strategien und die, während des live-Spiels, verwendet 1,400 CPU-Kerne. Pluribus berechnet Ihre blueprint-Strategie in acht Tagen mit nur 12.400 core Stunden und 28 Kerne während live-spielen.