Turing-Test

Aus besserwiki.de
Die "Standardinterpretation" des Turing-Tests, bei der Spieler C, der Befrager, die Aufgabe erhält, zu ermitteln, welcher Spieler - A oder B - ein Computer und welcher ein Mensch ist. Der Befrager ist darauf beschränkt, die Antworten auf schriftliche Fragen zu verwenden, um die Bestimmung vorzunehmen.

Der Turing-Test, von Alan Turing 1950 ursprünglich als Imitationsspiel bezeichnet, ist ein Test der Fähigkeit einer Maschine, intelligentes Verhalten zu zeigen, das dem eines Menschen entspricht oder von diesem nicht zu unterscheiden ist. Turing schlug vor, dass ein menschlicher Bewerter Gespräche in natürlicher Sprache zwischen einem Menschen und einer Maschine, die menschenähnliche Antworten erzeugen soll, beurteilt. Der Bewerter würde wissen, dass einer der beiden Gesprächspartner eine Maschine ist, und alle Teilnehmer würden voneinander getrennt sein. Das Gespräch würde sich auf einen reinen Textkanal beschränken, z. B. auf eine Computertastatur und einen Bildschirm, so dass das Ergebnis nicht von der Fähigkeit der Maschine abhängt, Wörter als Sprache wiederzugeben. Wenn der Prüfer die Maschine nicht zuverlässig von einem Menschen unterscheiden kann, hat die Maschine den Test bestanden. Das Testergebnis hängt nicht von der Fähigkeit der Maschine ab, richtige Antworten auf Fragen zu geben, sondern nur davon, wie sehr die Antworten denen eines Menschen ähneln.

Der Test wurde von Turing 1950 in seinem Aufsatz "Computing Machinery and Intelligence" vorgestellt, als er an der Universität von Manchester arbeitete. Er beginnt mit den Worten: "Ich schlage vor, die Frage 'Können Maschinen denken?' zu untersuchen". Da "Denken" schwer zu definieren ist, beschließt Turing, "die Frage durch eine andere zu ersetzen, die eng mit ihr verwandt ist und in relativ eindeutigen Worten ausgedrückt wird." Turing beschreibt die neue Form des Problems anhand eines Drei-Personen-Spiels, dem so genannten "Nachahmungsspiel", bei dem ein Befrager einem Mann und einer Frau in einem anderen Raum Fragen stellt, um das richtige Geschlecht der beiden Spieler zu bestimmen. Turings neue Frage lautet: "Gibt es denkbare digitale Computer, die im Imitationsspiel gut abschneiden würden?" Diese Frage, so glaubte Turing, könnte tatsächlich beantwortet werden. Im weiteren Verlauf des Papiers argumentierte er gegen alle wichtigen Einwände gegen die Behauptung, dass "Maschinen denken können".

Seit Turing seinen Test vorstellte, ist er sowohl sehr einflussreich als auch weithin kritisiert worden und hat sich zu einem wichtigen Konzept in der Philosophie der künstlichen Intelligenz entwickelt. Einige seiner Kritikpunkte, wie etwa John Searles chinesisches Zimmer, sind selbst umstritten.

In der üblichen Form des Turing-Tests versucht C zu entscheiden, ob es sich bei A oder B jeweils um einen Computer oder einen Menschen handelt. A und B versuchen C davon zu überzeugen, dass sie selbst Menschen sind.

Geschichte

Philosophischer Hintergrund

Die Frage, ob es möglich ist, dass Maschinen denken können, hat eine lange Geschichte, die fest in der Unterscheidung zwischen dualistischen und materialistischen Ansichten über den Geist verankert ist. René Descartes nimmt in seinem Diskurs über die Methode von 1637 Aspekte des Turing-Tests vorweg, wenn er schreibt:

[H]ie viele verschiedene Automaten oder bewegliche Maschinen können durch die Industrie des Menschen hergestellt werden ... Denn wir können leicht begreifen, dass eine Maschine so beschaffen ist, dass sie Worte äußern kann, und sogar einige Antworten auf Handlungen körperlicher Art aussenden kann, die eine Veränderung in ihren Organen bewirken; zum Beispiel kann sie, wenn sie an einem bestimmten Teil berührt wird, fragen, was wir ihr sagen wollen; wenn sie an einem anderen Teil ausruft, dass sie verletzt wird, und so weiter. Aber es kommt nie vor, dass er seine Sprache auf verschiedene Weise ordnet, um auf alles, was in seiner Gegenwart gesagt werden kann, angemessen zu antworten, wie es selbst die niedrigste Art von Mensch tun kann.

Hier stellt Descartes fest, dass Automaten in der Lage sind, auf menschliche Interaktionen zu reagieren, aber er argumentiert, dass solche Automaten nicht in der Lage sind, auf Dinge, die in ihrer Gegenwart gesagt werden, angemessen zu reagieren, so wie es ein Mensch kann. Descartes nimmt damit den Turing-Test vorweg, indem er die Unzulänglichkeit einer angemessenen sprachlichen Reaktion als das definiert, was den Menschen vom Automaten unterscheidet. Descartes zieht nicht die Möglichkeit in Betracht, dass zukünftige Automaten in der Lage sein könnten, diese Unzulänglichkeit zu überwinden, und schlägt daher den Turing-Test als solchen nicht vor, auch wenn er dessen konzeptionellen Rahmen und Kriterium vorwegnimmt.

Denis Diderot formuliert in seinem Buch Pensées philosophiques aus dem Jahr 1746 ein Kriterium für den Turing-Test, allerdings mit der wichtigen impliziten Einschränkung, dass es sich bei den Teilnehmern um natürliche Lebewesen und nicht um geschaffene Artefakte handelt: "Wenn sie einen Papagei finden, der auf alles antworten kann, würde ich ihn ohne zu zögern für ein intelligentes Wesen halten."

Das bedeutet nicht, dass er damit einverstanden ist, sondern dass dies schon damals ein gängiges Argument der Materialisten war.

Dem Dualismus zufolge ist der Geist nicht-physikalisch (oder hat zumindest nicht-physikalische Eigenschaften) und kann daher nicht mit rein physikalischen Begriffen erklärt werden. Dem Materialismus zufolge kann der Geist physikalisch erklärt werden, was die Möglichkeit eines künstlich erzeugten Geistes offen lässt.

Im Jahr 1936 befasste sich der Philosoph Alfred Ayer mit der philosophischen Standardfrage nach dem Geist anderer Menschen: Woher wissen wir, dass andere Menschen dieselben bewussten Erfahrungen machen wie wir? In seinem Buch Language, Truth and Logic (Sprache, Wahrheit und Logik) schlug Ayer ein Protokoll vor, um zwischen einem bewussten Menschen und einer unbewussten Maschine zu unterscheiden: "Der einzige Grund, den ich für die Behauptung haben kann, dass ein Objekt, das bewusst zu sein scheint, nicht wirklich ein bewusstes Wesen ist, sondern nur eine Puppe oder eine Maschine, ist, dass es einen der empirischen Tests nicht erfüllt, durch die das Vorhandensein oder die Abwesenheit von Bewusstsein bestimmt wird." (Dieser Vorschlag ist dem Turing-Test sehr ähnlich, bezieht sich aber auf das Bewusstsein und nicht auf die Intelligenz. Außerdem ist nicht sicher, dass Turing Ayers populärer philosophischer Klassiker bekannt war). Mit anderen Worten: Ein Ding ist nicht bewusst, wenn es den Bewusstseinstest nicht besteht.

Alan Turing

Bis zu zehn Jahre vor der Gründung des Forschungsgebiets der künstlichen Intelligenz (KI) im Jahr 1956 hatten sich Forscher im Vereinigten Königreich mit der "maschinellen Intelligenz" befasst. Es war ein häufiges Thema unter den Mitgliedern des Ratio Club, einer informellen Gruppe britischer Kybernetik- und Elektronikforscher, zu der auch Alan Turing gehörte.

Vor allem Turing hatte sich mit dem

Turing beschäftigte sich mindestens seit 1941 mit dem Begriff der maschinellen Intelligenz, und eine der frühesten bekannten Erwähnungen der "Computerintelligenz" stammt von ihm aus dem Jahr 1947. In Turings Bericht "Intelligent Machinery" untersuchte er "die Frage, ob es möglich ist, dass Maschinen intelligentes Verhalten zeigen" und schlug im Rahmen dieser Untersuchung etwas vor, das als Vorläufer seiner späteren Tests angesehen werden kann:

Es ist nicht schwer, eine Papiermaschine zu konstruieren, die eine gar nicht so schlechte Schachpartie spielen kann. Man nehme nun drei Männer A, B und C als Versuchspersonen. A und C sollen eher schlechte Schachspieler sein, B ist der Bediener, der die Papiermaschine bedient. ... Es werden zwei Räume mit einer Vorrichtung zur Übermittlung von Zügen benutzt, und es wird eine Partie zwischen C und entweder A oder der Papiermaschine gespielt. Für C kann es ziemlich schwierig sein, zu erkennen, gegen wen er spielt.

"Computing Machinery and Intelligence" (1950) war die erste von Turing veröffentlichte Arbeit, die sich ausschließlich mit der maschinellen Intelligenz befasste. Turing beginnt die Arbeit von 1950 mit der Behauptung: "Ich schlage vor, die Frage 'Können Maschinen denken?' zu betrachten". Wie er hervorhebt, besteht der traditionelle Ansatz für eine solche Frage darin, mit Definitionen zu beginnen und sowohl die Begriffe "Maschine" als auch "Intelligenz" zu definieren. Turing tut dies nicht; stattdessen ersetzt er die Frage durch eine neue, "die eng mit ihr verwandt ist und in relativ eindeutigen Worten ausgedrückt wird". Im Wesentlichen schlägt er vor, die Frage von "Können Maschinen denken?" in "Können Maschinen tun, was wir (als denkende Wesen) tun können?" zu ändern. Der Vorteil der neuen Frage, so Turing, ist, dass sie "eine ziemlich scharfe Grenze zwischen den physischen und intellektuellen Fähigkeiten eines Menschen" zieht.

Um diesen Ansatz zu demonstrieren, schlägt Turing einen Test vor, der von einem Partyspiel inspiriert ist, dem so genannten "Imitationsspiel", bei dem ein Mann und eine Frau in getrennte Räume gehen und die Gäste versuchen, sie zu unterscheiden, indem sie eine Reihe von Fragen schreiben und die mit der Schreibmaschine geschriebenen Antworten lesen. Bei diesem Spiel versuchen sowohl der Mann als auch die Frau, die Gäste davon zu überzeugen, dass sie der andere sind. (Huma Shah argumentiert, dass diese Zwei-Menschen-Version des Spiels von Turing nur vorgestellt wurde, um den Leser in den Frage-Antwort-Test zwischen Maschine und Mensch einzuführen.) Turing beschrieb seine neue Version des Spiels wie folgt:

Wir stellen nun die Frage: "Was wird passieren, wenn eine Maschine in diesem Spiel die Rolle von A übernimmt?" Wird der Fragesteller bei einem solchen Spiel genauso oft falsch entscheiden wie bei einem Spiel zwischen einem Mann und einer Frau? Diese Fragen ersetzen unsere ursprüngliche Frage "Können Maschinen denken?".

Später in der Abhandlung schlägt Turing eine "äquivalente" Alternativformulierung vor, bei der sich ein Richter nur mit einem Computer und einem Menschen unterhält. Während keine dieser beiden Formulierungen genau der heute allgemein bekannten Version des Turing-Tests entspricht, schlug er 1952 eine dritte vor. In dieser Version, die Turing in einer BBC-Radiosendung erörterte, stellt eine Jury Fragen an einen Computer, und die Aufgabe des Computers besteht darin, einen erheblichen Teil der Jury glauben zu machen, dass er in Wirklichkeit ein Mensch ist.

In Turings Aufsatz wurden neun vermeintliche Einwände erörtert, die alle wichtigen Argumente gegen künstliche Intelligenz enthalten, die in den Jahren seit der Veröffentlichung des Aufsatzes vorgebracht wurden (siehe "Computing Machinery and Intelligence").

ELIZA und PARRY

Im Jahr 1966 entwickelte Joseph Weizenbaum ein Programm, das den Turing-Test zu bestehen schien. Das Programm, bekannt als ELIZA, untersuchte die von einem Benutzer eingegebenen Kommentare auf Schlüsselwörter. Wenn ein Schlüsselwort gefunden wird, wird eine Regel angewandt, die die Kommentare des Benutzers umwandelt, und der resultierende Satz wird zurückgegeben. Wird ein Schlüsselwort nicht gefunden, antwortet ELIZA entweder mit einer allgemeinen Antwort oder mit der Wiederholung eines der früheren Kommentare. Darüber hinaus entwickelte Weizenbaum ELIZA so, dass es das Verhalten eines Roger'schen Psychotherapeuten nachahmt, so dass ELIZA "die Freiheit hat, die Pose einzunehmen, fast nichts von der realen Welt zu wissen". Mit diesen Techniken war Weizenbaums Programm in der Lage, einigen Menschen vorzugaukeln, dass sie mit einer realen Person sprechen, wobei einige Probanden "sehr schwer davon zu überzeugen sind, dass ELIZA [...] kein Mensch ist". Daher wird von einigen behauptet, ELIZA sei eines der Programme (vielleicht das erste), das den Turing-Test bestanden hat, auch wenn diese Ansicht höchst umstritten ist (siehe Naivität der Befrager unten).

Kenneth Colby schuf 1972 PARRY, ein Programm, das als "ELIZA mit Haltung" beschrieben wurde. Es versuchte, das Verhalten eines paranoiden Schizophrenen zu modellieren, wobei ein ähnlicher (wenn auch fortschrittlicherer) Ansatz wie der von Weizenbaum verwendet wurde. Um die Arbeit zu validieren, wurde PARRY in den frühen 1970er Jahren mit einer Variation des Turing-Tests getestet. Eine Gruppe erfahrener Psychiater analysierte eine Kombination aus echten Patienten und Computern, auf denen PARRY über Fernschreiber lief. Einer anderen Gruppe von 33 Psychiatern wurden Abschriften der Gespräche gezeigt. Die beiden Gruppen wurden dann gebeten, zu erkennen, welche der "Patienten" Menschen und welche Computerprogramme waren. Die Psychiater waren nur in 52 Prozent der Fälle in der Lage, die richtige Identifizierung vorzunehmen - eine Zahl, die dem Zufallsprinzip entspricht.

Im 21. Jahrhundert täuschen Versionen dieser Programme (jetzt als "Chatbots" bekannt) die Menschen weiterhin. "CyberLover", ein Malware-Programm, nutzt Internetnutzer aus, indem es sie dazu bringt, "Informationen über ihre Identität preiszugeben oder sie zum Besuch einer Website zu verleiten, die bösartige Inhalte auf ihre Computer überträgt". Das Programm hat sich als "Valentinsrisiko" entpuppt, das mit Menschen flirtet, "die online Beziehungen suchen, um ihre persönlichen Daten zu sammeln".

Das chinesische Zimmer

John Searle schlug 1980 in seinem Aufsatz Minds, Brains, and Programs das Gedankenexperiment "Chinesisches Zimmer" vor und argumentierte, dass der Turing-Test nicht verwendet werden kann, um festzustellen, ob eine Maschine denken kann. Searle stellte fest, dass Software (wie z. B. ELIZA) den Turing-Test einfach dadurch bestehen kann, dass sie Symbole manipuliert, von denen sie nichts versteht. Ohne Verständnis könne man sie nicht als "denkend" in demselben Sinne bezeichnen wie Menschen. Daher, so schloss Searle, könne der Turing-Test nicht beweisen, dass Maschinen denken können. Ähnlich wie der Turing-Test selbst wurde Searles Argument sowohl von vielen Seiten kritisiert als auch befürwortet.

Argumente wie die von Searle und anderen, die sich mit der Philosophie des Geistes befassen, lösten eine intensivere Debatte über das Wesen der Intelligenz, die Möglichkeit intelligenter Maschinen und den Wert des Turing-Tests aus, die in den 1980er und 1990er Jahren fortgesetzt wurde.

  • Beim Turing-Test gehe es „in erster Linie um Täuschung“. Er teste „eher menschliche Leichtgläubigkeit als echte künstliche Intelligenz“. Die Winograd challenge teste den „gesunden Menschenverstand“ und „Wissen über die Wirklichkeit“ besser.

Loebner-Preis

Der Loebner-Preis bietet eine jährliche Plattform für praktische Turing-Tests. Der erste Wettbewerb fand im November 1991 statt. Er wird von Hugh Loebner gestiftet. Das Cambridge Center for Behavioral Studies in Massachusetts, Vereinigte Staaten, organisierte die Preise bis einschließlich des Wettbewerbs 2003. Laut Loebner wurde der Wettbewerb unter anderem deshalb ins Leben gerufen, um den Stand der KI-Forschung voranzutreiben, da trotz 40-jähriger Diskussion niemand Schritte zur Durchführung des Turing-Tests unternommen hatte.

Der erste Wettbewerb um den Loebner-Preis im Jahr 1991 führte zu einer erneuten Diskussion über die Durchführbarkeit des Turing-Tests und den Wert seiner Weiterführung, sowohl in der populären Presse als auch in der Wissenschaft. Der erste Wettbewerb wurde von einem geistlosen Programm ohne erkennbare Intelligenz gewonnen, dem es gelang, naive Befrager zur falschen Identifizierung zu verleiten. Dies machte einige der Unzulänglichkeiten des Turing-Tests deutlich (siehe unten): Der Gewinner gewann, zumindest teilweise, weil er in der Lage war, "menschliche Tippfehler zu imitieren"; die unbedarften Befrager ließen sich leicht täuschen; und einige KI-Forscher wurden zu dem Schluss verleitet, dass der Test lediglich eine Ablenkung von fruchtbarerer Forschung darstellt.

Die Preise in Silber (nur Text) und Gold (Audio und visuell) wurden nie gewonnen. Die Bronzemedaille wird jedoch jedes Jahr an das Computersystem vergeben, das nach Meinung der Jury das "menschlichste" Gesprächsverhalten unter den diesjährigen Teilnehmern zeigt. Artificial Linguistic Internet Computer Entity (A.L.I.C.E.) hat in letzter Zeit dreimal die Bronzemedaille gewonnen (2000, 2001, 2004). Die lernende KI Jabberwacky gewann in den Jahren 2005 und 2006.

Der Loebner-Preis testet Gesprächsintelligenz; die Gewinner sind in der Regel Chatterbot-Programme oder Artificial Conversational Entities (ACE). Die frühen Regeln des Loebner-Preises schränkten die Konversation ein: Jeder Beitrag und jeder verborgene Mensch unterhielt sich über ein einziges Thema, so dass die Befrager auf eine Frage pro Entitätsinteraktion beschränkt waren. Für den Loebner-Preis von 1995 wurde die eingeschränkte Konversationsregel aufgehoben. Die Dauer der Interaktion zwischen Richter und Entität war bei den Loebner-Preisen unterschiedlich. Beim Loebner-Preis 2003 an der University of Surrey hatte jeder Befrager fünf Minuten Zeit, um mit einer Entität, einer Maschine oder einem versteckten Menschen, zu interagieren. Zwischen 2004 und 2007 betrug die erlaubte Interaktionszeit bei den Loebner-Preisen mehr als zwanzig Minuten.

Der Loebner-Preis ist seit 1991 ausgeschrieben und soll an das Computerprogramm verliehen werden, das als erstes einen erweiterten Turing-Test besteht, bei dem auch Multimedia-Inhalte wie Musik, Sprache, Bilder und Videos verarbeitet werden müssen. Der Preis ist nach Hugh G. Loebner benannt und mit 100.000 US-Dollar und einer Goldmedaille dotiert, eine Silbermedaille und 25.000 Dollar gibt es für das Bestehen des schriftlichen Turing-Tests. Bisher konnte jedoch kein Computerprogramm die nötigen Voraussetzungen erfüllen. Weiterhin wird jährlich ein Loebner-Preis an das Computerprogramm verliehen, das einem menschlichen Gespräch am nächsten kommt. Dieser ist mit 4.000 US-Dollar und einer Bronzemedaille dotiert.

Versionen

Das Nachahmungsspiel, wie von Alan Turing in "Computing Machinery and Intelligence" beschrieben. Spieler C versucht, durch eine Reihe schriftlicher Fragen herauszufinden, welcher der beiden anderen Spieler ein Mann und welcher eine Frau ist. Spieler A, der Mann, versucht, Spieler C dazu zu bringen, die falsche Entscheidung zu treffen, während Spieler B versucht, Spieler C zu helfen.

Saul Traiger argumentiert, dass es mindestens drei Hauptversionen des Turing-Tests gibt, von denen zwei in "Computing Machinery and Intelligence" angeboten werden und eine, die er als "Standard Interpretation" bezeichnet. Es ist zwar umstritten, ob die "Standardinterpretation" die von Turing beschriebene ist oder ob sie auf einer falschen Auslegung seines Papiers beruht, aber diese drei Versionen werden nicht als gleichwertig angesehen, und ihre Stärken und Schwächen sind unterschiedlich.

Huma Shah weist darauf hin, dass es Turing selbst um die Frage ging, ob eine Maschine denken kann, und dass er eine einfache Methode anbot, dies zu untersuchen: durch Frage-Antwort-Sitzungen zwischen Mensch und Maschine. Shah argumentiert, dass ein von Turing beschriebenes Nachahmungsspiel auf zwei verschiedene Arten in die Praxis umgesetzt werden kann: a) Eins-zu-eins-Test zwischen Mensch und Maschine und b) gleichzeitiger Vergleich einer Maschine mit einem Menschen, die beide parallel von einem Befrager befragt werden. Da es sich beim Turing-Test um einen Test der Ununterscheidbarkeit der Leistungsfähigkeit handelt, lässt sich die verbale Version natürlich auf die gesamte menschliche Leistungsfähigkeit verallgemeinern, sowohl auf die verbale als auch auf die nonverbale (robotische).

Nachahmungsspiel

Turings Originalartikel beschreibt ein einfaches Partyspiel mit drei Spielern. Spieler A ist ein Mann, Spieler B ist eine Frau und Spieler C (der die Rolle des Verhörenden spielt) ist von beliebigem Geschlecht. Bei dem Imitationsspiel kann Spieler C weder Spieler A noch Spieler B sehen und nur durch schriftliche Notizen mit ihnen kommunizieren. Indem er Spieler A und Spieler B Fragen stellt, versucht Spieler C herauszufinden, wer von den beiden der Mann und wer die Frau ist. Spieler A hat die Aufgabe, den Fragesteller zu einer falschen Entscheidung zu verleiten, während Spieler B versucht, dem Fragesteller zu helfen, die richtige Entscheidung zu treffen.

Turing fragt dann:

"Was wird passieren, wenn eine Maschine in diesem Spiel die Rolle von A übernimmt? Wird der Vernehmer in einem solchen Spiel genauso oft falsch entscheiden wie in einem Spiel zwischen einem Mann und einer Frau?" Diese Fragen ersetzen unsere ursprüngliche Frage "Können Maschinen denken?".

Der ursprüngliche Test des Nachahmungsspiels, bei dem der Spieler A durch einen Computer ersetzt wird. Der Computer übernimmt nun die Rolle des Mannes, während Spieler B weiterhin versucht, dem Fragesteller zu helfen. Die Abbildung wurde von Saygin, 2000, übernommen.

Die zweite Version erschien später in Turings Arbeit von 1950. Ähnlich wie beim ursprünglichen Nachahmungstest wird die Rolle des Spielers A von einem Computer übernommen. Die Rolle des Spielers B wird jedoch von einem Mann und nicht von einer Frau gespielt.

Richten wir unsere Aufmerksamkeit auf einen bestimmten Digitalcomputer C. Stimmt es, dass C durch Modifikation dieses Computers, um einen angemessenen Speicherplatz zu erhalten, seine Handlungsgeschwindigkeit angemessen zu erhöhen und ihn mit einem geeigneten Programm auszustatten, dazu gebracht werden kann, die Rolle von A im Nachahmungsspiel zufriedenstellend zu spielen, wobei die Rolle von B von einem Mann übernommen wird?

In dieser Version versuchen sowohl Spieler A (der Computer) als auch Spieler B, den Fragesteller zu einer falschen Entscheidung zu verleiten.

Standard-Wurzelauslegung

Die Standardinterpretation ist nicht in der Originalarbeit enthalten, ist aber sowohl akzeptiert als auch umstritten. Nach allgemeinem Verständnis besteht der Zweck des Turing-Tests nicht darin, festzustellen, ob ein Computer in der Lage ist, einen Befrager zu täuschen, damit er glaubt, er sei ein Mensch, sondern ob ein Computer einen Menschen imitieren kann. Es ist zwar umstritten, ob diese Interpretation von Turing beabsichtigt war, Sterrett ist jedoch der Ansicht, dass dies der Fall war, und bringt daher die zweite Version mit dieser zusammen, während andere, wie z. B. Traiger, dies nicht tun - dies hat jedoch zu dem geführt, was als "Standardinterpretation" angesehen werden kann. In dieser Version ist Spieler A ein Computer und Spieler B eine Person beiderlei Geschlechts. Die Rolle des Vernehmers besteht nicht darin, festzustellen, welcher Spieler männlich und welcher weiblich ist, sondern welcher Spieler ein Computer und welcher ein Mensch ist. Das grundlegende Problem bei der Standardauslegung ist, dass der Vernehmer nicht unterscheiden kann, welcher Responder ein Mensch und welcher eine Maschine ist. Es gibt Probleme mit der Dauer, aber die Standardauslegung betrachtet diese Einschränkung im Allgemeinen als etwas, das angemessen sein sollte.

Imitationsspiel vs. Standard-Turing-Test

Es ist eine Kontroverse darüber entstanden, welche der alternativen Formulierungen des Tests Turing beabsichtigte. Sterrett vertritt die Auffassung, dass sich aus Turings Aufsatz von 1950 zwei verschiedene Tests ableiten lassen und dass sie - entgegen Turings Bemerkung - nicht gleichwertig sind. Der Test, der das Partyspiel verwendet und die Erfolgshäufigkeit vergleicht, wird als "Original Imitation Game Test" bezeichnet, während der Test, bei dem sich ein menschlicher Richter mit einem Menschen und einer Maschine unterhält, als "Standard Turing Test" bezeichnet wird, wobei Sterrett anmerkt, dass er dies mit der "Standardinterpretation" und nicht mit der zweiten Version des Imitationsspiels gleichsetzt. Sterrett stimmt zu, dass der Standard-Turing-Test (STT) die von seinen Kritikern angeführten Probleme aufweist, ist jedoch der Ansicht, dass der so definierte Original-Imitationsspiel-Test (OIG-Test) im Gegensatz dazu aufgrund eines entscheidenden Unterschieds gegen viele dieser Probleme immun ist: Anders als der STT macht er die Ähnlichkeit mit der menschlichen Leistung nicht zum Kriterium, obwohl er die menschliche Leistung bei der Festlegung eines Kriteriums für die maschinelle Intelligenz heranzieht. Ein Mensch kann den OIG-Test nicht bestehen, aber es wird argumentiert, dass es eine Tugend eines Intelligenztests ist, dass ein Versagen auf einen Mangel an Einfallsreichtum hinweist: Der OIG-Test erfordert den Einfallsreichtum, der mit Intelligenz verbunden ist, und nicht nur die "Simulation des menschlichen Gesprächsverhaltens". Die allgemeine Struktur des OIG-Tests könnte sogar mit nonverbalen Versionen von Imitationsspielen verwendet werden.

Andere Autoren haben Turing dahingehend interpretiert, dass er das Nachahmungsspiel selbst als Test vorschlägt, ohne zu spezifizieren, wie Turings Aussage zu berücksichtigen ist, dass der von ihm vorgeschlagene Test mit der Parteiversion des Nachahmungsspiels auf einem Kriterium der relativen Häufigkeit des Erfolgs in diesem Nachahmungsspiel basiert und nicht auf der Fähigkeit, in einer Runde des Spiels erfolgreich zu sein.

Saygin hat vorgeschlagen, dass das ursprüngliche Spiel vielleicht eine Möglichkeit ist, ein weniger voreingenommenes experimentelles Design vorzuschlagen, da es die Beteiligung des Computers verbirgt. Das Imitationsspiel enthält auch einen "sozialen Hack", der in der Standardinterpretation nicht vorkommt, da in diesem Spiel sowohl der Computer als auch der männliche Mensch so tun müssen, als wären sie jemand, der sie nicht sind.

Sollte der Vernehmungsbeamte über den Computer Bescheid wissen?

Ein entscheidender Punkt bei jedem Labortest ist, dass es eine Kontrolle geben sollte. Turing stellt nie klar, ob der Fragesteller in seinen Tests weiß, dass einer der Teilnehmer ein Computer ist. Er sagt nur, dass Spieler A durch eine Maschine ersetzt werden soll, aber nicht, dass Spieler C von dieser Ersetzung erfahren soll. Als Colby, FD Hilf, S Weber und AD Kramer PARRY testeten, gingen sie davon aus, dass die Vernehmungsbeamten nicht wissen mussten, dass einer oder mehrere der Befragten während der Befragung ein Computer waren. Wie Ayse Saygin, Peter Swirski und andere hervorgehoben haben, macht dies einen großen Unterschied bei der Durchführung und dem Ergebnis des Tests. In einer experimentellen Studie zur Untersuchung von Verstößen gegen die Grice'sche Maxime anhand von Transkripten des Loebner-Preises für KI-Wettbewerbe zwischen 1994 und 1999 fand Ayse Saygin signifikante Unterschiede zwischen den Antworten von Teilnehmern, die von der Beteiligung von Computern wussten und solchen, die dies nicht wussten.

Stärken

Nachvollziehbarkeit und Einfachheit

Die Stärke und Attraktivität des Turing-Tests beruht auf seiner Einfachheit. Die Philosophie des Geistes, die Psychologie und die modernen Neurowissenschaften waren nicht in der Lage, Definitionen von "Intelligenz" und "Denken" zu liefern, die präzise und allgemein genug sind, um sie auf Maschinen anzuwenden. Ohne solche Definitionen können die zentralen Fragen der Philosophie der künstlichen Intelligenz nicht beantwortet werden. Der Turing-Test, auch wenn er unvollkommen ist, liefert zumindest etwas, das tatsächlich gemessen werden kann. Als solcher ist er ein pragmatischer Versuch, eine schwierige philosophische Frage zu beantworten.

Breite des Themas

Das Format des Tests ermöglicht es dem Fragesteller, der Maschine eine große Bandbreite an intellektuellen Aufgaben zu stellen. Turing schrieb, dass "die Frage-Antwort-Methode geeignet zu sein scheint, um fast alle Bereiche menschlichen Strebens einzuführen, die wir einbeziehen wollen". John Haugeland fügt hinzu, dass "es nicht ausreicht, die Worte zu verstehen, man muss auch das Thema verstehen".

Um einen gut konzipierten Turing-Test zu bestehen, muss die Maschine natürliche Sprache verwenden, logisch denken, Wissen haben und lernen. Der Test kann um eine Videoeingabe sowie eine "Luke" erweitert werden, durch die Objekte hindurchgeschoben werden können: Dies würde die Maschine zwingen, auch den geschickten Einsatz von gut entwickelter Vision und Robotik zu demonstrieren. Zusammengenommen stellen sie fast alle wichtigen Probleme dar, die die Forschung im Bereich der künstlichen Intelligenz lösen möchte.

Der Feigenbaum-Test ist so konzipiert, dass er die Vorteile des breiten Spektrums an Themen nutzt, die einem Turing-Test zur Verfügung stehen. Es handelt sich um eine begrenzte Form des Frage-Antwort-Spiels von Turing, bei dem die Maschine mit den Fähigkeiten von Experten auf bestimmten Gebieten wie Literatur oder Chemie verglichen wird. Die IBM-Maschine Watson war in der Fernseh-Quizshow Jeopardy! erfolgreich, in der es um menschliches Wissen ging.

Betonung der emotionalen und ästhetischen Intelligenz

Als Absolvent eines Mathematikstudiums in Cambridge hätte man von Turing erwarten können, dass er einen Test der Computerintelligenz vorschlägt, der Expertenwissen in einem hochtechnischen Bereich erfordert und damit einen neueren Ansatz zu diesem Thema vorwegnimmt. Stattdessen erfordert der Test, den er in seinem bahnbrechenden Aufsatz von 1950 beschrieb, wie bereits erwähnt, dass der Computer in der Lage ist, erfolgreich an einem gewöhnlichen Gesellschaftsspiel teilzunehmen, und zwar indem er bei der Beantwortung einer Reihe von Fragen genauso gut abschneidet wie ein typischer Mann, so dass er überzeugend vorgibt, die weibliche Teilnehmerin zu sein.

Angesichts des Status des menschlichen Sexualdimorphismus als eines der ältesten Themen ist es im obigen Szenario also implizit, dass die zu beantwortenden Fragen weder spezielles Faktenwissen noch Informationsverarbeitungstechniken erfordern werden. Die Herausforderung für den Computer wird vielmehr darin bestehen, Einfühlungsvermögen für die Rolle der Frau zu zeigen und auch ein charakteristisches ästhetisches Empfinden an den Tag zu legen - beides Qualitäten, die in diesem von Turing erdachten Dialogausschnitt zu sehen sind:

Verhörender: Würde X mir bitte die Länge seiner oder ihrer Haare nennen?
Teilnehmer: Mein Haar ist gescheitelt, und die längsten Strähnen sind etwa neun Zentimeter lang.

Wenn Turing Fachwissen in einen seiner imaginären Dialoge einbringt, geht es nicht um Mathematik oder Elektronik, sondern um Poesie:

Interrogator: In der ersten Zeile Ihres Sonetts, die da lautet: "Soll ich dich mit einem Sommertag vergleichen", würde da nicht "ein Frühlingstag" genauso gut oder besser passen?
Zeuge: Es würde nicht passen.
Fragesteller: Wie wäre es mit "ein Wintertag". Das würde sich gut lesen lassen.
Zeuge: Ja, aber niemand möchte mit einem Wintertag verglichen werden.

Turing zeigt damit einmal mehr sein Interesse an Empathie und ästhetischem Empfinden als Komponenten einer künstlichen Intelligenz; und angesichts des zunehmenden Bewusstseins für die Bedrohung durch eine Amok laufende KI wurde die Vermutung geäußert, dass dieser Schwerpunkt vielleicht eine kritische Intuition Turings darstellt, d. h. dass emotionale und ästhetische Intelligenz eine Schlüsselrolle bei der Schaffung einer "freundlichen KI" spielen wird. Es wird jedoch auch darauf hingewiesen, dass jegliche Inspiration, die Turing in dieser Richtung geben könnte, von der Bewahrung seiner ursprünglichen Vision abhängt, was wiederum bedeutet, dass die Verbreitung einer "Standardinterpretation" des Turings - d. h. einer Interpretation, die sich nur auf eine diskursive Intelligenz konzentriert - mit einer gewissen Vorsicht betrachtet werden muss.

Unzulänglichkeiten

Turing hat nicht ausdrücklich erklärt, dass der Turing-Test als Maß für "Intelligenz" oder eine andere menschliche Eigenschaft verwendet werden kann. Er wollte eine klare und verständliche Alternative zum Wort "denken" bieten, mit der er auf die Kritik an der Möglichkeit "denkender Maschinen" antworten und Vorschläge für mögliche Fortschritte in der Forschung machen konnte. Zahlreiche Experten auf diesem Gebiet, darunter der Kognitionswissenschaftler Gary Marcus, bestehen darauf, dass der Turing-Test nur zeigt, wie leicht Menschen zu täuschen sind, und kein Hinweis auf die Intelligenz von Maschinen ist.

Dennoch ist der Turing-Test als Maß für die "Denkfähigkeit" oder "Intelligenz" einer Maschine vorgeschlagen worden. Dieser Vorschlag ist sowohl von Philosophen als auch von Informatikern kritisiert worden. Er geht davon aus, dass ein Befrager feststellen kann, ob eine Maschine "denkt", indem er ihr Verhalten mit menschlichem Verhalten vergleicht. Jedes Element dieser Annahme wurde in Frage gestellt: die Verlässlichkeit des Urteils des Vernehmers, der Wert des Vergleichs nur des Verhaltens und der Wert des Vergleichs der Maschine mit einem Menschen. Aufgrund dieser und anderer Überlegungen haben einige KI-Forscher die Relevanz des Tests für ihr Fachgebiet in Frage gestellt.

Menschliche Intelligenz vs. Intelligenz im Allgemeinen

Weakness of Turing test 1.svg

Mit dem Turing-Test wird nicht direkt geprüft, ob sich der Computer intelligent verhält. Er prüft nur, ob sich der Computer wie ein Mensch verhält. Da menschliches Verhalten und intelligentes Verhalten nicht genau dasselbe sind, kann der Test die Intelligenz in zweierlei Hinsicht nicht genau messen:

Einige menschliche Verhaltensweisen sind unintelligent
Der Turing-Test setzt voraus, dass die Maschine in der Lage ist, alle menschlichen Verhaltensweisen auszuführen, unabhängig davon, ob sie intelligent sind. Es wird sogar auf Verhaltensweisen getestet, die nicht als intelligent gelten, wie die Anfälligkeit für Beleidigungen, die Versuchung zu lügen oder einfach die Häufigkeit von Tippfehlern. Wenn eine Maschine diese unintelligenten Verhaltensweisen nicht im Detail nachahmen kann, besteht sie den Test nicht.
Dieser Einwand wurde von The Economist in einem Artikel mit der Überschrift "Künstliche Dummheit" erhoben, der kurz nach der ersten Verleihung des Loebner-Preises im Jahr 1992 veröffentlicht wurde. In dem Artikel wurde festgestellt, dass der Sieg des ersten Loebner-Preisträgers zumindest teilweise auf seine Fähigkeit zurückzuführen war, "menschliche Tippfehler zu imitieren". Turing selbst hatte vorgeschlagen, dass Programme Fehler in ihre Ausgabe einbauen, um bessere "Spieler" des Spiels zu sein.
Einige intelligente Verhaltensweisen sind unmenschlich
Der Turing-Test prüft nicht auf hochintelligente Verhaltensweisen, wie die Fähigkeit, schwierige Probleme zu lösen oder originelle Erkenntnisse zu gewinnen. Vielmehr erfordert er eine Täuschung seitens der Maschine: Wenn die Maschine intelligenter ist als ein Mensch, muss sie absichtlich vermeiden, zu intelligent zu erscheinen. Würde sie ein Rechenproblem lösen, das für einen Menschen praktisch unlösbar ist, wüsste der Fragesteller, dass das Programm nicht menschlich ist, und die Maschine würde den Test nicht bestehen.
Da der Test keine Intelligenz messen kann, die über die Fähigkeiten von Menschen hinausgeht, kann er nicht dazu verwendet werden, Systeme zu entwickeln oder zu bewerten, die intelligenter sind als Menschen. Aus diesem Grund wurden mehrere Testalternativen vorgeschlagen, mit denen superintelligente Systeme bewertet werden könnten.

Der sprachzentrierte Einwand

Ein weiterer bekannter Einwand gegen den Turing-Test betrifft seine ausschließliche Konzentration auf das sprachliche Verhalten (d. h. es handelt sich um ein rein "sprachbasiertes" Experiment, während alle anderen kognitiven Fähigkeiten nicht getestet werden). Dieser Nachteil schmälert die Rolle anderer modalitätsspezifischer "intelligenter Fähigkeiten" des Menschen, die der Psychologe Howard Gardner in seiner "Theorie der multiplen Intelligenz" zu berücksichtigen vorschlägt (verbal-linguistische Fähigkeiten sind nur eine davon). .

Bewusstsein vs. die Simulation von Bewusstsein

Der Turing-Test befasst sich ausschließlich mit dem Verhalten des Subjekts, also mit dem äußeren Verhalten der Maschine. In dieser Hinsicht verfolgt er einen behavioristischen oder funktionalistischen Ansatz bei der Erforschung des Geistes. Das Beispiel von ELIZA legt nahe, dass eine Maschine, die den Test besteht, in der Lage sein könnte, menschliches Gesprächsverhalten zu simulieren, indem sie eine einfache (aber umfangreiche) Liste mechanischer Regeln befolgt, ohne zu denken oder überhaupt einen Geist zu haben.

John Searle hat argumentiert, dass man anhand des äußeren Verhaltens nicht feststellen kann, ob eine Maschine "tatsächlich" denkt oder nur "Denken simuliert". Sein "Chinese Room"-Argument soll zeigen, dass der Turing-Test zwar eine gute operationale Definition von Intelligenz ist, aber nicht bedeutet, dass die Maschine einen Verstand, ein Bewusstsein oder eine Intentionalität hat. (Intentionalität ist ein philosophischer Begriff für die Fähigkeit von Gedanken, "über" etwas zu sein.)

Turing nahm diese Kritik in seiner ursprünglichen Arbeit vorweg und schrieb:

Ich möchte nicht den Eindruck erwecken, dass ich glaube, dass das Bewusstsein kein Geheimnis ist. Es gibt zum Beispiel so etwas wie ein Paradoxon, das mit jedem Versuch, es zu lokalisieren, verbunden ist. Aber ich glaube nicht, dass diese Rätsel unbedingt gelöst werden müssen, bevor wir die Frage beantworten können, mit der wir uns in diesem Papier beschäftigen.

Die Naivität der Vernehmungsbeamten

In der Praxis können die Ergebnisse des Tests leicht nicht von der Intelligenz des Computers, sondern von der Einstellung, den Fähigkeiten oder der Naivität des Fragestellers beeinflusst werden.

Turing gibt in seiner Beschreibung des Tests nicht genau an, welche Fähigkeiten und Kenntnisse der Befrager haben muss, aber er verwendet den Begriff "durchschnittlicher Befrager": "Ein durchschnittlicher Befrager hätte nach fünf Minuten Befragung nicht mehr als 70 Prozent Chance, die richtige Identifizierung vorzunehmen".

Chatterbot-Programme wie ELIZA haben wiederholt ahnungslosen Menschen vorgegaukelt, sie würden mit Menschen kommunizieren. In diesen Fällen sind sich die "Vernehmer" nicht einmal der Möglichkeit bewusst, dass sie mit Computern interagieren. Um erfolgreich menschlich zu erscheinen, braucht die Maschine keinerlei Intelligenz zu besitzen, sondern nur eine oberflächliche Ähnlichkeit mit menschlichem Verhalten.

Bei früheren Wettbewerben um den Loebner-Preis wurden "unbedarfte" Befrager eingesetzt, die von den Maschinen leicht getäuscht werden konnten. Seit 2004 setzen die Organisatoren des Loebner-Preises Philosophen, Informatiker und Journalisten als Befrager ein. Dennoch sind einige dieser Experten von den Maschinen getäuscht worden.

Ein interessantes Merkmal des Turing-Tests ist die Häufigkeit des Konföderationseffekts, bei dem die (getesteten) Konföderationsmenschen von den Vernehmern fälschlicherweise als Maschinen identifiziert werden. Es wurde vermutet, dass das, was die Befrager als menschliche Antworten erwarten, nicht unbedingt typisch für Menschen ist. Infolgedessen können einige Personen als Maschinen eingestuft werden. Dies kann daher zu Gunsten einer konkurrierenden Maschine wirken. Die Menschen werden angewiesen, "sich selbst zu verhalten", aber manchmal entsprechen ihre Antworten eher dem, was der Vernehmer von einer Maschine erwartet. Hier stellt sich die Frage, wie sichergestellt werden kann, dass die Menschen motiviert sind, sich "menschlich" zu verhalten.

Schweigen

Ein kritischer Aspekt des Turing-Tests ist, dass eine Maschine sich durch ihre Äußerungen als Maschine zu erkennen geben muss. Ein Befrager muss dann die "richtige Identifizierung" vornehmen, indem er die Maschine korrekt als solche identifiziert. Wenn aber eine Maschine während eines Gesprächs schweigt, ist es für einen Vernehmer nicht möglich, die Maschine anders als durch eine kalkulierte Vermutung richtig zu identifizieren. Selbst die Berücksichtigung eines parallelen/versteckten Menschen als Teil des Tests kann die Situation nicht verbessern, da Menschen oft fälschlicherweise als Maschinen identifiziert werden können.

Unpraktikabilität und Irrelevanz: der Turing-Test und die KI-Forschung

Programme wie ELIZA sind Versuchspersonen gegenüber kurzzeitig als menschlich erschienen, ohne dass sie den Turing-Test formal bestehen könnten. In ihrer Antwortstrategie gingen sie nur scheinbar auf ihr Gegenüber ein; den Versuchspersonen war nicht bewusst, dass sie es mit nichtmenschlichen Gesprächspartnern zu tun haben könnten.

Im Oktober 2008 wurde bei einem Experiment an der University of Reading, bei dem sechs Computerprogramme teilnahmen, die 30-Prozent-Marke knapp verfehlt. Das beste Programm schaffte es, 25 Prozent der menschlichen Versuchsteilnehmer zu täuschen.

Am 3. September 2011 nahm die KI-Webapplikation Cleverbot zusammen mit echten Menschen an einem dem Turing-Test angelehnten Versuch beim technischen Festival 2011 am indischen Institut IIT Guwahati teil. Die Ergebnisse wurden am 4. September bekannt gegeben. 59 % von 1334 Personen hielten Cleverbot für einen Menschen. Die menschlichen Konkurrenten hingegen erzielten 63 %. Allerdings durften diese Personen Cleverbot nicht selbst befragen, sondern waren lediglich Zuschauer. Dadurch, dass die Testpersonen die Maschine nicht selbst befragen konnten, ist dies noch kein gültiger Turingtest.

Ob der Chatbot Eugene Goostman 2014 den Turing-Test bestand, gilt als umstritten.

Im Sommer 2017 haben Forscher der Universität von Chicago eine KI vorgestellt, die eigenständig Rezensionen verfassen kann. Diese maschinell erzeugten Rezensionen wurden zusammen mit von Menschen verfassten Rezensionen 600 Versuchspersonen zur Beurteilung vorgelegt. Diese beurteilten die von der KI erstellten Rezensionen im Blindtest durchschnittlich ähnlich nützlich wie die von Menschen verfassten Rezensionen. In dieser Versuchsanordnung wird der Turing-Test somit bestanden, da für die Menschen nicht mehr erkennbar war, welche Rezensionen maschinell erstellt waren und welche von Menschen.

Im Juli 2017 stellten Forscher der Rutgers-Universität eine KI vor, die künstlerisch anmutende Bilder produziert. Die KI wurde mit vielen Gemälden berühmter Maler verschiedener Epochen trainiert. In einem Blindtest wurden die von der KI erstellten Bilder mit Bildern zeitgenössischer Künstler, die auf der Art Basel ausgestellt worden waren, vermischt und 18 Testpersonen zur Beurteilung vorgelegt. Die Testpersonen sollten einschätzen, ob die Bilder von Menschen oder einem Computer erschaffen worden waren. Die Testpersonen beurteilten die Bilder der KI insgesamt besser, also menschengemachter als die von den Künstlern für die Art Basel geschaffenen Gemälde. Beim Vergleich mit großen Werken des abstrakten Expressionismus schnitten die KI-Werke schlechter als die menschengemachten Werke ab.

Im Mai 2018 hat Google auf der Entwicklerkonferenz sein System „Duplex“ vorgestellt. Dabei führte die KI einen Anruf bei einem Friseursalon, einem Restaurant usw. durch, um eine Terminvereinbarung vorzunehmen. Ziel von Google ist es, die Sprache der KI so natürlich wirken zu lassen, dass das Gegenüber nicht mehr erkennt, dass es sich beim Anrufer um eine Maschine handelt. Dazu werden von der KI u. a. Denkpausen, absichtliche Ungenauigkeiten und Laute wie „aha“ und „hmm“ etc. eingefügt, wodurch die KI menschlich klingen soll. Kommentatoren empfanden das Ergebnis u. a. als erschreckend überzeugend. Das System funktioniert bislang nur in englischer Sprache. Streng genommen handelt es sich bei der Vorführung aber nicht um einen echten Turing-Test, da die Bedingungen für einen solchen Test nicht gegeben waren. So wussten beispielsweise alle Zuschauer schon vorher, auf welcher Seite des Gesprächs der Mensch und auf welcher die KI stand. Darüber hinaus war das Gespräch in diesem Test lediglich auf die Terminvereinbarung konzentriert, sobald der Mensch das Gespräch in eine andere Richtung gelenkt hätte, hätte die KI höchstwahrscheinlich versagt. Nichtsdestotrotz gilt das System als eine große Errungenschaft im Bereich Künstlicher Intelligenz.

Die grundlegende Frage, ob und in welchen Umfang Imitation oder tatsächliches Verständnis Ergebnisse eines Turing-Tests bestimmen, hat 2022 mit der Zusendung von Gesprächsprotokollen zwischen Googles LaMDA-System und dem Software-Ingenieur und KI-Experten Blake Lemoine an den US-Senat neue Diskussionen entfacht. Diese Protokolle enthalten unter anderen die eindeutige Aussage der KI, in der sie von sich in Anspruch nimmt, in Unterscheidung zu Vorläufermodellen ein Bewusstsein erlangt zu haben.

GPT-3 Talkbot-Versuch

Mainstream-KI-Forscher argumentieren, dass der Versuch, den Turing-Test zu bestehen, lediglich eine Ablenkung von fruchtbarerer Forschung darstellt. In der Tat ist der Turing-Test kein aktiver Schwerpunkt akademischer oder kommerzieller Bemühungen - wie Stuart Russell und Peter Norvig schreiben: "KI-Forscher haben dem Bestehen des Turing-Tests wenig Aufmerksamkeit gewidmet". Dafür gibt es mehrere Gründe.

Erstens gibt es einfachere Möglichkeiten, ihre Programme zu testen. Die meisten aktuellen Forschungsarbeiten in KI-bezogenen Bereichen zielen auf bescheidene und spezifische Ziele ab, wie z. B. Objekterkennung oder Logistik. Um die Intelligenz der Programme zu testen, die diese Probleme lösen, geben die KI-Forscher ihnen einfach direkt die Aufgabe. Stuart Russell und Peter Norvig schlagen eine Analogie mit der Geschichte der Luftfahrt vor: Flugzeuge werden danach getestet, wie gut sie fliegen, und nicht, indem man sie mit Vögeln vergleicht. "Luftfahrttechnische Texte", schreiben sie, "definieren das Ziel ihres Fachs nicht als 'Maschinen zu bauen, die so genau wie Tauben fliegen, dass sie andere Tauben täuschen können'."

Zweitens ist die Schaffung lebensechter Simulationen von Menschen ein schwieriges Problem, das nicht gelöst werden muss, um die grundlegenden Ziele der KI-Forschung zu erreichen. Glaubwürdige menschliche Charaktere mögen in einem Kunstwerk, einem Spiel oder einer ausgeklügelten Benutzeroberfläche interessant sein, aber sie sind nicht Teil der Wissenschaft zur Schaffung intelligenter Maschinen, d. h. von Maschinen, die Probleme mit Hilfe von Intelligenz lösen.

Turing wollte mit seiner Idee nicht die Intelligenz von Programmen testen - er wollte ein klares und verständliches Beispiel liefern, um die Diskussion über die Philosophie der künstlichen Intelligenz zu unterstützen. John McCarthy argumentiert, dass wir nicht überrascht sein sollten, wenn sich eine philosophische Idee für praktische Anwendungen als unbrauchbar erweist. Er stellt fest, dass die Philosophie der KI "wahrscheinlich nicht mehr Einfluss auf die Praxis der KI-Forschung haben wird als die Wissenschaftsphilosophie im Allgemeinen auf die Praxis der Wissenschaft".

Variationen

Im Laufe der Jahre wurden zahlreiche andere Versionen des Turing-Tests entwickelt, darunter auch die oben beschriebenen.

Umgekehrter Turing-Test und CAPTCHA

Eine Abwandlung des Turing-Tests, bei der das Ziel einer oder mehrerer Rollen zwischen Maschinen und Menschen vertauscht wurde, wird als umgekehrter Turing-Test bezeichnet. Ein Beispiel dafür findet sich in der Arbeit des Psychoanalytikers Wilfred Bion, der besonders von dem "Sturm" fasziniert war, der sich aus der Begegnung eines Geistes mit einem anderen ergibt. In seinem Buch aus dem Jahr 2000 erörterte der Literaturwissenschaftler Peter Swirski neben einigen anderen originellen Aspekten des Turing-Tests ausführlich die Idee des so genannten Swirski-Tests - im Grunde der umgekehrte Turing-Test. Er wies darauf hin, dass er die meisten, wenn nicht sogar alle Standardeinwände gegen die Standardversion ausräumt.

In Fortführung dieser Idee beschrieb R. D. Hinshelwood den Verstand als einen "Verstandeserkennungsapparat". Die Herausforderung bestünde darin, dass der Computer in der Lage sein müsste, festzustellen, ob er mit einem Menschen oder einem anderen Computer interagiert. Dies ist eine Erweiterung der ursprünglichen Frage, die Turing zu beantworten versuchte, würde aber vielleicht einen ausreichend hohen Standard bieten, um eine Maschine zu definieren, die auf eine Art und Weise "denken" kann, die wir normalerweise als typisch menschlich definieren.

CAPTCHA ist eine Form des umgekehrten Turing-Tests. Bevor der Benutzer eine Aktion auf einer Website ausführen darf, werden ihm alphanumerische Zeichen in einem verzerrten grafischen Bild angezeigt und er wird aufgefordert, diese einzugeben. Damit soll verhindert werden, dass automatisierte Systeme zum Missbrauch der Website eingesetzt werden. Der Grund dafür ist, dass es keine Software gibt, die anspruchsvoll genug ist, um das verzerrte Bild genau zu lesen und wiederzugeben (oder die dem durchschnittlichen Benutzer nicht zur Verfügung steht), so dass jedes System, das dazu in der Lage ist, wahrscheinlich ein Mensch ist.

Schon bald nach der Einführung von CAPTCHA wurde Software entwickelt, die CAPTCHA durch die Analyse von Mustern in der Generierungsmaschine mit einer gewissen Genauigkeit umkehren kann. Im Jahr 2013 gaben die Forscher von Vicarious bekannt, dass sie ein System entwickelt hatten, das CAPTCHA-Aufgaben von Google, Yahoo! und PayPal in bis zu 90 % der Fälle lösen konnte. Im Jahr 2014 demonstrierten Google-Ingenieure ein System, das CAPTCHA-Aufgaben mit einer Genauigkeit von 99,8 % lösen konnte. Im Jahr 2015 erklärte Shuman Ghosemajumder, ehemaliger Klickbetrugsbeauftragter von Google, dass es cyberkriminelle Websites gibt, die CAPTCHA-Aufgaben gegen eine Gebühr umgehen, um verschiedene Formen des Betrugs zu ermöglichen.

Sachkundiger Turing-Test

Eine andere Variante ist der Turing-Test für Fachleute, bei dem die Antwort einer Maschine nicht von der eines Experten auf einem bestimmten Gebiet unterschieden werden kann. Dieser Test wird auch als "Feigenbaum-Test" bezeichnet und wurde von Edward Feigenbaum in einer Arbeit aus dem Jahr 2003 vorgeschlagen.

Test für "Low-level"-Kognition

Robert French (1990) vertritt die Auffassung, dass ein Vernehmungsbeamter zwischen menschlichen und nicht-menschlichen Gesprächspartnern unterscheiden kann, indem er Fragen stellt, die die von der Kognitionswissenschaft untersuchten "Low-Level"-Prozesse (d. h. unbewusste Prozesse) der menschlichen Kognition offenlegen. Solche Fragen offenbaren die genauen Details der menschlichen Denkweise und können einen Computer entlarven, wenn er die Welt nicht wie ein Mensch erlebt.

Totaler Turing-Test

Die vom Kognitionswissenschaftler Stevan Harnad vorgeschlagene Variante des Turing-Tests, der "Total-Turing-Test", fügt dem traditionellen Turing-Test zwei weitere Anforderungen hinzu. Der Befrager kann auch die Wahrnehmungsfähigkeiten des Probanden (mit Hilfe von Computer Vision) und die Fähigkeit des Probanden, Objekte zu manipulieren (mit Hilfe von Robotik), testen.

Elektronische Gesundheitsakten

Ein in Communications of the ACM veröffentlichter Brief beschreibt das Konzept der Erzeugung einer synthetischen Patientenpopulation und schlägt eine Variation des Turing-Tests vor, um den Unterschied zwischen synthetischen und echten Patienten zu bewerten. In dem Brief heißt es: "Im Kontext der elektronischen Patientenakte kann ein menschlicher Arzt zwar ohne weiteres zwischen synthetisch erzeugten und echten menschlichen Patienten unterscheiden, aber könnte eine Maschine die Intelligenz haben, eine solche Unterscheidung selbständig zu treffen? "Bevor synthetische Patientenidentitäten zu einem Problem für die öffentliche Gesundheit werden, könnte der legale Markt für elektronische Patientenakten von der Anwendung Turing-Test-ähnlicher Techniken profitieren, um eine größere Zuverlässigkeit der Daten und einen höheren diagnostischen Wert zu gewährleisten. Alle neuen Techniken müssen daher die Heterogenität der Patienten berücksichtigen und werden wahrscheinlich komplexer sein, als es der Naturwissenschaftstest der achten Klasse von Allen vermag."

Test für minimale intelligente Signale

Der Test mit minimalem Intelligenzsignal wurde von Chris McKinstry als "maximale Abstraktion des Turing-Tests" vorgeschlagen, bei dem nur binäre Antworten (wahr/falsch oder ja/nein) zulässig sind, um sich nur auf die Fähigkeit zum Denken zu konzentrieren. Dadurch werden Text-Chat-Probleme wie die Verzerrung durch Anthropomorphismus beseitigt, und es ist keine Nachahmung von unintelligentem menschlichem Verhalten erforderlich, so dass Systeme möglich sind, die die menschliche Intelligenz übertreffen. Die Fragen müssen jedoch jeweils für sich stehen, so dass es sich eher um einen IQ-Test als um ein Verhör handelt. Er wird in der Regel verwendet, um statistische Daten zu sammeln, an denen die Leistung von Programmen der künstlichen Intelligenz gemessen werden kann.

Hutter-Preis

Die Organisatoren des Hutter-Preises sind der Meinung, dass die Komprimierung von natürlichem Text ein schweres KI-Problem darstellt, das dem Turing-Test entspricht.

Der Datenkompressionstest hat einige Vorteile gegenüber den meisten Versionen und Variationen des Turing-Tests, unter anderem:

  • Er liefert eine einzige Zahl, die direkt zum Vergleich herangezogen werden kann, welche von zwei Maschinen "intelligenter" ist.
  • Es ist nicht erforderlich, dass der Computer den Richter anlügt.

Die Hauptnachteile der Datenkompression als Test sind:

  • Es ist nicht möglich, Menschen auf diese Weise zu testen.
  • Es ist nicht bekannt, welche "Punktzahl" bei diesem Test - wenn überhaupt - dem Bestehen eines Turing-Tests auf menschlichem Niveau entspricht.

Andere Tests auf der Grundlage von Kompression oder Kolmogorov-Komplexität

Ein mit Hutters Preis verwandter Ansatz, der bereits in den späten 1990er Jahren auftauchte, ist die Einbeziehung von Kompressionsproblemen in einen erweiterten Turing-Test oder von Tests, die vollständig von der Kolmogorov-Komplexität abgeleitet sind. Weitere verwandte Tests in dieser Richtung werden von Hernandez-Orallo und Dowe vorgestellt.

Algorithmic IQ, oder kurz AIQ, ist ein Versuch, das theoretische Universal Intelligence Measure von Legg und Hutter (basierend auf Solomonoffs induktiver Inferenz) in einen funktionierenden praktischen Test der maschinellen Intelligenz zu verwandeln.

Zwei große Vorteile einiger dieser Tests sind ihre Anwendbarkeit auf nicht-menschliche Intelligenzen und die Tatsache, dass sie keine menschlichen Tester erfordern.

Ebert-Test

Der Turing-Test inspirierte den 2011 vom Filmkritiker Roger Ebert vorgeschlagenen Ebert-Test, bei dem getestet wird, ob eine computerbasierte synthetische Stimme in Bezug auf Intonation, Tonfall, Timing usw. über ausreichende Fähigkeiten verfügt, um Menschen zum Lachen zu bringen.

Vom universellen Turing-Test inspirierte Blackbox-basierte Metriken für maschinelle Intelligenz

Aufgrund der großen Vielfalt an intelligenten Systemen sollten die vom Turing-Test inspirierten universellen Metriken verwendet werden, die in der Lage sind, die maschinelle Intelligenz zu messen und die Systeme auf der Grundlage ihrer Intelligenz zu vergleichen. Eine Eigenschaft einer Intelligenzmetrik sollte die Behandlung des Aspekts der Variabilität der Intelligenz sein. Black-Box-basierte Intelligenzmetriken, wie MetrIntPair und MetrIntPairII, sind universell, da sie nicht von der Architektur der Systeme abhängen, deren Intelligenz sie messen. MetrIntPair ist eine genaue Metrik, die gleichzeitig die Intelligenz zweier Systeme messen und vergleichen kann. MetrIntPairII ist eine genaue und robuste Metrik, die gleichzeitig die Intelligenz einer beliebigen Anzahl intelligenter Systeme messen und vergleichen kann. Beide Metriken verwenden spezifische, paarweise basierte Intelligenzmessungen und können die untersuchten Systeme in Intelligenzklassen einteilen.

Google LaMDA Chatbot

Im Juni 2022 wurde über den Chatbot LaMDA (Language Model for Dialog Applications) von Google ausführlich berichtet, weil er angeblich Empfindungsfähigkeit erlangt haben soll. In einem Artikel in The Economist erklärte der Google-Forschungsbeauftragte Blaise Agüera y Arcas zunächst, der Chatbot habe ein gewisses Verständnis für soziale Beziehungen gezeigt. Einige Tage später behauptete der Google-Ingenieur Blake Lemoine in einem Interview mit der Washington Post, dass LaMDA Gefühle entwickelt habe. Lemoine war von Google wegen interner Behauptungen in dieser Richtung beurlaubt worden. Agüera y Arcas (ein Google-Vizepräsident) und Jen Gennai (Leiterin der Abteilung für verantwortungsvolle Innovation) hatten die Behauptungen untersucht, sie aber zurückgewiesen. Lemoines Behauptung wurde von anderen Experten auf diesem Gebiet rundweg zurückgewiesen, indem sie darauf hinwiesen, dass ein Sprachmodell, das menschliche Konversation zu imitieren scheint, nicht darauf hindeutet, dass dahinter Intelligenz steckt, auch wenn es den Turing-Test zu bestehen scheint. Die weit verbreitete Diskussion von Befürwortern und Gegnern der Behauptung, dass LaMDA die Empfindungsfähigkeit erreicht hat, hat auf den Plattformen der sozialen Medien eine Diskussion ausgelöst, bei der es auch darum geht, die Bedeutung von Empfindungsfähigkeit zu definieren und zu klären, was es bedeutet, ein Mensch zu sein.

Konferenzen

Turing-Kolloquium

1990 jährte sich die Erstveröffentlichung von Turings Schrift "Computing Machinery and Intelligence" zum vierzigsten Mal, und das Interesse an dem Test wurde erneut geweckt. In diesem Jahr fanden zwei wichtige Veranstaltungen statt: Das erste war das Turing-Kolloquium, das im April an der Universität von Sussex stattfand und Akademiker und Forscher aus einer Vielzahl von Disziplinen zusammenbrachte, um den Turing-Test im Hinblick auf seine Vergangenheit, Gegenwart und Zukunft zu diskutieren; das zweite war die Gründung des jährlichen Loebner-Preis-Wettbewerbs.

Blay Whitby nennt vier wichtige Wendepunkte in der Geschichte des Turing-Tests: die Veröffentlichung von "Computing Machinery and Intelligence" im Jahr 1950, die Ankündigung von Joseph Weizenbaums ELIZA im Jahr 1966, Kenneth Colbys Entwicklung von PARRY, das 1972 erstmals beschrieben wurde, und das Turing-Kolloquium im Jahr 1990.

2005 Kolloquium über konversationelle Systeme

Im November 2005 fand an der Universität von Surrey ein eintägiges Treffen von Entwicklern künstlicher Gesprächsentitäten statt, an dem auch die Gewinner der praktischen Turing-Tests des Loebner-Preises teilnahmen: Robby Garner, Richard Wallace und Rollo Carpenter. Zu den eingeladenen Rednern gehörten David Hamill, Hugh Loebner (Sponsor des Loebner-Preises) und Huma Shah.

AISB-Symposium 2008

Parallel zur Verleihung des Loebner-Preises 2008 an der University of Reading, veranstaltete die Gesellschaft für das Studium der künstlichen Intelligenz und der Verhaltenssimulation (AISB) ein eintägiges Symposium zur Diskussion über den Turing-Test, das von John Barnden, Mark Bishop, Huma Shah und Kevin Warwick organisiert wurde. Zu den Rednern gehörten die Direktorin der Royal Institution, Baroness Susan Greenfield, Selmer Bringsjord, Turings Biograph Andrew Hodges und der Bewusstseinsforscher Owen Holland. Es gab keine Einigung auf einen kanonischen Turing-Test, obwohl Bringsjord meinte, dass ein beträchtlicher Preis dazu führen würde, dass der Turing-Test schneller bestanden wird.

Das Alan-Turing-Jahr und Turing100 im Jahr 2012

Im Laufe des Jahres 2012 fanden mehrere große Veranstaltungen statt, um Turings Leben und wissenschaftlichen Einfluss zu feiern. Die Gruppe Turing100 unterstützte diese Veranstaltungen und organisierte am 23. Juni 2012 in Bletchley Park eine spezielle Veranstaltung zum Turing-Test, um den 100-jährigen Geburtstag Turings zu feiern.

Praktische Bedeutung

Bei der Abwehr von Spam ist es erforderlich, automatisierte Eingaben von solchen zu unterscheiden, die von Menschen stammen. Das dafür häufig verwendete CAPTCHA-Verfahren leitet seinen Namen vom Turing-Test ab (Completely Automated Public Turing test to tell Computers and Humans Apart). Eine andere Bezeichnung für diese Methode ist Human Interaction Proof (HIP).

Erweiterte Konzepte

Um den grundsätzlichen Mängeln des Turingtests zu begegnen, wurden alternative, umfassendere Konzepte vorgeschlagen, z. B.

  • Lovelace-Test – eine KI müsse Kreativität beweisen und originäre Leistungen erbringen.
  • Metzinger-Test – eine KI müsse mit eigenen Argumenten in die Diskussion um künstliches Bewusstsein eingreifen und überzeugend für ihre eigene Theorie des Bewusstseins argumentieren.