Erhalten Sie Zugang zu diesem und mehr als 300000 Büchern ab EUR 5,99 monatlich.
Sprich mit mir: Das Potenzial digitaler Sprachsysteme Sprachgesteuerte Assistenten gehören längst zu unserem Alltag. Wir fragen Siri, wie das Wetter wird, bitten Google Home darum, den Fernseher einzuschalten oder erstellen mit Alexa die Einkaufsliste. Wie diese Technologien entstanden, wie sie funktionieren und welche Chancen und Gefahren damit verbunden sind, erklärt der renommierte Wissenschaftsjournalist und ZEIT-Redakteur Christoph Drösser in diesem Sachbuch. - Was die Revolution der künstlichen Intelligenz revolutionierte: neuronale Netze und Deep Learning - Wie man die Dinge zum Reden bringt: Der aktuelle Stand der Computerlinguistik und Sprachsteuerung - Echt oder gefälscht? Roboterjournalismus und Fake-News-Generatoren in den sozialen Medien - Risiken für den Datenschutz: Wer hört zu und was passiert mit unseren Daten? - Ist der freie Austausch von Informationen gefährdet? Ein kritischer Blick auf die Marktmacht der Internetgiganten Mensch und Maschine im Dialog: vom Schachroboter zum intelligenten Assistenten Unsere Handys, Smart Speaker und andere sprechende Geräte klingen so menschlich, dass wir gar nicht anders können, als den Maschinen eine eigene Persönlichkeit zu unterstellen. Wie "lernt" ein Gerät eigentlich zu verstehen und zu sprechen? Und wohin wird die Entwicklung der digitalen Sprachsysteme führen? Das erläutert Christoph Drösser und befragt Experten und Expertinnen aus der Informatik und KI-Forschung. Dabei blickt er auch zurück auf kuriose Erfindungen wie den »Schachtürken«, einen angeblich selbst denkenden Schachroboter, oder das Computerprogramm ELIZA von Joseph Weizenbaum, das einen Psychotherapeuten simulierte. »Wenn die Dinge mit uns reden« ist ein packendes Buch über die Faszination sprechender Maschinen - informativ und voller Aha-Momente, nicht nur für Technikfans!
Sie lesen das E-Book in den Legimi-Apps auf:
Seitenzahl: 183
Das E-Book (TTS) können Sie hören im Abo „Legimi Premium” in Legimi-Apps auf:
Für Andrea
INHALT
Vorwort
Die Dinge lernen sprechen
Der Traum von der sprechenden Maschine
Die Geschichte der Sprachtechnologie
Geschwätzige Helfer
Die Welt der Chatbots
Von der schnarrenden Roboterstimme zur realistischen Simulation
Wie man Maschinen zum Reden bringt
Sprachassistenten für alle Gelegenheiten
Siri, Alexa und Co.
Verstehen, ohne zu wissen
Die Möglichkeiten und Grenzen statistischer Sprachanalyse
Roboterjournalisten und Fake-News-Generatoren
Der Computer als Autor
Partner oder Werkzeug
Wie wir uns unsere Sprachassistenten wünschen
Anhang
Autorenvita
Zum Buch
VORWORT
Wenn Sie dieses Buch lesen, ist es bereits veraltet. Tut mir leid, aber das ist unvermeidlich. Das Gebiet der Computerlinguistik (auf Englisch Natural Language Processing, NLP) gehört zu den dynamischsten Disziplinen der künstlichen Intelligenz (KI), und die Zyklen der Innovation sind kürzer als der Lebenszyklus eines gedruckten Buchs. Nur ein Beispiel: Ich habe mit Miles Brundage von OpenAI ein Interview über das Sprachmodell GPT-2 geführt (siehe Seite 116), und einen Tag später kündigte die Organisation den Nachfolger GPT-3 an: noch größer, noch verrückter, noch leistungsfähiger. Ich habe dann schnell noch einige Änderungen im entsprechenden Kapitel gemacht – aber wenn das Buch ausgeliefert wird, gibt es wahrscheinlich schon wieder eine neue Entwicklung auf diesem Gebiet, das mit erstaunlichen Leistungen auf sich aufmerksam macht.
Das Buch ist also eine Momentaufnahme des Stands der Technik im Sommer 2020. Aber die Buchform ermöglicht es auch, einen Schritt zurückzutreten und allgemeine Entwicklungen zu beschreiben, die unabhängig von einzelnen Produkten und Trends sind – das habe ich versucht. Wir befinden uns an einer neuen Schwelle der technischen Entwicklung, wir machen den Schritt in ein Zeitalter, in dem Maschinen den von Alan Turing 1950 vorgeschlagenen »Intelligenztest« bestehen und mit uns Konversationen in natürlicher Sprache führen. Wie diese Zukunft gestaltet wird, das wird jetzt entschieden, in wissenschaftlichen Labors und in den Entwicklungsabteilungen der großen Technikkonzerne.
Die heiße Schreibphase des Buchs fiel zusammen mit dem Ausbruch der Corona-Pandemie. Eigentlich ideal für jemanden, der sich ohnehin zum einsamen Arbeiten zurückziehen will – aber da ist noch die Familie, die auch nicht mehr das Haus verlässt, um zur Arbeit oder zur Schule zu gehen. Ich danke meiner Frau Andrea Cross und meinem Sohn Oliver, dass wir es zusammen durch diese ungewöhnlichen Monate geschafft haben.
Danken möchte ich außerdem meiner Agentin Heike Wilhelmi und meinen Lektorinnen Juliane von Laffert und Silke Körber, die wertvolle Anregungen gegeben haben. Mein Freund und Kollege John Markoff, der seit über 40 Jahren die Entwicklung im Silicon Valley verfolgt, hat mir bei der Anbahnung einiger Kontakte in der Tech-Welt geholfen.
San Francisco, im Sommer 2020
Christoph Drösser
DIE DINGE LERNEN SPRECHEN
Reden Sie mit Ihrem Smartphone? Ich tue es seit einiger Zeit: »Hey Siri, stell einen Timer auf 20 Minuten!« – »Wie hoch ist der Mount Everest?« – »Überweise 100 Euro an Peter!« Etwas komisch komme ich mir dabei immer noch vor, aber man gewöhnt sich daran. Hätte ich einen Amazon-Echo- oder einen Google-Home-Lautsprecher im Haus, könnte ich auch Kommandos geben wie »Stell die Heizung auf 20 Grad« oder »Mach das Licht im Bad aus«, so wie es zwölf Prozent der Deutschen bereits tun. Die menschliche Stimme ist das neue Interface; mit ihr kann man viele Kommandos leichter und schneller geben als über eine Tastatur oder einen Bildschirm mit vier Untermenüs.
Das Wort »Kommando« beschreibt es allerdings schon recht treffend: Auf dem Exerzierplatz findet die Kommunikation meist in einer Richtung statt, vom Offizier zum Untergebenen. Es wird keine Antwort erwartet, sondern eine bestimmte Aktion. Von einem Gespräch kann nicht die Rede sein. So ist es im Moment auch noch mit unseren Geräten, aber in Zukunft wird die Maschine immer öfter antworten. Wir treten zum ersten Mal in der Menschheitsgeschichte in einen Dialog mit nichtmenschlichen Entitäten – »Wesen« möchte ich nicht sagen. Die Sprachfähigkeit der Dinge um uns herum hat sich in wenigen Jahren sprunghaft verbessert, und dieses Buch soll einen Überblick darüber geben, wie gut Maschinen unsere Sprache heute schon beherrschen.
Aber reden die Dinge wirklich schon mit uns, wie es der Titel dieses Buchs suggeriert? Sicherlich sollen sie den Eindruck erwecken – die schnarrenden Roboterstimmen sind abgelöst worden von sanften, täuschend echt klingenden Männer- oder (meistens) Frauenstimmen, die teilweise sogar »Ähs« und »Hms« in ihren Redefluss einbauen. Wir können gar nicht anders, als in ihrem Tonfall und ihrer Stimmmelodie nach Anzeichen für eine Persönlichkeit zu suchen. Um diese Wirkung zu verstärken, haben Designer den Geräten einen ganzen Katalog an vorgefertigten Antworten mitgegeben, die sie witzig, ironisch oder sogar sexy erscheinen lassen. Allerdings handelt es sich derzeit noch um »auswendig gelernte« Phrasen, die uns Menschlichkeit suggerieren sollen. Und viele lassen sich gern davon verführen, auch wenn echte Liebesgeschichten zwischen Mensch und Maschine noch Stoff für Science-Fiction sind – wie in dem Film »Her« von 2013, in dem ein Nutzer sich in seine digitale Assistentin verliebt.
Dass sich die Sprachfähigkeit der Geräte um uns herum in den letzten Jahren so explosionsartig verbessert hat, ist vor allem auf Techniken zurückzuführen, die seit 2010 das gesamte Gebiet der künstlichen Intelligenz (KI) revolutioniert haben: neuronale Netze und Deep Learning. Solche Netzwerke erkennen in selbstfahrenden Autos die Verkehrslage, sie schlagen menschliche Gegner im japanischen Go-Spiel – und sie erwerben auch auf eine ganz neue Art sprachliche Fähigkeiten. Sie werden in diesem Buch des Öfteren auf Sätze wie diesen treffen: »Seit neuronale Netze dafür eingesetzt werden, hat sich die Leistung der Systeme sprunghaft verbessert.« Es gibt auf dem Gebiet der natürlichen Sprachverarbeitung (NLP, von Natural Language Processing, im Deutschen spricht man auch von Computerlinguistik), keine Unterdisziplin, die von dieser Technik nicht tangiert worden wäre.
Kurz gesagt, erlauben neuronale Netze es Maschinen zu lernen, ähnlich wie ein Mensch lernt. Bei aller Euphorie ist es wichtig, das Wort »ähnlich« zu betonen – ein neuronaler Computer ist kein biologisches Gehirn, und die Netze stoßen zunehmend an Grenzen. Dennoch ist es faszinierend zu sehen, was diese auf sehr simplen Prinzipien beruhende Technik in wenigen Jahren geleistet hat und wahrscheinlich noch leisten wird.
Menschen lernen eine Sprache auf zwei sehr unterschiedliche Weisen. Beginnen wir mit der Zweit- oder Drittsprache in der Schule oder im Erwachsenenalter: Wenn wir uns eine Fremdsprache aneignen wollen, dann müssen wir Vokabeln lernen (also die Bedeutung der Wörter anhand ihrer Übersetzung in unsere Muttersprache) und grammatische Regeln verinnerlichen: Welche Endungen bekommen die Wörter je nach Fall oder Zeit (Deklination und Konjugation), in welcher Folge werden sie in einem korrekten Satz aneinandergereiht (Subjekt/Prädikat/Objekt)? Alle frühen Versuche, Computern Sprache beizubringen, haben sich an diese Vorgehensweise angelehnt. So musste – im Fall von gesprochener Sprache – der Strom von akustischen Signalen zunächst in einzelne Laute, »Phone« genannt, segmentiert werden, aus denen Wörter zusammengesetzt wurden. Letztere mussten dann auf ihre grammatische Funktion hin überprüft werden, um den Sinn des Gesprochenen zu analysieren.
Diese abstrakte, auch »symbolisch« genannte Methode der Sprachverarbeitung ist schwer in die maschinelle Praxis zu überführen, etwa in Übersetzungssysteme. Sie ist mit viel »Handarbeit« der Programmierer verbunden und hat in der Vergangenheit zu wenig befriedigenden Ergebnissen geführt. Die neuen Verfahren maschinellen Lernens orientieren sich weniger an abstrakten Grammatikregeln, sondern nehmen sich eher den Erwerb unserer Muttersprache zum Vorbild, die jedes Kind auf dem Globus nach maximal fünf Jahren fast perfekt beherrscht.
Ein Kind kommt auf die Welt, ohne ein einziges Wort zu sprechen oder zu verstehen. Es kann jede Sprache erlernen und verfügt prinzipiell über den gesamten Vorrat an Lauten, die in den Sprachen der Welt benutzt werden. Von Anfang an imitieren Babys die Laute, die in ihrer Umgebung gesprochen werden, und nehmen jedes Wort begierig auf. Als »Sprachinstinkt« hat der Linguist Steven Pinker dieses fast suchtartige Lernbegehren bezeichnet. Später im Leben sind wir längst nicht mehr so aufnahmefähig. Stellen Sie sich nur vor, Sie würden in eine ferne Kultur mit einer völlig fremden Sprache versetzt, ohne Dolmetscher und ohne Schrift als Krücken. Würden Sie in wenigen Jahren lernen, diese Sprache fließend zu sprechen?
Babys aber schreien sogar schon nach wenigen Wochen in ihrer Muttersprache. Forscher haben herausgefunden, dass die Schreimelodie französischer Babys sich von der ihrer deutschen Altersgenossen unterscheidet1 – der Ton geht eher nach oben als nach unten, so wie im Französischen üblich. Auch das Repertoire der Töne, die man artikulieren kann, wird im Verlauf der Kindheit immer weiter auf die der Muttersprache reduziert. Mit zunehmendem Alter wird es daher schwerer, eine Fremdsprache akzentfrei zu erlernen.
Ähnliches gilt für die Grammatik. Die Zahl der möglichen korrekten Sätze im Deutschen ist nahezu unendlich: Man hört zwar im Lauf der Kindheit nur eine gewisse Menge, aber trotzdem kann jedes Kind nach ein paar Jahren einen grammatisch korrekten Satz von einem falschen unterscheiden. Und das, ohne eine einzige Regel ausdrücklich gelernt zu haben. Selbst Erwachsene sind sich vieler Regeln nicht bewusst, die sie jeden Tag anwenden. Welcher der folgenden beiden Sätze klingt für Sie »richtiger«: »Ich habe einen großen grünen Apfel gegessen« oder »Ich habe einen grünen großen Apfel gegessen«? Die überwiegende Mehrheit deutscher Muttersprachler wird zur ersten Version neigen. Und wenn Sie auch noch sagen wollen, dass der Apfel reif war – wo käme dieses Adjektiv hin? Offenbar haben wir nicht nur die Stellung des Adjektivs zwischen Artikel und Substantiv verinnerlicht, sondern auch die Reihenfolge unterschiedlicher Kategorien von Adjektiven. Für das Englische habe ich im Internet diese Abfolge gefunden: »Anzahl, Bewertung/Meinung, Größe, Temperatur, Alter, Form, Farbe, Herkunft, Material«. Im Deutschen gibt es keine so starren Regeln, aber wir alle haben ein Gefühl dafür, ob ein Satz richtig ist oder nicht.
Dieses Lernen ohne Regeln kann man als »statistisch« bezeichnen, ein Begriff, der in der Wissenschaft erstmals 1996 aufkam.2 Das Kleinkind lernt bevorzugt die Laute, wissenschaftlich Phone genannt (siehe Seite 51), die in seiner Umgebung gesprochen werden. Die äußerst schwierige Aufgabe, aus dem kontinuierlichen Strom der Sprache einzelne Wörter zu segmentieren, meistert es, weil bestimmte Kombinationen von Silben wahrscheinlicher sind als andere. Und auch die Grammatik der Sprache, also die richtigen Endungen der Wörter und ihre korrekte Position im Satz, lernen wir, weil bestimmte Formen einfach nicht vorkommen. Das hat man in Experimenten mit frei erfundenen Kunstsprachen nachweisen können.
Die neuronalen Netze, die in den vergangenen Jahren so beeindruckende Erfolge erzielt haben, arbeiten mit sehr ähnlichen statistischen Mechanismen. Auch sie lernen, Wörter zu erkennen und korrekte Sätze zu identifizieren, weil sie mit unzähligen korrekten Beispielen trainiert worden sind.
Einen deutlichen Unterschied gibt es allerdings: Die neuronalen Netze benötigen Tausende, besser noch Millionen von Trainingsbeispielen, um zuverlässig zu lernen. Menschen können Regeln viel schneller verinnerlichen und anwenden, oft mithilfe weniger Beispiele, manchmal nur mit einem. Der Vater zeigt auf ein Tier und sagt: »Das ist ein Hängebauchschwein«, und das Kind kann danach zuverlässig Hängebauchschweine von anderen Vierbeinern unterscheiden und sie benennen. Das schafft heute noch kein Computerprogramm.
In diesem Buch will ich Ihnen davon erzählen, wie weit die Sprachlernfähigkeiten von Computern heute fortgeschritten sind. Wir beginnen mit den Versuchen, ihnen die Artikulation von Wörtern beizubringen – dabei geht es um Chatbots (siehe Seite 31), die schriftlich kommunizieren, um sprechende Assistenten auf dem Handy sowie um die sogenannten Smart Speaker. Wir behandeln die Frage, ob Sprachprogramme den Inhalt von Texten verstehen können und wie gut sie selbst Texte verfassen können. Damit befinden wir uns an der vordersten Front: Teilweise geht es um Innovationen, die zum Zeitpunkt der Erstellung dieses Manuskripts gerade ein Jahr alt sind. Einen ganz großen Bereich habe ich bewusst ausgespart: Auf dem Gebiet der automatischen Übersetzung tut sich auch sehr viel – aber dabei geht es ja um die maschinengestützte Kommunikation zwischen Menschen.
Die Zukunft der sprechenden Maschinen verheißt aufregende Entwicklungen, aber natürlich besteht bei jeder neuen Technik die Möglichkeit des Missbrauchs. Deshalb schreibe ich auch darüber, wie Social Bots automatische Falschmeldungen erzeugen können und dass die Konzentration der Sprachtechnik in Händen weniger Firmen den freien Austausch von Informationen behindert. Dennoch sind sprechende Maschinen eine faszinierende und verführerische neue Technik, die unsere Zukunft entscheidend prägen wird.
DER TRAUM VON DER SPRECHENDEN MASCHINE
Die Geschichte der Sprachtechnologie
Wolfgang von Kempelen ist als Scharlatan und Betrüger in die Geschichte eingegangen. Im Jahr 1769 stellte der ungarische Ingenieur der staunenden Öffentlichkeit seinen »Schachtürken« vor – eine Maschine in menschlicher Gestalt, die vor einem Schachbrett saß und die meisten Gegner besiegen konnte, die sich mit ihr maßen. Heute schlagen Schach spielende Computer alle Großmeister, und man könnte einen solchen »Türken« wirklich konstruieren (die Redewendung »einen Türken bauen« geht auf Wolfgang von Kempelens Maschine zurück). Aber damals war es nur ein Trick: In dem Kasten versteckte sich ein menschlicher Schachspieler, der durch eine Gaze-Verkleidung nach draußen spähte und dann die mechanischen Arme des »Türken« bewegte. Erst nach dem Tod des Konstrukteurs wurde das Geheimnis gelüftet.
Der »Schachtürke« war eine Art Jahrmarktsattraktion, sogar Friedrich der Große und Napoleon traten gegen ihn an. Von Kempelen gab stets zu, dass es sich nicht um eine autonome Maschine handelte. Das Wort »Roboter« gab es damals natürlich noch nicht – er selbst sprach von einem »mechanischen Trick«, den er freilich nie preisgab.
Ansehen hätte Wolfgang von Kempelen allerdings für eine andere Konstruktion verdient, die ganz ohne solche Kunstgriffe auskam: Im Jahr 1780 führte er erstmals seine »Sprechmaschine« vor – die erste Apparatur, die menschliche Laute einigermaßen verständlich produzieren konnte. Zwei Jahre lang tourte er mit ihr durch Europa (der »Türke« war ebenfalls im Gepäck). Die Maschine bildete den menschlichen Sprechapparat nach: Ein Blasebalg war die Lunge, eine Zungenpfeife bildete die Stimmlippen nach, und ein großer Trichter entsprach dem Mundraum. Eine Zunge und Zähne besaß die Maschine allerdings nicht, weshalb sie nur einige Vokale und Konsonanten wirklich überzeugend produzieren konnte. Kempelen arbeitete auch bei den Vorführungen der Sprechmaschine mit Suggestivmethoden: Das Publikum konnte ihm Wörter zurufen, welche die Maschine wiedergeben sollte. Und dann wusste der Zuhörer natürlich schon, was er hören wollte.
Wolfgang von Kempelen war aber nicht nur ein Schlitzohr und Tüftler. Obwohl er keine medizinische, insbesondere anatomische Ausbildung genossen hatte, studierte er den menschlichen Sprechapparat im Detail und veröffentlichte 1791 ein Buch zum »Mechanismus der menschlichen Sprache«3. Darin analysierte er alle Laute der wichtigsten europäischen Sprachen und beschrieb, wie wir sie produzieren. Diese vorurteilsfreie, reduktionistische Betrachtungsweise erscheint heute selbstverständlich, und viele von Kempelens Erkenntnissen sind noch immer gültig. Man kann ihn durchaus als Vorläufer einer empirisch fundierten Linguistik bezeichnen. Für viele Zeitgenossen aber war die Schrift das Werk eines Dilettanten, der von der Materie keine Ahnung hatte. Die Sprache gehörte damals in die Domäne der Philosophie. »Aber überhaupt muß man erstaunlich unwissend seyn … im Mechanismo menschlicher Sprache«, hieß es in einer anonymen zeitgenössischen Rezension, »wenn mans selbst glauben und andere überreden will, daß es nur im geringsten möglich sey, Maschinen zu erfinden, welche artikulierte Töne zu reden vermögen.«4
Mit seinen Erfindungen griff Wolfgang von Kempelen zwei Themen auf, die Science-Fiction-Autoren seit jeher beschäftigen und die auch im Zentrum der Forschungen zur künstlichen Intelligenz stehen. Der »Schachtürke« steht dabei für den autonomen Roboter, der sich selbstständig in der Umwelt bewegt und dabei scheinbar intelligent handelt. Die Sprechmaschine dagegen ist eines der ersten Modelle für ein nichtmenschliches Wesen oder Ding, das zu uns in mehr oder weniger gut artikulierter Sprache redet.
Warum uns sprechende Dinge so faszinieren
Zwar formulierte Wolfgang von Kempelens Maschine ihre Wörter ganz offenbar nicht selbst, sondern ein menschlicher Operator steuerte sie mit einer Art Orgeltastatur. Aber allein ihr Klang, der dem einer menschlichen Stimme zumindest ähnelte, schlug die Leute in ihren Bann. Bevor wir uns zu sehr über diese scheinbar naive Begeisterungsfähigkeit mokieren, sollten wir bedenken, dass dasselbe heute jeden Tag tausendfach geschieht, wenn Nutzer zum ersten Mal mit Siri oder Alexa kommunizieren, den digitalen Helfern in unseren Handys und Computern. Die mögen lapidare, vorgefertigte Antworten geben, die uns in Schriftform kaum beeindrucken würden – aber wenn eine Maschine zu uns spricht, sind wir so überrascht, dass wir sie plötzlich als Gegenüber ansehen und nicht nur als ein nützliches Gerät.
Woran liegt das? Die Sprache ist der wichtigste Schlüssel zum Innenleben einer anderen Person. Wenn wir einen anderen Menschen sehen, dann gehen wir zwar im Prinzip davon aus, dass er Gedanken und Gefühle hat, die grundsätzlich den unseren ähneln, aber wir können uns dessen nicht sicher sein. Wir versuchen ständig, den anderen zu »lesen«, doch da wir uns nicht in ihn oder sie hineinversetzen können, müssen wir unsere Schlüsse anhand von Indizien ziehen. Die Psychologie und Philosophie haben für dieses beständige Nachforschen den Begriff »Theory of Mind« geprägt – wir entwickeln immer neue Hypothesen über den inneren Zustand anderer Menschen.
Schon die Körperhaltung eines anderen verrät uns viel über dessen Stimmung. Noch aussagekräftiger ist der Gesichtsausdruck – unsere Wahrnehmung menschlicher Gesichtszüge und Mimik ist sehr differenziert: Ein freudiger, trauriger oder wütender Gesichtsausdruck wird kulturübergreifend von allen Menschen verstanden.
Stimmungen können wir in begrenztem Maße auch aus dem Verhalten von Tieren herauslesen. Fast jeder Hundebesitzer wird beteuern, dass er seinem Haustier ansehen kann, wie es sich fühlt. Selbst zwei Monate alte Babys können Lebewesen von unbelebten Objekten unterscheiden. Aber sobald es um die Mitteilung von Gedanken geht, ist die Sprache unverzichtbar. Ein ausdifferenziertes System von Schrift und Sprache hat nur der Mensch geschaffen; dadurch unterscheidet er sich grundsätzlich von anderen Tieren – jedenfalls war das bislang der Fall.
Kann ich mit jemandem nicht sprechen, dann fehlt mir eine ganze Dimension des Zugangs zu dieser Person. Das merken wir, wenn wir uns beispielsweise im Urlaub in einer Umgebung befinden, in der die Menschen eine Sprache sprechen, die wir nicht verstehen. Nicht nur, dass man selbst die einfachsten Wünsche oder Gedanken nicht äußern kann, wenn man zum Beispiel im Supermarkt einkauft. Auch die Worte der anderen sind unverständlich, und es kommt zu Missverständnissen: War die barsche Antwort des Taxifahrers feindselig gemeint, oder ist das der spezielle lokale Charme? Ist die alte Dame, die auf mich einredet, einfach nur nett, oder will sie, dass ich ihr Geld gebe?
Ohne auf den Zusammenhang zwischen Gedanken und Sprache näher einzugehen (die einander sicherlich nicht eins zu eins entsprechen), kann man die Sprache als das Medium bezeichnen, über das wir abstrakte Gedanken vermitteln können. Wir schätzen die intellektuellen Fähigkeiten eines anderen ein, wenn wir ihn oder sie reden hören (wobei man sich dabei auch schwer vertun kann, etwa wenn man einen starken Dialekt mit einem geringeren Intellekt gleichsetzt). Wir merken, ob jemand auf unserer »Wellenlänge« liegt oder nicht. Ohne Sprache ist eine »Theory of Mind« des anderen praktisch unmöglich.
Dass die Sprache etwas ist, woran wir das Menschsein unseres Gegenübers erkennen, glaubte schon der Philosoph René Descartes im17. Jahrhundert. In seinem Werk »Abhandlung über die Methode«, erschienen 1637, schrieb er: »Wenn es unsern Körpern ähnliche Maschinen gäbe, die sogar, soweit es moralisch möglich wäre, unsere Handlungen nachahmten, so würden wir doch stets zwei ganz sichere Mittel haben, um zu erkennen, dass sie deshalb nicht wirkliche Menschen seien. Das erste ist, dass sie niemals Worte oder andere von ihnen gemachte Zeichen würden brauchen können, wie wir tun, um anderen unsere Gedanken mitzuteilen.«5 Man könne vielleicht sogar eine Maschine bauen, die auf mechanische Weise sprachlich reagieren würde und zum Beispiel schreien könnte, man tue ihr weh, wenn man sie anfasst. »Nicht aber, dass sie auf verschiedene Art die Worte ordnet, um dem Sinn alles dessen zu entsprechen, was in ihrer Gegenwart laut wird, wie es doch die stumpfesten Menschen vermögen.«6 Das genau ist die Frage, die uns im Verlauf dieses Buches immer wieder beschäftigen wird: Ist das, was uns die sprechenden Maschinen von heute sagen, mehr als eine reflexhafte, programmierte Reaktion auf einen Reiz? Oder kann die Maschine die Wörter auf verschiedene Art »ordnen«?
Es gibt jedoch noch ein weiteres Kriterium, an dem man Descartes zufolge einen Menschen erkennt: Maschinen können vielleicht einiges besser als der Mensch (Motoren sind stärker als wir, Computer rechnen schneller und schlagen uns heute auch im Schachspiel), aber sie handeln stets »nach der Disposition ihrer Organe«, heute würden wir sagen: nach den Anweisungen eines Programms. Wir dagegen besitzen die Vernunft, die uns in jeder denkbaren Situation weiterhilft. »Und deshalb ist es moralisch unmöglich, dass in einer Maschine verschiedene Organe genug sind, um sie in allen Lebensfällen so handeln zu lassen, wie unsere Vernunft uns zu handeln befähigt.«7 Eine interessante Bemerkung, die bis heute in der Unterscheidung zwischen »schwacher« und »starker« künstlicher Intelligenz weiterlebt – die schwache KI vollbringt menschenähnliche Leistungen auf einem klar begrenzten Gebiet, während die (noch nicht verwirklichte) starke KI keine solchen Grenzen kennt.
Auch der Philosoph Denis Diderot sah die Fähigkeit, eine freie und nicht beschränkte Konversation zu einem beliebigen Thema zu führen, als ein Kriterium für Intelligenz an: »Wenn man einen Papagei fände, der auf alles eine Antwort hätte, würde ich ihn ohne zu zögern als denkendes Wesen bezeichnen«8, schrieb Diderot 1769.
Was ist Intelligenz?
In dieser Tradition stand die Arbeit des genialen britischen Mathematikers Alan Turing, der 1950 den nach ihm benannten Intelligenztest für Maschinen erdachte. In seinem Aufsatz »Computing Machinery and Intelligence«9 schlägt er vor, sich mit der Frage zu beschäftigen, ob Maschinen denken können (auf Deutsch wurde der Text später unter dem Titel »Kann eine Maschine denken?«10 veröffentlicht). Er verweist auf die Schwierigkeit, Begriffe wie »Maschine«, »denken« und »Intelligenz« zu definieren, und formuliert die Frage um: »Können Maschinen das tun, was wir (als denkende Wesen) tun können?« Und sofort konzentriert er sich auf die Sprachfähigkeit als Test für tatsächliche oder simulierte Intelligenz.
In seinem Artikel beschreibt Turing zunächst eine Art Party-Spiel, das »Imitation Game«, bei dem ein Mann und eine Frau hinter einem Vorhang versteckt sind und nur über schriftliche Nachrichten mit den anderen Partygästen kommunizieren. Diese stellen ihnen Fragen und sollen anhand der Antworten entscheiden, wer von beiden der Mann und wer die Frau ist.
Beim eigentlichen Turing-Test wird nun eine der Personen durch eine vermeintlich intelligente Maschine ersetzt. Die Kommunikation findet über ein Terminal statt. Kann ein menschlicher Juror entscheiden, ob er sich mit einem Menschen oder einem Computer unterhält? Damals galt ein solches Vorhaben noch als Zukunftsmusik: Man hatte gerade die ersten programmierbaren Computer erfunden, die große Räume füllten und dabei nicht viel mehr konnten als ein heutiger Taschenrechner. Doch Turing schrieb: »Ich glaube, dass es in 50 Jahren möglich sein wird, Computer mit einem Speicherplatz von etwa 109 [Bits] so für das Imitationsspiel zu programmieren, dass ein durchschnittlicher Fragesteller nach einer fünfminütigen Befragung die richtige Identität mit höchstens 70 Prozent Wahrscheinlichkeit erkennt.«11