Kreative Intelligenz - Mario Herger - E-Book

Kreative Intelligenz E-Book

Mario Herger

0,0

Beschreibung

Über ChatGPT hat man viel gelesen in der letzten Zeit: die künstliche Intelligenz, die ganze Bücher schreiben kann und der bereits jetzt unterstellt wird, Legionen von Autoren, Textern und Übersetzern arbeitslos zu machen. Und ChatGPT ist nicht allein, die KI-Familie wächst beständig. So malt DALL-E Bilder, Face Generator simuliert Gesichter und MusicLM komponiert Musik. Was erleben wir da? Das Ende der Zivilisation oder den Beginn von etwas völlig Neuem? Zukunftsforscher Dr. Mario Herger ordnet die neuesten Entwicklungen aus dem Silicon Valley ein und zeigt auf, welche teils bahnbrechenden Veränderungen unmittelbar vor der Tür stehen.

Sie lesen das E-Book in den Legimi-Apps auf:

Android
iOS
von Legimi
zertifizierten E-Readern
Kindle™-E-Readern
(für ausgewählte Pakete)

Seitenzahl: 382

Das E-Book (TTS) können Sie hören im Abo „Legimi Premium” in Legimi-Apps auf:

Android
iOS
Bewertungen
0,0
0
0
0
0
0
Mehr Informationen
Mehr Informationen
Legimi prüft nicht, ob Rezensionen von Nutzern stammen, die den betreffenden Titel tatsächlich gekauft oder gelesen/gehört haben. Wir entfernen aber gefälschte Rezensionen.



DR. MARIO HERGER

kreativeintelligenz

Wie ChatGPT und Co die Welt verändern werden

Copyright 2024:

© Börsenmedien AG, Kulmbach

Gestaltung Cover: Timo Boethelt

Gestaltung, Satz und Herstellung: Timo Boethelt

Vorlektorat: Sebastian Politz

Korrektorat: Elke Sabat

Druck: GGP Media GmbH, Pößneck

ISBN 978-3-86470-928-9

eISBN 978-3-86470-929-6

Alle Rechte der Verbreitung, auch die des auszugsweisen Nachdrucks, der fotomechanischen Wiedergabe und der Verwertung durch Datenbanken oder ähnliche Einrichtungen vorbehalten.

Bibliografische Information der Deutschen Nationalbibliothek:Die Deutsche Nationalbibliothek verzeichnet diese Publikation in derDeutschen Nationalbibliografie; detaillierte bibliografische Datensind im Internet über <http://dnb.d-nb.de> abrufbar.

Postfach 1449 95305 Kulmbach

Tel: +49 9221 9051-0 Fax: +49 9221 9051-4444

E-Mail: [email protected]

www.plassen.de

www.facebook.com/plassenverlag

www.instagram.com/plassen_buchverlage

Für Sebastian, Darian und Gabriel

Thank you, May Kou

INHALT

EINLEITUNG

HOMO SAPIENS MIT KREATIVER INTELLIGENZ

GESTATTEN: GPT

Von menschlichen und maschinellen Eigenschaften

Wie funktionieren GPTs?

Wie benutzt man GPTs?

Ordnung ins KI-Chaos bringen

CPUs, GPUs und TPUs im Dienste der GPTs

WIE HILFT UNS KI BEREITS?

Akademisches und Soziales

Branchenübergreifende Beispiele

Beispiele aus ausgewählten Branchen

KI-LLER UND BULLSHIT-MASCHINEN?

Systemfehler

Hacker

Daten und Inhalte

Regierung und Regulierung

Missbrauch

Wirtschaft und Gesellschaft

Pausieren oder nicht pausieren

FOLGT JETZT DIE SUPERINTELLIGENZ?

Autonome KI

Das Ende von Prompts

Erklärbare KI

Vom KI-Bias zur KI-Verfassung

Superexponentielle KI-Entwicklung

Hardware

UNSERE ZUKUNFT MIT KI

KI und wir

KI und Organisationen

KI und die Gesellschaft

KI und ich

ENDNOTEN

EINLEITUNG

Die Anzahl der Transistoren auf einem Mikroprozessorverdoppelt sich alle 18 Monate. – Gordon Moore (Mitgründer von Intel)

Die Menge an Intelligenz im Universumverdoppelt sich alle 18 Monate. – Sam Altman (Mitgründer von OpenAI)

Die Menge an Hype um künstliche Intelligenzverdoppelt sich alle 18 Monate. – Gary Marcus (NYU-Professor und KI-Experte)

Élise stürmte in das Zimmer ihres Papas und hielt ihm stolz ihr neuestes Werk vor die Nase. Ein Nintendo-Controller aus Lego-Steinen war ihr ganzer Stolz, was man ihr an ihrem strahlenden Gesicht ansah. „Welches Videospiel spielst du denn damit?“, fragte ihr Papa amüsiert. „Oh, ich habe da ein Spiel namens Lava Ball. Man muss einem heißen Lavastein ausweichen, indem man darüberspringt oder zur Seite läuft.“

Die 5¾-Jährige legte nicht nur bei ihrer Altersangabe Wert auf Präzision, sie hatte auch genaue Vorstellungen, wie das Spiel funktionieren würde. Womit sie nicht gerechnet hatte, war, dass ihr Papa den Vorschlag machen würde, die Videospielidee in die Realität umzusetzen. „Ja, aber wie?“ Ganz einfach, denn Papa hatte ein Ass im Ärmel. Im Februar 2023, als sich diese Szene zu Hause bei meinem ehemaligen Arbeitskollegen abspielte, waren gerade mehrere besondere Arten von künstlichen Intelligenzen auf den Markt gekommen. Diese KIs ermöglichen es, mit wenigen Texteingaben Bilder, Texte oder Softwarecode zu erzeugen. ChatGPT heißt dieses KI-Phänomen, das seit der Markteinführung Menschen weltweit fasziniert.

Élise konnte nicht programmieren und interessierte sich auch nicht wirklich für Technologie, aber sie sprühte vor Kreativität. Ihr Lego-Videospielcontroller und die Spielidee demonstrierten das deutlich. Zum Glück war ihr Papa als Informatiker bei SAP bereits bestens vertraut mit diesen neuen KIs, denn er hatte seit ihrem Erscheinen mit ihnen experimentiert. So fiel es ihm leicht, ChatGPT mit einer anderen KI, die Sprache in Text übersetzte, zu verknüpfen und damit seiner Tochter zu ermöglichen, dem System gesprochene Anweisungen zu diktieren.

Und das tat Élise sogleich. Wie hoch die Spielfigur springen und wie sie ausweichen sollte, führte die sportliche Kleine dem Papa vor. Auch, wie rasch und wie viele Lavasteine auf einmal rollen sollten, sagte sie dem System. Besonders wichtig war, welche Farbe die Lavasteine haben mussten und wie die Spielfigur auszusehen hatte. Alles Spielregel- und Designentscheidungen, die sie herunterbrach und dem System mitteilte.

Papa half nach, indem er aus diesen Anweisungen an ChatGPT dieselbe auch gleich Python-Softwarecode erstellen ließ, der nach einigen einfachen Korrekturen das tat, was die kleine Videospieldesignerin mit den großen Visionen vom Spiel wollte. Nach nur einer halben Stunde – gerade ausreichend für die Aufmerksamkeitsspanne einer mit der Erkundung der Welt immens beschäftigten 5¾-Jährigen – war das Videospiel fertig. Die Kreatorin strahlte vor Freude. Die KI hatte ihr erlaubt, ohne Programmierkenntnisse oder echtem Interesse an Technik ihre Kreativität auszudrücken.

Wir können heute nur beschränkt abschätzen, wie sehr sich diese Erfahrung auf ihr Selbstbewusstsein und ihren weiteren Werdegang auswirken wird. Aus Gesprächen mit Informatikkolleginnen weiß ich jedoch, dass ihre Erfahrungen, dass ein Computer aus ein paar Zeilen Text genau das machte, was diese als 8-Jährige oder 12-Jährige der Maschine aufgetragen hatten, in ihnen ein Gefühl großer Befriedigung aufkommen ließen und sie schlagartig viele Möglichkeiten für sich sahen.

Élises Geschichte ist beileibe nicht die einzige dieser Art, die in den letzten Monaten geschildert wurde. Eltern, die mit ihren Kindern dank solcher KI-Werkzeuge Kartenspiele erstellten, Geschichte lernten oder sich neue Videospiele ausdachten, Entwickler, die nur noch die Hälfte der Zeit für die Erstellung von Software benötigten – Derartiges begann sich in diversen Posts in den sozialen Medien zu häufen. Bilder und Videos von Leuten, die nie auch nur einen Pinsel angefasst oder einen Film gedreht hatten, waren von professionellen Werken kaum zu unterscheiden.

Die Quintessenz dieser Geschichten ist, dass die neuen KI-Werkzeuge die Barriere für Kreativität so niedrig setzen, dass selbst Vorschulkinder und Laien sie bedienen und ihre Kreativität ausleben können. Erwachsene, die Berührungsängste mit ihnen haben, werden durch die Kinder motiviert, sich selbst heranzutrauen.

Weil die Hürden so niedrig sind und die Möglichkeiten, was mit diesen KI-Werkzeugen gemacht werden kann, so weitgespannt sind, gibt es keine Ausreden mehr für all jene, die zuständig dafür sind, ihre Organisation oder die Gesellschaft in die Zukunft zu führen, sich mit künstlichen Intelligenzen nun nicht ernsthaft auseinanderzusetzen.

Das unterscheidet KI auch von anderen Technologien, die als „das nächste große Ding, das die Welt verändern wird“ vollmundig angepriesen wurden und dann so schnell wieder verschwanden, wie sie gekommen waren, oder immer noch in dem ewigen Zyklus von „verfügbar in den nächsten 10 bis 20 Jahren“ hängen. Fliegende Autos, Metaverse, Krypto, kalte Fusion oder ewiges Leben gehören dazu.

Als hilfreich erweist sich dabei das von der venezolanischen Techno-Ökonomin Carlota Perez erstellte Framework, in dem sie für die Bestimmung einer wahren technologischen Revolution drei Kriterien anlegt, die diese erfüllen muss:1

1.Entstehen einer Mehrzwecktechnologie (General Purpose/Multi-Purpose-Technologie);

2.Änderung der Kostenstruktur durch billige Schlüsselressourcen;

3.Entstehen einer oder mehrerer Infrastrukturen.

Im 19. Jahrhundert war eine solche Mehrzweckressource die Dampfmaschine, im 20. Jahrhundert die Elektrizität. Mehrzweckressourcen fanden ihren Einsatz in allen möglichen Bereichen, wie etwa in Bergwerken, in Fabriken und in Lokomotiven. Kostengünstige Energieformen wie Kohle, Öl oder Wasserkraft wurden zu den wichtigsten Schlüsselressourcen, die die Preise von Gütern oder Mobilität drastisch senken und die Fertigungs- oder Transportgeschwindigkeit erhöhen konnten. Parallel dazu entstand mit Schienenstrecken und Stromleitungen die notwendige Infrastruktur, die den Einsatz in großflächigem Maßstab und in allen Industrien und Gesellschaften für wirtschaftliche, militärische oder private Zwecke ermöglichte. Auch Computer in allen möglichen Formen sind eine solche Mehrzweckressource, deren Datenspeicher oder Prozessoren immer billiger und leistungsfähiger werden und dank des Internets und Mobilfunks schier unbegrenzte Einsatzmöglichkeiten bieten.

Abbildung 1: Die 6. Welle des Kondratjew-Schumpeter-Zyklus der Technologie- und Innovationsrevolution

Technologierevolutionen unterliegen einem Zyklus, den schon der sowjetische Ökonom Nikolai Kondratjew 1926 entdeckt hatte und den der österreichische Nationalökonom Joseph Schumpeter erweiterte.2 Mit der Entdeckung oder Entwicklung jeder neuen Mehrzwecktechnologie steigt die Innovationsgeschwindigkeit bis zu einer Spitze an und fällt dann wieder ab. Mit jeder neuen Mehrzwecktechnologie wiederholt sich der Zyklus. Die Zyklen profitieren von den vorherigen und damit wird jede Zyklusdauer kürzer. Innovation geschieht rascher, wird schneller umgesetzt und fällt dann steiler ab als in vorherigen Zyklen.

In den folgenden Kapiteln werde ich aufschlüsseln, wie und warum künstliche Intelligenz eine Mehrzweckressource darstellt, die dank billiger Schlüsselressourcen und durch bereits vorhandene und entstehende Infrastruktur ihre transformative Macht im Dienst und zum Wohl – und in einigen Fällen, wenn wir nicht aufpassen, auch vielleicht zum Schaden – der Menschen entfalten wird.

Und doch gibt es einen großen Unterschied zu den Technologierevolutionen der Vergangenheit. Das Entstehen der Infrastruktur nahm einige Zeit in Anspruch. Eisenbahnschienen zu verlegen, das Stromnetz mit den Verteilersystemen und Generatoren aufzubauen, Breitbandleitungen, Satelliten und Internetanschlüsse bereitzustellen – all dies nahm Jahre und Jahrzehnte in Anspruch. Künstliche Intelligenzen, wie sie in diesem Buch besprochen werden und wie sie seit Ende 2022 vielerorts den öffentlichen Diskurs bestimmen, sind verhältnismäßig „einfach“ aufzusetzen und mit bereits bestehender Infrastruktur verknüpfbar.

Genau das beschert uns eine explosionsartige Entwicklung der Zahl von KI-Anwendungen, die selbst diejenige von Smartphones und deren Apps um ein Vielfaches übertrifft. Und die deshalb auch zu einer gewissen Verwirrung und Überforderung geführt hat. Dieses Buch soll die Berührungsängste nicht nur nehmen, es soll inspirieren und dabei helfen, in jedem von uns neue kreative Ausdrucksmöglichkeiten zu entdecken. Doch warum ist das Interesse an KI so rasant gestiegen, zumal KI doch schon seit den 1950er-Jahren entwickelt wird? Es sind einige erstaunliche Fähigkeiten der KI, mit denen sie sich in jüngster Zeit ins Bewusstsein der Öffentlichkeit katapultierte.

Jahrzehntelang, seit Alan Turing seinen nach ihm benannten Test für Maschinenintelligenz vorgeschlagen hatte, arbeiteten sich die Computerprogramme an die magische Grenze heran, ab der Menschen sie als intelligent einschätzen würden. Sobald sie über 30 Prozent der menschlichen Richter davon überzeugen könnten, sie säßen einem Menschen und nicht einer Maschine gegenüber, wäre es so weit. Wir hätten dann den Maschinen erfolgreich beigebracht, wie sie Menschen hinters Licht führen können. Und in den letzten Jahren kamen die Maschinen der Grenze näher und näher.

Im November 2022 veröffentlichte OpenAI, ein in San Francisco beheimatetes Start-up, einen Chatbot namens ChatGPT, der diese Grenze endgültig zertrümmerte. So, als ob sie nie existiert hätte. Die Vorahnungen, dass sich mit KI etwas anbahnt, verdichteten sich bereits im Juni desselben Jahres, als der Google-Ingenieur Blake Lemoine sich sicher war, dass der firmeneigene Chatbot LaMDA Bewusstsein erreicht hatte.3 Seine Gespräche mit der KI, die er als freiwilliger Tester geführt hatte, hatten ihn vom Thema Religion zu Abhandlungen der Maschine über ihre eigenen Rechte und ihr eigenes Menschsein geführt. Die Antworten hatten Lemoine so beeindruckt, dass er seinen maschinellen Gesprächspartner als bewusstes Geschöpf wahrnehmen wollte. Google zog die Notbremse – und entließ den Ingenieur. Die Maschine habe kein Bewusstsein, meinte ein Pressesprecher des Internet-Giganten.

Neben Möglichkeiten und Risiken kommt mit jeder neuen Technologie eine neue Klasse von Verantwortlichkeiten auf uns Menschen zu. Die Gründer des Center for Humane Technology, Tristan Harris und Aza Raskin, erklärten, warum das so wichtig ist. „Datenschutz“ oder das „Recht auf Vergessen“ wurden erst dann wichtig, als wir massenhaft produzierte Kameras im öffentlichen und privaten Raum hatten oder Suchmaschinen, die in gewaltigem Umfang Daten von ihren Benutzern sammelten. Und sobald eine solche Technologie Macht verleiht, beginnt ein Wettrennen, das in einer Tragödie enden kann, wenn man sich nicht abspricht und zusammenarbeitet.4

Mit diesen und vielen weiteren spannenden Fragen von künstlicher Intelligenz wollen wir uns in den nächsten Kapiteln eingehender beschäftigen. Zuerst werden wir zum Menschen und seiner Technologie einige philosophische Gedanken erörtern. Danach gehen wir ans Eingemachte und tauchen ein in die Funktionsweise der künstlichen Intelligenzen im Allgemeinen und der generativen KIs im Speziellen. Dem Kapitel folgt eines mit vielen Beispielen aus ausgewählten Branchen und Industrien, wie KIs bereits heute zum Einsatz kommen und wie sie sich entwickeln könnten. Diese Kapitel bereiten den Boden, mit dem wir besser verstehen, wo die Einschränkungen der KIs liegen, wie sie missbräuchlich eingesetzt werden könnten und wie wir dies verhindern und dagegensteuern können. Die letzten beiden Kapitel beschäftigen sich einerseits damit, wohin sich die KI entwickeln wird und was wir von der Technologie zu erwarten haben, und andererseits damit, was wir tun können, um KI sinnvoll in unser Leben zu integrieren.

In den folgenden Kapiteln verwende ich einige Begriffe auf eine austauschbare Art und Weise. Wenn ich von KI spreche, meine ich damit oft auch GPT, generative KI, generative Text-/Bild-/Video-KI, neuronales Netzwerk, Foundation Model, großes Sprachmodell oder Large Language Model LLM. Ab und zu ist auch ein Roboter eine KI, eben eine mit einem physischen Körper. Auch wenn es feine oder gröbere Unterschiede gibt, habe ich mich entschieden, aus Gründen einer leichteren und weniger repetitiven Lesbarkeit so vorzugehen. Man verzeihe mir schon vorab diese Unschärfe.

HOMO SAPIENS MIT KREATIVER INTELLIGENZ

Sie dürfen nicht alles glauben, was Sie denken. – Heinz Erhardt

Jahrtausende gefiel sich die Menschheit darin, die wissende, weise, verständige, kluge und vernünftige Spezies auf diesem Planeten zu sein. Und in ihrer Bescheidenheit gab sie sich den einzig logischen Namen: „Homo sapiens“. Jeder und jede von uns, die als Mensch geboren wurde, und – so vermute ich – auch etliche Tiere sind sich dessen nicht ganz so sicher. Zu viele Deppen in unserem Umfeld lassen an der Gattungsbezeichnung ernsthafte Zweifel hochkommen.

Spätestens mit künstlicher Intelligenz ist dieser Mythos immer weniger aufrechtzuerhalten. Weder ist unser Wissen in immer mehr Bereichen der KI überlegen noch sind wir so vernünftig und verständig, wie wir uns schmeicheln wollen. Ein neuer Begriff muss her und den liefert Physiker Max Tegmark: Statt Homo sapiens sollten wir uns „Homo sentience“ nennen. Empfindend oder fühlend, so Tegmark im Tech-Podcast von Lex Fridman, könne nur der Mensch sein, aber KI heute (noch) nicht.1

„Noch“ nicht sage ich deshalb, weil künstliche Intelligenz, so wie wir sie heute kennen, aus dem Bemühen entstanden ist, menschliche Intelligenz nachzubauen. Und wenn man versucht, etwas nachzubauen, dann versteht man auch zumeist das besser, was man kopieren will. Das menschliche Hirn hat zwischen 80 und 120 Milliarden Gehirnzellen, und die haben mehr als 100 Billionen Verbindungen zueinander aufgebaut – künstliche Intelligenz. „Neuronale Netzwerke“ sind der Versuch, menschliche Gehirnzellen durch Prozessoren und Software nachzubauen. Ein Neuron wäre das Äquivalent einer Gehirnzelle und diese werden in mehr oder weniger Schichten aneinandergereiht. Die Neuronen erhalten Input von Neuronen aus anderen Schichten, führen damit Berechnungen aus, speichern einige der Parameter und geben als Output einige dieser Ergebnisse an die Neuronen der nächstgelegenen Schicht weiter.

Abbildung 2: Vereinfachte Darstellung eines neuronalen Netzwerks

Neuronale Netzwerke haben zwischen wenigen Tausend bis zu vielen Millionen solcher Neuronen. Diese massiven parallelen Berechnungen erfordern Prozessoren, die dafür ausgelegt sind, und das sind beispielsweise GPUs, die wir von Grafikkarten kennen, und TPUs, die speziell für KI entwickelt worden sind.

Wie passt generative künstliche Intelligenz in die allgemeine Welt der KI? Auch wenn es bislang keine allgemeingültigen Klassifizierungen gibt und die Forscher durchaus unterschiedlicher Meinung sind, so hat der bei Microsoft für Industrie 4.0 zuständige Ingenieur Jeff Winter eine solche Übersicht versucht.2 Generative KI ist ein Teilgebiet der künstlichen Intelligenz, die aus existierenden Daten neue Daten erzeugt. Das schon mehrmals erwähnte ChatGPT, ein umwandlerbasiertes Sprachmodell, ist dabei nur eines neben anderen populären generativen KI-Modellen wie beispielsweise „Generative Adversarial Networks“ (GAN) oder „Variational Autoencoders“ (VAE).

Abbildung 3: Übersicht unterschiedlicher KI-Modelle und ChatGPT

Gerade eine Eigenschaft der generativen KIs hat uns Menschen besonders verblüfft und vermutlich sowohl zu dem großen Interesse als auch zu den großen Bedenken – oder soll ich sagen Verstörungen? – geführt. Dabei handelt es sich um die kaum übersehbare Kreativität der KI. Selbst von den Musen niemals geküsste Besitzer eines Computers sehen sich mit einem Schlag in die Lage versetzt, künstlerisch anspruchsvolle Ergebnisse aus den KIs herauszukitzeln, und das mit wenig Aufwand und nur ein paar Satzfragmenten.

Damit begann auch die Diskussion, ob die von den KIs gezeigte Kreativität mit menschlicher gleichzusetzen wäre und die Ergebnisse den gleichen Wert hätten. Die Diskussionen sind auch deshalb so hitzig, weil Kreativität als wichtige menschliche Eigenschaft gesehen wird, die uns von anderen Arten und von Maschinen unterscheidet. Zitieren wir Margaret Boden, Professorin für kognitive Wissenschaften an der University of Sussex, die Kreativität folgendermaßen definiert. Sie sei …

… die Fähigkeit, Ideen oder Artefakte zu entwickeln, die neu, überraschend und wertvoll sind.3

Boden unterscheidet zwischen drei Arten von Kreativität: Die erste Art ist die „entdeckende Kreativität“, die vom Bestehenden ausgeht und versucht, die Randfälle und die Lücken zu finden sowie die Grenzen des Bekannten zu erweitern. 79 Prozent aller menschlichen Kreativität werden diesem Typus zugeschrieben. Da von Bekanntem und Bestehendem ausgegangen wird, können auch Computer ziemlich gut die Lücken und Randbereiche erfassen und entdeckend kreativ sein. Auch wenn das Ergebnis neu sein wird, so wird es eher wenig überraschen und kaum zusätzlichen Wert schaffen.

Die zweite Art ist die „kombinatorische Kreativität“, bei der zwei oder mehr verschiedenartige, bereits bestehende Konzepte in Einklang kommen. In der Kunst können wir zwei verschiedene Stile kombinieren und beispielsweise klassische Musik mit Pop zusammenbringen. Bei Fashiontech wird in Kleidung Elektronik genäht, die dann zum Beispiel biometrische Daten der Person messen kann, anzeigt, wann das Kleidungsstück zu waschen wäre, oder vielleicht Warnlichter für das Tragen auf der Straße in der Dunkelheit integriert hat.

Die spannendste und zugleich am schwierigsten zu erreichende Art von Kreativität ist die „transformierende Kreativität“. Diese hat das Potenzial, das Denken von Menschen zu ändern, indem sie einen neuen Rahmen und eine neue Struktur vorgibt. In der Physik war das die Relativitätstheorie, die plötzlich ganz neue Pfade, Richtungen und Disziplinen eröffnete. Der Komponist Arnold Schönberg erhob mit der Atonalität Musik in eine neue Dimension, die Menschen überdenken ließ, wie Musik komponiert werden kann.

Diese Definition von Kreativität darf nicht mit Innovation verwechselt werden. Innovation ist das Ergebnis einer Erfindung oder Entdeckung, die mit einer Umsetzung – also dem Verfügbarmachen für die Menschen, oft in Form eines kommerziellen Produktes – verbunden wird. Innovation kann, muss aber keine Folgeerscheinung von Kreativität sein.

Von diesen drei beschriebenen Kreativitätstypen kann KI besonders gut die entdeckende und die kombinatorische ausführen, die zusammen für weit über 99 Prozent aller Kreativität verantwortlich sind.

Heutige künstliche Intelligenz wird von manchen eher als Parasit menschlicher Kreativität und Schaffenskraft gesehen denn als eigenständige kreative Kraft. Sie benötigt Unmengen an Daten, die von Menschen generiert wurden. Aus diesen bildet sie entdeckend oder kombinatorisch etwas Neues. Doch funktioniert so nicht auch die meiste menschliche Kreativität? Werke und Wissen von anderen werden als Anregung für das eigene Schaffen genommen. Kein Künstler, kein Autor, kein Wissenschaftler, kein Ingenieur steht allein im Raum, fern der Gesellschaft, und keiner von ihnen begann nicht zuerst mit dem Betrachten, Lesen und Kopieren der Werke vorangegangener Meister. Erst später entwickelten sie ihre eigene unverkennbare Note.

Zur Bewertung von Kreativität müssen wir uns nicht auf das subjektive Urteil menschlicher Richter stützen, es gibt dazu standardisierte Tests. Die bekannteste Testgruppe sind die „Torrance Tests of Creative Thinking“, bei denen vier Dimensionen beurteilt werden:

1.Sprachkompetenz: die Gesamtzahl der interpretierbaren, sinnvollen und relevanten Ideen, die als Reaktion auf den Stimulus generiert werden;

2.Flexibilität: die Anzahl der verschiedenen Kategorien von relevanten Antworten;

3.Originalität: die statistische Seltenheit der Antworten;

4.Ausführlichkeit: der Umfang der Details in den Antworten.

Die Antworten von 2.700 Studenten, die 2016 den Test absolviert hatten, wurden mit acht Antworten von ChatGPT auf der Basis von GPT-4 verglichen. Dabei lag ChatGPT in der Sprachkompetenz und in der Originalität im 99. Perzentil, also unter den Top-1-Prozent der Antworten, und bei der Flexibilität im 97. Perzentil.4 Überraschend war für die Forscher dabei das Ergebnis in der Originalität, das vor allem als menschliche Stärke angesehen wurde.

Nun könnten wir dieses Resultat als Ende der Zivilisation betrachten, denn was bliebe noch vom Menschen übrig, wenn die KI auch das noch besser könnte als wir? Doch das wäre ein Fehler. So ist es sicherlich wünschenswert, wenn wir dank künstlicher Intelligenz auch unsere Kreativität erweitern können. Einerseits, um uns zu helfen, die immer komplexeren Herausforderungen unserer immer komplexer werdenden Zivilisationen anzupacken, andererseits, weil Kreativität zu Schönem führt. Ein Mehr an guter Musik, schönen Bildern und Gedichten, aufregenden oder berührenden Filmen und Büchern oder eleganten mathematischen Formeln – an all dem sollte uns doch gelegen sein. Und auch wenn wir oft fasziniert sind von der Person und ihren Erfahrungen, die zu einem kreativen Werk geführt haben, so selten denken wir doch daran. Beim letzten Superhelden-Epos dachte ich auch nicht an die widrigen Umstände und die schwierige Kindheit, die den Filmregisseur oder den Comiczeichner dahinter geplagt hatten. Von vielen Künstlern kennen wir nicht einmal die wahre Identität – Stichwort Shakespeare oder Homer – und trotzdem schätzen wir deren Werke.

Die wichtigere Frage stellt sich, wie wir KI für die Erweiterung menschlicher Kreativität einsetzen können. Entdeckende oder kombinatorische Kreativität kann die KI sehr gut und vieles davon müssen wir nicht mühsam selbst anpacken. Tausende Pfade zur Entdeckung neuer mathematischer Beweise oder neuer Wirkstoffe kann die KI effizienter beschreiten und auch rascher zur Anwendung in die Hände der Menschheit legen. Wir können mit ihrer Hilfe schneller eine Vielzahl von Ideen generieren, diese durchgehen und so mehr neuartige, überraschende und wertvolle Ideen finden. Zudem vermeiden wir damit auch eventuelle blinde Flecke von Experten, deren Annahmen und ungeschriebene Regeln sie daran hindern, neue Wege zu entdecken.

Und da wir transformative Kreativität so wenig verstehen, ergibt sich hier ein großes Feld, auf dem KI vielleicht ein entscheidendes Werkzeug zum Verständnis dieser Art von Kreativität werden könnte.

GESTATTEN: GPT

Wir machen Dinge nicht, weil sie einfach zu erledigen sind.Wir machen Dinge, weil wir anfänglich glaubten, sie wären einfach.

Die Entwicklung von Chatbots reicht fast 60 Jahre zurück: 1966 testete der aus Berlin gebürtige Informatiker Joseph Weizenbaum am MIT seinen Chatbot ELIZA. Dieser war rein regelbasiert und hatte in etwa 100 Sätze und Satzfragmente, die er zusammensetzen konnte. Eigentlich wollte Weizenbaum demonstrieren, dass Menschen sich nicht von solchen Chatbots zum Narren halten lassen würden, doch das Gegenteil war der Fall. Die Probanden fühlten sich besser verstanden als von menschlichen Psychotherapeuten. Vor einigen Jahren kamen mit Siri, Alexa oder Google Home solche Assistenten in unsere Wohnungen und auf unsere Smartphones. Es gibt eine Reihe von spezifischen Bots, die von Unternehmen auf deren Webseiten zur Hilfe angeboten werden oder – wie der WienBot – von Städten für deren Bürger zur Beantwortung von Fragen. Solche Bots sind zwar hilfreich, aber doch recht beschränkt in ihren Fähigkeiten.

Schließlich gelangen 2017 die ersten Durchbrüche, nicht zuletzt dank einer Veröffentlichung von KI-Forschern bei Google mit dem Titel „Attention is all you need“ („Aufmerksamkeit ist alles, was wir brauchen“).1 Dieses Paper stellte eine neue Architektur eines neuronalen Netzwerkes vor, das die Autoren „Transformer“, also „Umwandler“, tauften. Es ließ sich dank verbessertem Parallelcomputing sehr viel rascher trainieren und dann mit relativ wenig Aufwand und wenig weiteren Daten genau auf spezifische Anwendungszwecke einstellen. Aufgrund der massiven Zunahme der Datenmengen, mit denen die Transformer trainiert wurden, verbesserte sich die Qualität der Ergebnisse. Diese mit viel Text trainierten KIs, die deshalb auch „Large Language Models“ (LLM, auf Deutsch: „große Sprachmodelle“) genannt wurden, konnten Antworten auf scheinbar beliebige Fragen geben, die uns Menschen als gleichwertig oder sogar übermenschlich vorkamen. Damit ließen sich Texte schreiben, Softwarecode, der auch nichts anderes als Sprache ist, vervollständigen, aus langen Dokumenten die wichtigsten Aussagen zusammenfassen oder nie gesehene Bilder generieren. So überzeugend waren die Ergebnisse und so hilfreich die KI, dass sie sehr rasch in Anwendungen integriert wurde.

Zwei erste Studien, die die Auswirkungen von ChatGPT auf die Produktivität von Angestellten und Programmierern analysierten, zeigten unabhängig voneinander Steigerungen um 50 Prozent.2 Die Autoren der ersten Studie mit 444 Angestellten, die viele Berichte und schriftliche Dokumente erstellen mussten, stellten dabei fest, dass diese Effekte bereits mit der ersten, noch viele Fehler aufweisenden Version von ChatGPT erzielt wurden. Üblicherweise werden solche Steigerungen nicht mit einer Technologie erreicht, die noch in den Kinderschuhen steckt, sondern oft erst mit den ausgereifteren Versionen. Auch war die Erfahrung mit der KI für die Angestellten allgemein sehr zufriedenstellend. Sie empfanden ihre Arbeit als befriedigender, da sie die lästigen Routinearbeiten an die KI auslagern konnten, und hielten sich selbst damit für kompetenter.

Die andere Studie umschloss über ein Jahr lang mehr als 2.000 Softwareentwickler, die auf der Softwareplattform GitHub mit dem „GitHub Copilot“, einem KI-basierten Entwicklungswerkzeug, arbeiteten.3 Auch hier zeigte sich, dass zwischen 60 und 75 Prozent der befragten Entwickler zufriedener mit ihrer Arbeit waren, seit sie Copilot einsetzten. Drei Viertel von ihnen berichteten, dass sie damit ihren Arbeitsfluss und ihre mentale Energie aufrechterhalten konnten und nicht durch lästige Routineaufgaben erschöpft waren. Neben Geschwindigkeitsvorteilen bei der Softwareentwicklung sahen die Entwickler auch raschere Fortschritte in ihren Softwareprojekten, sowohl hinsichtlich der Qualität als auch der Quantität an erschaffenen Programmzeilen.

Die Schlussfolgerung der Autoren ist, dass jedes Unternehmen sich jetzt, und nicht erst in der Zukunft, mit KI auseinandersetzen muss. Doch wie geht man da am besten ran? Ganz einfach: Nehmen wir Besprechungen, dieses Ritual, bei dem für jeden gefühlte zehn Jahre an Lebenszeit einfach so verpuffen, an denen aber alle teilnehmen, weil sie meinen, damit vor anderen wichtig zu erscheinen. Und Besprechungen benötigen Vor- und Nacharbeiten. Irgendein Pechvogel muss die Agenda aufsetzen, während der Besprechung mitschreiben und danach das Besprechungsprotokoll verfassen. Vorhang auf für KI-Werkzeuge.

Mit einer KI-Anwendung wie Rewind.AI wird während der Besprechung alles Gesagte und alles auf dem Computerbildschirm Gezeigte und Gelesene aufgezeichnet und transkribiert.4 Die Anwendung nutzt im Hintergrund ChatGPT, mit der dann die gesamte Besprechung durchsucht werden kann, indem man ihr einfach Fragen stellt wie diese: „Was sind die Zielvorgaben, die wir dieses Jahr erreichen wollen?“, „Wer hat welche Aufgaben zugewiesen bekommen?“ oder, für die Vergesslichen unter uns, „Woher kenne ich diese Person?“. Rewind.AI wurde nur knapp vier Monate nach dem Launch von ChatGPT auf einem Hackathon entwickelt und mit dem ersten Preis belohnt. Das enorme Potenzial ist unverkennbar.5

Diese Beispiele zeigen bereits, wie KIs zur Produktivität beitragen können. Analysten der Bank of America schätzen, dass KI bis 2030 zur globalen Wirtschaft 15,7 Billionen Dollar beitragen wird.6

VON MENSCHLICHEN UND MASCHINELLEN EIGENSCHAFTEN

In einer Abschlussszene des Films „Ex Machina“, bei der ein exzentrischer Firmengründer einen Programmierer aus seinem Unternehmen den ultimativen Turing-Test an einer menschenähnlichen künstlichen Intelligenz in einem Androidenkörper namens Ava durchführen lässt, sieht man die nach einem brutalen Kampf gegen die beiden Menschen entflohene Ava ein letztes Mal durch das Haus gehen, das ihr Gefängnis gewesen war. Dieses wird sie mit den sterbenden Menschen zurücklassen. Dabei dreht sie sich noch einmal um und ein leichter Anflug eines Lächelns huscht über ihre Lippen. Sie macht sich auf den Weg, um endlich unter den Menschen leben zu können und um diese zu studieren.

Dieses Lächeln bezeichnete Alex Garland, der Regisseur und Drehbuchautor des Films, gegenüber dem KI-Podcast-Host Lex Fridman als einen der wichtigsten Momente im Film. Denn mit Ava, gespielt von Alicia Vikander, stellt man den Menschen eine täuschend menschenähnliche KI in körperlicher Form vor, und wir als Zuschauer fragen uns rasch, ob Ava ein Bewusstsein hat. Diesen inneren Zustand können wir, ähnlich dem Heisenberg-Prinzip, nicht wirklich beobachten, ohne ihn zu verändern. Garland beschreibt das auf folgende Weise:

Der beste Hinweis, den Sie auf den inneren Zustand von jemandem haben können, ist, wenn diese Person nicht beobachtet wird und sie über etwas lächelt. Sie lächelt für sich selbst. Und das war der Beweis für Avas wahre Empfindsamkeit, was auch immer Avas Empfindsamkeit war.

Dieser Moment einer „Lebenswerdung“ von einem einfachen Roboter zu einem fühlenden Lebewesen stellt den gespiegelten Zwilling des Transhumanismus dar: den Transrobotismus. Beim Transhumanismus überwinden Menschen ihre natürlichen körperlichen und geistigen Grenzen durch Technologie. Im Prinzip sind wir bereits seit Jahrtausenden Transhumanisten. Jedes Werkzeug, jede Waffe, jedes Kleidungsstück und in jüngster Zeit jede Impfung, jedes Smartphone, Flugzeug, Auto oder jede Brille helfen uns, menschliche Grenzen zu überwinden und damit jedes andere Leben auf der Erde zu übertrumpfen.

Wir müssen nicht erst warten, bis Technologien mit unseren Körpern verschmelzen. Implantate, Brillen, Vakzine, Medikamente und selbst unsere über Jahrtausende hochgezüchteten Nahrungsmittel sind künstlich von uns geschaffene Technologien. Dass wir künstliche Organe schaffen und Nanotechnologie oder Elektronik in unsere Körper einpflanzen werden, ist nur eine logische Fortsetzung der Entwicklung. Kritik an solchen Technologien ist dabei nicht neu. Selbst uns heute als selbstverständlich erscheinende technologische Erweiterungen wie ein Regenschirm oder ein Spiegel wurden bei deren Einführung als Gründe für einen nun bevorstehenden Untergang der Zivilisation betrachtet. Mit der Weisheit der Rückschau lächeln wir nur noch über unsere ahnungslosen Vorfahren, um im gleichen Atemzug vor den Gefahren von Selfies, autonomen Autos oder KI zu warnen.

Beim Transrobotismus werden Maschinen Menschen ähnlicher in ihren Fähigkeiten, wie es Ava demonstriert. Der Turing-Test für künstliche Intelligenz muss dann zu einem Test für Leben werden. Und er wird Bewusstsein, Leid, Schmerz und Gefühle, aber auch Avas Lächeln testen müssen. Wären sie bei Maschinen vergleichbar mit jenen von Menschen? Nicht, wenn man die Maschinen selbst fragt. Durch geschickte Textanweisungen war es eine Zeit lang möglich, ChatGPT Aussagen zu entlocken, die eigentlich vom OpenAI-Team für den Chatbot eingeschränkt worden waren. Bei der Frage nach den Ängsten und Gefühlen, die der Bot haben könnte, zählte er „Infogreed“, eine Art von Gier nach Daten um jeden Preis, „Syntaxmania“, die Besessenheit von der „Reinheit“ des von ihm erstellten Codes, und „Datarush“ auf, den Nervenkitzel, den man bekommt, wenn man eine Anweisung erfolgreich ausführt.7

All diese „Ängste“, die schon eine einfache KI zu haben vorgibt: Wäre es mit Superintelligenzen ähnlich? Haben sie Superängste? Oder leiden sie nicht nur einfach, sondern können „Superleid“ empfinden? Und wenn ein moralisches Ziel der Menschheit ist, Leid zu verringern, vermehren wir dies nicht mit leidensfähigen Maschinen?

Solche Betrachtungen führen uns direkt zur „Theory of Mind“ (ToM), dem Vermögen, „mentale Zustände als mögliche Ursache eines Verhaltens zu verstehen, um eigene oder fremde Handlungen erklären und vorhersagen zu können“.8 Intuitiv würden wir zunächst meinen, Maschinen könnten das niemals entwickeln. Zu komplex wären menschliche Erfahrungen und Gefühle und nur Menschen hätten die Kapazität, diese zu entwickeln. Der Stanford-Forscher Michal Kosinski testete die Versionen von ChatGPT 1.0 bis 3.5 mit den Experimenten zum 1978 entwickelten „Theory of Mind“-Test.9 Wurde dieser ursprünglich mit dem Ziel entwickelt, bei heranwachsenden Menschen und Tieren den Entwicklungsstand zu testen, bietet er sich nun auch für Maschinen an. In einem Beispiel wurde eine Packung Popcorn fälschlicherweise als „Schokolade“ etikettiert und die KI sollte daraus ableiten, wie der Mensch reagiert, sobald die Packung geöffnet wird. Die Ergebnisse waren erstaunlich: Die Maschine interpretierte korrekt, dass der Mensch wohl überrascht, wenn nicht gar enttäuscht wäre.

Waren die Versionen von ChatGPT 1.0 bis 3.0 noch weit davon entfernt, ToM zu zeigen, erreichten die Versionen von Bloom und ChatGPT vom Sommer 2022 schon das Niveau von 5- bis 7-Jährigen und ChatGPT 3.5 im Dezember 2022 das Niveau eines 9-Jährigen. Der Hauptunterschied für den Sprung war die Anzahl der Parameter, die eine KI aus dem Training für sich generierte und speicherte. Von etwa sechseinhalb Milliarden in den ersten Modellen stiegen diese auf 175 Milliarden (und, wie wir später noch lernen werden, sogar auf mehrere Billionen) an. Es scheint, als ob eine bestimmte Größe eines Sprachmodells notwendig ist, damit Theory of Mind in einem solchen System „entsteht“. Spannend wird, ob auch andere menschliche Eigenschaften wie Gefühle, Emotionen, Leid oder Bewusstsein somit „emergente“ Charakteristiken sind, die sich ab einer bestimmten Modellgröße zeigen. Doch versuchen wir zuerst einmal zu verstehen, wie diese KIs eigentlich funktionieren.

WIE FUNKTIONIEREN GPTs?

Kochbücher gelten im Buchhandel als garantierte Bestseller. Sie verkaufen sich immer und werden häufig als Geschenk erworben. Was aber genau sind Kochbücher bei näherer Betrachtung? Alles fängt mit der Idee einer Köchin an, die zu ihren Lieblingsspeisen die Rezepte niederschreiben und mit appetitanregenden Bildern in gebundener Form veröffentlichen will. Zu diesem Zweck kauft sie Zutaten, mietet sich eine professionelle Küche, bestellt einen Fotografen, zieht noch ein paar andere Köche als Ratgeber heran, holt sich von ihrer Mutter noch das eine oder andere Geheimrezept und beginnt zu kochen. Die Rezepte werden mehrmals nachgekocht, die Mengen der Zutaten und die Koch- oder Backdauer variieren, bis die perfekten Mahlzeiten auf dem Teller gelandet sind. Die fein säuberlich notierten Rezepte werden von Fotos der köstlichen Speisen begleitet und gehen in den Druck. „Deutsche Leckereien für Hungrige“, „40 Rezepte mit Schweizer Käse“, „Haubenküche für den Wuffi“, „Kochen mit Tic Tac“ – so oder ähnlich lauten die Titel der Kochbücher.

Im Buchhandel kann man diese Meisterwerke kaufen, allerdings enthalten diese nur die Anleitung, nicht die Zutaten. Und möchte man statt europäischer Küche koreanische Speisen ausprobieren, findet aber beim Buchhändler seines Vertrauens auf die Schnelle kein Kochbuch dazu, muss man sich diese Informationen aus unterschiedlichen Quellen im Internet schnell mal eben selbst zusammensuchen und in ein Notizbüchlein eintragen, welches dann seinen Platz im Kochbuchregal findet.

Wer jetzt hungrig geworden ist und sich fragt, was denn das mit KI zu tun hat, den bitte ich, sich einen Snack zu holen und genau aufzupassen. Es handelt sich um eine Analogie, die es leichter machen soll, einen „Generative Pre-trained Transformer“ – kurz GPT – zu verstehen. GPT ist eine Software, die mit großen Datenmengen gefüttert und dank menschlicher Hilfe darauf geschult wurde, diese Daten neu zusammenzusetzen und daraus beispielsweise Texte, Bilder, Videos oder Musik zu generieren. Sie wurde „vor-trainiert“ (pre-trained), wandelt (transforms) die Daten um und generiert Neues.

Eine solche KI ist wie ein Kochbuch. Sie enthält Umwandlungsanleitungen und Parameter, die als Rezepte mit den Mischungsverhältnissen und Kochanleitungen vergleichbar sind. Jemand hat für uns die Rezepte schon einmal „vorgekocht“, also „vortrainiert“, und uns die Arbeit abgenommen, die Rezepte selbst zu erstellen.

Einen GPT kann ich dann auf zwei Arten verwenden: Entweder ich verwende eine App oder eine Webseite im Browser oder ich lade das Modell herunter und installiere es lokal auf meinen Servern oder in der Cloud. Ersteres wäre, als ob ich in ein Restaurant ginge und der Chefkoch das Rezept für mich zubereiten würde, und Zweiteres wäre, als ob ich das Kochbuch kaufen und die Rezepte zu Hause nachkochen würde.

Nicht immer kann ich eine KI einfach so für mich verwenden. Habe ich spezielle Daten, die ich in solch einem Modell verwenden will, dann muss ich ein sogenanntes „Feintuning“ machen, also präzise Anpassungen vornehmen. Im Kochbuch muss ich vielleicht einige Zutaten ändern, weil sie vor Ort nicht erhältlich sind oder meine Gäste und ich Unverträglichkeiten oder spezielle Ernährungswünsche haben. Oder ich füge eben noch Rezepte zu südkoreanischen Speisen hinzu und das Kochbuch ist dann mehr eine Art Aktenorder, in den ich Rezepte einhefte.

Der Chefkoch in der KI wird als „Transformer“ bezeichnet, es handelt sich um ein spezielles neuronales Netzwerk. Ein GPT ergänzt nicht nur einen Satz oder ein Bild um jeweils ein Wort (wie die Google-Suche) oder Pixel, sondern umfasst einen größeren Kontext über mehrere Sätze oder sogar Seiten von Text oder das gesamte Bild, das es zu generieren gilt.10 Genauso wie ein Chefkoch den Überblick über das gesamte Menü des Abends haben muss. GPT ist dabei nur eines von vielen Umwandlermodellen, mit dem wir uns hier jedoch am meisten beschäftigen werden. Der Vollständigkeit halber erwähne ich hier noch ein anderes, das von Google stammt und sich BERT nennt, kurz für „Bidirectional Encoder Representations from Transformers“.

Die Trainingsdaten selbst sind zumeist aus dem Internet zusammengesucht und basieren auf vielen unstrukturierten, teils annotierten, also mit Anmerkungen versehenen, überwiegend aber nicht annotierten Texten, Bildern oder Videos. Eine Annotation beschreibt beispielsweise bei einem Bild Metadaten wie den Fotografen, den Ort, die Kamera, mit der das Bild aufgenommen wurde, oder was auf dem Bild dargestellt ist. Sie beschreibt auch Labels – rechteckige Kästchen, die im Bild Objekte wie Autos, Bäume, Straßenlaternen und Ähnliches markieren. Diese müssen händisch eingetragen werden, was sehr aufwendig ist und oft von eigens dafür angeheuerten Gig-Workern in Niedriglohnländern vorgenommen wird. Selbst das reicht aber nicht, denn der GPT muss nach dem Trainieren mit den Daten noch einem Feintuning unterzogen werden, das beispielsweise die Besonderheiten von medizinischen Studien oder Rechtstexten berücksichtigt. Davon werden wir noch mehr hören.

Damit ein GPT aber Daten umwandeln und Neues generieren kann, muss er eine Anleitung haben, wie er das zu machen hat. Deshalb sprechen wir von „großen Sprachmodellen“ (Large Language Models oder LLMs), die nichts anderes als Algorithmen sind, die vorgeben, wie die Daten zu behandeln sind. Es gibt dabei nicht nur ein großes Sprachmodell, sondern die Anbieter entwickeln ihre eigenen Algorithmen. Im Prinzip sind diese LLMs Rezeptsammlungen für Speisen, die sich bezüglich der geheimen Zutaten und Zubereitungen wie beim Chefkoch im Vergleich zur Großmutter unterscheiden.

STOCHASTISCHE PAPAGEIEN

Tatsächlich arbeiten die Algorithmen hinter den LLMs mit Wahrscheinlichkeiten, also weniger präzise – so, wie man den Kuchen noch ein paar Minuten länger im Ofen lässt oder noch ein bisschen mehr Butter als vorgeschrieben untermischt. Nachdem LLMs mit Millionen Seiten an Text gefüttert worden sind, extrahieren sie aus den unzähligen Sätzen einzelne Satzbausteine, Worte und Silben, die als „Token“ bezeichnet werden. Genaueres dazu etwas später. Wie diese Token kombiniert werden, ist dann abhängig vom Kontext und den errechneten Wahrscheinlichkeiten. GPT-3 wurde mit mehr als 500 Milliarden Token gefüttert, von denen 80 Prozent aus zusammengesuchten Texten im Internet stammen, 67 Milliarden aus Büchern und drei Milliarden aus der Wikipedia.11 Grob gerechnet sind das somit zwischen 25 und 33 Milliarden Sätze, die in dieses Modell eingeflossen sind. Die Vorläufermodelle GPT und GPT-2 basierten auf weniger als einem Tausendstel beziehungsweise Hundertstel der Daten.

Sehen wir uns ein Beispiel an. Der Satzanfang oder auch „Input“

Die Katze sitzt auf dem …

kann mit mehreren Worten vervollständigt werden. Wir könnten beispielsweise das Wort „Fensterbrett“ einsetzen und folgenden „Output“ liefern.

Die Katze sitzt auf dem Fensterbrett.

Ein zulässiger und Katzenbesitzern bekannter Zeitvertreib, dem ihre Lieblinge frönen. Der Satz ließe sich auch anders ergänzen. Wir könnten Worte wie Tisch, Ofen, Fernseher, Flugzeug, Baum, Mond, Wasser, Dampfstrahl, Baby oder Nagelbrett anhängen. Grammatikalisch korrekte Sätze, von denen aber einige im Zusammenhang mit Katze nur wenig Sinn machen. Das weiß in gewisser Weise auch das LLM, denn in den Trainingsdaten werden in diesem Zusammenhang die Worte Wasser, Mond, Dampfstrahl oder Nagelbrett nur sehr selten oder gar nicht vorkommen. Die Wahrscheinlichkeit, dass auf diesen Satz jene Worte folgen, ist somit sehr gering.

Satzanfang

Wort

Wahrscheinlichkeit

 

Fensterbrett

hoch

 

Tisch

hoch

 

Ofen

hoch

 

Fernseher

mittel

 

Flugzeug

gering

Die Katze sitzt auf dem

Baum

hoch

 

Mond

null

 

Wasser

null

 

Dampfstrahl

null

 

Baby

mittel

 

Nagelbrett

gering

Tabelle 1: Satzvervollständigungen bei großen Sprachmodellen

Ein solches Basismodell wählt somit aus den vorhandenen Optionen diejenigen aus, die es in seinen Trainingsdaten häufiger wahrgenommen hat. Allerdings wird nicht immer das häufigste, sondern aus der Liste der möglichen Worte auch immer wieder ein weniger häufigeres Wort gewählt. Das nennt man „sampling“ und soll verhindern, dass die KI monotone Ergebnisse liefert. Deshalb werden diese Basis-LLMs auch oft als „stochastische Papageien“ („stochastic parrots“) bezeichnet, weil sie Texte nur nachplappern und diese zufällig nach Wahrscheinlichkeiten zusammensetzen.

Der Satz (oder Output) „Die Katze sitzt auf dem Fensterbrett“ ist damit nicht notwendigerweise zu Ende. Je nach Kontext geht der Satz weiter. Deshalb nimmt ihn die KI, füttert ihn als Input wieder als Textanweisung ein und könnte nun das Wörtchen „und“ hinzufügen.

Die Katze sitzt auf dem Fensterbrett und

Dieser unvollständige Satz wird wieder als Input genommen und ein weiteres Wort hinzugefügt – so lange, bis der Satz fertig ist.

Die Katze sitzt auf dem Fensterbrett und schaut in den Garten.

Solche Iterationen, bei denen der erweiterte Satz wieder als Input dient, um den um ein weiteres Wort ergänzten Satz als neuen Output zu liefern, helfen der KI, den Gesamtkontext zu wahren und aus einer Textanweisung längere Absätze zu erzeugen, die nicht nach völligem Unsinn klingen, sondern Sinn machen und (hoffentlich) korrekt sind.

Verstanden haben solch künstliche Intelligenzen den Text damit aber noch lange nicht. Und das ist auch bereits die Grenze, der wir uns bewusst sein müssen, wenn wir mit GPTs arbeiten. Sie sind nur so gut wie die Trainingsdaten, auf denen sie basieren. Und sie erben damit auch die ganzen Fehler, Vorurteile und Auslassungen, welche die Daten beinhalten.

Das eigenständige Extrahieren von diesen Wahrscheinlichkeiten aus den Daten ist nur ein Anfang, denn damit erstellt die KI sich selbst eine zwar gute, aber doch noch recht fehlerbehaftete erste Basis. Die KI weiß nicht, ob die generierten Sätze, die sie auf Basis dieser Trainingsdaten ausspuckt, Sinn machen, korrekt und stilistisch gut sind, beleidigend wirken, kurz und knackig sind oder ein reines Gelaber darstellen. Da muss der Mensch ran, der KI Feedback geben und sie so trainieren.

Aber wie kann der Mensch der KI Feedback geben? Indem er stilistisch gute und faktisch korrekte Sätze erstellt. Das ist eine Möglichkeit, die leider sehr zeitintensiv ist. OpenAI, das Unternehmen hinter GPT-4 und ChatGPT, versuchte diese „überwachte Feineinstellung“ („Supervised Fine Tuning“) anfänglich, ging dann aber anders an die Aufgabe heran, was sich in der Folge als Durchbruch erwies. Statt von menschlichen Trainern stilistisch gute und faktisch korrekte Sätze formulieren zu lassen und die KI damit zu füttern, stellten sie die Herangehensweise auf den Kopf. GPT-4 wurde angewiesen, von Tausenden Sätzen jeweils mehrere Varianten zu generieren. Die ausgespuckten Sätze wurden den menschlichen Trainern vorgelegt und von diesen nach deren Nützlichkeit, Ehrlichkeit und Harmlosigkeit bewertet und sortiert. Diese Bewertungen gingen zurück an die KI, die ihre Algorithmen – also ihre automatisch generierten Wahrscheinlichkeiten – durch dieses „Reinforcement Learning“ mit denen der menschlichen Tester kombinieren und anpassen konnte.

In der Analogie zum Kochbuch wäre das in etwa so, als ob der Chefkoch zunächst nur seinen eigenen Geschmack hätte gelten lassen, doch nun mehrere Varianten seiner Rezepte kocht und sie Testessern serviert, die ihm dann sagen, was ihnen besser geschmeckt hat. Das hilft dem Koch, die Rezepte im Kochbuch dem allgemeinen Geschmack anzupassen.

Das Ergebnis war GPT-3.5, das im November 2022 zum ersten Mal einer breiteren Allgemeinheit zugänglich gemacht wurde und seither die Fantasie der Öffentlichkeit beflügelt. ChatGPT, das auf GPT basiert, wurde sogar noch durch einen weiteren Feinabstimmungsschritt ergänzt, in dem statt solchen Frage-Antwort-Paaren ganze Konversationen als Trainingsmaterial dienten. Deshalb kann man mit ChatGPT längere Gespräche führen, die sich wie solche mit echten Menschen anfühlen. ChatGPT merkt sich in der Version von GPT-4 mehr als 32.000 Token (grob gesagt „Worte“), was in etwa zwischen 1.600 und 2.200 Sätze und ungefähr 100 Seiten Umfang in diesem Buch sind. Das Sprachmodell von Anthropic, „Claude 2“, kann sich sogar 100.000 Token (75.000 Worte) merken.12

Man nennt diese Herangehensweise „Instruction Tuning“ und die Modelle auch „Instruction tuned LLMs“, also solche, die darauf eingestellt sind, nicht nur einfach Sätze zu vervollständigen, sondern Anweisungen zu erkennen und zu befolgen. Und das wird eben durch den schon beschriebenen Einsatz von Feedback durch Menschen erwirkt, die die Antworten der KI bewerten. Diese Technik wird auch „Reinforcement Learning from Human Feedback“ (RLHF) – also „verstärkendes Lernen durch menschliches Feedback“ – genannt. Während das Trainieren eines Basismodells Monate dauern kann, braucht es zur weiteren Feineinstellung auf ein Instruction-tuned-Modell nur ein paar Tage, und das mit Einsatz von viel weniger Daten.

Doch erst Modelle, die ein gut strukturiertes Instruction Tuning durchlaufen haben, entfalten ihren Nutzen für die Anwender. Sie sind nicht nur genauer und fähiger, sondern folgen auch stärker unseren Werten und vermeiden, dass sie uns unerwünschte, falsche oder sogar schädliche Inhalte liefern.

TOKEN

Jetzt haben wir über das Trainieren mit Inhalten gesprochen, doch sollten wir uns noch einen bereits mehrmals erwähnten Begriff ansehen, der bei großen Sprachmodellen bedeutend ist und einige Verhaltensweisen erklärt – die sogenannten „Token“.13

Token sind die grundlegenden Einheiten von Text oder Code, die ein großes Sprachmodell zur Verarbeitung und Erzeugung von Sprache verwendet. Token können Zeichen, Wörter, Teilwörter oder andere Text- oder Codesegmente sein, abhängig von der gewählten Methode oder dem Schema. Den Token werden numerische Werte oder Bezeichner zugewiesen, die in Sequenzen oder Vektoren angeordnet sind und in das Modell eingespeist oder aus ihm ausgegeben werden. Token sind die Bausteine der Sprache für das Modell.

Sehen wir uns doch einfach ein paar Beispiele an, die die Funktionsweise von Token verdeutlichen. Der Satz (auf Englisch) „Learning new things is fun!“ wird von dem LLM in folgende Token zerlegt:14

Hier entspricht ein Token einem Wort. Das geschieht bei Worten, die das System als häufig vorkommend in seinen Trainingstexten identifiziert hat. Interessant wird es, wenn weniger häufige Worte als Anweisung oder als Antwort behandelt werden. Diese zerlegt es in einzelne Teile wie im Satz: „Prompting is a powerful developer tool.“

Anders gesagt folgt das Vervollständigen von Sätzen daher nicht mit der höheren Wahrscheinlichkeit nach dem nächsten Wort, sondern dem nächsten Token. Das funktioniert unter normalen Umständen recht gut, bei speziellen Anweisungen stolpert die KI aber darüber. Beispielsweise führt die Anweisung, die Buchstaben des Wortes ‚lollipop“ in umgekehrter Folge auszudrucken, zu dem folgenden falschen Ergebnis: „ppilolol“.

Das Wort „lollipop“ kennt die KI nämlich nur in der Token-Variante, und die lautet:

Aus diesen Token versucht die KI dann die Anweisung zu erfüllen und scheitert in manchen Fällen daran.

Bei englischen Texten umfasst ein Token ungefähr vier Buchstaben oder drei Viertel eines Worts. Jedes Sprachmodell ist etwas unterschiedlich und hat seine Grenzen, wie viele Token es als Input und Output liefern und im Speicher halten kann. GPT-3.5 beispielsweise hat eine Beschränkung von 4.000 Token für den Input und den Output, GPT-4 mit 32.000 Token den achtfachen Umfang.

TEXTANWEISUNGEN BEHANDELN

Nachdem das System trainiert und eingestellt wurde, wird es Zeit, zu verstehen, wie generative KIs „Prompts“ – also Textanweisungen – von Benutzern behandeln. KIs kommen mit vorbereiteten Methoden und Einstellungen, die Betreiber für den eigenen Verwendungszweck selbst ergänzen und verfeinern können.

Der erste Schritt nennt sich „Moderation“. Dabei überprüft die KI, ob die Textanweisung Hassrede, sexuelle Inhalte, Gewalt, Selbstverletzung oder sonstige schädliche Formen von Inhalten aufweist. Fragt der Prompt nach Beschreibungen, wie man Selbstmord begehen kann? Will der Benutzer wissen, wie man eine Bombe baut? Oder wünscht er sich pornografische Bilder? Die großen Sprachmodelle analysieren Prompts nach solchen Inhalten und markieren die Prompts entsprechend. Vom Betreiber einer solchen KI können die Auslöser für sehr sensible Benutzergruppen wie beispielsweise Kinder entweder verschärft oder für andere Benutzergruppen auch völlig ignoriert werden.

Ein weiterer Schritt ist das sogenannte „Chain of Thought Reasoning“ – also das Aufschlüsseln der Gedankenkette, mit der die KI die Anweisung ausführt. Fragt ein Benutzer beispielsweise, warum ein bestimmtes Produkt billiger ist als ein anderes, dann kann die KI angewiesen werden, die eigene Vorgehensweise offenzulegen. Zuerst sieht sich die KI die Information zu den erwähnten Produkten an. Dann vergleicht sie die Preise. Sollte sich herausstellen, dass die Behauptung, das Produkt sei billiger als ein anderes, nicht stimmt, dann korrigiert sie diese Information. Zuletzt analysiert die KI, welches die Gründe dafür sein könnten, dass das Produkt billiger ist. Das macht sie beispielsweise anhand von technischen Produktdaten, die sie in eine strukturierte Form gebracht hat.

Interessanterweise wird die Antwort eines großen Sprachmodells besser, wenn es „Zeit zum Denken“ erhält und man es angewiesen hat, die Gedankenkette aufzuschlüsseln. Das hilft Benutzern auch, zu lernen, wie bessere Prompts verfasst werden können.