18,99 €
Hinter die Kulissen der KI schauen! In diesem Band werden unter anderem Antworten auf diese Fragen zu lesen sein: Was sind eigentlich die Grundlagen einer generativen Künstlichen Intelligenz? Und wo liegen deren Stärken und Schwächen? Was versteht man unter Prompt Engineering? Was sind typische Anwendungsfelder von ChatGPT und Large Language Models? Gibt es inzwischen Regulierungen rund um ChatGPT? Welche Auswirkungen wird die Anwendung mit sich bringen? Frag doch einfach! Die utb-Reihe geht zahlreichen spannenden Themen im Frage-Antwort-Stil auf den Grund. Ein Must-have für alle, die mehr wissen und verstehen wollen.
Das E-Book können Sie in Legimi-Apps oder einer beliebigen App lesen, die das folgende Format unterstützen:
Seitenzahl: 207
Veröffentlichungsjahr: 2025
Thomas Kessel / Alexander Brandt / Jonas Offtermatt / Friedrich Augenstein / Claus-Peter Praeg
ChatGPT und Large Language Models? Frag doch einfach!
Klare Antworten aus erster Hand
UVK Verlag
Umschlagabbildung: © bgblue ∙ iStock
Abbildungen im Innenteil (Figur, Lupe, Glühbirne): © Die Illustrationsagentur
DOI: https://doi.org/10.36198/9783838562766
© UVK Verlag 2025— Ein Unternehmen der Narr Francke Attempto Verlag GmbH + Co. KGDischingerweg 5 • D-72070 Tübingen
Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen.
Alle Informationen in diesem Buch wurden mit großer Sorgfalt erstellt. Fehler können dennoch nicht völlig ausgeschlossen werden. Weder Verlag noch Autor:innen oder Herausgeber:innen übernehmen deshalb eine Gewährleistung für die Korrektheit des Inhaltes und haften nicht für fehlerhafte Angaben und deren Folgen. Diese Publikation enthält gegebenenfalls Links zu externen Inhalten Dritter, auf die weder Verlag noch Autor:innen oder Herausgeber:innen Einfluss haben. Für die Inhalte der verlinkten Seiten sind stets die jeweiligen Anbieter oder Betreibenden der Seiten verantwortlich.
Internet: www.narr.deeMail: [email protected]
Einbandgestaltung: siegel konzeption | gestaltung
utb-Nr. 6276
ISBN 978-3-8252-6276-1 (Print)
ISBN 978-3-8463-6276-1 (ePub)
#fragdocheinfach
Alle Bände der Reihe finden Sie am Ende des Buches.
Prof. Dr. Thomas Kessel lehrt Wirtschaftsinformatik an der Dualen Hochschule Baden-Württemberg in Stuttgart. Er ist Wissenschaftlicher Leiter des Zentrums für KI (ZfKI) an der DHBW Stuttgart und des Master Wirtschaftsinformatik der DHBW.
Vor seiner Berufung zum Professor für Data Science und digitale Technologien an der Dualen Hochschule Baden-Württemberg in Stuttgart arbeitete der promovierte Physiker Prof. Dr. Alexander Brandt über 16 Jahre bei der Robert Bosch GmbH in unterschiedlichen (Führungs-) Positionen, zuletzt im Bereich Data Science mit Schwerpunkt Natural Language Processing.
Prof. Dr. Jonas Offtermatt lehrt Mathematik und Programmierung an der Dualen Hochschule Baden-Württemberg in Stuttgart. Er ist Experte für Versicherungen, Versicherungsmathematik und Data Science im Versicherungsumfeld. Prof. Offtermatt hat an der Universität Stuttgart Mathematik und Philosophie/Ethik studiert und anschließend am Institut für Stochastik und Anwendungen im Excellence Cluster Simulation Technology der Universität Stuttgart promoviert. Er ist Aktuar und in der Ausbildung der Actuarial Data Scientists tätig.
Prof. Dr. Friedrich Augenstein ist Studiengangsleiter für BWL-Dienstleistungsmanagement an der Dualen Hochschule Baden-Württemberg in Stuttgart. Zuvor arbeitete er mehr als elf Jahre in verschiedenen internationalen Unternehmensberatungen. Er studierte Wirtschaftsingenieurwesen am Karlsruher Institut für Technologie (KIT) und promovierte am Institut für Informatik der Universität Freiburg.
Prof. Dr.-Ing. Claus-Peter Praeg ist Studiengangsleiter im Studiengang Wirtschaftsinformatik an der Dualen Hochschule Baden-Württemberg in Stuttgart. Zuvor arbeitete er mehr als 20 Jahre am Institut für Arbeitswirtschaft und Organisation (IAO) der Fraunhofer Gesellschaft und leitete dort nationale und internationale Projekte in der angewandten Forschung. Er studierte Wirtschaftswissenschaften an der Universität Hohenheim und promovierte am Institut für Arbeitswissenschaft und Technologiemanagement der Universität Stuttgart.
Liebe generative KI,
erzeuge mir einen Prompt mit dem ich bei einer Bildergenerierungs KI, ein Diagramm oder eine Matrix mit Anwendungsbereichen: Privatleben: Chatbots, personalisierte Empfehlungen, kreative Tools. Arbeitswelt: Automatisierte Textgenerierung, Bilderstellung, Softwareentwicklung. Industrie: Design, Prototyping, Datenanalyse. erstellen kann.
Prompt:
"Create a simple and clean infographic that shows the applications of Generative AI in three distinct categories:
Private Life: Use a single icon for chatbots, personalized recommendations, and creative tools (e.g., an icon for a music note or art palette).
Workplace: Include a single icon for automated text generation, image creation, and software development (e.g., a text bubble, a pencil, and a code symbol).
Industry: Use one clear icon for design, prototyping, and data analysis The infographic should have a minimalistic layout, with each category clearly separated. Use a clean, modern design with a limited color palette of blues, grays, and whites. Focus on clarity and simplicity, making sure each section is easily distinguishable."
Ergebnisbild:
Liebe generative KI,
erzeuge mir einen Prompt mit dem ich bei einer Bildergenerierungs KI eine vereinfachte Darstellung eines neuronalen Netzes mit Begriffen wie: Dateneingabe → Training → Generierung von Inhalten erstellen kann.
Prompt:
"Create a simplified infographic to illustrate how Generative AI works. Show a flow diagram with three key stages:
Data Input: Represented by an icon of data being fed into the system (e.g., a database or document symbol).
Training: Depict this with an icon of a neural network or brain, symbolizing the learning process. Include the term 'Training with Data'.
Content Generation: Show this with an icon of AI creating text, images, or other content (e.g., a pencil or image frame).
Incorporate the concept of 'Transformer Architecture' as part of the diagram with a simple visual cue or label. Use clear arrows to connect each step, with labels and a minimal color palette (blues, grays, and whites) for clarity."
Ergebnisbild:
Toni gibt dir spannende Tipps. Er verrät dir Lesenswertes, Hörenswertes und Wissenswertes rund um das Thema.
Die Glühbirne zeigt eine Schlüsselfrage an. Das ist eine der Fragen zum Thema, deren Antwort du unbedingt lesen solltest.
Die Lupe weist dich auf eine Expert:innenfrage hin. Hier geht die Antwort ziemlich in die Tiefe. Sie richtet sich an alle, die es ganz genau wissen wollen.
Prompts werden im Font Courier New dargestellt und die Antworten des LLMs werden durch eine senkrechte Linie, parallel zum Text verlaufend, an der linken Seite gekennzeichnet.
Mehr denn je kommt es darauf an, die richtigen Fragen zu stellen, anstatt die richtigen Antworten zu kennen – auch Sie hatten vermutlich die richtigen Fragen im Kopf, als Sie zu diesem Buch aus der Reihe Frag doch einfach! gegriffen haben. Immer häufiger richten wir Fragen jedoch nicht mehr an Menschen beziehungsweise Bücher, sondern an KI-Systeme – die Abkürzung für „Künstliche Intelligenz“ – in Gestalt von Sprachmodellen, sogenannten Large Language Models (LLMs). Diese KI-Systeme interpretieren menschliche Anfragen, die in der Regel in Textform gestellt werden, und generieren innerhalb von Sekunden passende Antworten.
Zwischen der gestellten Frage und der zurückgegebenen Antwort finden dabei unzählige mathematische Berechnungen statt. Diese Berechnungen folgen den strengen Regeln der Mathematik und sind trotz ihrer Komplexität systematisch und nachvollziehbar.
In diesem Kapitel widmen wir uns den grundlegenden Konzepten hinter diesen Berechnungen und ihrer essenziellen Basis: der Repräsentation von Sprache in Form von Zahlen. Wie wir sehen werden, ist die Wahl einer geeigneten Repräsentation von Sprache der Schlüssel zum Erfolg moderner Sprachmodelle wie ChatGPT, Gemini, Claude, LLaMA, Bard, Falcon, Mistral und vieler weiterer.
Vereinfacht gesagt ist generative KI eine Technologie, welche neue Inhalte wie Texte, Bilder oder Musik auf Basis von gelernten Mustern erzeugt.
Wichtigste Grundlage für das Erlernen von Mustern ist dabei das sogenannte Machine Learning, der Versuch, vom Speziellen auf das Allgemeine zu schließen, etwa wie ein Kind, welches in frühen Lebensjahren lediglich eine Handvoll Hunde und Katzen gesehen haben muss, um fortan sicher Hunde und Katzen voneinander unterscheiden zu können. Im Training (wir werden später noch etwas genauer auf das Training von Sprachmodellen blicken) „sieht“ unser System nun große Mengen Text, Bilder oder Musikstücke und erlernt dabei Muster, welche es ihm zum Beispiel erlauben, vorherzusagen, dass „Berlin.“ die wahrscheinlichste Fortsetzung ist von: „Wie lautet die Hauptstadt von Deutschland? ___“. Natürlich könnte auch „Bonn.“ eine nicht ganz unwahrscheinliche Fortsetzung sein, je nach dem, aus welchem Jahr die Texte stammen, welche dem System im Training präsentiert wurden.
Das „Schließen vom Speziellen auf das Allgemeine“ bedeutet insbesondere, dass die zu erlernende Muster keine einfach nachvollziehbaren Regeln sind, welche man dem System beibringt. So wie es schwerfällt, allgemeingültig zu formulieren, woran wir Katzen von Hunden unterscheiden (ist es der Augenabstand? die Fellfarbe? die Länge der Ohren?), lässt sich keine menschenverständliche Regel formulieren, um ohne zusätzliches Hintergrundwissen zu ermitteln, ob nun Berlin, Bonn oder Tokio die richtige Fortsetzung des genannten Beispielsatzes ist.
In diesem Buch soll es nicht um eine allgemeine Einführung in das Thema Machine LearningMachine Learning gehen. Stattdessen wollen wir uns speziell auf Klassifikationsaufgaben konzentrieren, eine der grundlegendsten und am weitesten verbreiteten Anwendungen des maschinellen Lernens. Bei Klassifikationsaufgaben geht es darum, einzelnen Einträgen eines Datensatzes das jeweils richtige Label zuzuweisen. Dies kann beispielsweise die Erkennung von Spam-E-Mails, die Klassifizierung von Bildern oder die Vorhersage von Krankheitsdiagnosen umfassen.
Eine Klassifikationsaufgabe beginnt typischerweise mit einem Trainingsdatensatz, der aus einer Sammlung von Eingabedaten mit den jeweils passenden Labels besteht. Ein Modell für maschinelles Lernen wird trainiert, indem es Muster in den Eingabedaten erkennt und lernt, diese Muster mit den richtigen Labels zu verknüpfen. Eingabedaten wie auch das Label müssen jeweils in einer numerischen Repräsentation vorliegen, damit Computer sie verarbeiten können. Weiter unten werden wir sehen, dass im Falle von Textverarbeitungsaufgaben die Eingabedaten n-dimensionale Vektoren (stellvertretend für einzelne Wörter beziehungsweise Token, also Wortbruchstücke, siehe Was sind Token?) oder Sequenzen von n-dimensionalen Vektoren (stellvertretend für ganze Texte) sind. Die genaue Art und Weise, wie Texte als Sequenzen von Vektoren repräsentiert werden, ist entscheidend für die Leistungsfähigkeit von Sprachverarbeitungssystemen, wie wir später sehen werden. Die Labels sind bei Klassifizierungsaufgaben in der Regel einfache Zahlen, welche in Abhängigkeit von der jeweiligen Aufgabe interpretiert werden. Bei binären Klassifikationsaufgaben, wie der Erkennung von Spam-E-Mails, könnten diese Labels aus zwei Werten, z. B. 0 und 1, stellvertretend für die Kategorien „Spam“ und „Nicht-Spam“, bestehen. Bei mehrklassigen Klassifikationsaufgaben, wie der Bilderkennung, können sie mehrere Werte annehmen, welche verschiedenen Klassen entsprechen, z. B. 0 für „Hund“, 1 für „Katze“ und 2 für „Vogel“.
Wenn es darum geht, Texte zu generieren, wird iterativ vorgegangen und es geht in jedem Schritt darum, zu einer gegebenen Eingabesequenz das nächste Wort vorherzusagen. Die Labels entsprechen den Indizes von Wörtern in einem alphabetisch sortierten Vokabular, welche man durch fortlaufende Nummerierung erhält. Eine einzelne Vorhersage gibt also an, welches Wort als nächstes in der Sequenz folgen soll. Damit ist die Vorhersage des jeweils nächsten Wortes einer Sequenz im Kern eine Klassifikationsaufgabe. Der Vorgang wiederholt sich, Wort für Wort, bis eine vollständige, sinnvolle Textsequenz generiert wurde. Dieser Vorgang wird AutoregressionAutoregression genannt.
Vereinfacht kann man sich ein Modell für maschinelles Lernen als eine mathematische Funktion vorstellen, bei der aus einer großen Menge von Zahlen auf der Eingangsseite eine einzelne Zahl auf der Ausgangsseite ausgerechnet wird. Im speziellen Fall von Textgenerierung bezeichnet die berechnete Zahl den Index des nächsten Wortes einer Sequenz, welcher auf Basis der numerischen Repräsentation der bisher vorliegenden Sequenz berechnet wird.
Neuronale NetzeNeuronale Netze, welche häufig für komplexe maschinelle Lernmodelle eingesetzt werden, gelten als generelle Funktionsapproximatoren. Das bedeutet, sie können eine Vielzahl von unterschiedlichen Funktionen lernen und approximieren, basierend auf den Daten, die ihnen zur Verfügung gestellt werden. Diese Fähigkeit macht sie besonders vielseitig und leistungsfähig. Die beeindruckenden Fähigkeiten neuronaler Netze basieren vollständig auf stetig differenzierbaren Funktionen, die sehr viele Parameter besitzen, im Wesentlichen Matrizenmultiplikationen und nichtlineare, sogenannte Aktivierungsfunktionen. Diese mathematischen Operationen in Verbindung mit sehr großen Trainingsdatensätzen sind Grundlage dafür, wie gut neuronale Netze lernen und Vorhersagen treffen.
Das ist es eigentlich auch schon, was man über die Generierung von Text wissen muss: Ein vergleichsweise wenig komplexes, neuronales Netz übernimmt iterativ die Vorhersage einzelner Wörter, welche Schritt für Schritt an einen bestehenden Text angehängt werden. Der beeindruckende Fortschritt der vergangenen Jahre, unter anderem erkennbar an Systemen wie ChatGPT, liegt in dem Schritt davor, der Repräsentation von Sprache, welche eng mit dem Sprachverständnis zusammenhängt. Darum soll es in den folgenden Kapiteln gehen.
Texte bestehen aus Sequenzen von aneinandergereihten Grundbausteinen. Die Gesamtheit der Grundbausteine bildet das Vokabular. Je einfacher die Grundbausteine, desto kleiner ist das Vokabular.
Ein sehr einfaches Vokabular ist die Gesamtheit aller Klein- und Großbuchstaben (inklusive der Umlaute) sowie aller benötigter Interpunktionszeichen (?, !, :, ;, -, ', (, ), …) mit insgesamt unter hundert Einträgen.
Eine alternative Möglichkeit wäre, ganze Wörter in das Vokabular aufzunehmen. Hier käme man sehr schnell auf einen Vokabularumfang im hohen fünfstelligen Bereich, ohne dass Konjugationen, Deklinationen oder zusammengesetzte Wortformen berücksichtigt wären.
Einen Mittelweg stellt ein Vokabular bestehend aus Wortbruchstücken dar, den sogenannte Token, bei denen der Vokabularumfang als Designparameter frei festgelegt werden kann. Bei einer Zerlegung in Wortbruchstücke sind kurze und häufige Wörter Bestandteil des Vokabulars. Zusammengesetzte, seltene oder gebeugte Wörter werden dagegen als Verbindung mehrerer Token dargestellt.
Ein größeres Vokabular kann zu einer genaueren Darstellung der Sprache führen, erfordert jedoch mehr Rechenleistung und Speicherplatz. Ein kleineres Vokabular ist effizienter, kann jedoch zu Informationsverlusten führen und die Fähigkeit des Modells einschränken, feine sprachliche Nuancen zu erfassen.
Im Allgemeinen ist der Vokabularumfang einer von vielen Designparametern der Lösung eines Sprachverarbeitungsproblems. Der Einfachheit halber nehmen wir für die in diesem Buch dargestellten Konzepte an, dass unser Vokabular aus ganzen Wörtern besteht und wir vermeiden von nun an den Begriff des Tokens. Dadurch können wir uns besser auf die wesentlichen Funktionsweisen konzentrieren, ohne uns in technischen Details zu verlieren.
SprachverständnisSprachverständnis ist die Fähigkeit, natürliche Sprache zu interpretieren, zu analysieren und darauf zu reagieren. Es umfasst mehrere Ebenen, von der einfachen Erkennung und Interpretation von Wörtern und Sätzen bis hin zum tieferen Verständnis von Bedeutungen, Absichten, sprachlichen Nuancen und Kontext. Diese Fähigkeit ist grundlegend für die menschliche Kommunikation und spielt eine entscheidende Rolle im Lernprozess, im zwischenmenschlichen Austausch und in der Fähigkeit, Wissen zu erwerben und zu teilen.
Die Grundlage für Sprachverständnis bildet das sogenannte lexikalische Verständnis, also das Wissen um die Bedeutung und die Verwendung von Wörtern in ihrem jeweiligen Kontext sowie das semantische Verständnis, also die Fähigkeit, Texte zu erfassen einschließlich impliziter Bedeutungen, Metaphern und Anspielungen.
Für die Prozessierung von Texten durch einen Computer wird eine numerische Repräsentation von Sprache benötigt. Dabei ist es zweckmäßig, wenn ähnliche Wörter (oder auch Kontexte) in der Weiterverarbeitung mathematisch ähnliche numerische Repräsentationen haben. Doch was genau bedeutet Ähnlichkeit? Repräsentiert man einzelne Wörter durch Vektoren, also geordnete Zahlenmengen, so lässt sich ein einfaches, mathematisches Ähnlichkeitsmaß wie folgt definieren. Betrachtet werden zwei Vektoren und , von denen jeder genau ein Wort repräsentiere und stellvertretend für eine geordnete Menge von n natürlichen Zahlen steht, also
und .
Die Ähnlichkeit dieser zwei Vektoren und , von denen sich jeder als Pfeil in einem n-dimensionalen Raum vorstellen lässt, ist gegeben durch den Winkel zwischen ihnen, genauer: durch den Cosinus ebendieses Winkels, welchen wir mit bezeichnen. Sind beide Vektoren parallel, ist der Winkel zwischen ihnen also 0°, beträgt die Ähnlichkeit exakt +1.
Zeigen die Vektoren in unterschiedliche Richtungen, was einem Winkel von 180° entspricht, beträgt die Ähnlichkeit -1. Man definiert also:
Wurde jedem einzelnen Wort eines vorgegebenen Vokabulars ein n-dimensionaler VektorVektor zugeordnet und besteht zwischen jedem Paar von Vektoren ein nachvollziehbarer Wert für die Ähnlichkeit des dazugehörigen Wortpaares so haben wir Sprachverständnis auf Wort-Ebene hergestellt. Das bedeutet: für Wortpaare wie (Freund, Kumpel) oder (schnell, rasant) berechnet man eine hohe Ähnlichkeit nahe +1, während (Auto, Banane) oder (laufen, kochen) nur sehr kleine Ähnlichkeiten nahe 0 haben. Wörter mit gegensätzlicher Bedeutung wie etwa (schnell, langsam) hätten Ähnlichkeiten nahe -1. Eine solche Zuordnung von Worten zu Vektoren eines n-dimensionalen Raumes nennt man Word-Embedding bzw. Sprachverständnis auf Wort-Ebene.
Ein Kind, dem beim Anblick eines Collies und eines Dackels erklärt wurde, dass es sich jeweils um einen Hund handelt, wird mit hoher Wahrscheinlichkeit beim Anblick eines Schäferhundes ebenfalls darauf schließen, dass es sich um einen Hund handelt. Das liegt daran, dass Menschen einfach so Ähnlichkeiten zwischen Hunden unterschiedlicher Rassen erfassen können. Das Kind kann sehr schnell all sein Wissen auf bislang ungesehene Hunderassen transferieren, ohne dass es einer zusätzlichen Erklärung bedürfte. Etwa so: Dackel bellen → ein Schäferhund ist auch ein Hund → Schäferhunde bellen.
Diese Analogie des TransferlernensTransferlernen (auch bekannt als sokratischer Schluss) lässt sich vollständig auf ein Wort-basiertes Machine-Learning Problem übertragen, bei dem der Computer, wie oben beschrieben, vom Speziellen auf das Allgemeine schließen soll. Hat man einmal Wort-Embeddings mit sinnvollen Ähnlichkeitsbeziehungen, so reichen relativ wenige Beispiele der Zielaufgabe, z. B. die Erkennung von Spam-Mails, um ein Modell erfolgreich zu trainieren.
Im Abschitt Wie erwerben Computer Sprachverständnis? sehen wir zunächst, wie sich Wort-Embeddings und damit ein Sprachverständnis auf Wortebene trainieren lässt.
Ein einfaches Paar von Halbsätzen verdeutlicht allerdings, dass Sprachverständnis auf Wortebene, so wie wir es bis hierhin betrachtet haben, nicht ausreichend ist:
Auf der Bank ein Konto eröffnen
Auf der Bank ein Buch lesen
Wir haben es hier mit zwei verschiedenen Bedeutungen des Wortes Bank zu tun, welche wir voneinander unterscheiden müssen. Im Abschnitt Wie erwerben Computer Sprachverständnis? werden wir daher weiter sehen, wie Computer Sprachverständnis auf Kontextebene trainieren. Im Ergebnis werden dann wieder alle Worte eines Textes repräsentiert durch n-dimensionale Vektoren, nur, dass identischen Wörtern, je nach Kontext, unterschiedlichen Vektoren zugeordnet sein können. Man spricht dann von kontextualisierten Embeddings. Bei kontextualisierten Embeddings bekommen dieselben Wörter je nach Kontext unterschiedliche Vektorrepräsentationen. Im Beispiel oben bekäme Bank im ersten Fall einen Vektor zugeordnet, welcher eine hohe Ähnlichkeit zum Wort Geldinstitut aufweist, im zweiten Fall einen Vektor, welcher nahe an Sitzgelegenheit läge.
Das ist es dann eigentlich auch schon – damit schließen wir nahtlos an die Schlussbemerkung der Antwort auf die Frage Was hat maschinelles Lernen als Klassifizierungaufgabe mit generativer KI zu tun? an. Wenn wir einmal sinnvolle, kontextualisierte Wortrepräsentationen haben, ist der Rest „nur noch“ eine einfache Klassifikationsaufgabe, auf welche ein neuronales Netzwerk mit vergleichsweise geringem Aufwand trainiert werden kann.
Die Unterscheidung zwischen dem Erzeugen allgemeinen Sprachverständnisses einerseits und dem Trainieren für eine spezifische Zielaufgabe andererseits ist fundamental und wird uns auch später immer wieder begegnen, daher seien an dieser Stelle zwei Begriffe eingeführt:
Pre-Training
Fine-Tuning
Das Pre-TrainingPre-Training bezieht sich auf den Prozess, bei dem ein Sprachmodell auf einer großen Menge unstrukturierter Textdaten trainiert wird, um ein allgemeines Sprachverständnis wie oben beschrieben auf Wortebene, oder, wie wir später sehen werden, auf Kontextebene zu erwerben. Wegen extremer Anforderungen an die Hardware (Speicher und Rechenkapazität) sowie an die Menge der zur Verfügung stehenden Trainingsdaten ist dieser Vorgang sehr komplex. Die Gesamtkosten dürften für große Modelle im zweistelligen Euro-Millionenbereich liegen, weswegen nur große Forschungszentren, Universitäten oder Technologieunternehmen überhaupt imstande sind, sie zu entwickeln. Im Ergebnis hat man dann aber ein Modell, welches die Grundlage für die Bewältigung unterschiedlichster Aufgaben sein kann.
Das Fine-TuningFine-Tuning hingegen ist der Prozess, bei dem ein mittels Pre-Trainings vortrainiertes Sprachmodell auf einen spezifischen Anwendungsfall, wie Textgenerierung oder einfache Klassifizierungsaufgaben, angepasst wird. Hierbei wird das angepasste Modell mit einem kleineren, aber spezifischeren Datensatz weitertrainiert, der die besonderen Anforderungen und Charakteristiken der Zielaufgabe widerspiegelt. Dieser Schritt ist für die meisten Zielaufgaben weniger ressourcenintensiv als das Pre-Training, da er sich auf bereits vorhandenes Wissen des Modells stützt und dieses nur verfeinert und anpasst.
Ein weiterer wichtiger Aspekt des Fine-Tunings ist die Möglichkeit, domänenspezifisches Wissen in das Modell zu integrieren. So kann ein allgemeines Sprachmodell beispielsweise durch Fine-Tuning zu einem Experten für juristische Texte, medizinische Berichte oder technische Dokumentationen werden. Diese Spezialisierung erhöht die Genauigkeit und Relevanz der vom Modell generierten Inhalte erheblich.
Im vorangegangenen Abschnitt haben wir erfahren, dass Sprachverständnis für unsere Zwecke gleichbedeutend ist mit der mathematischen Erfassung von Wortähnlichkeiten. Im einfacheren, statischen Fall begnügen wir uns damit, dass wir einzelnen Wörtern statisch (d. h. unabhängig vom jeweiligen Kontext) n-dimensionale Vektoren zuweisen, sodass die Vektoren ähnlicher Wörter eine hohe Cosinus-Ähnlichkeit miteinander aufweisen. Um der Tatsache Rechnung zu tragen, dass die Bedeutung von Wörtern von Ihrem Kontext abhängt, besteht die Erweiterung dieses Konzeptes darin, die Zuweisung von Wörtern zu den sie repräsentierenden Vektoren nicht statisch, sondern dynamisch erfolgt zu lassen, also in Abhängigkeit vom jeweiligen Kontext. Wie man zu diesen statischen bzw. kontextualisierten Repräsentationen kommt, soll Gegenstand dieses Kapitels sein.