Deutschland will im KI-Wettrennen Boden gutmachen
Franz Công Bùi, Frankfurt
Chatbots und Sprachassistenten kommen zunehmend zum Einsatz, um Prozesse effizienter zu gestalten. Mit Hilfe von künstlicher Intelligenz (KI) funktioniert die maschinelle Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) mittlerweile auf relativ hohem Niveau, wobei nach wie vor umstritten ist, inwieweit hierbei tatsächlich von „Intelligenz“ gesprochen werden kann. Die Entwicklung geht dahin, dass digitale Sprachmodelle das Verfassen von Nachrichtenmeldungen oder das Führen von Kundendialogen übernehmen können.
Ein Sprachmodell ist eine riesige Statistik darüber, wie Zeichen und Wörter in Beziehung zueinander stehen. Das Wort „Wolken“ etwa wird häufig in Zusammenhang mit „regnen“ genannt. Die Software lernt solche Zusammenhänge anhand von Milliarden Texten aus Webseiten oder Büchern. Ein großes Sprachmodell (Large Language Model, LLM) soll flexibler und eher in der Lage sein, Texte etwa durch Umschreibung der Atmosphäre eines Ereignisses anschaulicher zu machen.
Das Erlernen erfolgt bei LLMs über sogenannte neuronale Netze. Ähnlich wie im Gehirn tauschen künstliche Neuronen über Synapsen Signale aus. Dabei justieren die einzelnen Synapsen beim Lernen, wie stark oder häufig sie das Signal eines Neurons an ein anderes übertragen. Doch es ist nach wie vor schwierig für Menschen ohne hohe Technikkompetenz, dem Algorithmus zu helfen, sein Modell zu verfeinern.
Bei den LLMs haben sich Allzweckmodelle wie GPT-3 von OpenAI und Modelle, die auf bestimmte Aufgaben ausgerichtet sind (etwa die Beantwortung von Fragen der IT-Abteilung) als dominant herauskristallisiert. Große Sprachmodelle sind in der Regel mehrere Dutzend Gigabyte groß, denn sie wurden auf Basis von Unmengen an Texten sowie multimedialen Daten wie Bildern trainiert. Wichtig ist die Zahl der Synapsen, auch Parameter genannt.
Die großen, vortrainierten Modelle sind deswegen so bemerkenswert, weil ein einziges System für Aufgaben wie Inhaltszusammenfassungen, Beantwortung von Fragen, Generierung von Texten oder Konversationen über Dialogsysteme verwendet werden kann. Hinzu kommt, dass die Leistung höher skaliert, je mehr Parameter und Daten vorliegen. Und sie sollen in der Lage sein, Vorhersagen zu treffen, auch wenn sie nur wenige Beispiele erhalten.
2022 veröffentlichte Google mit LaMDA ein großes Sprachmodell für Chatbot-Anwendungen. Kurz darauf hat Deepmind sowohl Alpha Code als auch Flamingo gelauncht, Letzteres ist ein Sprachmodell, das visuelles Verständnis ermöglicht. Im Sommer ging ein Sprachmodell des Facebook-Mutterkonzerns Meta an den Start, das für die Übersetzung zwischen 200 Sprachen trainiert wurde. Zeitgleich kam das europäisch geführte Big-Science-Projekt Bloom, ein Open-Source-Sprachmodell mit 176 Milliarden Parametern.
Technologie-Wettlauf
Bereits 2020 hatte das KI-Start-up OpenAI GPT-3 veröffentlicht, ein Modell mit 175 Milliarden Parametern, das neben Text auch Code generieren kann. Diese Entwicklung galt für viele KI-Forscher als besonderer Durchbruch. Derzeit gibt es über 300 GPT-3-gestützte Anwendungen. Als ein großer Schwachpunkt des Modells gilt jedoch die Wissensleistung. Es heißt, GPT-3 könne eine Frage wie „Wer war der Präsident von Amerika im Jahr 650?“ beantworten, auch wenn es in dem Jahr bekanntlich noch gar keine USA gab.
OpenAI war als gemeinnützige Organisation gegründet worden, hat sich dann aber 1 Mrd. Dollar Finanzierung von Microsoft beschafft. Dadurch erhielt das Start-up Zugang zu enormer Rechenleistung. Im Gegenzug hat der Software-Riese die Exklusivrechte für GPT-3 erhalten.
Ein großer Vorteil dieses Sprachmodells ist indes, dass sich der Trainingsaufwand und die damit verbundenen Kosten enorm verringern. Ingenieure können damit anspruchsvolle KI-Anwendungen in einer Low-Code-KI-Umgebung erstellen – also ohne tiefergehende Programmierkenntnisse. Der Qualitätssprung seit dem Start von GPT-3 hat zu einer Art Wettlauf um noch rechenstärkere Sprachmodelle ausgelöst. 2021 hatte GPT-3 die meisten Parameter. Kurz darauf veröffentlichte Google Switch Transformers mit 1,6 Billionen Parametern, dann verzehnfachte Wu Dao aus China, das sich als KI-Macht neben den USA positionieren will, die Parameter-Anzahl von GPT-3 auf 1,75 Billionen. OpenAI hat dann erst kürzlich viel Aufsehen mit ChatGPT erregt und arbeitet bereits an GPT-4, das womöglich bis zu hundert Billionen Parameter erhalten soll, ähnlich viele wie das menschliche Gehirn.
Angesichts der Dominanz amerikanischer und chinesischer Initiativen (siehe Grafik) äußerte Jörg Bienert, Vorsitzender des KI-Bundesverbandes, die Befürchtung: „Wir laufen Gefahr, dass die Amerikaner und Chinesen diese großen Sprachmodelle bereitstellen und wir Europäer in einem weiteren Bereich die digitale Souveränität verlieren.“ Fast die Hälfte der neuen KI-Patente kommt aus China, ein Drittel aus Amerika und nur etwa 15% aus Europa.
Eines der wenigen europäischen Start-ups, die bei dem Technologie-Wettrüsten mithalten können, ist Aleph Alpha aus Heidelberg. Dort wird an einer Infrastruktur gearbeitet, die es Unternehmen ermöglichen soll, KI ohne großes Budget und Trainingsaufwand zu nutzen. Das Start-up will seine Technologie über eine API in den rasant wachsenden Multi-Milliarden-Dollar-Markt einbringen. Ziel ist auch, die europäische Forschung und Entwicklung für die nächste Generation der verallgemeinerbaren KI zu gestalten. Aleph Alpha hat das bislang größte deutschsprachige Modell entwickelt, das intern trainiert wurde und auf alle in Europa gesprochenen Sprachen ausgeweitet werden soll.
Das Start-up ist bei einem deutschen Forschungsprojekt beteiligt, das Innovationen für den europäischen Markt und auch kleine und mittelständische Firmen erschließen will: OpenGPT-X. Das Projekt, mit dem Deutschland ins KI-Wettrennen eingestiegen ist und das ein Sprachmodell für Europa entwickeln soll, ging im Januar 2022 an den Start und soll mit einem Gesamtbudget von 19 Mill. Euro über drei Jahre laufen. Das Bundesministerium für Wirtschaft und Klimaschutz fördert das Projekt im Rahmen des Gaia-X-Programms mit 14,9 Mill. Euro.
Das Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI) betreut gemeinsam mit 1&1 Ionos, der Alexander Thamm GmbH und dem Fraunhofer IAIS die Integration in die europäische Cloud-Initiative Gaia-X. Das DFKI kümmert sich zudem um die Zusammenstellung multilingualer Textkorpora, die für das initiale Training der Modelle verwendet werden. Weitere Daten für die Fortentwicklung der Modelle für den Einsatz in der Praxis kommen unter anderem von Control Expert, einem Dienstleister der Versicherungswirtschaft, der Rundfunkanstalt WDR und von BMW, die allesamt für das Projekt Anwendungsfälle entwickeln. So wird etwa erforscht, wie sich Sprachsteuerung in Fahrzeugen verbessern oder Mediatheken von Fernseh- und Radiosendern durchsuchen lassen.
Aufgabe von Control Expert ist es, das Thema Schadensabwicklung mit Hilfe von LLMs für die Versicherungswirtschaft effizienter zu gestalten. Dr. Nicolas Flores-Herr, Geschäftsfeldleiter Dokumentenanalyse sowie Leiter Conversational AI am Standort Dresden des Fraunhofer IAIS, erklärt: „Im Schadensfall kommen viele Seiten an Dokumenten zusammen. Und der Versicherungsnehmer muss mit der Versicherung sprechen, Fragen beantworten, in Warteschlangen warten, Informationen doppelt und dreifach abgeben.“ Dieser Prozess soll vereinfacht werden, und zwar gleichermaßen für Versicherer wie Versicherungsnehmer.
Schon beim Thema Dokumentenverständnis seien solche Sprachmodelle in der Lage, natürlichsprachliche Fragen zu einer großen Anzahl an für den Schadensfall relevanten Dokumenten zu beantworten, etwa „Mit welchen Kosten muss ich für den Schaden rechnen?“. Künftig könne so mit einer Conversational-AI, also mit einem digitalen Sprachassistenten, über Schäden gesprochen werden können. Mit Hilfe von OpenGPT-X entsteht so eine skalierbare KI-basierte Schadensabwicklung, die über die Vielsprachlichkeit der Sprachmodelle einfach internationalisierbar ist. Zusammen mit den Gaia-X-Themen Datenschutz und Datenhoheit können große Mehrwerte für die Versicherungswirtschaft entstehen.
Mit den Daten reden
Schon jetzt könne das Modell von Aleph Alpha aus Texten, die es vorher nicht gesehen hat, binnen weniger Sekunden den Inhalt zusammenfassen. Daneben seien noch viele weitere Anwendungsfälle in der Finanzbranche vorstellbar, erklärt Flores-Herr: „Talk to your data, talk to your documents. Das läuft dann multimodal: Die Daten und Dokumente werden in das KI-System hochgeladen, und dann führt man mit einem virtuellen Sprachassistenten eine Unterhaltung, als hätte ein Mensch das in null Komma nichts durchgelesen.“ Das Fraunhofer IAIS soll gemeinsam mit dem OpenGPT-X-Konsortium die Forschungsergebnisse in die Anwendung überführen. Viele Kundenprojekte verzögerten sich bisher erheblich oder scheiterten, weil KI, Recheninfrastruktur und Daten nicht in einer kritischen Masse zusammenfinden. Genau dieses Problem solle mit OpenGPT-X adressiert werden: „Eine Computer-Infrastruktur, wie sie die Hyperscaler haben, also Meta, Google oder Microsoft und OpenAI, diese Konzentration von Daten- und Recheninfrastruktur findet man in Europa so noch nicht. Deswegen ist eine Förderung für den Datenaustausch und die Beschaffung und das Pooling von Daten auch organisationsartenübergreifend sehr wichtig“, betont Flores-Herr. Das neue Sprachmodell werde für alle offen sein, im Sinne einer europäischen Infrastruktur.
Jedoch müssten für Firmen Aufwand und Ertrag im richtigen Verhältnis zueinander stehen: „Immer, wenn Informationen in standardisierter Form vorliegen, wäre der Einsatz eines solchen Systems übertrieben. Bei allem, was sich mit einem Webformular erledigen lässt, schießt man mit so einem KI-Sprachmodell mit Kanonen auf Spatzen.“ Doch etwa bei einer Due Diligence, wo sehr schnell sehr viele Daten, komplexe, eventuell widersprüchliche Informationen und der ganze Facettenreichtum menschlicher Sprache ausgewertet werden müssen, ergebe es Sinn für Wirtschaftsprüfer und Legal Departments, sich so einer Technologie zu bedienen. Der Aufwand bestehe dann nur noch im Finetuning der Technologie, was jedoch viel unaufwendiger sei als früher.
Die Arbeiten am ersten Release sind Flores-Herr zufolge in vollem Gange: „Wir werden hoffentlich in den nächsten Monaten eine erste Basisversion veröffentlichen können, die auch Open Source zur Verfügung gestellt werden kann. Größenmäßig werden wir zwar noch nicht ganz da sein, wo jetzt die amerikanischen und chinesischen Mitbewerber stehen. Aber es ist ein erster Schritt.“
Lange Zeit seien Forschung und Anwendung voneinander ziemlich abgekoppelt gewesen. Eine Technologie wie GPT-3 zeige, wie schnell so etwas heute zum Einsatz gebracht werden kann. „Wenn man sich überlegt, dass das nicht irgendeine einfache IT-Technologie, sondern ein hoch komplexes Gebilde ist, ist es verblüffend. Der Zeitraum zwischen Forschung und industrieller Anwendung ist sehr kurz geworden.“