Fragen Sie sich vielleicht, Kann KI ganz ohne Daten selbstständig lernen?” Um die detaillierteste und fundierteste Antwort zu erhalten, wollen wir dieses Thema mit INVIAI eingehend untersuchen.

Zunächst ist es wichtig zu verstehen, dass Daten das Kernelement aller modernen KI-Modelle im Bereich des maschinellen Lernens sind. KI kann ohne Eingabedaten kein Wissen „aufbauen“.

Beispielsweise lernt KI im überwachten Lernen aus umfangreichen, von Menschen beschrifteten Datensätzen (Bilder, Texte, Audio usw.), um Muster zu erkennen.

Auch beim unüberwachten Lernen benötigt KI rohe, unbeschriftete Daten, um eigenständig verborgene Strukturen oder Muster in diesen Daten zu entdecken.

Daher muss KI, unabhängig von der Methode, mit Daten „gefüttert“ werden – sei es mit beschrifteten Daten, selbstbeschrifteten Daten (self-supervised) oder Daten aus realen Umgebungen. Ohne jegliche Eingabedaten kann das System nichts Neues lernen.

Gängige Lernmethoden der KI

Heutzutage lernen KI-Modelle hauptsächlich durch folgende Ansätze:

  • Überwachtes Lernen:

KI lernt aus großen, beschrifteten Datensätzen. Um beispielsweise Katzen auf Bildern zu erkennen, werden Tausende Fotos benötigt, die mit „Katze“ oder „keine Katze“ gekennzeichnet sind. Diese Methode ist sehr effektiv, erfordert jedoch einen erheblichen Aufwand bei der Datenbeschriftung.

  • Unüberwachtes Lernen:

KI erhält unbeschriftete Rohdaten und sucht darin nach Mustern oder Clustern. Beispielsweise gruppieren Clustering-Algorithmen Datensätze mit ähnlichen Merkmalen. Diese Methode ermöglicht es der KI, „selbstständig“ aus Daten zu lernen und Muster ohne menschliche Anleitung zu entdecken.

  • Self-Supervised Learning (Selbstüberwachtes Lernen):

Eine Variante, die bei großen neuronalen Netzen und großen Sprachmodellen (LLMs) verwendet wird, bei der das Modell selbst Labels für Daten generiert (z. B. das Vorhersagen des nächsten Wortes in einem Satz oder das Rekonstruieren fehlender Teile) und daraus lernt. Dieser Ansatz erlaubt es der KI, riesige Text- oder Bilddatensätze ohne menschliche Beschriftung zu nutzen.

  • Reinforcement Learning (Verstärkendes Lernen):

Anstelle statischer Daten interagiert die KI (genannt Agent) mit einer Umgebung und lernt anhand von Belohnungssignalen. Wikipedia definiert RL so: “Verstärkendes Lernen ist das Lehren eines Software-Agenten, wie er sich in einer Umgebung verhalten soll, indem ihm die Ergebnisse seiner Handlungen mitgeteilt werden.”

Mit anderen Worten: Die KI führt Aktionen aus, beobachtet die Ergebnisse (z. B. Belohnung oder Strafe) und passt ihre Strategien an, um die Leistung zu verbessern.

Beispielsweise lernt DeepMinds AlphaZero Schach nicht durch menschliche Anleitung, sondern spielt Millionen von Partien gegen sich selbst und entdeckt neue Strategien durch Gewinnsignale, ohne auf vorgegebene Expertendatensätze angewiesen zu sein.

  • Federated Learning (Verteiltes Lernen):

Bei sensiblen Daten, wie persönlichen medizinischen Bildern, ermöglicht Federated Learning mehreren Geräten (oder Organisationen), gemeinsam ein Modell zu trainieren, ohne Rohdaten auszutauschen.

Google erklärt, dass beim Federated Learning das globale Modell an jedes Gerät gesendet wird, um lokal auf den Daten zu trainieren, und nur Modellaktualisierungen zurückgesendet werden – die Rohdaten verlassen das Gerät nie.

So kann das Modell von Daten an verschiedenen Standorten lernen, ohne diese zu zentralisieren. Dennoch benötigt die KI lokale Daten auf jedem Gerät zum Lernen.

  • Zero-Shot Learning:

Dies ist die Fähigkeit der KI, neue Konzepte ohne spezifische Beispiele abzuleiten. IBM definiert Zero-Shot Learning als Situationen, in denen “ein KI-Modell darauf trainiert wird, Objekte oder Konzepte zu erkennen oder zu klassifizieren, von denen es zuvor keine Beispiele gesehen hat.”

Zero-Shot Learning basiert auf zuvor erworbenem breit gefächertem Wissen. Viele große Sprachmodelle (LLMs) wie GPT sind auf riesigen Textkorpora vortrainiert. Dank dieses Vorwissens können sie über neue Konzepte nachdenken, auch ohne explizite Beispiele.

Obwohl es so erscheinen mag, als könne KI „ohne Daten lernen“, basieren LLMs in Wirklichkeit immer noch auf großen Anfangsdatenmengen, um grundlegende Sprachfähigkeiten aufzubauen.

Zusammenfassend zeigen alle diese Methoden, dass es keinen magischen Weg gibt, wie KI ohne Daten lernen kann – in welcher Form auch immer. KI kann die Abhängigkeit von menschlich beschrifteten Daten verringern oder aus Erfahrungen lernen, aber sie kann nicht aus dem Nichts lernen.

Beliebte Lernmethoden der KI

Forscher untersuchen derzeit Wege, wie KI weniger auf von Menschen bereitgestellte Daten angewiesen sein kann. DeepMind schlug kürzlich ein “Streams”-Modell im Zeitalter der „erfahrungsbasierten KI“ vor, bei dem KI hauptsächlich aus eigenen Interaktionen mit der Welt lernt, statt aus menschlich entworfenen Problemen und Fragestellungen.

VentureBeat zitierte die Forschung von DeepMind: “Wir können dies erreichen, indem wir Agenten erlauben, kontinuierlich aus ihren eigenen Erfahrungen zu lernen – also aus Daten, die der Agent selbst bei der Interaktion mit der Umgebung generiert… Erfahrung wird das primäre Mittel zur Verbesserung und die heutige Menge an menschlich bereitgestellten Daten übertreffen.”

Mit anderen Worten: In Zukunft wird KI ihre eigenen Daten durch Experimente, Beobachtungen und Anpassungen ihres Handelns generieren – ähnlich wie Menschen aus realen Erfahrungen lernen.

Ein konkretes Beispiel ist das Modell Absolute Zero Reasoner (AZR). AZR wird vollständig durch Selbstspiel trainiert und benötigt keine menschlichen Eingaben. Es generiert eigene Probleme (z. B. Code-Snippets oder mathematische Aufgaben), löst diese und nutzt die Ergebnisse (durch Codeausführung oder Umgebungsfeedback) als Belohnungssignale zum Lernen.

Bemerkenswert ist, dass AZR trotz fehlender externer Trainingsdaten Spitzenleistungen in Mathematik- und Programmieraufgaben erzielt und sogar Modelle übertrifft, die mit zehntausenden beschrifteten Beispielen trainiert wurden. Dies zeigt, dass KI ihre eigene „Datensammlung“ erzeugen kann, indem sie kontinuierlich Herausforderungen stellt und löst.

Neben AZR erforschen viele weitere Studien KI-Systeme, die autonom lernen. Intelligente Agentensysteme können mit Software und virtuellen Welten (Tools, Webseiten, Simulationsspiele) interagieren, um Erfahrungsdaten zu sammeln.

KI kann so gestaltet werden, dass sie eigene Ziele und Belohnungen setzt, ähnlich wie Menschen Gewohnheiten entwickeln. Obwohl sich diese Ansätze noch in der Forschung befinden, unterstreichen sie den Punkt: Keine KI kann wirklich ohne Daten lernen – stattdessen stammen die „Daten“ aus den eigenen Erfahrungen der KI.

>>> Mehr erfahren: 

Muss ich Programmieren können, um KI zu nutzen?

Denkt KI wie Menschen?

Fortschrittlicher Trend – Lernen aus “Erfahrung” statt statischer Daten


Kurz gesagt, benötigt die heutige KI weiterhin Daten (in welcher Form auch immer) zum Lernen. Eine wirklich „datenlose KI“ gibt es nicht.

Stattdessen kann KI weniger von menschlich bereitgestellten Daten lernen, indem sie unbeschriftete Daten nutzt (unüberwachtes Lernen), aus Umgebungsfeedback lernt (verstärkendes Lernen) oder sogar eigene Herausforderungen schafft (z. B. das AZR-Modell).

Viele Experten sind überzeugt, dass KI in Zukunft zunehmend durch eigene Erfahrungen lernt und diese Erfahrung zur wichtigsten „Datenquelle“ für Verbesserungen wird.

Doch unabhängig davon bleibt die Wahrheit: KI kann nicht aus dem Nichts lernen; die „Datenquelle“ kann komplexer sein (z. B. Umweltsignale, Belohnungen), aber es wird immer eine Form von Eingabe benötigt, damit die Maschine lernen und sich verbessern kann.

Externe Referenzen
Dieser Artikel wurde unter Bezugnahme auf die folgenden externen Quellen zusammengestellt: