Neue Forschungsergebnisse der Data Provenance Initiative zeigen einen dramatischen Rückgang der für KI-Trainings verfügbaren Daten. Die Studie untersuchte 14.000 Webdomains, die in drei häufig genutzten KI-Trainingsdatensätzen enthalten sind.
Kernpunkte:
5% aller Daten und 25% der Daten aus hochwertigen Quellen wurden eingeschränkt.
Bis zu 45% der Daten in einem Set sind durch Nutzungsbedingungen geschützt.
Viele Websitebetreiber blockieren KI-Crawler oder verlangen Bezahlung.
Diese Entwicklung bedroht besonders kleinere KI-Unternehmen und Forscher.
Große Tech-Konzerne haben bereits riesige Datenbestände angehäuft.
Gründe für den Datenschwund:
Wachsende Bedenken bezüglich der Nutzung von Online-Inhalten für KI-Training
Rechtliche Schritte und Forderungen nach Vergütung von Publishern
Technische Maßnahmen wie Paywalls und robots.txt-Beschränkungen
Mögliche Folgen:
Verlangsamung der KI-Entwicklung, besonders bei kleineren Akteuren
Verstärkung der Dominanz großer Tech-Unternehmen
Notwendigkeit neuer Ansätze wie synthetische Daten oder Lizenzvereinbarungen
Experten fordern bessere Kontrollmöglichkeiten für Websitebetreiber und einen faireren Umgang der KI-Branche mit Datenquellen. Die Zukunft der KI-Entwicklung hängt maßgeblich davon ab, wie diese Herausforderungen gemeistert werden.
Entdecke regelmäßig frische Inspirationen für deine kreative Arbeit!
Abonniere jetzt den otticcreative signals Newsletter für News, Ideen und digitale Tools.