Skip to main content
de
Kontakt Kontakt
Kontakt Kontakt
Expert opinion

Expertenanalyse: Rechtsprechung zur Anfechtung von KI-Trainingsdatenpraktiken

Ein kürzlich ergangenes Urteil des US-Gerichts im Fall Thomson Reuters gegen Ross Intelligence ist ein wichtiger Moment für die Entwicklung generativer KI. Es könnte die Art und Weise verändern, wie Unternehmen Daten für das Training ihrer Modelle sammeln und nutzen. Dies ist der erste große Fall in den USA, bei dem es um KI und Urheberrecht geht, und seine Auswirkungen gehen über die beteiligten Unternehmen hinaus.

Besonders bedeutsam ist, dass der Richter das Argument der fairen Nutzung zurückwies, das KI-Unternehmen in ähnlichen Streitigkeiten häufig anführen. Nach Ansicht des Richters hat Ross einen direkten Konkurrenten zu Westlaw geschaffen, anstatt die Inhalte für Forschungs- oder Bildungszwecke umzuwandeln. Wenn die Gerichte diesem Fall als Präzedenzfall folgen, werden wahrscheinlich ähnliche Klagen gegen fast alle Unternehmen eingereicht werden, die sich mit der Ausbildung von Modellen beschäftigen.

Wir sprachen darüber mit Volodymyr Getmanskyi, Leiter des Data Science Office bei ELEKS, um mehr über die wichtigsten Komplikationen rund um Data Governance und KI-Modelltraining zu erfahren.

Wie wird sich das Urteil auf die Art und Weise auswirken, wie Unternehmen Daten für das KI-Training sammeln?

Zunächst einmal geht es um die Frage, wie Daten klassifiziert werden können, insbesondere im Web 4.0, ausgehend von der Frage, wie Ihr Browser Daten zwischenspeichert und ob Sie sie weiterverwenden können.

Datenwissenschaftler und KI-Fachleute sind sich in der Regel solcher Probleme bewusst (öffentliche Quellen oder urheberrechtlich geschützte Metadaten in Datensätzen) und prüfen diese immer vor der Verwendung. Es kann jedoch auch zu kontroversen Fällen kommen, wie dem, dass Mira Murati, CTO von OpenAI, in einem WSJ-Interview nicht sagen konnte, welche Daten zum Training von Sora verwendet wurden.

Wie kann die Herkunft der Trainingsdaten zurückverfolgt werden?

Es gibt einige Überlegungen, die recht innovativ erscheinen, wie z.B. die Verwendung von Blockchain-Blöcken, um die Verteilung zu verfolgen, oder eine Art Steganographie, um Copyright-Informationen in den Daten zu verstecken. Die Hauptfrage der Verifizierung der trainierten Modelle bleibt jedoch offen, insbesondere in Fällen von Destillations- oder Transferlernen; es ist noch unklar, wie die Parameter und der Vorwärtsfortpflanzungspfad überprüft werden können, um das Vorhandensein bestimmter Muster festzustellen.

Wie effektiv sind die Methoden zur Erzeugung synthetischer Daten?

Es gibt viele Fälle, in denen synthetische Datensätze sehr hilfreich sind, aber es stellt sich auch eine andere Frage: Wenn ein Modul/Algorithmus/Modell weiß, wie man Daten generiert und alle Abhängigkeiten und Unterschiede innerhalb der Daten kennt, warum sollte es dann nicht als primäres Modell ohne Generierung und zusätzliches Training oder Architektursuche verwendet werden?

Ist es aus technischer Sicht möglich, Datenfiltersysteme zu entwickeln, die urheberrechtlich geschützte Inhalte ausschließen?

Die Daten oder Proben sollten zunächst markiert werden und dann den einfachsten Filter auf der Basis von IP-Markierungen durchlaufen. Ansonsten besteht die einzige Möglichkeit darin, jedes Beispiel irgendwo im Internet zu finden, die Primärquelle (Herkunft) zu suchen und das Urheberrecht zu überprüfen. Dies erscheint zu kompliziert und zeitaufwändig.

Überspringen Sie den Abschnitt

FAQs

Was bedeutet Modelltraining in der KI?

Das Trainieren von Modellen hilft einem KI-System, aus Daten zu lernen, um Vorhersagen zu treffen oder Entscheidungen zu treffen. Es ist wie das Unterrichten eines Schülers: Sie liefern Beispiele (Trainingsdaten) und das Modell lernt, Muster und Beziehungen in diesen Daten zu erkennen.

Wo erhält man trainierte KI-Modelle?
Wie trainiert man ein KI-Modell?
Talk to experts
Überspringen Sie den Abschnitt
Kontakt
  • Wir benötigen Ihren Namen für die korrekte Ansprache
  • Wir benötigen Ihre Telefonnummer, um Sie hinsichtlich Ihrer Anfrage kontaktieren zu können
  • Wir benötigen Ihren Standort, um entscheiden zu können, welches unserer Büros für Sie zuständig ist
  • Wir benötigen Ihren Unternehmensnamen als Hintergrundinformation, um zu ermitteln, wie wir Ihnen helfen können
  • Akzeptierte Dateitypen: jpg, gif, png, pdf, doc, docx, xls, xlsx, ppt, pptx, png, Max. Dateigröße: 10 MB.
(jpg, gif, png, pdf, doc, docx, xls, xlsx, ppt, pptx, PNG)

Wir speichern Ihre Daten in unserem CRM-System, um Sie kontaktieren zu können. Für weitere Informationen beachten Sie bitte unsere Datenschutzrichtlinie
  • Dieses Feld dient zur Validierung und sollte nicht verändert werden.

Das sagen unsere Kunden

ELEKS war an der Entwicklung einer Reihe von Websites und mobilen Anwendungen beteiligt, die es unseren Kunden ermöglichen, ihre Sendungen einfach zu verfolgen, die benötigten Informationen zu erhalten und mit uns in Kontakt zu bleiben. Wir schätzen das Fachwissen, die Reaktionsfähigkeit und die Liebe zum Detail von ELEKS.

samer-min
Samer Awajan
CTO, Aramex

Von Anfang an haben wir das Engagement und den Einsatz von ELEKS sehr geschätzt. Zunächst kamen sie mit ihren besten Leuten zu uns, um zu versuchen, unseren Kontext und unsere Geschäftsidee zu verstehen, und dann entwickelten sie mit uns den ersten Prototyp. Sie waren sehr professionell und kundenorientiert. Ohne ELEKS wäre es wahrscheinlich nicht möglich gewesen, so schnell ein erfolgreiches Produkt zu entwickeln.

Caroline Aumeran
Caroline Aumeran
Head of Product Development, appygas

ELEKS verfügt über ein breit gefächertes Wissen und Verständnis. Dieses Wissen können wir nutzen, um unseren Kunden hervorragende Ergebnisse zu liefern. Wenn Sie mit ELEKS arbeiten, arbeiten Sie mit den besten 1 % des Landes zusammen, wenn es um die Eignung und die technische Exzellenz geht.

Sam Fleming
Sam Fleming
President, Fleming-AOD