Ein kürzlich ergangenes Urteil des US-Gerichts im Fall Thomson Reuters gegen Ross Intelligence ist ein wichtiger Moment für die Entwicklung generativer KI. Es könnte die Art und Weise verändern, wie Unternehmen Daten für das Training ihrer Modelle sammeln und nutzen. Dies ist der erste große Fall in den USA, bei dem es um KI und Urheberrecht geht, und seine Auswirkungen gehen über die beteiligten Unternehmen hinaus.
Besonders bedeutsam ist, dass der Richter das Argument der fairen Nutzung zurückwies, das KI-Unternehmen in ähnlichen Streitigkeiten häufig anführen. Nach Ansicht des Richters hat Ross einen direkten Konkurrenten zu Westlaw geschaffen, anstatt die Inhalte für Forschungs- oder Bildungszwecke umzuwandeln. Wenn die Gerichte diesem Fall als Präzedenzfall folgen, werden wahrscheinlich ähnliche Klagen gegen fast alle Unternehmen eingereicht werden, die sich mit der Ausbildung von Modellen beschäftigen.
Wir sprachen darüber mit Volodymyr Getmanskyi, Leiter des Data Science Office bei ELEKS, um mehr über die wichtigsten Komplikationen rund um Data Governance und KI-Modelltraining zu erfahren.
Zunächst einmal geht es um die Frage, wie Daten klassifiziert werden können, insbesondere im Web 4.0, ausgehend von der Frage, wie Ihr Browser Daten zwischenspeichert und ob Sie sie weiterverwenden können.
Datenwissenschaftler und KI-Fachleute sind sich in der Regel solcher Probleme bewusst (öffentliche Quellen oder urheberrechtlich geschützte Metadaten in Datensätzen) und prüfen diese immer vor der Verwendung. Es kann jedoch auch zu kontroversen Fällen kommen, wie dem, dass Mira Murati, CTO von OpenAI, in einem WSJ-Interview nicht sagen konnte, welche Daten zum Training von Sora verwendet wurden.
Es gibt einige Überlegungen, die recht innovativ erscheinen, wie z.B. die Verwendung von Blockchain-Blöcken, um die Verteilung zu verfolgen, oder eine Art Steganographie, um Copyright-Informationen in den Daten zu verstecken. Die Hauptfrage der Verifizierung der trainierten Modelle bleibt jedoch offen, insbesondere in Fällen von Destillations- oder Transferlernen; es ist noch unklar, wie die Parameter und der Vorwärtsfortpflanzungspfad überprüft werden können, um das Vorhandensein bestimmter Muster festzustellen.
Es gibt viele Fälle, in denen synthetische Datensätze sehr hilfreich sind, aber es stellt sich auch eine andere Frage: Wenn ein Modul/Algorithmus/Modell weiß, wie man Daten generiert und alle Abhängigkeiten und Unterschiede innerhalb der Daten kennt, warum sollte es dann nicht als primäres Modell ohne Generierung und zusätzliches Training oder Architektursuche verwendet werden?
Die Daten oder Proben sollten zunächst markiert werden und dann den einfachsten Filter auf der Basis von IP-Markierungen durchlaufen. Ansonsten besteht die einzige Möglichkeit darin, jedes Beispiel irgendwo im Internet zu finden, die Primärquelle (Herkunft) zu suchen und das Urheberrecht zu überprüfen. Dies erscheint zu kompliziert und zeitaufwändig.
Das Trainieren von Modellen hilft einem KI-System, aus Daten zu lernen, um Vorhersagen zu treffen oder Entscheidungen zu treffen. Es ist wie das Unterrichten eines Schülers: Sie liefern Beispiele (Trainingsdaten) und das Modell lernt, Muster und Beziehungen in diesen Daten zu erkennen.
Es gibt mehrere Quellen für vortrainierte KI-Modelle, z. B. Hugging Face, PyTorch Hub, GitHub Repositories usw.
Das Training eines KI-Modells umfasst die Vorbereitung und Bereinigung der Daten, die Auswahl eines Modelltyps wie lineare Regression oder neuronale Netze und die Auswahl einer Lernmethode: überwacht, unbeaufsichtigt oder halbüberwacht. Nachdem das Modell mit den Daten trainiert wurde, muss es mit separaten Datensätzen validiert und getestet werden, um sicherzustellen, dass es gut funktioniert. Wenn das Modell nicht die gewünschte Genauigkeit erreicht, kann ein erneutes Training erforderlich sein.
ELEKS war an der Entwicklung einer Reihe von Websites und mobilen Anwendungen beteiligt, die es unseren Kunden ermöglichen, ihre Sendungen einfach zu verfolgen, die benötigten Informationen zu erhalten und mit uns in Kontakt zu bleiben. Wir schätzen das Fachwissen, die Reaktionsfähigkeit und die Liebe zum Detail von ELEKS.
Von Anfang an haben wir das Engagement und den Einsatz von ELEKS sehr geschätzt. Zunächst kamen sie mit ihren besten Leuten zu uns, um zu versuchen, unseren Kontext und unsere Geschäftsidee zu verstehen, und dann entwickelten sie mit uns den ersten Prototyp. Sie waren sehr professionell und kundenorientiert. Ohne ELEKS wäre es wahrscheinlich nicht möglich gewesen, so schnell ein erfolgreiches Produkt zu entwickeln.
ELEKS verfügt über ein breit gefächertes Wissen und Verständnis. Dieses Wissen können wir nutzen, um unseren Kunden hervorragende Ergebnisse zu liefern. Wenn Sie mit ELEKS arbeiten, arbeiten Sie mit den besten 1 % des Landes zusammen, wenn es um die Eignung und die technische Exzellenz geht.