Nvidia Apple och andra påstås ha tränat AI med hjälp av 173 000 YouTube-videor

AI-företag har använt undertexter från 173,536 YouTube-videor för att träna sina modeller utan tillstånd.
Datasetet YouTube Subtitles inkluderar materials från utbildningskanaler som Khan Academy, MIT och Harvard, samt populära program och YouTube-stjärnor.
Kreatörer som David Pakman och företag som Nebula är upprörda över att deras arbete har använts utan samtycke och kräver kompensation.
EleutherAI skapade datasetet genom att använda YouTube’s API för att hämta undertexter, trots YouTube’s regler mot automatiserad åtkomst.
Apple, Nvidia, Salesforce och Anthropic har använt datasetet för att träna sina AI-modeller och hävdar att datasetet var offentligt tillgängligt.
Datasetet innehåller även materials som har raderats från YouTube, vilket skapar oro bland kreatörer.
Tidigare fall har visat att AI-företag har använt andra dataset utan tillstånd, vilket har resulterat i rättsliga åtgärder.
Kreatörer oroar sig för att AI-modeller kan skapa innehåll som konkurrerar med deras eget arbete.

En undersökning av Proof Information avslöjade att flera stora AI-företag, inklusive Apple, Nvidia och Anthropic, har använt undertexter från tusentals YouTube-videor för att träna sina AI-modeller utan att informera eller få tillstånd från innehållsskaparna.

Datasetet kallat YouTube Subtitles, innehåller materials från utbildningskanaler samt populära program och YouTube-stjärnor. Många kreatörer är upprörda över att deras arbete har använts utan deras samtycke och kräver kompensation. Företag som Salesforce och Anthropic har bekräftat användningen av datasetet males hävdar att det var offentligt tillgängligt.

YouTube Subtitles-datasetet är en samling av undertexter från YouTube-videor som har använts för att träna AI-modeller. Datasetet innehåller texttranskriptioner från 173,536 YouTube-videor, vilka har hämtats från mer än 48,000 kanaler. Det inkluderar materials från utbildnings- och online-lärandekanaler som Khan Academy, MIT och Harvard, samt populära program och YouTube-stjärnor som MrBeast, Marques Brownlee, Jacksepticeye och PewDiePie. Datasetet innehåller även undertexter från videor som har raderats från YouTube, samt materials som kan vara kontroversiellt, som konspirationsteorier.

Hur reagerade kreatörer på att deras arbete användes utan tillstånd?

David Pakman, värd för ”The David Pakman Present”, påpekade att hans arbete är hans levebröd och att han borde kompenseras om AI-företagen tjänar pengar på hans innehåll. Han betonade att han och hans crew lägger ner mycket tid, resurser och pengar på att skapa sitt innehåll.

Dave Wiskus, VD för streamingtjänsten Nebula, kallade det ”stöld” och ”respektlöst” att använda kreatörers arbete utan deras tillstånd, särskilt eftersom AI kan användas för att ersätta konstnärer.

Marcia, som driver kanalen ”Einstein Parrot”, uttryckte oro över hur hennes papegojas röst kan användas av AI, inklusive möjligheten att skapa en digital kopia av papegojan som kan svära.

Flera kreatörer, inklusive de bakom kanalerna Crash Course och SciShow, uttryckte frustration över att deras utbildningsinnehåll hade använts utan deras samtycke.

Källor: