​Modelet OpenAI ‘memorizojnë’ përmbajtjen me të drejtën autoriale, sugjeron studimi i ri

Një studim i ri duket se i jep besim pretendimeve se OpenAI ka trajnuar të paktën disa nga modelet e tij të inteligjencës artificiale mbi përmbajtjen me të drejtë autori.

OpenAI është i përfshirë në kostume të sjella nga autorë, programues dhe mbajtës të tjerë të të drejtave, të cilët akuzojnë kompaninë se përdor veprat e tyre – libra, baza kodesh e kështu me radhë – për të zhvilluar modelet e saj pa leje.

OpenAI ka pretenduar prej kohësh një mbrojtje të përdorimit të drejtë, por paditësit në këto raste argumentojnë se nuk ka një ndarje në ligjin e të drejtave të autorit në SHBA për të dhënat e trajnimit, transmeton KosovaPress.

Studimi, i cili është bashkautor nga studiuesit në Universitetin e Uashingtonit, Universitetin e Kopenhagës dhe Stanford, propozon një metodë të re për identifikimin e të dhënave të trajnimit “të memorizuar” nga modelet pas një API, si OpenAI’s.

Modelet janë motorë parashikimi të trajnuar për shumë të dhëna, ata mësojnë modele – kështu janë në gjendje të gjenerojnë ese, foto dhe më shumë.

Shumica e rezultateve nuk janë kopje fjalë për fjalë të të dhënave të trajnimit, por për shkak të mënyrës se si modelet “mësojnë”, disa janë të pashmangshme.

Metoda e studimit mbështetet në fjalë që bashkautorët i quajnë “tepër surprizë” – domethënë fjalë që dalin si të pazakonta në kontekstin e një numri më të madh të punës.

Për shembull, fjala “radar” në fjalinë “Jack dhe unë u ulëm plotësisht të qetë me radarin duke gumëzhuar” do të konsiderohej shumë befasuese sepse ka më pak gjasa që shikuar nga aspekti i statistikave fjalët si “motor” ose “radio” të shfaqen përpara “gumëzhimës”.

Bashkautorët hetuan disa modele të OpenAI, duke përfshirë GPT-4 dhe GPT-3.5, për shenja të memorizimit duke hequr fjalë shumë befasuese nga pjesët e librave të trillimeve dhe pjesëve të New York Times dhe duke i detyruar modelet të përpiqen të “mendojnë” cilat fjalë ishin maskuar.

Nëse modelet kanë arritur të hamendësojnë saktë, ka të ngjarë që ata e kanë mësuar përmendësh fragmentin gjatë stërvitjes, përfunduan bashkautorët.

Një shembull i të pasurit një model të “mendojë” një fjalë shumë surprizë. Sipas rezultateve të testeve, GPT-4 tregoi shenja të memorizimit të pjesëve të librave të famshëm artistikë, duke përfshirë libra në një grup të dhënash që përmban mostra të librave elektronikë me të drejtë autori të quajtur BookMIA.

Rezultatet sugjeruan gjithashtu që modeli memorizon pjesë të artikujve të New York Times, megjithëse me një normë relativisht më të ulët.

Abhilasha Ravichander, bashkautore e studimit, tha për TechCrunch se gjetjet hedhin dritë mbi modelet e “të dhënave të diskutueshme” mund të jenë trajnuar.

“Për të pasur modele të mëdha gjuhësore që janë të besueshme, ne duhet të kemi modele që mund t’i hetojmë, auditojmë dhe ekzaminojmë shkencërisht. Puna jonë synon të sigurojë një mjet për të hetuar modele të mëdha gjuhësore, por ekziston një nevojë reale për transparencë më të madhe të të dhënave në të gjithë ekosistemin,” tha Ravichander.

OpenAI ka mbrojtur prej kohësh kufizime më të lira në zhvillimin e modeleve duke përdorur të dhëna me të drejtë autori.

Ndërsa kompania ka marrëveshje të caktuara për licencimin e përmbajtjes dhe ofron mekanizma të heqjes dorë që u lejojnë pronarëve të të drejtave të autorit të raportojnë përmbajtjen që do të preferonin që kompania të mos përdorte për qëllime trajnimi, ajo ka lobuar në disa qeveri që të kodifikojnë rregullat e “përdorimit të drejtë” rreth qasjeve të trajnimit të inteligjencës artificiale.

Back to top button