ADUC - Tlc - Articolo - A causa dell’intelligenza artificiale, il Web si sta chiudendo sempre di più

A causa dell’intelligenza artificiale, il Web si sta chiudendo sempre di più

Articolo di Redazione

15 settembre 2024 9:30

Un gruppo di accademici indipendenti ha scoperto che il 30% dei siti più grandi del mondo, tra decine di milioni, ora utilizzano divieti sulla raccolta dei propri dati, rispetto ad appena il 2% degli anni precedenti.

L'arrivo di ChatGPT, nel novembre 2022, continua ad avere conseguenze, fantasiose o reali. Tra questi ultimi, un gruppo di accademici indipendenti, Data Provenance Initiative, ne ha appena individuato uno, del tutto inaspettato: l’inaridimento delle fonti da cui attingono i sistemi di intelligenza artificiale generativa, come lo strumento dell’azienda americana OpenAI reso popolare. Più precisamente, nel preprint presentato a una conferenza a luglio, questo team ha misurato quanto un numero significativo di siti, tra i più popolari al mondo (The New York Times, HuffPost, The Guardian, ecc.), vietano ora strumenti di recupero automatico dei dati o di scansione in inglese per accedere alle proprie informazioni. Ed è da questi dati che nascono enormi database per addestrare intelligenze artificiali come ChatGPT, Gemini, Copilot, Le Chat, Llama, Claude… Più grandi sono i database, migliori saranno i risultati, anche se conta anche la “qualità”.

Per arrivare a questa osservazione della chiusura del Web, i ricercatori hanno studiato tre database ampiamente utilizzati per lo sviluppo di AI, C4, RefinedWeb e Dolma, contenenti miliardi di “token” (o unità lessicali, sillabe, persino parole) provenienti da decine di milioni di Siti Internet (media, forum, enciclopedie, commercianti online, siti personali o universitari, social network, ecc.). Hanno anche raccolto due tipi di informazioni da questi siti per sapere cosa consentono e cosa no: le loro condizioni generali d'uso (CGU) e un file chiamato "robots.txt", che i robot-crawler dovrebbero "leggere” per determinare se hanno o meno il diritto di raccogliere dati (ma potrebbe anche non essere rispettato un “divieto”).

Lista nera
La prima osservazione è che i divieti formulati nel robots.txt “esplodono” a partire dal 2023. Quasi il 30% dei siti più grandi ora li utilizza, rispetto ad appena il 2% in precedenza. In termini di volume di dati, i ricercatori stimano che oltre il 30% dei token dei 3.950 siti più grandi all’interno dei corpora C4 e RefinedWeb siano ora interessati da restrizioni.

Non tutti i crawler sono sulla stessa barca: il 25,9% dei token C4 è vietato ai robot OpenAI, mentre è solo il 13,3% per quelli di Anthropic o il 4,1% per quelli di Meta. Recentemente molti editori hanno annunciato che stanno bloccando uno degli ultimi robot sul mercato, quello di Apple.

I ricercatori sottolineano inoltre che nella lista nera di molti siti figura anche un'organizzazione no-profit americana, Common Crawl. È vero che i suoi dati vengono utilizzati per costruire corpora C4, RefinedWeb, FineWeb, Dolma, ecc., che a loro volta possono essere utilizzati dalle aziende a scopo di lucro per sviluppare i loro sistemi. Ma i divieti colpiscono anche i crawler di Internet Archive, un servizio di “memoria” Web non commerciale.

“L’effetto di queste restrizioni è che le future raccolte Common Crawl non conterranno questi dati, riducendo la “qualità” dei token necessari per l’intelligenza artificiale”, si rammarica Shayne Longpre, portavoce della Data Provenance Initiative, che definisce come il tentativo di “ comprendere meglio la logistica dietro l’intelligenza artificiale”.

Nel loro articolo, i ricercatori ritengono inoltre che “questo aumento delle restrizioni influenzerà le attività di ricerca archivistica, no-profit o accademica” – Common Crawl è infatti citato in migliaia di articoli scientifici. “Ciò ridurrà anche la rappresentatività, la “freschezza” dei dati e il loro volume”, scrivono.

Disuguaglianze tra le aziende
"Ciò è preoccupante, soprattutto per quanto riguarda la fornitura di database aperti e pubblici", osserva Guilherme Penedo, che, all'interno della start-up americana HuggingFace, ha recentemente creato FineWeb, basato sulle raccolte di Common Crawl. Si rammarica inoltre che ciò possa creare disuguaglianze tra le grandi imprese, che trarranno vantaggio dagli accordi con alcuni siti, e quelle piccole, che si ritroveranno bloccate.

Infatti, i più grandi editori hanno negoziato accordi commerciali per l’utilizzo dei loro dati per l’intelligenza artificiale, come OpenAI con Le Monde, o sono in causa con alcuni attori, come il New York Times contro Microsoft e OpenAI.

Un altro modo per alimentare l’intelligenza artificiale è far generare questi dati da… altra intelligenza artificiale generativa chiedendo loro di rispondere a domande o estendere testi. “Questa tecnica di sintesi dei dati è promettente, ma questi dati non cadono dal cielo. Rifletteranno ciò che era contenuto nei database originali, che come sappiamo stanno diventando limitati”, afferma Shayne Longpre.

Questa non è l’unica lezione che i ricercatori hanno imparato dal lorostudio negli ambiti dell’intelligenza artificiale. Analizzando i Termini e Condizioni hanno notato in particolare che non erano necessariamente d'accordo con robots.txt. Alcuni siti affermano di vietare la scansione ma di non tenerne conto nel file robots.txt. Oppure blocca i crawler in base al file senza farlo nei Termini e condizioni. Quest'ultimo può contenere autorizzazioni per la scansione destinata ad applicazioni non commerciali, mentre il file robots.txt blocca i crawler non commerciali...

Sarebbe quindi auspicabile una maggiore coerenza, secondo la Data Provenance Initiative, che suggerisce anche di rivedere i sistemi di autorizzazione/divieto per consentire una maggiore flessibilità. Ad esempio, per i media, la scansione potrebbe essere vietata per i contenuti “nuovi” ma consentita per i contenuti più vecchi.

Infine, notano che, se i siti di informazione o enciclopedici sono i maggiori fornitori di token di formazione, gli utenti dell’intelligenza artificiale generativa non cercano di far loro scrivere articoli informativi. Utilizzando uno dei rari database che ha registrato gli usi di ChatGPT, WildChat, i ricercatori notano che questo chatbot viene utilizzato principalmente per scrivere contenuti creativi e per avere interazioni erotiche o sessuali. Lontano, quindi, dai testi attenti che servivano per la formazione.

Questo disallineamento tra gli usi e la maggior parte dei dati raccolti dovrebbe alimentare le argomentazioni dei vari avvocati coinvolti nei processi in corso contro i giocatori di IA.

(David Larousserie su Le Monde del 15/09/2024)

CHI PAGA ADUC
l’associazione non percepisce ed è contraria ai finanziamenti pubblici (anche il 5 per mille)
La sua forza economica sono iscrizioni e contributi donati da chi la ritiene utile
DONA ORA

ARTICOLI IN EVIDENZA

4 maggio 2025 8:52

PROBLEMI TECNICI SITO

1 maggio 2025 15:04

Aduc - lettera mensile - Maggio 2025

28 aprile 2025 12:50

Internet e realtà. Cosa ci insegnano i dati Istat. Realtà sì, ma …

26 aprile 2025 10:09

Rapporto professionisti e consumatori. Correttezza e buona fede. Consiglio di Stato

26 aprile 2025 9:51

La criminalità informatica transnazionale nel Sud-est asiatico raggiunge livelli record

22 aprile 2025 9:50