ChatGPT e Garante per la privacy: la sicurezza dei nostri dati è a rischio?
Nel mese di novembre 2022, la società statunitense OpenAl ha introdotto – per prima – il suo modello linguistico di intelligenza artificiale. La piattaforma linguistica si chiama ChatGPT ed è basata sull’interpretazione del linguaggio naturale e su una nuova tipologia di interazione tra uomo-macchina.
Tale rivoluzione in ambito di innovazione linguistica ha prodotto le prime perplessità. L’intelligenza artificiale deve essere regolamentata? Ci sono rischi per la protezione dei dati personali?
Anche le compagnie assicurative si interrogano sul tema ed osservano con attenzione l’evolversi della normativa. Si valutano i potenziali rischi in cui possono incorrere i soci e la necessità di tutelare adeguatamente i dati personali e aziendali dei propri clienti assistiti.
In Italia, lo scorso marzo. il Garante per la protezione dei dati personali ha disposto la limitazione provvisoria del trattamento dei dati – degli utenti italiani – nei confronti di OpenAl, la società statunitense che gestisce la piattaforma linguistica ChatGPT. Il nuovo software di intelligenza artificiale, lo scorso marzo, ha subito una perdita di dati (data breach) inerenti le conversazioni private degli utenti del web e le informazioni riguardanti gli abbonamenti al servizio a pagamento. Secondo il Garante della Privacy – oltre all’assenza di una informativa agli utenti sulla raccolta dei dati da parte di OpenAl – , manca una base giuridica che giustifichi la raccolta e la conservazione di ingenti quantitativi di dati a scopo di “addestramento” del sistema linguistico artificiale.
L’Italia, al momento, è l’unico Paese ad aver intrapreso azioni concrete nei confronti del modello linguistico basato su deep learning. Tale intervento ha avviato nuove riflessioni sulla necessità di intervenire in ambito di protezione dei dati personali trattati dai modelli di intelligenza artificiale. Una parte della popolazione si è espressa a favore del Garante della Privacy, condividendo la tesi secondo la quale l’innovazione scientifica non possa divenire giustificazione per il mancato rispetto delle regole. Dall’altra, non sono mancate critiche al provvedimento, che è stato giudicato – in taluni casi – eccessivo perché dipeso dalla scarsa conoscenza delle metodologie di funzionamento dei sistemi linguistici di intelligenza artificiale, i quali vengono addestrati – all’interazione – proprio attraverso l’utilizzo dei dati.
Come funziona ChatGPT (Generative Pre-trained Transformer)?
Il modello linguistico statunitense si basa sull’interpretazione del linguaggio naturale.
In che modo? Attraverso tre tipologie di algoritmo: generative, pre-trained e transformer.
Gli algoritmi generativi producono nelle macchine la capacità di generare nuovi contenuti attraverso l’osservazione di esempi/dati analizzati precedentemente. Il modello linguistico adottato si basa, cioè, sulla produzione di nuovi risultati ottenuti dalla combinazione di migliaia di dati già esistenti. All’algoritmo generativo si unisce il sistema multilivello dei transformer. Questi ultimi consentono di trasformare i processi linguistici attraverso due procedimenti: il meccanismo dell’attenzione – capace di imitare le modalità con le quali il nostro cervello riconosce le componenti semantiche di una frase – ed i transformer – ovvero gli elementi che permettono al sistema di conservare una traccia dei discorsi immagazzinati, affinché si posa costituire una sorta di memoria storica. Alla combinazione dei due algoritmi – generative e transformer – manca un elemento determinante: l’addestramento. La macchina viene addestrata (pre-trained) assorbendo migliaia di informazioni dal web: tali dati vengono elaborati per consentire al sistema di apprendere le relazioni tra gli argomenti trattati.
Il sistema linguistico ChatGPT riesce in questo modo ad apprendere e ad elaborare gli argomenti trattati.
Non tutti concordano su tale meccanismo e c’è chi si domanda quali siano le reali capacità di comprensione dei dati immagazzinati. “Apprendere” non significa “comprendere”: il modello linguistico di intelligenza artificiale non ha, infatti, consapevolezza dei significati.
A tali mancanze si aggiungono i potenziali rischi per il trattamento dei dati privati. Nello specifico, secondo il Garante della Privacy, l’addestramento degli algoritmi utilizzati dal modello linguistico ChatGPT è basato sull’utilizzo di informazioni prelevate dal web, tra le quali, dati personali che non sono stati preventivamente autorizzati dai diretti interessati. Il Garante della Privacy ha contestato alla società statunitense anche la mancata presenza di un processo in grado di ridurre il rischio di accesso al sistema da parte dei minori.