Tra cognitivismo e connessionismo
L’intelligenza artificiale ha preso tante forme nel corso di quasi 70 anni, da quando nel 1956 venne utilizzato questo titolo per la conferenza di Dartmouth. La nuova primavera di questa etichetta dipende dal successo delle nuove tecniche di machine learning basate sull’analisi dei dati, attraverso metodi che in passato erano conosciuti con il termine connessionismo. Si trattava di simulare il funzionamento delle reti neurali cerebrali e di analizzare i dati senza considerarli nella loro singolarità simbolica, ma come tracce di una interazione con l’esterno.
Questo modello si contrapponeva a quelli simbolici e cognitivisti, secondo i quali le macchine avrebbero simulato il funzionamento della mente con le sue capacità cognitive di alto livello, come la soluzione di problemi complessi e la dimostrazione di teoremi matematici. L’obiettivo in questo caso era riprodurre il ragionamento, magari euristico, seguendo regole di inferenza prestabilite. La prospettiva del reasoning, che si affidava alla capacità di simbolica di rappresentare i problemi, per poi risolverli, si infrangeva contro il muro del costo computazionale, necessario per affrontare i problemi che superavano quelli giocattolo e confrontarsi con la complessità delle situazioni reali.
Anche il modello connessionista subsimbolico non era riuscito a ottenere risultati clamorosi fino a poco tempo fa, a causa degli elevati costi di costruzione delle basi di dati per addestrare i sistemi e di quelli computazionali. Ma tra i due metodi per realizzare l’intelligenza artificiale esisteva un’altra differenza rilevante, oltre all’oggetto della simulazione. Mentre i modelli di IA basati sul ragionamento potevano essere sotto controllo dei loro programmatori, rispetto alla giustificazione delle loro inferenze e delle conclusioni che generavano, quelli orientati all’apprendimento erano più inaffidabili cognitivamente. Dipendevano dall’accesso a grandi quantità di dati per identificare le regolarità rilevanti ai fini del riconoscimento di pattern (modelli, schemi, regolarità), usati per proiettare le serie sul futuro e costruire previsioni per guidare gli interventi sulle serie dei dati futuri. L’argomento per sostenere la loro efficienza dipendeva dall’uso del principio di induzione, che a sua volta si fondava sull’assunzione del mondo stabile, nel quale le regolarità sarebbero state la norma e la contingenza l’eccezione. Argomenti tutt’altro che indisputabili.
Dopo la crisi delle dot.com avvenuta al passaggio degli anni 2000, nacquero le piattaforme nelle quali gli utenti erano tenuti a cedere all’infrastruttura le informazioni personali. Questo fenomeno ha consentito la creazione di enormi basi di dati, una riserva di informazioni principalmente relative alle abitudini, alle preferenze e ai comportamenti delle persone.
La cosiddetta traccia digitale – che ognuno di noi lascia irrimediabilmente quando è attivo online – venne utilizzata dalle piattaforme prima nella semplice forma della costruzione di algoritmi di raccomandazione per sollecitare la presenza e l’engagement online, successivamente le infrastrutture compresero di poter usare le informazioni per manipolare direttamente i comportamenti e le preferenze degli utenti a partire dalla rappresentazione del loro profilo online.

La svolta del machine learning
Il momento della svolta del machine learning è rappresentato dall’articolo Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012), Imagenet classification with deep convolutional neural networks, che descriveva il grande successo di Alexnet, una rete di deep learning (convolutional neural network) per il riconoscimento di immagini, capace di vincere di gran lunga la gara per l’efficacia nel riconoscimento delle immagini che ogni anno impegnava i ricercatori su Imagenet, una banca dati costruita da un gruppo di ricercatori della Stanford University, guidati da Li Fei-Fei.
La disponibilità di banche dati come ImageNet, che offriva grandi quantità di immagini etichettate dalle persone permetteva a questi sistemi di estrarre le regolarità che avrebbero reso possibile il riconoscimento delle immagini da parte di reti neurali, ma che contestualmente incorporavano la visione del mondo che si nascondeva dentro i sistemi di classificazione che esplicitamente o implicitamente erano attivi nella catalogazione delle immagini. Kate Crawford e Trevor Paglen hanno mostrato come quei sistemi di riconoscimento fossero imbevuti di pregiudizi e dei criteri epistemici, impliciti nei database di addestramento (Crawford, K., Paglen, T. Excavating AI: the politics of images in machine learning training sets. AI & Soc 36, 1105–1116 (2021)). I dati di addestramento e i loro sistemi di catalogazione sono parte integrante del funzionamento delle reti neurali che hanno l’obiettivo di classificare, catalogare o prevedere il comportamento delle serie di dati di training, ne costituiscono l’ossatura epistemica, silente, afasica e potente.
Le aree di maggior successo di questi sistemi riguardano, oltre al riconoscimento di immagini e volti, la classificazione di oggetti ed eventi ai fini di esercitare la capacità di prevedere il futuro e intervenire, attraverso decisioni informate ed efficaci, oltre alla capacità di produrre contenuti adeguati alle aspettative comunicative degli interlocutori.
Estrazione e astrazione
I metodi di machine learning dipendono, quindi, dall’attività di estrazione di significato dalle regolarità contenute nei dati sui quali vengono addestrati, sia che questo avvenga nella forma supervisionata, semi-supervisionata, non supervisionata o per rinforzo. In tutti i casi le regolarità, le somiglianze, il riconoscimento e le connessioni sono inscritti nei processi di estrazione dai dati. Potremmo, quindi, identificare queste pratiche come appropriazioni del contenuto collettivo usato per l’addestramento, una sorta di processo di industrializzazione della capacità cognitiva, implicata nelle basi dati adoperata.
I sistemi, inoltre, funzionano adottando tecniche di astrazione per costruire una rappresentazione il più possibile formale e scarna dei dati di addestramento. Nell’esercizio di astrazione, però, sono implicite alcune pratiche, strutturalmente selettive, che occultano i criteri e le preferenze che le hanno generate. I metodi di astrazione, al cuore della conoscenza, non si limitano a definire la struttura di un concetto, eliminando tutte gli aspetti contingenti e concreti che si manifestano nelle sue singole istanze, ma definiscono anche i confini e le forme dei concetti, selezionando elementi che determinano distinzioni, categorie, criteri di somiglianza e alterità tra le istanze concrete, identificate come esemplari di certe categorie.

Tali processi selettivi e in un certo senso costruttivi dei concetti sono stati finora sotto il controllo umano, anche quando le macchine intervenivano a rendere più affidabile la percezione, come con il telescopio, il microscopio e tutti gli altri dispositivi tecnici usati nell’analisi sperimentale di laboratorio.
Se deleghiamo la facoltà dell’astrazione a complessi sistemi socio-tecnici, rischiamo di non riconoscere nemmeno le pratiche discriminatorie, o solo discrezionali che si celano sotto quei metodi di estrazione delle regolarità. Il processo astrattivo interviene nell’organizzare il mondo e le nostre relazioni fenomeniche con esso. La selezione che interviene a separare le caratteristiche salienti di un concetto, da quelle secondarie, e a definire metodi che possano attivamente individuare le istanze concrete di tali astrazioni, è un’azione epistemica propria della soggettività collettiva che ha contribuito alla scienza moderna e a tutti i suoi processi di giustificazione, spiegazione e verifica o falsificazione delle nostre conoscenze.
Nuovi criteri di validazione delle credenze
Potremmo trovarci a un punto di svolta, potremmo fronteggiare una rottura epistemica della portata di quella che, attraverso la diffusione della stampa, ha caratterizzato la nascita del processo collettivo di validazione delle conoscenze della scienza moderna. Il digitale come metodo di esternalizzazione della memorizzazione e della trasmissione della conoscenza promette che l’interpretazione dei contenuti espressi nella sua forma siano leggibili direttamente dalla macchina e non abbiano bisogno, come la scrittura e la stampa di un lettore in carne e ossa, che usi la propria mente per interpretarli. Talvolta nella retorica del digitale si suggerisce che, anzi, a causa della grande quantità di dati, della loro frammentazione o della loro molteplicità sarebbe sconsigliato richiedere la mediazione della mente umana.
Ma affidarsi a un sistema sociotecnico opaco e incomprensibile che espressamente non fornisce spiegazioni delle proprie conclusioni, che si presentano prevalentemente nella forma di previsioni rivolte al futuro e conseguenti decisioni che ne prescrivono una valutazione e un intervento, potrebbe riservarci brutte sorprese. Non abbiamo, infatti, modo di validare previsioni espresse come giudizi probabilistici. Né possiamo richiedere l’assunzione di responsabilità a una soggettività che agisce, ma è incapace di intenzionalità, nel senso in cui la possiamo attribuire agli esseri umani. Saremmo costretti, quindi, a rinunciare non solo al controllo dei criteri di validazione e giustificazione delle nostre conoscenze, ma anche all’attribuzione di responsabilità di eventuali malfunzionamenti, errori o implicite discrezionalità nel riconoscimento delle regolarità salienti.
Immagine: Foto di Tobias Carlsson su Unsplash

