Cosa costa un output di un'AI che sembra sapere

Per trent'anni, leggere un contratto ben scritto ti diceva qualcosa su chi l'aveva scritto. Da quando ChatGPT scrive contratti decenti, quel ponte è saltato.

Superficie e substrato: la forma giusta di un output ChatGPT

Un contratto redatto da ChatGPT ha la struttura giusta, il lessico appropriato, le clausole nell'ordine atteso. Un piano di progetto generato in trenta secondi presenta milestone, dipendenze, buffer temporali. Un'analisi tecnica arriva completa di premesse, framework e raccomandazioni numerate.

Tutto questo è competenza di superficie: lessico corretto, struttura riconoscibile, completezza apparente. È la parte del sapere esperto che si può replicare osservando la forma degli output prodotti da chi quel sapere lo possiede.

Esiste un'altra componente, meno visibile. La competenza di substrato è il sistema di vincoli che un esperto applica prima e durante la produzione di un output: sapere cosa non includere in quel contratto, quale milestone è irrealistica data la composizione del team, perché quella raccomandazione è controindicata in quel contesto specifico. Il substrato è ciò che limita lo spazio delle soluzioni, non ciò che lo riempie.

L'intelligenza artificiale generativa replica la superficie con precisione crescente. Il substrato lo apprende solo nella misura in cui compare nel linguaggio: vincoli espliciti, regole nominate, obiezioni scritte. I vincoli impliciti, il modello mentale che fa scartare una soluzione prima ancora di considerarla, restano invisibili al training, perché vivono nelle decisioni non prese, non nei testi prodotti. I modelli linguistici apprendono la distribuzione statistica della forma, non il sistema di vincoli che la genera.

Il risultato è un nuovo tipo di artefatto: il simulacro competente. Un oggetto che possiede tutta la superficie senza alcun substrato.

758 consulenti BCG con GPT-4: 19 punti in meno di soluzioni corrette

Uno studio di Fabrizio Dell'Acqua e colleghi alla Harvard Business School ha testato 758 consulenti della Boston Consulting Group nell'uso di GPT-4. Su compiti che cadevano oltre il confine di capacità del modello, i consulenti assistiti dall'AI avevano 19 punti percentuali in meno di probabilità di produrre soluzioni corrette rispetto a chi lavorava senza AI. Il dato rilevante non è l'errore in sé, ma il meccanismo: l'output del modello aveva una forma talmente plausibile da disattivare la verifica critica.

Lo stesso Dell'Acqua, in un esperimento precedente su recruiter HR, ha documentato un effetto che ha chiamato "falling asleep at the wheel" - addormentarsi al volante: quando l'AI produceva output di alta qualità apparente, i decisori umani riducevano il proprio sforzo di giudizio, ottenendo risultati peggiori rispetto a chi non usava AI o usava un'AI di bassa qualità. La forma curata dell'output funzionava come anestetico per lo spirito critico.

Stack Overflow: quando il 52% delle risposte ChatGPT è sbagliato

Un secondo studio, condotto da Kabir, Udo-Imeh, Kou e Zhang alla Purdue University e presentato alla conferenza CHI 2024, ha analizzato le risposte di ChatGPT a domande di programmazione su Stack Overflow. Il 52% delle risposte conteneva errori. Il 77% era verboso e strutturato in modo autorevole. I partecipanti umani preferivano le risposte di ChatGPT nel 35% dei casi, anche quando erano sbagliate. Nel 39% dei casi i partecipanti hanno trascurato la disinformazione presente nelle risposte generate.

Lo schema è coerente: la forma autorevole dell'output riduce la capacità di rilevare l'errore nel contenuto.

Il filtro collettivo si consuma per attrito

Il costo di questa dinamica non ricade su chi produce il simulacro. Ricade sul sistema che deve valutarlo.

Ogni organizzazione che gestisce lavoro cognitivo - studi legali, società di consulenza, team di sviluppo software, redazioni - opera con un filtro implicito: la capacità dei revisori di distinguere output competenti da output che ne hanno solo la forma. Quel filtro si è evoluto calibrandosi su un presupposto: chi produce un output con struttura esperta possiede, con ragionevole probabilità, anche il sistema di vincoli che lo sostiene.

L'AI generativa invalida quel presupposto. Il costo di produzione di un simulacro competente è crollato a zero. Le organizzazioni sono tarate sull'idea che un documento ben strutturato implichi qualcuno che sapeva costruirlo. Quando la forma diventa gratuita, quel ponte tra forma e competenza salta. Gli studi citati misurano il degrado a livello individuale, il consulente che non verifica, il recruiter che si disattiva. Ma è un pattern, non un effetto isolato: ogni volta che la forma di un output disattiva la verifica, qualcuno sta delegando il giudizio senza saperlo. Se ogni revisore in uno studio legale riceve dieci memo al giorno con la stessa struttura impeccabile indipendentemente dalla competenza di chi li ha redatti, il costo di verifica per singolo documento sale e il tempo disponibile resta lo stesso. Il filtro non crolla con un evento, si consuma per attrito.

Quando la superficie basta: regolamenti, offerte, e ChatGPT

La competenza di superficie ha un valore reale e va riconosciuto nel punto preciso in cui si manifesta. Un'associazione di quartiere che deve redigere un regolamento interno non ha bisogno del substrato: le servono clausole nell'ordine giusto, linguaggio formale, struttura riconoscibile da un'assemblea. ChatGPT le dà esattamente questo. Un freelance che prepara un'offerta commerciale per la prima volta ottiene in trenta secondi uno schema che avrebbe impiegato ore a costruire da zero. In questi contesti la superficie può essere sufficiente: non perché diventi competenza, ma perché il bisogno non richiede competenza profonda.

Il problema emerge quando quel livello di finitura, identico nella forma, si presenta anche dove il substrato è critico. Un regolamento condominiale generato dall'AI e un parere legale su una clausola risolutiva hanno la stessa superficie. La differenza è che nel primo caso la superficie copre il bisogno, nel secondo lo maschera. E chi non possiede già la competenza di substrato non ha strumenti per distinguere i due casi.

Vincolo come indicatore: dove si sposta il valore

Se la superficie è replicabile a costo zero, l'unico indicatore affidabile di competenza reale diventa il substrato visibile: non cosa qualcuno produce ma cosa sceglie di non fare e perché.

Un professionista competente sa spiegare i trade-off del proprio output. Sa dire quale clausola ha escluso e per quale ragione. Quale architettura ha scartato e quali vincoli hanno guidato lo scarto. Quale raccomandazione non ha dato e cosa la rendeva controindicata.

Chi opera sulla sola superficie non può farlo, perché il simulacro non contiene vincoli. Contiene solo la forma.

In un mercato in cui la produzione di superficie è diventata gratuita, il valore si è spostato interamente sul substrato. Non sulla capacità di generare risposte ma sulla capacità di riconoscere quali risposte vanno scartate e di articolare perché. Chi sa solo riempire lo spazio delle soluzioni è fungibile con un prompt. Chi sa restringerlo, no.

Quando il filtro si consuma, non si perde solo qualità: si perde la possibilità di distinguere il proprio giudizio da quello del modello. È sovranità che evapora, una verifica saltata alla volta.

Davanti a un output AI, la domanda non è se sembra ben fatto. È: quali vincoli ha considerato? Cosa ha scartato e perché? Dove potrebbe rompersi? Chi paga se è sbagliato? Se non sai cosa hai scartato, l'output appartiene al modello, non a te.

Cosa costa un output di un'AI che sembra sapere

Superficie e substrato: la forma giusta di un output ChatGPT

758 consulenti BCG con GPT-4: 19 punti in meno di soluzioni corrette

Stack Overflow: quando il 52% delle risposte ChatGPT è sbagliato

Il filtro collettivo si consuma per attrito

Quando la superficie basta: regolamenti, offerte, e ChatGPT

Vincolo come indicatore: dove si sposta il valore

Fonti

Commenti

Superficie e substrato: la forma giusta di un output ChatGPT

758 consulenti BCG con GPT-4: 19 punti in meno di soluzioni corrette

Stack Overflow: quando il 52% delle risposte ChatGPT è sbagliato

Il filtro collettivo si consuma per attrito

Quando la superficie basta: regolamenti, offerte, e ChatGPT

Vincolo come indicatore: dove si sposta il valore

Fonti

Democrazia delegata: cosa si perde quando l'AI toglie l'attrito

La ferrovia, il telefono, internet. Ogni infrastruttura diventa monopolio. Perché?

Tutti citano Zuboff. Io non l'ho ancora letto.