L’incontro tra ecfrasi e Intelligenza Artificiale, con uno sguardo all’arte contemporanea
Antonella Sbrilli
English abstract
alid ex alio clarescet
(Lucrezio, De rerum natura I, 1115)

Ekphrasis (2025, Estampa) [immagine originale: Oftalmología por el profesor I. Barraquer de Barcelona (1917, Francesc Puigvert), Institut Barraquer collection, courtesy Filmoteca de Catalunya], courtesy Estampa.
I. Avvistare e accostare
Un fenomeno emerso insieme con la diffusione dei programmi di Intelligenza Artificiale è la ricerca e talvolta il ritrovamento di ascendenze e genealogie più o meno trasversali di alcune delle loro funzioni e caratteristiche: l’automazione della visione artificiale, l’uso di reti neurali che elaborano enormi quantità di dati in modi non del tutto intuibili, il passaggio da codici testuali a codici visivi e sonori (multimodalità), l’interfaccia che simula una conversazione naturale fra il programma e chi lo usa (Large Language Models), la potenza nella generazione di risposte da comandi testuali (prompt). Questa gamma di indagini, volta a riconoscere linee di continuità e affinità meno evidenti, trova risonanze nella zona che si apre fra la tradizione ecfrastica e le pratiche generative dell’Intelligenza Artificiale, dove il legame fra immagine e testo viene nuovamente interrogato nelle potenzialità operative e trasformato dalle pratiche artistiche del presente.
Proseguendo nella direzione segnata dall’Almanacco Letterario Bompiani 1962, quando – di fronte alle prime consistenti applicazioni dei calcolatori elettronici alle ricerche umanistiche – venne allestita una “Breve crestomazia dei più celebri automi e automatarii”, dal Golem a Olimpia di Hoffmann, dagli automi settecenteschi a “Maria” di Metropolis, anche ora si lavora su accostamenti per affinità di varia natura e a varia distanza. Gli automi settecenteschi continuano a essere richiamati per evocare l’origine della robotica e del machine learning, mentre la biblioteca di Aby Warburg torna come suggestiva e impervia pietra di paragone per il criterio di “buon vicinato”, riscontrabile non solo fra concetti e campi del sapere ma all’interno dei database vettoriali che ne rappresentano i dati (Offert 2025, 88-100).
Si ritrovano analogie tra la sintassi scompositiva e accumulativa dell’arte moderna, che ingloba e rielabora esperienze non occidentali, e i programmi generativi allenati su grandi database di immagini di disparata provenienza (Manovich 2023, s. p.), così come le pratiche del realismo magico e soprattutto del Surrealismo rimandano a dimensioni automatiche, allucinatorie e stranianti riscontrabili nei programmi generativi (Monti 2025, 24-31).
Ancora: le analisi sulle relazioni tra spazio e corpi di Moholy-Nagy, condotte negli anni Venti del Novecento, aiutano ad avvicinarsi al concetto di “spazio latente”, una dimensione delle reti neurali che sfugge alla percezione umana (Klingemann 2023, s. p.); la letteratura potenziale è richiamata per la manipolazione delle regole che sottendono la creatività e la tassonomia dei giochi di Roger Caillois (1958) perché coglie approcci presenti, a loro modo, anche negli algoritmi: il caso, la competizione, la simulazione, il disorientamento (Bartezzaghi 2025; De Gasperis 2025, 67-69). L’esercizio degli accostamenti forma una rete larga ed estesa che si arricchisce di continuo di nuovi legami, a riprova di un’esplorazione collettiva il cui tratto condiviso è quello di avvistare nel passato degli aspetti comparabili a esperienze presenti, per mezzo di collegamenti che attingono da momenti centrali e laterali nella storia della cultura e dell’invenzione tecnologica, e dai loro contatti. L’algoritmo di Babele, per usare il titolo borgesiano di un saggio recente (Colamedici, Arcagni 2024), avvolge e avvicina testi ed esperimenti, pagine di letteratura e pensieri filosofici, macchine sceniche e macchine che calcolano.
Tanto è forte questa tendenza, che nella mostra Le monde selon l’IA. Explorer les espaces latents svoltasi a Parigi, Jeu de Paume (Somaini 2025), il registro delle connessioni si concretizza in un vero e proprio dispositivo allestitivo, che affianca le opere attuali, realizzate con sistemi di Intelligenza Artificiale, con una serie di “capsules temporelles”. In queste capsule del tempo, vetrine concepite e presentate come cabinets de curiosités storici, trovano posto reperti remoti e tracce più vicine che riconducono, per esempio, i sistemi di riconoscimento dei volti e delle emozioni alla fisiognomica e alla fotografia giudiziaria, la visione artificiale agli esperimenti fotofilmici dell’avanguardia russa e sovietica e poi, più vicino nel tempo, al Mark I Perceptron di Frank Rosenblatt, la prima rete neurale artificiale (1958).
Poiché poi una parte notevole dell’attuale ricerca di accostamenti avviene nel passaggio dai testi alla visualizzazione, potremmo definire chi vi si impegna con un termine che viene da una riflessione di Maria Bergamo e Fabrizio Lollini su chi si occupa di iconologia: il connecteur, la figura che ricerca, che “trova e avvicina le connessioni nascoste tra discipline, delinea rapporti tra testi scritti, fonti letterarie, e traduzioni visive” (Bergamo, Lollini 2019). Il connecteur attuale ha però anche un compito ulteriore di fronte al cambiamento in corso, in cui le immagini, derivate da procedimenti statistici complessi, acquistano caratteristiche “metaumane”, “invisuali”, “processuali” (Eugeni, Diodato 2023, 9-17): di fronte a entità tecnologiche che elaborano i dati in zone non percepibili dagli esseri umani, è necessario fare in modo – ricorda Valentina Tanni citando Nicholas Negroponte - che “i computer comprendano le nostre metafore” (Tanni 2025, 11).
II. Spazi latenti e avvistamenti dell’ecfrasi
Rimaniamo nella mostra Le monde selon l’IA e nel suo sottotitolo Esplorare gli spazi latenti. Nel suo saggio in catalogo, il curatore Antonio Somaini scrive:
Una delle conseguenze dell’onnipresenza di modelli di Intelligenza Artificiale e dei loro “spazi latenti” nel campo della cultura visuale è l’impellenza di ripensare molti concetti usati per descrivere e analizzare le immagini: somiglianza, imitazione, riproduzione, stile, referente, indice, fotorealismo, descrizione, ekphrasis (Somaini 2025, 28).
Gli “spazi latenti” a cui si fa riferimento nella pagina sono un concetto cardinale per comprendere il funzionamento delle reti neurali che elaborano le enormi quantità di dati raccolti nei dataset. Si tratta di rappresentazioni matematiche astratte in cui è proiettata la miriade di documenti testuali e visivi, digitalizzati in questi decenni con i loro bias e le loro qualità. Tutti questi dati vengono codificati dalla rete neurale in vettori: degli oggetti matematici dotati di innumerevoli dimensioni descrittive, che vengono poi ridotte per poter essere restituite in forma utilizzabile. “Spazi matematici di compressione, di rappresentazione e di cartografia”, gli spazi latenti dischiudono – già dal loro nome – una serie complessa di richiami per evocare i quali valga come viatico la voce ‘latente’ della Psicoenciclopedia possibile dell’artista Gianfranco Baruchello, in cui si legge: “Importanza, ad ogni modo, del carattere latente di ogni cosa. Pensare che al di là di quello che si percepisce, si vede o si sente c’è sempre qualcos’altro che resta ancora da percepire, vedere, sentire” (Baruchello 2022 [2020], 206); e dove il prefisso ‘psico-’ indica “una zona grigia, oscura, più simile a un pulviscolo o a una nebbia nei quali provare a fare una scoperta” (Subrizi 2022 [2020], 10). È giocoforza che questi nuovi protagonisti della produzione reciproca e interlacciata di testi e di immagini intervengano nell’immenso lavoro teorico e sperimentale in corso in tanti campi disciplinari, studi visuali ed estetica, digital humanities, storia dell’arte, analisi del testo, programmazione, ogni volta che ricorrono termini come atti linguistici e iconici (Bredekamp), dispositivi, spazi latenti, sincretismi (Montani 2024), parola e immagine.
All’interno di questa messe di studi, si registra dunque l’importanza di riconsiderare anche la tradizione retorica dell’ecfrasi. L’ecfrasi, la “forma più tradizionale di rapporto tra testo e immagine” (Cometa 2004, 10), ha attraversato i secoli innestandosi – con il desiderio di mettere in risonanza la modalità verbale con quella visiva – in programmi iconografici e in volumi di storia dell’arte, in pagine di letteratura e in riflessioni critiche, semiotiche, neuro-estetiche. Descrizione in un testo letterario di un’opera d’arte figurativa (esistente o anche inventata), dispositivo di creazione di un’immagine mentale in chi ascolta o legge, l’ecfrasi ha via via intercettato i cambiamenti dei linguaggi e dei paradigmi, il modo in cui si considerano la profonda natura dialettica di immagine e parola (Patrizi 2020) e un “irriducibile scarto che s’insinua tra il dicibile e il visibile o, più esattamente, tra l’indicibile che la pittura pretende di far vedere e l’invisibile che la letteratura pretende di rappresentare” (Cometa 2012, 52).
L’ecfrasi: una pratica retorica che – in determinati snodi della storia – diventa cartina di tornasole dei limiti negoziabili di rappresentare, esprimere e avvicinarsi a capire quello che accade tra quelli che Stanislas Dehaene chiama i “neuroni della lettura” e la formazione di un’immagine mentale. Sul vasto tema dell’immagine mentale, indagata cognitivamente da Allan Paivio e Stephen Kosslyn, si richiama una ricerca del 2008 dal titolo Mental visualization of artworks: ekphrasis versus textbook descriptions, confluita in una sperimentazione con studenti di discipline artistiche e scientifiche, chiamati a registrare e comparare le qualità dell’immagine mentale suscitata da descrizioni manualistiche e da ecfrasi letterarie di opere d’arte. Dai riscontri raccolti ed elaborati, emerse una vividezza e una maggiore permanenza nella memoria delle seconde sulle prime, a conferma del già noto valore mnemonico dell’ecfrasi, a cui si aggiunge anche una funzione didattica (D’Ercole, Castelli, Giannini, Sbrilli 2010).
Da quando, intorno al 2022, i programmi di Intelligenza Artificiale generativa, supportati dai Large Language Models, si sono diffusi, il concetto di ecfrasi ha offerto ancora una volta una sponda per interrogarsi su questi temi, annettendo nel discorso nuovi agenti e nuovi scenari. Per programmi di Intelligenza Artificiale generativa ci si riferisce, in generale, ai modelli in grado di generare contenuti originali a partire dall’input dell’utente, come ad esempio i Text-to-Image (TTI) “dal testo all’immagine”, in cui l’interazione con la macchina prende avvio con un testo, il così detto prompt, un termine che in informatica indica, in origine, che il sistema è pronto ad accettare un input. Chi usa, per esempio, Stable Diffusion, Midjourney, ChatGPT con l’intenzione di ottenere immagini (o video) è tenuto a scrivere una frase che indirizza il programma nell’esplorazione degli immensi dataset usati per allenare il programma stesso a riconoscere, selezionare, mescolare, inventare configurazioni visive nuove, lavorando in zone profonde, latenti, della propria struttura. Come argomenta Paolo De Gasperis,
i modelli generativi Text-to-Image o Text-to-Video conoscono una realtà mediata dalla visione culturale umana che li ha addestrati, una rappresentazione digitale del mondo che per ovvie ragioni non hanno mai vissuto. Attraverso questa rappresentazione, fatta di migliaia di testi e immagini analizzate, etichettate e compresse, permettono ad altre immagini di emergere da uno spazio delle possibilità, attraverso una sintesi statistica che premia le figurazioni più plausibili rispetto al testo di input fornito (De Gasperis 2025b, s.p.).
Benché il prompt venga usato estesamente per generare immagini che non esistono tout-court, non sono mancati in questi anni tentativi di elaborare dei prompt per chiedere al sistema di ri-creare quadri reali, descrivendo ecfrasticamente De Chirico, Morandi, Frida Kahlo; così come ecfrasi classiche della letteratura (per esempio lo scudo di Achille: Scorzin 2024, 28-30) sono state utilizzate come prompt per una sorta di impossibile prova del nove: dall’aspetto dell’opera originale (o finzionale) al testo che la descrive in una fonte, da questa descrizione canonica a un risultato che non è mai simile al dato di partenza, ma che può servire a cogliere le opacità, le dominanze, gli equivoci del concetto di stile. Vicendevolmente, questi esercizi hanno come esito anche di mostrare il rebus algoritmico che permette a macchine non senzienti di ricombinare relazioni fra pixel (unità di immagine) e token (unità di rappresentazione di testo) per accostarsi a una forma che in qualche modo è disseminata nella loro memoria di apprendimento. Va detto poi che lo spazio latente – in questi processi - è così denso e l’aleatorietà così alta che da un medesimo prompt, pur recuperando vettori adiacenti, saranno generate sempre immagini diverse. Si tratta di esperimenti condotti con metodo e sistematicità da ricercatori-artisti come Lev Manovich e Francesco D’Isa e da docenti di accademie, scuole d’arte e design (e.g. Manovich, Arielli 2021-2024 e D’Isa 2024).
Una sezione a parte, a questo proposito, potrebbe riguardare l’uso di testi poetici come prompt testuali o sonori: sono documentati esperimenti con la poesia Dawn (1886) di Emily Dickinson, immessa in programmi generativi diversi e a distanza di tempo (Bottai, Sbrilli 2025), mentre l’artista Marco Cadioli ha indotto un programma generativo a visualizzare alcuni versetti dell’Apocalisse (Apocalypse will be visualized by an AI, 2023) e Mauro Martino, dopo aver allenato una rete neurale con milioni di fotografie urbane, ha implementato la generazione di “immagini di città” attraverso testi poetici, dando origine all’opera Strolling Cities. Visual Poetry Generated by Artificial Intelligence (2021, XVII Biennale di Venezia). Ci sono poi artisti che fanno un uso non convenzionale del prompt, come accade nell’installazione interattiva Unlearning Language di Lauren Lee McCarthy e Kyle McDonald, che invita i partecipanti a rendersi incomprensibili alla macchina, a cercare di escludere l’Intelligenza Artificiale dalla conversazione, così come racconta Valentina Tanni in Incantesimi sotto forma di prompt: l’artista come sciamano (Tanni 2025, 67).
Una suggestione a margine della mostra Poesia e pittura nel Seicento. Giovan Battista Marino e la “meravigliosa passione” porta in questo affaccio sulla generazione delle immagini dalle parole un convitato d’eccezione, Giovan Battista Marino (1569-1625). Non solo ovviamente per le sue trasposizioni verbali di opere pittoriche e scultoree, ma anche per le lettere che spedì a intermediari e artisti, fra cui Ludovico Carracci e Bernardo Castello. In questa corrispondenza, Marino si rivela un promotore instancabile, che pungola gli amici perché realizzino le immagini che egli ha in mente, precisando le misure e talvolta il colore del foglio da usare. A volte, dopo aver suggerito il “suggetto”, lascia libero l'artista di comporre secondo la sua fantasia, spesso si addentra in specifiche (“[...] ha da essere Marte, che si fa spogliar l'armatura da una ninfa per andarsi a corcar con Venere”) che riguardano non solo i personaggi, le posture e i dettagli, ma anche eventuali riprese da altre opere esistenti (“Mercurio ed Apollo, quando si donavano l'un l'altro la lira, ed il caduceo di quel medesimo disegno ch'egli fece al conte di Rovigliasco”) (Russo 2024, 233-238 passim). Marino offre un abbrivio per la creazione di immagini e una serie di istruzioni che inducono chi legge a pescare nella memoria, dentro una galleria di forme destinate all’appropriazione e al mescolamento, alle variazioni, in un percorso che tende spesso a far perdere le tracce dei passaggi. Una macchina letteraria allenata visivamente su una mole di immagini, che opera perché una rete di agenti ne generino altre, immettendole in futuri flussi di allenamento. Non stupisce che la sua figura sia al centro di analisi comparative e di progetti che utilizzano tecnologie immersive e generative (Quattrini et al. 2025).
III. Ecfrasi algoritmiche
Mentre dunque si diffonde l’uso del termine prompt e dei suoi derivati (prompting) e si parla di “Prompt Art”, l’entità di interesse e di aspettative nei confronti dell’ecfrasi si diffonde a macchia d’olio. Comparare ecfrasi e scrittura dei prompt, secondo Mario Verdicchio “può gettare luce su una serie di aspetti della nostra esperienza di opere testuali e visive, compreso il ruolo della nostra immaginazione, delle nostre emozioni e cosa succede quando l'agency umana all'interno di questi processi immaginativi ed emotivi viene sostituita dall'agency artificiale di un sistema di IA” (Verdicchio 2024, 59).
Con argomentazioni in equilibrio fra la storia dell'Intelligenza Artificiale nelle sue varie fasi, la linguistica, la logica, il comportamento, Verdicchio riconosce nella scrittura di prompt un tipo di talento che, se non può certamente essere definito letterario, deve saper tradurre l'immagine mentale desiderata nel linguaggio, nella sintassi e nel modello organizzativo del programma che si interpella. Il processo di affinamento (fine tuning) che porta dal primo tentativo al risultato, attraverso modifiche della richiesta, regolazione, scelta di ulteriori termini e suggerimenti, stimola inedite competenze nella capacità di comparare parole e immagini, in un contesto abitato da algoritmi e da grandi quantità di dati, ma sempre in qualche modo riconducibile allo scambio fra codici e livelli, coefficienti di realtà e di immaginazione.
La riflessione di Verdicchio fa parte di una puntuale raccolta di interventi a cura di Micaela Latini e Luca Viglialoro che, sotto il titolo di Digital Ekphrasis (Latini, Viglialoro 2024), mette sul tavolo della ricerca gli affondi storici sull’ecfrasi nella storia delle arti (il monumentale Beschreibungskunst – Kunstbeschreibung di G. Boehm e H. Pfotenhauer; gli studi di J. Heffernan), le connessioni con la teoria della cultura visuale (Pinotti, Somaini), quelle con la storia della Computer Science e i nessi con la produzione artistica contemporanea. Su questo fronte, si rintracciano esperienze concettuali e tecnologiche in cui l’opera d’arte è il risultato visivo o performativo di una serie di istruzioni date ad agenti umani o automatici. Dall’arte generativa degli anni Sessanta del Novecento, ai primi esperimenti con i computer, fino all’uso delle reti neurali per la realizzazione di opere che possono essere installazioni monumentali o semplici meme, il richiamo al dispositivo dell’ecfrasi si rivela fertile. Conduce alcuni ad argomentare come il processo di istruzioni testuali per generare immagini possa essere considerato come una sorta di ecfrasi supportata dall’Intelligenza Artificiale. Mentre di fronte a opere complesse come quella di Refik Anadol, Unsupervised, in cui reti neurali rielaborano fluidamente in tempo reale gli archivi digitali del MoMA si può parlare di computational ekphrasis (Scorzin 2024, 29-31, 38).
Una riflessione profonda, che prende avvio dalla poesia visiva degli anni Sessanta per discutere le relazioni fra testo e immagine nel dominio dell’analogico, poi del digitale sequenziale (classic computing) e infine del machine learning e delle reti neurali, è proposta da Hannes Bajohr. Nel saggio Operative Ekphrasis: The Collapse of the Text/Image Distinction in Multimodal AI (Bajohr 2025 [2024] 85-112) l’autore giunge ad affermare che “l’opposizione classica fra testo e immagine, su cui si basa l’ecfrasi, si dissolve nell’Intelligenza Artificiale multimodale”. Sulla base di una riconsiderazione del termine, che tiene conto delle ricerche di Renate Brosch sull’ecfrasi “in the Digital Age”, Bajohr ne sottolinea le qualità performative e sviluppa il concetto di “ecfrasi operativa”. Nelle reti neurali, dove tutto è codificato allo stesso modo, gli spazi di rappresentazione di testo e immagini si fondono e l’ecfrasi va oltre la separazione o la transizione tra testo e immagine, tra sintassi e semantica.
Il criterio dell’operatività dell’ecfrasi è discusso anche da Charlotte Bolwin che rintraccia la componente performativa nell’ecfrasi classica, fa riferimento al saggio del 2010 di Jaś Elsner (Art history as ekphrasis) che considera l’intera storia dell’arte come un discorso ecfrastico e propone il risultato di un esperimento che lei stessa ha fatto usando Stable Diffusion (Bolwin 2024, 249-263). In un loop concettuale, ha chiesto al programma di generare un’immagine partendo dall’input “create a scene of ekphrasis”, combinata con la selezione stilistica “in the style of the Baroque” (258). Da questa immagine (un interno barocco popolato di figure femminili panneggiate danzanti), prodotta in pochi secondi, l’autrice discute il tema della genericità e superficialità con cui i risultati incontrano la richiesta. Qualunque punto di vista si scelga, l’attuale livello di produzione tecnologica di immagini mette nuovamente in campo l’ecfrasi stessa, “una forma di riflessione sinestetica che fa riferimento alle interfacce tecniche che precedono l’immagine” (263). L’ecfrasi è così rimessa in circolo dalla diffusione delle Intelligenze Artificiali generative. Non si tratta solo di un rapporto biunivoco fra un’opera d’arte o un’immagine e la sua descrizione, quanto di una relazione reticolare fra le immagini digitalizzate (comprese le lacune) e i prompt, giustamente definiti nuovi tipi di atti di linguaggio, agenti di ri-mediazione, che mettono in risonanza spaziale e matematica gli immensi depositi visuali con quelli verbali. Mentre in campi diversi della ricerca e delle applicazioni, si lavora su sistemi automatici che producano didascalie valide di collezioni museali, su strumenti che aiutino a passare conoscenze esperte su iconografie e autografie, su interfacce d’uso che traducono la visione automatica in linguaggio naturale, l’arte contemporanea si misura con l’ecfrasi. Un dispositivo tecnico e concettuale, uno specchio, una fonte storica a cui attingere. Un segnale, a suo modo, dell’importanza attuale di esercitare e raffinare le abilità descrittive e conversazionali, le capacità di verifica e tenuta verbale, di fronte sia alla potenza quantitativa e trasformativa delle immagini generate, sia alla produzione automatica di parole da una fonte visiva. Come esempio, si riporta un’opera emblematica del gruppo di artisti spagnoli Estampa, presentata alla citata mostra al Jeu de Paume. Esposta nella sezione Le visible et le dicible, la creazione di Estampa si intitola proprio Ekphrasis [Fig. 1].
IV. Conversazione con Estampa
Fondato nel 2006 a Barcellona da un gruppo di artisti, ricercatori, filosofi, sviluppatori (Roc Albalat, Pau Artigas, Marcel Pié, Marc Padró, Daniel Pitarch) interessati alle antiche e nuove tecnologie della scrittura e della visione, il collettivo si muove fra l’analisi e il recupero di tecniche di stampa tradizionali e gli strumenti di Intelligenza Artificiale nelle loro evoluzioni, mantenendo un taglio critico, politico, didattico e laboratoriale. La conversazione con due degli esponenti del collettivo, Daniel Pitarch e Roc Albalat, condotta da chi scrive e da Paolo De Gasperis il 23 giugno 2025, ha toccato i temi dei rapporti tra visione computazionale e linguaggio descrittivo, della distanza tra immagine e parola e della natura operativa delle tecnologie digitali, partendo proprio dal termine ecfrasi che dà il titolo alla loro opera. Se ne riporta una sintesi.
D | Partiamo dal concetto di ecfrasi e dai possibili motivi per cui l’arte contemporanea e la riflessione sulle reti neurali se ne interessano vistosamente: la fortuna presente dell’ecfrasi, come la spiegate?
R | Lavorando da molto tempo con strumenti di Intelligenza Artificiale mossi da interessi sia tecnologici che umanistici, ci interroghiamo spesso sulle parole e sulle metafore che si usano per descrivere le relazioni che questi strumenti stabiliscono. Uno dei nostri primi progetti, El mal alumne (2018), partiva dal termine “learning”, chiedendosi cosa voglia dire – nell’ambito dell’addestramento di una IA – incrinare le norme dell’apprendimento, arrivando a definire una sorta di pedagogia critica dell’Intelligenza Artificiale. Le parole ci interessano, sia per capire come si adattano alle caratteristiche dell’IA, sia per radicare quello che sta accadendo a una tradizione storica. L’attenzione per l’ecfrasi nasce da qui: la descrizione automatica delle immagini, fatta di caption, di labeling, di prompt generativi, è collegata a qualcosa che ha una sua storia, la descrizione testuale di un’immagine. Per noi, non si tratta tanto di un approccio erudito, accademico, quanto del desiderio di riportare a una genealogia culturale il problema di cosa accade quando si cerca di mettere in parole un’immagine. L'ecfrasi, col suo portato umanistico, si presta così a essere uno strumento attuale per interrogare quei processi di rappresentazione che sono mediati da modelli generativi Text-to-Image. Possiamo poi dire che parlare di ecfrasi è anche un modo per demistificare l’enfasi sulla componente innovativa nei discorsi intorno alle Intelligenze artificiali.
D | Le immagini algoritmiche non sono destinate a essere viste da persone ma da macchine, il che complica la riflessione sul rapporto con i testi.
R | Il concetto di visione nei sistemi di computer vision è un tema centrale nella nostra riflessione. La visione delle macchine è mediata da raccolte di dati (archivi, dataset) che riflettono una rappresentazione parziale della realtà, fatta di bias, di lacune, che producono talvolta risultati inattesi e non spiegabili. “Vedere” per un modello è un'operazione di calcolo che avviene nell'intersezione tra immagini e parole. L'immagine, in questo scenario in cui un modello descrive un contenuto visivo, diventa la struttura per generare dati testuali che vengono prodotti da processi computazionali, spesso opachi, non direttamente esperibili dalla comprensione umana.
D | A questo punto vanno richiamati gli spazi latenti.
R | Lo spazio latente delle reti neurali è descritto generalmente come uno spazio non visibile o consultabile direttamente, in cui sono proiettati concetti, temi e interpretazioni che riflettono una visione culturale e politica particolare del mondo. Questa ineffabilità dello spazio cognitivo delle reti neurali rappresenta una delle sfide più grandi per chi si occupa di computer vision. Abbiamo di fronte infatti uno spazio astratto, non rappresentabile con gli strumenti della percezione umana, tuttavia uno spazio in grado di condizionare fortemente i risultati delle richieste che facciamo ai modelli generativi. Il nostro interesse, come quello di tanti in questo periodo, nasce proprio dalla volontà di decodificare questa dimensione nascosta: non cedere al fascino dell’opacità, ma affrontarla criticamente e creativamente.
D | Insomma, usare l’ecfrasi come elemento di un’opera d’arte serve a testare i limiti dei modelli, comparandoli con le modalità percettive e interpretative umane. È così anche per la vostra opera?
R | Ekphrasis è un’installazione dove estratti di materiale filmico (tra cui classici come Documenteur di Agnès Varda, Cat People di Jacques Tourneur o il corto del 1917 Oftalmologia por el professor Ingrasi Barraquer de Barcelona di Francesc Puigbert) sono sottoposti a un processo di descrizione algoritmica complesso e stratificato. I volti degli attori, le emozioni espresse, gli oggetti e le scene sono classificati tramite sistemi di riconoscimento, mentre modelli Image-to-Text generano descrizioni delle sequenze di immagini: sullo schermo diviso in una griglia, lo spettatore vede riquadri di immagini del film affiancati a campiture di colore dove si leggono parametri e descrizioni, che corrispondono alla “lettura” fatta dalla macchina. Di fatto la nostra opera – come è stato scritto – è un esempio di ecfrasi algoritmica e quando ne parliamo, diciamo che tratta della distanza fra vedere e nominare qualcosa. In questi processi, sia umani sia automatici, parole e immagini non si sovrappongono né si adattano le une alle altre in un solo modo, non hanno una corrispondenza diretta univoca, anzi si aprono verso una gamma di interpretazioni possibili, sempre molteplici.
Per l’aiuto e lo scambio di opinioni, l’autrice ringrazia Paolo De Gasperis e Veronica Di Geronimo ed è grata al referee per i suggerimenti.
Riferimenti bibliografici
- Bajohr [2024] 2025
H. Bajohr, Operative Ekphrasis: The Collapse of the Text/Image Distinction in Multimodal AI, “Word & Image. A Journal of Verbal/Visual Enquiry” 40. 2 (2024), 77-90; now in Thinking with AI. Machine Learning the Humanities, London 2025, 85-112. - Bartezzaghi 2025
S. Bartezzaghi, Gioco, “Doppiozero” 5 (maggio 2025). - Baruchello 2022 [2020]
G. Baruchello, Psicoenciclopedia possibile, Roma 2022. - Bergamo, Lollini 2019
M. Bergamo, F. Lollini, Editoriale di Connessioni, “La Rivista di Engramma” 168 (settembre/ottobre 2019). - Bolwin 2024
C. Bolwin, Digital ekphrasis? On language.image-relations in contemporary AI’s imageries, “Studi di estetica” 30.3 (2024), 249-265. - Bottai, Sbrilli 2025
M. S. Bottai, A. Sbrilli, Un diario de experiencias educativas para la Historia del Arte, entre el Metaverso y la IA, in Educación superior, tecnología y discurso, editado por A.H. García-Cervigón, F. Martínez de Carnero, Granada 2025. - Colamedici, Arcagni 2024
A.Colamedici, S. Arcagni, L’algoritmo di Babele. Storie e miti dell’intelligenza artificiale, Milano 2024. - Cometa 2004
M. Cometa, Parole che dipingono. Letteratura e cultura visuale tra Settecento e Novecento, Roma 2004. - Cometa 2012
M. Cometa, La scrittura delle immagini. Letteratura e cultura visuale, Milano 2012. - De Gasperis 2025a
P. De Gasperis, Dialogare con i Large Language Models. Guida alla scrittura del prompt, Roma 2025. - De Gasperis 2025b
P. De Gasperis, Ecfrasi e prompt. Discorsi possibili, “Medium”, 12 luglio 2025. - D’Ercole, Castelli, Giannini, Sbrilli 2010
M. D’Ercole, P. Castelli, A.M. Giannini, A. Sbrilli, Mental Imagery Scale: a new measurement tool to assess structural features of mental representations, “Measurement Science and Technology” 21 (2010), 1-8. - D’Isa 2024
F. D’Isa, La rivoluzione algoritmica delle immagini. Arte e Intelligenza artificiale, Roma 2024. - Estampa 2018
Estampa, El mal alumne. Pedagogia crítica par intel-ligències artificials, Ajuntament de Barcelona, Barcelona 2018. - Eugeni, Diodato 2023
R. Eugeni, R. Diodato, L’immagine algoritmica: abbozzo di un lessico, “La Valle dell’Eden” 41-42 (2023), 5-21. - Klingemann 2023
M. Klingemann, Latent Talent, “A*Desk”, 13 March 2023. - Latini, Viglialoro 2024
M. Latini, L. Viglialoro (a cura di), Digital Ekphrasis, “Studi di estetica” 28.1 (2024). - Manovich, Arielli 2021-2024
L. Manovich, E. Arielli, Artificial Aesthetics: Generative AI, Art and Visual Media, 2021-2024. - Manovich 2023
L. Manovich, Make it New: GenAI, Modernism and Database Art, 2023. - Montani 2024
P. Montani, Immagini sincretiche, Milano 2024. - Monti 2025
N. Monti, Prompting. Poetiche e politiche dell’Intelligenza artificiale, Roma 2025. - Offert 2025
F. Offert, Les plus proches voisins sont-ils de bon voisins? La similarité visuelle d’après l’intelligence artificielle, in Somaini 2025, 88-100. - Patrizi 2020
G. Patrizi, Inizi. Per una rivista tra immagine e parola, “Immagine e parola” 1 (2020), 9-18. - Quattrini et al. 2025
R. Quattrini, D. Frascarelli, P. Pieruccini, F. Boni, La Galeria of Giovan Battista Marino from ékphrasis to Imagined Space between AI and VR, in L. Carlevaris et al. (a cura di), èkphrasis. Descrizioni nello spazio della rappresentazione/èkphrasis. Descriptions in the Space of Representation,Proceedings of the 46th International Conference of Representation Disciplines Teachers, Milano 2025, 3211-3238. - Russo et al. 2024
E. Russo, P. Tosini, A. Zezza, con B. Tomei (a cura di), Poesia e pittura nel Seicento. Giovan Battista Marino e la “meravigliosa passione”, catalogo della mostra (Roma, Galleria Borghese, novembre 2024-febbraio 2025), Roma 2024. - Scorzin 2024
P.C. Scorzin, From descriptive storytelling to digital image generation with AI: A new digital ekphrasis?, “Studi di estetica” 28.1 (2024), 21-39. - Somaini 2025
A. Somaini (a cura di), Le monde selon l’IA, catalogo della mostra (Paris, Jeu de Paume, aprile-settembre 2025), Paris 2025. - Subrizi 2022 [2020]
C. Subrizi, Conoscere è confondere, in Baruchello 2022, 7-10. - Tanni 2025
V. Tanni, Conversazioni con la macchina. Il dialogo dell’arte con le intelligenze artificiali, Roma 2025. - Verdicchio 2024
M. Verdicchio, Ekphrasis and Prompt engineering. A comparison in the era of generative AI, “Studi di estetica” 28.1 (2024), 59-78.
English abstract
Introducing the exhibition Le monde selon l'AI (Paris, Jeu de Paume, April-September 2025), curator Antonio Somaini records the importance of reconsidering the rhetorical and procedural tradition of ekphrasis in order to understand some aspects of generative AI programs. These are, in this case, Text-to-Image (TTI) models in which the interaction starts with a textual trigger, the so-called prompt, which directs the program in the exploration - gradually refined by further descriptions - of immense datasets of images, used to train the program itself to recognize, select, mix, and invent new visual configurations, working in deep, latent areas of its own structure. Comparing ekphrasis and prompt writing (prompt engineering, prompt design) “can shed light on a number of aspects of our experience of textual and visual works, including the role of our imagination, our emotions, and what happens when human agency within these imaginative and emotional processes is replaced by the artificial agency of an AI system” (Verdicchio 2024). Also described as a form of “operative ekphrasis” (Bajohr 2024), the prompt is, in short, at the center of interdisciplinary and creative looks, involving artworks such as the installation Ekphrasis, by Spanish collective Estampa (2025), which applies Image-to-Text models to fragments of cinema to generate detailed descriptions that reveal “the poetic potential inherent in the radical impossibility of translating images into words and vice versa”. The paper traverses this encounter between the ecphrasis and the prompt by presenting some recent works and a conversation with art collective Estampa.
keywords | Ekphrasis; Prompt Design; Artificial Intelligence; Text-to-Image.
La Redazione di Engramma è grata ai colleghi – amici e studiosi – che, seguendo la procedura peer review a doppio cieco, hanno sottoposto a lettura, revisione e giudizio questo saggio
(v. Albo dei referee di Engramma)
Per citare questo articolo / To cite this article: A. Sbrilli, L’incontro tra ecfrasi e Intelligenza Artificiale, con uno sguardo all’arte contemporanea, “La Rivista di Engramma” n. 229 (novembre 2025).