Il progetto voci-nel-vento

Il progetto, finanziato dalla regione Emilia Romagna, propone la generazione computazionalmente assistita di contenuti per preservare e promuovere il ricco patrimonio di identità culturali e tradizioni locali.

In un’epoca caratterizzata dalla globalizzazione, è fondamentale proteggere le radici culturali dei territori e tutelare le diversità etnografiche. La creazione di contenuti tematici etnografico-territoriali tramite soluzioni innovative contribuisce alla valorizzazione del patrimonio culturale e alla promozione turistica sostenibile.

Il progetto pone una forte enfasi sul coinvolgimento attivo delle comunità locali. Le persone interessate che vivono nelle aree coinvolte sono parte integrante del processo di raccolta di dati e informazioni, garantendo un approccio partecipativo e inclusivo. Le loro voci, storie e testimonianze abilitano la creazione di contenuti contestuali, autentici e rappresentativi. A questo riguardo, cerchiamo il coinvolgimento di organizzazioni che operino nelle case di riposo, per il recupero di contenuti dalla memoria di diretti protagonisti e anziani che abbiano storie da raccontare. Questo materiale, o meglio la sua rielaborazione, sarà impiegata nel processo di restituzione, sotto forma di contenuti orchestrati prodotti dai modelli generativi.

Gli obiettivi sono molteplici: tutela delle tradizioni, promozione turistica sostenibile, coinvolgimento innovativo delle comunità. Si vuole creare un ponte tra il passato e il futuro, utilizzando la tecnologia per raccogliere, preservare e diffondere le “voci” delle tradizioni locali tramite il “vento” digitale.

L’analisi e l’esplorazione delle fonti disponibili, soprattutto già in qualche modo digitalizzate è stata una delle prime attività intraprese. In merito abbiamo studiato la estrazione dati da una importante opera romagnola, il vocabolario di Libero Ercolani, del 1977.

I componenti principali delle infrastrutture in corso di sviluppo per il progetto sono:

  1. Questo sito (www.vocinelvento.it) che descrive l’iniziativa
  2. Il portale di contribuzione (portal.vocinelvento.it) in cui si possono caricare registrazioni audio/video, immagini, testi, componimenti e poesie inerenti ai territori e alle tradizioni della romagna. Il portale consente contribuzioni a seguito di registrazione. I contributori possono autorizzare o meno la pubblicazione di quanto inviato. Il materiale raccolto andrà ad arricchire la disponibilità di materiali digitali relativi alla romagna, e potrà essere utilizzato per il training dei modelli di artificial intelligence, aumentando le funzionalità generative disponibili.
  3. Il sistema di web-scraping. Si tratta di un software che periodicamente esplora il web alla ricerca di materiali inerenti alla romagna, ricercando i nomi dei nostri paesi, e recuperando immagini, documenti, filmati utilizzando una selezione di query di ricerca. I dati raccolti sono archiviati in copia singola, concorrono a produrre playlist, e arricchiscono la base dati utilizzata per il training.
  4. Il fulèsta (o tusitala): generatore di storie. E’ un software linguistico che compone semplici storie utilizzando le parti del discorso e le parole del dialetto romagnolo, impiegante liste di termini in forme prestrutturate. Le strutture generate, inzialmente semplici, possono essere complessificate tramite modelli di arricchimento e contestualizzazione.
  5. Il sistema di text processing. I testi raccolti dal web-scraper e dalle fonti disponibili online pubblicamente accessibili più autorevoli e curate concorrono a costruire dei dizionari di parole dialettali romagnole. Al momento stiamo lavorando con 3 distinti dizionari: ravennate-forlivese, cesenate, santarcangiolese-savignanese, date le fonti che al momento siamo riusciti a reperire.
  6. Il sistema di POS (Parts of Speech) labeling. Nella analisi di una frase, questo strumento consente di attribuire a ciascuna parola il suo ruolo. Ad esempio un sostantivo può essere il soggetto e un pronome può essere l’oggetto. Il verbo va etichettato in base alla sua forma, al tempo e al modo. Vogliamo che il lavoro che svolgiamo sia riutilizzabile da altri, e stiamo studiando l’adozione di un tool di tagging già esistente, ma ne esistono tanti, e con vari gradi di funzionalità. (help!).
  7. Il tokenizer. Questo è un componente chiave per la messa a punto di un modello linguistico. Il problema è che per una lingua con moderate fonti scritte disponibili (e per giunta poco standardizzate come ortografia) la realizzazione di questo componente from-scratch non è semplice.
    – abbiamo deciso di utilizzare la libreria spaCy
    – ci serve supporto tecnico linguistico/fonetico, per l’isolamento dei fonemi e per l’algoritmo di sillabazione (help!)
  8. Il generatore di immagini. Un modello generativo addestrato con le immagini dei luoghi recuperate dallo scraper genera immagini originali che hanno affinità con i nostri luoghi e i nostri monumenti. Il modulo base genererà contestualizzazioni grafiche di tipo fotorealistico, architettonicamente e geotopograficamente famigliari con i luoghi romagnoli. Contiamo anche di realizzare uno specifico modulo del generatore di immagini potrà specificamente generare disegni da colorare, contestualizzati su temi, arredi e oggetti della cultura romagnola, da utilizzarsi in famiglia e a scuola, ma sopratutto nell’interazione tra nipoti e nonni.
  9. Il sistema di analisi audio. A partire da letture vocali di testi noti preanalizzati a livello fonetico, si potrà costituire un catalogo fonetico che consenta poi di generare vocalizzazioni corrispondenti ai fonemi osservati e classificati. Sulla base di un campionario di registrazioni di testi noti e annotati sufficientemente rilevante il software potrà parlare, leggendo frasi nuove, e generando corrispondenti trascrizioni fonetiche che potranno essere sottoposte a revisione e correzione, in un processo iterativo che progressivamente aumenterà la qualità del parlato sintetizzato.
  10. Diversi modelli AI:
    – per la generazione di immagini: modello base stable diffusion con componenti architettoniche, arricchito con layer LoRA (Low Rank Adaptation) da noi addestrato
    – per le funzioni OCR volte all’acquisizione di fonti storiche da libri e dizionari: modello LSTM addestrato su font Excelsior del dizionario Libero Ercolani per uso con tesseract engine (in corso di sviluppo).
    – per le componenti linguistiche generative: modello spaCy per il sentence classifier differenziale (italiano/tedesco/inglese) con base dati proveniente da univ tedesca di Leipzig, oltre a un modello statistico da noi sviluppato (bag of words), in progressivo arricchimento.
    – per le componenti linguistiche generative: modello ancora da individuare, probabilmente svilupperemo un LoRA on top di un modello generico multilingua open source, che utilizzi lo stesso tokenizer selezionato
    – per la sintesi TTS (Text to speech): libreria PIPER, attrezzata con modello fonematico classico, e con componenti neurali, orientato a funzionalità base.
    – per l’analisi fonetica da registrazioni audio: modello da identificare e selezionare: verosimilmente un modello adatto a Low-Resource-Languages (vedi risorsa documentale)

Usare la AI per conservazione della cultura e della lingua

Gli strumenti dell’informatica e dell’intelligenza artificiale possano supportare nella conservazione e storicizzazione della cultura locale, per poi auspicabilmente rielabolarla in forme nuove sintetizzando contenuti che possano preservare -a tempo indefinito- in una qualche forma certamente non ottimale, ma in qualche modo vitale le tracce e le testimonianze che ancora possiamo raccogliere.

L’intelligenza artificiale è complicata ed è percepita come invasiva e aliena. Ma è fondamentale strumento per evolvere libri tradizionali, saperi e competenze antiche altrimenti destinate a inesorabile oblio.

E’ una nuova forma di vita bambina, che sta crescendo, che ha bisogno di imparare e ha bisogno di spessore e saggezza, che possono venire solo da fonti sufficientemente profonde e antiche.

(Contenuti in corso di preparazione)