Dal dizionario del dialetto della Val Passiria compilato dal linguista meranese Franz Lanthaler al riconoscimento vocale del sudtirolese con Siri, il passo è tutt’altro che breve. Li separano, più o meno, 150.000 parole e anni di ricerca. Ma il cammino ora è aperto, grazie alla creazione del primo corpus di parlato autentico bilingue. Il team di studiosi guidato da Silvia Dal Negro lo ha reso accessibile alla comunità scientifica internazionale.

Tutto nasce dal progetto di ricerca “Kontatto. Italiano-Tedesco: aree storiche di contatto tra Sudtirolo e Trentino” che, tra il 2011 e il 2014, ha indagato la reciproca influenza tra italiano e tedesco nella Bassa Atesina. Un ramo di quel progetto prevedeva la registrazione di parlato autentico bilingue. E quale zona più adatta a raccogliere materiale del territorio tra Salorno e Bolzano, in cui da secoli, diversi sistemi linguistici si intrecciano?

“Uno dei nostri scopi era capire come i parlanti bilingui parlano nell’interazione quotidiana per poi dar vita a un modello che, fra le altre cose, possa orientare chi vuole imparare la lingua”, spiega Silvia Dal Negro, coordinatrice di “Kontatto” e professoressa di Linguistica alla Facoltà di Scienze della Formazione di Bressanone. Per centrare l’obiettivo, il team di ricerca guidato da Dal Negro, che comprende i ricercatori Simone Ciccolone e Marta Ghilardi – e, prima di loro, le ricercatrici sudtirolesi Mara Leonardi e Katrin Tartarotti - ha ascoltato, frammentato, categorizzato, 18 ore di registrazioni di conversazione di una novantina di giovani parlanti bilingui di età tra i 20 e i 30 anni. La maggioranza delle registrazioni è stata effettuata all’interno di discussioni di gruppi di amici: al bar, in paese, in varie situazioni della vita di tutti i giorni. Altre erano invece conversazioni orientate, in cui alle coppie era stato richiesto di rispondere, ad esempio, alla richiesta di indicazioni stradali per raggiungere una data località. Il sudtirolese registrato è stato trascritto basandosi sul “Passeirer Wörterbuch” di Franz Lanthaler risalente agli anni ’50 del Novecento.

Il corpus costruito dai ricercatori della Libera Università di Bolzano – denominato, come il progetto che l’ha generato, Kontatto - contiene circa 150.000 parole. È quindi di dimensioni modeste rispetto a giganti come il British National Corpus, composto da 100 milioni di parole. Ma è comunque un esperimento unico nel suo genere. In primo luogo perché è un corpus bilingue e poi perché raccoglie il parlato. Solitamente, i corpora contengono dati - parole e frasi - che sono stati tratti da testi scritti. “Avere a che fare con un testo scritto facilita la compilazione del database, dato che molte operazioni di riconoscimento possono essere automatizzate ed effettuate dal computer. Nel caso di un corpus di parlato, invece, ciò non è possibile”, spiegano Ciccolone e Ghilardi. In pratica, ciò significa che i linguisti di unibz hanno dovuto ascoltare le registrazioni, secondo dopo secondo. Solo così hanno potuto trascrivere tutte le parole del discorso e categorizzare ogni singolo elemento delle frasi.

Simone Ciccolone, Marta Ghilardi e, a destra, Silvia Dal Negro, linguista e docente unibz.

La collaborazione con il Max Planck Institute
La lemmatizzazione degli elementi di pochi minuti di parlato si traduce in ore e ore di lavoro al computer. Ad assistere i ricercatori in questa fase, è venuto in soccorso un software all’avanguardia - Elan - messo a disposizione dal Max Planck Institute for Psycholinguistics di Nijmegen che permette di realizzare un database interrogabile dall’utente che può rintracciare i vari elementi – fonetici, sintattici, grammaticali - del parlato. Questo programma informatico garantisce inoltre la possibilità di rappresentare in forma grafica i dati ottenuti e vedere immediatamente, ad esempio, la distribuzione dei codici, ovvero quanti avverbi, quanti aggettivi e quanti sostantivi compongono il corpus. Ciò ha dimostrato che il dialetto sudtirolese parlato ha un  comportamento simile a quello di altre lingue.

L’operazione che adesso stanno affrontando i ricercatori - sempre con l’aiuto di Elan - è la ricerca delle occorrenze, ovvero di quante volte si verifica un fenomeno, per poi trarne una regola. “Grazie al software possiamo effettuare una ricerca per consultare gli aggettivi, per esempio, gli avverbi o i sostantivi. Si possono trovare quali parole italiane seguono le tedesche e capire perché e quante volte succede”, spiegano i ricercatori di unibz. Elan, inoltre, permette di lavorare senza perdere di vista il parlato. Il dato audio può essere richiamato in qualsiasi momento chiarendo, per esempio, con quale intonazione viene pronunciata una data parola. “Normalmente, tendiamo a pensare che la lingua “giusta” sia quella scritta ma”, spiegano i tre linguisti, “dal punto di vista dell’apprendimento delle lingue, disporre di una fotografia o di un intero album fotografico, come in questo caso, ci permette di osservare come viene modellata la lingua nell’uso quotidiano”.

Elan, il software usato per la creazione del corpus "Kontatto".

I possibili sviluppi del progetto
Adesso il Bozen-Bolzano Corpus - di cui il corpus Kontatto è parte, insieme ad altri raccolti negli anni presso il Centro di Competenza Lingue - sarà ospitato su una piattaforma del Max Planck Institute e dedicata ai linguisti. Questa sarà liberamente accessibile a chi, per ragioni professionali e di studio, ne farà richiesta. Ma il materiale costituisce una ricca base di partenza per confezionare una grammatica del sudtirolese e soddisfare, ad esempio, i desideri di chi voglia approfondire la lingua parlata dalla popolazione di madrelingua tedesca in Alto Adige.

“La collaborazione con il l’istituto di ricerca olandese ci assicura visibilità e circolazione del nostro studio nella comunità internazionale dei linguisti”, concludono Dal Negro e i suoi collaboratori, “ma adesso ci piacerebbe che servisse per creare strumenti per la didattica e, ad esempio, a eventuali sviluppi legati a tecnologie come il riconoscimento vocale. Al momento non è possibile parlare in sudtirolese con Siri o Google Now. Ci piace pensare che uno dei possibili esiti della nostra ricerca sia la compatibilità di questi nuovi strumenti anche con le lingue meno diffuse”.

Related Articles

Article
App per le confessioni e messe in streaming

Il distanziamento sociale è diventato il nostro pane quotidiano e mai come in questo momento siamo stati così dipendenti dai nuovi media e dalle nuove tecnologie. La loro adozione e diffusione ha subito una accelerazione che in tempi normali avrebbe richiesto anni per diventare realtà ed è ragionevole supporre che in molti casi non torneremo sui nostri passi, ma alcuni cambiamenti diventeranno la normalità anche nel periodo post-crisi. Questa “digitalizzazione forzata” influeza praticamente tutti, pervadendo i più disparati aspetti della nostra vita, dal lavoro alla scuola, dal modo in cui ci teniamo informati e interagiamo con gli altri fino al modo in cui viviamo la nostra stessa spiritualità e religiosità.

Article
A new compulsion to locality

In 2002 the sociologist John Urry defined contemporary man as subject with two fundamental drives: the compulsion to mobility and the compulsion to proximity. Although communication technology allows many of us to avoid the majority of physical movements, society – as well as our personal goals and desires – compels us to move through space in order to reach other bodies, with them we experience situations of proximity in other places. It is not only a matter of choice: there are widespread obligations and expectations in this sense. Urry calls this phenomenon, the globalisation of intermittent presence.

Article
Inklusive Bildung in der Zeit des Fernunterrichts

Unser italienisches Bildungssystem ist in der ganzen Welt dafür bekannt, inklusiv zu sein: ein System, das auf all seinen Ebenen, von der Kinderkrippe bis zur Universität, kein Kind oder Jugendlichen ausschließt. Dies ist schon unter normalen Umständen eine komplexe Aufgabe, in den außergewöhnlichen Zeiten des Fernunterrichts aufgrund der Coronavirus Pandemie nehmen diese Herausforderungen jedoch neue Formen an.

Article
Soziale Distanz - Digitale Nähe

Wir nehmen zurzeit wohl ungewollt am größten sozialpsychologischen Experiment der jüngeren Menschheit teil, an das wir uns noch viele Jahrzehnte lang erinnern werden. Die durch die Coronakrise verordnete soziale Distanz lähmt unsere Gesellschaft. In den sozialen Medien stehen Aufrufe wie „bleibt zu Hause“ und „haltet Abstand“ auf der Tagesordnung. #zerocontatti #iorestoacasa oder #stayathome sind die meistbenutzten Hashtags. Ohnmächtig warten wir ab, was als nächstes geschieht. Wir durften dramatisch erfahren, dass unsere Gesellschaft an Grenzen stößt und sogar Politiker, die die Coronakrise wie die Klimakrise leugnen wollten, haben festgestellt, dass es drastische Maßnahmen zur Eindämmung des Virus braucht.