Dal dizionario del dialetto della Val Passiria compilato dal linguista meranese Franz Lanthaler al riconoscimento vocale del sudtirolese con Siri, il passo è tutt’altro che breve. Li separano, più o meno, 150.000 parole e anni di ricerca. Ma il cammino ora è aperto, grazie alla creazione del primo corpus di parlato autentico bilingue. Il team di studiosi guidato da Silvia Dal Negro lo ha reso accessibile alla comunità scientifica internazionale.

Tutto nasce dal progetto di ricerca “Kontatto. Italiano-Tedesco: aree storiche di contatto tra Sudtirolo e Trentino” che, tra il 2011 e il 2014, ha indagato la reciproca influenza tra italiano e tedesco nella Bassa Atesina. Un ramo di quel progetto prevedeva la registrazione di parlato autentico bilingue. E quale zona più adatta a raccogliere materiale del territorio tra Salorno e Bolzano, in cui da secoli, diversi sistemi linguistici si intrecciano?

“Uno dei nostri scopi era capire come i parlanti bilingui parlano nell’interazione quotidiana per poi dar vita a un modello che, fra le altre cose, possa orientare chi vuole imparare la lingua”, spiega Silvia Dal Negro, coordinatrice di “Kontatto” e professoressa di Linguistica alla Facoltà di Scienze della Formazione di Bressanone. Per centrare l’obiettivo, il team di ricerca guidato da Dal Negro, che comprende i ricercatori Simone Ciccolone e Marta Ghilardi – e, prima di loro, le ricercatrici sudtirolesi Mara Leonardi e Katrin Tartarotti - ha ascoltato, frammentato, categorizzato, 18 ore di registrazioni di conversazione di una novantina di giovani parlanti bilingui di età tra i 20 e i 30 anni. La maggioranza delle registrazioni è stata effettuata all’interno di discussioni di gruppi di amici: al bar, in paese, in varie situazioni della vita di tutti i giorni. Altre erano invece conversazioni orientate, in cui alle coppie era stato richiesto di rispondere, ad esempio, alla richiesta di indicazioni stradali per raggiungere una data località. Il sudtirolese registrato è stato trascritto basandosi sul “Passeirer Wörterbuch” di Franz Lanthaler risalente agli anni ’50 del Novecento.

Il corpus costruito dai ricercatori della Libera Università di Bolzano – denominato, come il progetto che l’ha generato, Kontatto - contiene circa 150.000 parole. È quindi di dimensioni modeste rispetto a giganti come il British National Corpus, composto da 100 milioni di parole. Ma è comunque un esperimento unico nel suo genere. In primo luogo perché è un corpus bilingue e poi perché raccoglie il parlato. Solitamente, i corpora contengono dati - parole e frasi - che sono stati tratti da testi scritti. “Avere a che fare con un testo scritto facilita la compilazione del database, dato che molte operazioni di riconoscimento possono essere automatizzate ed effettuate dal computer. Nel caso di un corpus di parlato, invece, ciò non è possibile”, spiegano Ciccolone e Ghilardi. In pratica, ciò significa che i linguisti di unibz hanno dovuto ascoltare le registrazioni, secondo dopo secondo. Solo così hanno potuto trascrivere tutte le parole del discorso e categorizzare ogni singolo elemento delle frasi.

Simone Ciccolone, Marta Ghilardi e, a destra, Silvia Dal Negro, linguista e docente unibz.

La collaborazione con il Max Planck Institute
La lemmatizzazione degli elementi di pochi minuti di parlato si traduce in ore e ore di lavoro al computer. Ad assistere i ricercatori in questa fase, è venuto in soccorso un software all’avanguardia - Elan - messo a disposizione dal Max Planck Institute for Psycholinguistics di Nijmegen che permette di realizzare un database interrogabile dall’utente che può rintracciare i vari elementi – fonetici, sintattici, grammaticali - del parlato. Questo programma informatico garantisce inoltre la possibilità di rappresentare in forma grafica i dati ottenuti e vedere immediatamente, ad esempio, la distribuzione dei codici, ovvero quanti avverbi, quanti aggettivi e quanti sostantivi compongono il corpus. Ciò ha dimostrato che il dialetto sudtirolese parlato ha un  comportamento simile a quello di altre lingue.

L’operazione che adesso stanno affrontando i ricercatori - sempre con l’aiuto di Elan - è la ricerca delle occorrenze, ovvero di quante volte si verifica un fenomeno, per poi trarne una regola. “Grazie al software possiamo effettuare una ricerca per consultare gli aggettivi, per esempio, gli avverbi o i sostantivi. Si possono trovare quali parole italiane seguono le tedesche e capire perché e quante volte succede”, spiegano i ricercatori di unibz. Elan, inoltre, permette di lavorare senza perdere di vista il parlato. Il dato audio può essere richiamato in qualsiasi momento chiarendo, per esempio, con quale intonazione viene pronunciata una data parola. “Normalmente, tendiamo a pensare che la lingua “giusta” sia quella scritta ma”, spiegano i tre linguisti, “dal punto di vista dell’apprendimento delle lingue, disporre di una fotografia o di un intero album fotografico, come in questo caso, ci permette di osservare come viene modellata la lingua nell’uso quotidiano”.

Elan, il software usato per la creazione del corpus "Kontatto".

I possibili sviluppi del progetto
Adesso il Bozen-Bolzano Corpus - di cui il corpus Kontatto è parte, insieme ad altri raccolti negli anni presso il Centro di Competenza Lingue - sarà ospitato su una piattaforma del Max Planck Institute e dedicata ai linguisti. Questa sarà liberamente accessibile a chi, per ragioni professionali e di studio, ne farà richiesta. Ma il materiale costituisce una ricca base di partenza per confezionare una grammatica del sudtirolese e soddisfare, ad esempio, i desideri di chi voglia approfondire la lingua parlata dalla popolazione di madrelingua tedesca in Alto Adige.

“La collaborazione con il l’istituto di ricerca olandese ci assicura visibilità e circolazione del nostro studio nella comunità internazionale dei linguisti”, concludono Dal Negro e i suoi collaboratori, “ma adesso ci piacerebbe che servisse per creare strumenti per la didattica e, ad esempio, a eventuali sviluppi legati a tecnologie come il riconoscimento vocale. Al momento non è possibile parlare in sudtirolese con Siri o Google Now. Ci piace pensare che uno dei possibili esiti della nostra ricerca sia la compatibilità di questi nuovi strumenti anche con le lingue meno diffuse”.

Related Articles

Interview
Genitori si diventa. Anche in condizioni di incertezza

Al giorno d’oggi, come si rappresenta e costruisce la genitorialità in contesti sociali e relazionali caratterizzati da crescente diversità? Cosa comportano le diverse modalità di diventare e fare il genitore in situazioni di insicurezza e di esclusione? Quali sono le forme di supporto alla genitorialità e quali idee di genitorialità, e più in generale, di famiglie rispecchiano? Sono alcune delle domande che stanno alla base del progetto COPING che coinvolge le Università di Bolzano, di Trento (capofila), Trieste e della Calabria. Ne abbiamo parlato con il coordinatore dell’unità locale, Urban Nothdurfter, ricercatore alla Facoltà di Scienze della Formazione a Bressanone.

Mehr Sprachigkeit

Mit verschiedenen Sprachen umzugehen, macht uns kreativ, flexibel, schärft unser sprachliches und kommunikatives Bewusstsein – darin ist die Forschung sich längst einig. Wie sich diese Fähigkeiten speziell in der Schule erfassen, nutzen und fördern lassen, erkunden Linguisten von Eurac Research in einer einmaligen Studie.

Article
Comunicare il rischio del cancro. La Commissione europea sceglie progetto unibz

I diagrammi partecipati di KnowAndBe.live scelti come strumento di sensibilizzazione dal Joint Research Centre della Commissione Europea.

Reportage
Con il trapano in cerca di storia

Come si differenziavano dal punto di vista genetico gli abitanti della val Pusteria, della val Isarco e della val Venosta nell’Alto Medioevo? Gli studiosi di Eurac Research cercano risposte nel DNA estratto da decine di scheletri. Il lavoro richiede forza e pazienza. Una visita a Valentina Coia, in laboratorio.