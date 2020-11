TUNISI - Riconoscere una parola in dialetto tunisino come "3asslema" e tradurla facilmente e correttamente su Google, in inglese o in altre lingue, presto diventerà possibile. E' uno degli obiettivi del progetto "dataset" denominato "Tunizi", e sviluppato dalla start-up tunisina "iCompass", specializzata in intelligenza artificiale (Ai), e più in particolare nell'elaborazione del linguaggio naturale (Nlp). Si tratta di un database contenente 9000 frasi scritte in dialetto tunisino e include il primo ampio set di dati di "sentiment analysis" utilizzati sui social media.



Lo scopo del progetto e di altri simili in fase di sviluppo in Africa e nel mondo arabo è quello di creare database annotati e di sviluppare e inviare set di dati di qualsiasi dialetto indigeno e sottorappresentato da utilizzare in future applicazioni Nlp come traduzione automatica, agenti di conversazione (Chatbot) o riconoscimento vocale. Per l'intelligenza artificiale, questo è necessario perché i set di dati annotati ora condizionano il successo degli algoritmi utilizzati come base per l'apprendimento. Gli utenti di Internet, amanti dei social media e delle chat nel mondo arabo, tendono a esprimersi nei loro dialetti locali, per esempio gli egiziani hanno scelto il nome "Arabizi", il loro modo di interagire con la rete, una parola pronunciata in arabo mescolando arabo e inglese. Gli studi analitici cercano di esplorare e riconoscere le opinioni online al fine di utilizzarle per scopi di pianificazione e predittivi come misurare la soddisfazione del cliente e stabilire strategie di vendita e marketing. Tuttavia, questi studi basati sul Deep Learning sono ad alta intensità di dati. Le lingue e i dialetti africani, compreso il dialetto tunisino, sono considerati lingue a poche risorse.



Ad oggi, secondo "iCompass", non esiste un set di dati di dimensioni significative annotato sul dialetto tunisino. In un sondaggio condotto nel 2018 per valutare la disponibilità di set di dati in dialetto tunisino, citato dalla start-up, gli autori hanno concluso che tutti i set di dati tunisini esistenti utilizzano lettere arabe e che mancano set di dati annotati su "Tunisian Arabizi". I risultati di un compendio multi-dialettale di cinque dialetti arabi - egiziano, tunisino, giordano, palestinese e siriano - per identificare le somiglianze e le possibili differenze tra loro nel 2014 hanno rivelato che il dialetto tunisino ha le risorse minori e che è necessario creare set di dati tunisini per studi analitici. In concreto, "iCompass" ha lavorato sulla rete per rendere il dialetto tunisino leggibile dai sistemi informatici e proceduto in primis alla raccolta dei dati dai commenti su Youtube. I video selezionati includevano sport, politica, commedie, programmi tv, serie tv, arte e video musicali tunisini in modo che il set di dati fosse rappresentativo e contenesse diversi tipi di età, istruzione, scrittura, ecc. I video sono stati poi analizzati dalla squadra di "iCompass".



"Il principio generale è quello di offrire all'ecosistema tunisino, maghrebino e africano set di dati più annotati, chiamati 'set di dati', per utilizzarli nello sviluppo della ricerca (sociale, scientifica, umana)", spiega Ahmed Nouisser, co-fondatore e ad di iCompass. "Il nostro ruolo è lavorare su lingue e dialetti in Africa per avvicinare le persone del continente al cambiamento tecnologico e all'innovazione", ha detto Nouisser all'agenzia Tap, sottolineando come l'intelligenza artificiale può svilupparsi solo se ci sono dati annotati organizzati e accurati di dimensioni significative. La start-up tunisina sta lavorando, a tal fine, per sviluppare "Tunizi", alla costruzione di un dataset annotato molto grande per metterlo a disposizione di ricercatori, università e altre strutture di analisi attraverso sistemi informatici e intelligenza artificiale.