Se hai scelto di non accettare i cookie di profilazione e tracciamento, puoi aderire all’abbonamento "Consentless" a un costo molto accessibile, oppure scegliere un altro abbonamento per accedere ad ANSA.it.

Ti invitiamo a leggere le Condizioni Generali di Servizio, la Cookie Policy e l'Informativa Privacy.

Puoi leggere tutti i titoli di ANSA.it
e 10 contenuti ogni 30 giorni
a €16,99/anno

  • Servizio equivalente a quello accessibile prestando il consenso ai cookie di profilazione pubblicitaria e tracciamento
  • Durata annuale (senza rinnovo automatico)
  • Un pop-up ti avvertirà che hai raggiunto i contenuti consentiti in 30 giorni (potrai continuare a vedere tutti i titoli del sito, ma per aprire altri contenuti dovrai attendere il successivo periodo di 30 giorni)
  • Pubblicità presente ma non profilata o gestibile mediante il pannello delle preferenze
  • Iscrizione alle Newsletter tematiche curate dalle redazioni ANSA.


Per accedere senza limiti a tutti i contenuti di ANSA.it

Scegli il piano di abbonamento più adatto alle tue esigenze.

'Tunizi', progetto per traduzione automatica online dialetto

Start-up ICompass sta lavorando a creazione set di dati annotato

24 novembre, 14:54

(ANSAmed) - TUNISI, 24 NOV - Riconoscere una parola in dialetto tunisino come "3asslema" e tradurla facilmente e correttamente su Google, in inglese o in altre lingue, ora diventerà possibile. E' uno degli obiettivi del progetto "dataset" denominato "Tunizi", e sviluppato dalla start-up tunisina "iCompass", specializzata in intelligenza artificiale (Ai), e più in particolare nell'elaborazione del linguaggio naturale (Nlp). Si tratta di un database contenente 9000 frasi scritte in dialetto tunisino e include il primo ampio set di dati di "sentiment analysis" utilizzati sui social media.

Lo scopo del progetto e di altri simili in fase di sviluppo in Africa e nel mondo arabo è quello di creare database annotati e di sviluppare e inviare set di dati di qualsiasi dialetto indigeno e sottorappresentato da utilizzare in future applicazioni Nlp come traduzione automatica, agenti di conversazione (Chatbot) o riconoscimento vocale. Per l'intelligenza artificiale, questo è necessario perché i set di dati annotati ora condizionano il successo degli algoritmi utilizzati come base per l'apprendimento. Gli utenti di Internet, amanti dei social media e delle chat nel mondo arabo, tendono a esprimersi nei loro dialetti locali, per esempio gli egiziani hanno scelto il nome "Arabizi", il loro modo di interagire con la rete, una parola pronunciata in arabo mescolando arabo e inglese. Gli studi analitici cercano di esplorare e riconoscere le opinioni online al fine di utilizzarle per scopi di pianificazione e predittivi come misurare la soddisfazione del cliente e stabilire strategie di vendita e marketing. Tuttavia, questi studi basati sul Deep Learning sono ad alta intensità di dati. Le lingue e i dialetti africani, compreso il dialetto tunisino, sono considerati lingue a poche risorse.

Ad oggi, secondo "iCompass", non esiste un set di dati di dimensioni significative annotato sul dialetto tunisino. In un sondaggio condotto nel 2018 per valutare la disponibilità di set di dati in dialetto tunisino, citato dalla start-up, gli autori hanno concluso che tutti i set di dati tunisini esistenti utilizzano lettere arabe e che mancano set di dati annotati su "Tunisian Arabizi". I risultati di un compendio multi-dialettale di cinque dialetti arabi - egiziano, tunisino, giordano, palestinese e siriano - per identificare le somiglianze e le possibili differenze tra loro nel 2014 hanno rivelato che il dialetto tunisino ha le risorse minori e che è necessario creare set di dati tunisini per studi analitici. In concreto, "iCompass" ha lavorato sulla rete per rendere il dialetto tunisino leggibile dai sistemi informatici e proceduto in primis alla raccolta dei dati dai commenti su Youtube. I video selezionati includevano sport, politica, commedie, programmi tv, serie tv, arte e video musicali tunisini in modo che il set di dati fosse rappresentativo e contenesse diversi tipi di età, istruzione, scrittura, ecc. I video sono stati poi analizzati dalla squadra di "iCompass".

"Il principio generale è quello di offrire all'ecosistema tunisino, maghrebino e africano set di dati più annotati, chiamati 'set di dati', per utilizzarli nello sviluppo della ricerca (sociale, scientifica, umana)", spiega Ahmed Nouisser, co-fondatore e ad di iCompass. "Il nostro ruolo è lavorare su lingue e dialetti in Africa per avvicinare le persone del continente al cambiamento tecnologico e all'innovazione", ha detto Nouisser all'agenzia Tap, sottolineando come l'intelligenza artificiale può svilupparsi solo se ci sono dati annotati organizzati e accurati di dimensioni significative. La start-up tunisina sta lavorando, a tal fine, per sviluppare "Tunizi", alla costruzione di un dataset annotato molto grande per metterlo a disposizione di ricercatori, università e altre strutture di analisi attraverso sistemi informatici e intelligenza artificiale.(ANSAmed). (ANSA).

© Copyright ANSA - Tutti i diritti riservati