Proiect ReTeRom
COBILIRO TEPROLIN TADARAV SINTERO
This work was supported by a grant of the Romanian Ministery of Research and Innovation, CCCDI – UEFISCDI, project number PN-III-P1-1.2-PCCDI-2017-0818 - 73/2018 , within PNCDI III

Descriere COBILIRO

Denumire: Corpus bimodal pentru limba română adnotat pe multiple niveluri (COBILIRO)

Obiectivul general al acestui proiect este crearea unui tezaur cu resurse audio și textuale, adnotate pe diferite niveluri de realizare acustică, respectiv lingvistică, care să constituie cea mai importantă referință de acest tip pentru limba română.

Aplicabilitate: Resursele de date audio și text adnotate vor reprezenta fundamentul pentru dezvoltarea tehnologiilor de interfețe om mașină în limbaj natural în limba română:
Proiect 2 (TEPROLIN), Proiect 3 (TADARAV) și Proiect 4 (SINTERO).

Activitățile vor avea în vedere: inventarierea atentă a resurselor bimodale existente la parteneri; armonizarea formatelor de reprezentare, adnotare și metadate; proiectarea, realizarea și testarea infrastructurii care va găzdui resursele; dezvoltarea instrumentele de prelucrare și acces ale consorțiului; augmentarea corpusului voce-text, cu completarea lui cu metadate, alinieri și adnotări; efectuarea de studii statistice asupra corpusului, exploatarea pentru cercetare și producție, precum si larga diseminare a corpusului bimodal, valorizare și utilizare cecuri de tip A1, A2, B.

1.1. Studiu state-of-the-art asupra realizării corpusurilor bimodale

1.2. Inventarierea colecțiilor de date lingvistice românești disponibile la parteneri sau în terțe coaliții și a formatelor de stocare a acestora.

1.3. Proiectarea funcțională și arhitecturală a infrastructurii care va găzdui resursele și instrumentele de prelucrare și acces ale consorțiului și realizarea unui prototip

1.4. Diseminare

Descriere TEPROLIN

Denumire: Tehnologii pentru procesarea limbajului natural - text (TEPROLIN)

Obiectivul general al acestul proiect este dezvoltarea unui set de tehnologii avansate pentru procesarea limbajului natural (text) în limba română: analiza morfologică, sintactică și semantică a textelor, cu adnotarea textului colectat în Proiectul 1 (COBILIRO) pe diferite nivele lingvistice (fonem, silabă, lemă, parte de vorbire, etc).

Aplicabilitate: Aceste tehnologii vor fi aplicate în sisteme de procesare și interpretare automată a textelor în limba română, în crearea modelelor de limbaj pentru interfețele de recunoaștere a vorbirii, respectiv în procesarea textului pentru realizarea interfețelor de sinteză din text a vorbirii.

Activitățile vor avea în vedere: Inventarierea atentă a producerea unei tehnologii integrate pentru procesarea limbajului natural în limba română, procesarea și adnotarea pe diferite niveluri lingvistice a corpusului bimodal generat în cadrul Proeictului 1 COBILIRO, evaluarea sistemelor de recunoaștere a vorbirii (Proiect 3, TADARAV) și de sinteză din text a vorbirii (Proiect 4, ExpressiveTTS) antrenate cu corpusul bimodal din Proiectul 1 COBILIRO. Valorizare și utilizare cecuri de tip A1, A2, B.

1.5. Definirea specificațiilor funcționale și arhitecturale ale platformei integrate și configurabile de prelucrare a textelor

1.6. Definirea modulelor software și a serviciilor oferite de proiect; identificarea adaptărilor pentru modulele NLP existente și a modulelor noi necesare

1.7. Realizarea adaptărilor necesare pentru modulele NLP existente, identificate în activitățile 1.5 și 1.6

1.8. Crearea și validarea (eventual cu corectările manuale necesare) a unui lexicon specific corpusului bimodal și încorporarea sa în lexiconul existent

1.9. Diseminare

Descriere TADARAV

Denumire: Tehnologii pentru adnotarea automată a datelor audio şi pentru realizarea interfeţelor de recunoaştere automată a vorbirii (TADARAV)

Obiectivul general al acestui proiect este dezvoltarea unui set de tehnologii avansate pentru adnotarea fonetică automată a semnalului vocal colectat în corpusul din Proiectul 1 COBILIRO, respectiv pentru realizarea interfețelor de recunoaștere automată a vorbirii în limba română folosind modelele lingvistice generate în Proiect 2 TEPROLIN.

Aplicabilitate: Aceste tehnologii vor fi aplicate în sisteme de recunoaștere automată a vorbirii, respectiv în segmentarea și adnotarea automată a semnalului vocal necesara în Proiectul P4 Expressive TTS.

Activitățile vor avea în vedere: Inventarierea atentă a elaborarea metodelor de adnotare fonetică automată a semnalului vocal folosind sisteme de RAV complementare, proiectarea și implementarea metodelor de filtrare și aliniere a estimărilor de transcriere, elaborarea și implementarea algoritmilor de generare a scorului de încredere, livrarea unei tehnologii de RAV și transcriere automată bazată pe scoruri de încredere. valorizarea și utilizarea cecurilor de tip A1, A2, B.

1.10. Studiul metodelor din literatură privind utilizarea sistemelor de RAV complementare pentru generarea automată de adnotari

1.11. Studiul metodelor din literatură pentru alinierea transcrierilor aproximative cu semnalul de vorbire

1.12. Studiul metodelor din literatură pentru alinierea transcrierilor aproximative cu semnalul de vorbire

1.13. Proiectarea și implementarea unei soluții de bază de adnotare automată a semnalului de vorbire utilizând sisteme de RAV complementare

1.14. Diseminare

Descriere SINTERO

Denumire: Tehnologii de realizare a interfețelor om-mașină pentru sinteza text-vorbire cu expresivitate (SINTERO)

Obiectivul general al acestul proiect este dezvoltarea unei tehnologii avansate pentru sinteza text vorbire de înaltă calitate si expresivitate în limba română pe baza resurselor colectate in Proiectul 1 COBILIRO si a adnotarilor automate generate în Proiectul 2 TEPROLIN (text) și Proiectul 3 TADARAV (audio).

Aplicabilitate: Această tehnologie va fi aplicată pentru sinteza text vorbire în limba română, pentru generarea de noi voci sintetizate, respectiv pentru adaptarea unor aplicații dependente de stillul și expresivitatea în vorbire (de ex. știri TV, discurs oratoric, voci cu emotivitate).

Activitățile vor avea în vedere: Inventarierea atentă a dezvoltarea metodelor de modelare și control a expresivității în sistemele de sinteză text-vorbire, implementarea componentelor pentru modelarea prozodiei și adaptarea la noi vorbitori a vocilor sintetizate, dezvoltarea unei noi tehnologii pentru realizarea interfețelor de sinteză text vorbire cu expresivitate. Valorizare și utilizare cecuri de tip A1, A2, B.

1.15. Identificarea pattern-urilor prozodice; evidențierea corelațiilor între text (morfologie, sintaxă) si semnal vocal

1.16. Identificarea metodelor de recunoaștere și clasificare automată a stilului de exprimare în surse de date text

1.17. Analiza metodelor de control și adaptare automată a expresivității vorbitorilor în sistemele de sinteză text-vorbire

1.18. Implementarea modulului de control automat al prozodiei

1.19. Diseminare

Intalniri

kick-off meeting

martie 2018

iunie 2018

rapoarte si publicatii

  • Studiu privind starea artei:
    Sisteme complementare de recunoaștere automată a vorbirii.

  • Studiu privind starea artei:
    Estimarea scorurilor de încredere pentru sistemele de recunoaștere automată a vorbirii.

  • Studiu privind starea artei:
    Alinierea transcrierilor aproximative cu semnalul de vorbire.

  • 1.5

    TEPROLIN:
    Definirea specificațiilor funcționale și arhitecturale ale platformei integrate și configurabile de prelucrare a textelor.

  • 1.6

    TEPROLIN:
    Definirea modulelor software și a serviciilor oferite de proiect; identificarea adaptărilor pentru modulele NLP existente și a modulelor noi necesare.

  • 1.1

    COBILIRO:
    Studiu state-of-the-art asupra realizării corpusurilor bimodale.

Echipa de proiect

Acad. Dan TUFIȘ

Dr. Verginica BARBU MITITELU

Dr. Radu ION

Dr. Elena IRIMIA

prof. Corneliu BURILEANU

prof. Dragoș BURILEANU

dr. Horia CUCU

dr. Dan ONEAȚĂ

prof. Dan CRISTEA

dr. Anca BIBIRI

dr. Ionuț PISTOL

dr. Diana TRANDABĂȚ

prof. Mircea GIURGIU

dr. Adriana STAN

Contact

Lorem ipsum dolor sit amet consectetur.