– Tehnologia text-to-speech a fost dezvoltată cu mare viteză și acuratețe, incluzând 21 de limbi
Modelul avansat poate sintetiza o secundă de vorbire de mare viteză în doar 0,1 secunde folosind un singur nucleu CPU, care este de aproximativ opt ori mai rapid decât metodele tradiționale.
– Modelul avansat poate realiza o instalare rapidă cu o latență de 0,5 secunde pe un smartphone fără conexiune la rețea
Se așteaptă ca această tehnologie să fie introdusă în aplicațiile de vorbire, cum ar fi traducerea vorbirii multilingve și navigația auto
Institutul de Cercetare în Comunicații Globale al Institutului Național de Tehnologia Informației și Comunicațiilor (NICT, Președinte: TOKUDA Hideyuki, Ph.D.) a dezvoltat cu succes tehnologia text-to-speech de mare viteză și precizie pentru 21 de limbi. Dezvoltarea acestei tehnologii a făcut posibilă compilarea unei secunde de vorbire la viteză mare în doar 0,1 secunde folosind un singur nucleu CPU, ceea ce este de aproximativ opt ori mai rapid decât metodele tradiționale. Această tehnologie permite, de asemenea, asamblarea rapidă cu o latență de 0,5 secunde pe un smartphone de gamă medie fără conexiune la rețea (vezi Figura 1).
În plus, modelele neuronale de text-to-speech din 21 de limbi au fost instalate pe serverul VoiceTra, o aplicație de traducere vocală multilingvă pentru smartphone-uri gestionate de NICT și puse la dispoziția publicului. În viitor, este de așteptat ca tehnologia să fie introdusă în diverse aplicații de vorbire, cum ar fi traducerea vorbirii multilingve și navigarea vehiculelor prin licențiere comercială.
Aceste rezultate vor fi prezentate la INTERSPEECH 2024 Show & Tell, o conferință internațională găzduită de International Audio Communication Association (ISCA) în septembrie 2024.
Institutul pentru Cercetare în Comunicații Globale (NICT) cercetează și dezvoltă tehnologie de traducere a vorbirii în mai multe limbi pentru a realiza o comunicare în limba vorbită care depășește barierele lingvistice. Rezultatele cercetării și dezvoltării au fost făcute publice ca un test de teren pe VoiceTra, o aplicație de traducere vocală pentru smartphone-uri, iar alte câteva aplicații au fost realizate în comunitate prin licențiere comercială. Tehnologia text-to-speech, care poate sintetiza textul tradus ca vorbire umană, este foarte importantă pentru realizarea tehnologiei de traducere a vorbirii în mai multe limbi, precum și pentru recunoașterea automată a vorbirii și traducerea automată. Calitatea audio sintetizată text-to-speech s-a îmbunătățit semnificativ în ultimii ani datorită introducerii tehnologiei rețelelor neuronale și a atins un nivel similar cu cel al vorbirii naturale. Cu toate acestea, cantitatea uriașă de calcule a fost o problemă majoră; Prin urmare, este imposibil să reglați un smartphone fără o conexiune la rețea.
Mai mult, Institutul Național de Tehnologia Comunicațiilor desfășoară în prezent cercetare și dezvoltare privind tehnologia de traducere simultană multilingvă. În interpretarea simultană, discursul tradus trebuie să fie scos unul câte unul fără a aștepta ca vorbitorul să termine de vorbit. Prin urmare, este necesar să se accelereze conversia text în vorbire, ca în recunoașterea automată a vorbirii și traducerea automată.
Modelele text-to-speech sunt construite de obicei dintr-un model audio care convertește textul introdus în caracteristici intermediare și un model de generare a undelor care convertește caracteristicile intermediare în forme de undă de vorbire.
În timp ce rețelele neuronale (codor transformator + decodor transformator), care sunt utilizate pe scară largă în traducerea automată, recunoașterea automată a vorbirii și modelele de limbă mari (de exemplu, ChatGPT) sunt curentul principal în modelarea audio neuronală text-to-speech, am introdus Rețelele neuronale de mare viteză și de înaltă performanță (encoder ConvNeXt + decodor ConvNeXt), care au fost propuse recent în recunoașterea imaginii, în modelul acustic, au realizat o sinteză de trei ori mai rapidă, fără degradarea performanței, comparativ cu metodele tradiționale.
În 2021, am introdus MS-HiFi-GAN, unde este utilizată o metodă de procesare a semnalului [2-4] Este reprezentat de o rețea neuronală capabilă să antreneze, prin extinderea modelului tradițional, HiFi-GAN, care poate sintetiza vorbire echivalentă cu vorbirea umană, realizând o sinteză de 2 ori mai rapidă fără a deteriora performanțele sintezei. [5]În 2023, am avansat cu succes MS-FC-HiFi-GAN prin accelerarea în continuare a MS-HiFi-GAN, obținând o compoziție de 4 ori mai rapidă, fără a degrada performanța compoziției în comparație cu HiFi-GAN tradițional.
Ca rezultat al acestor realizări, am dezvoltat un nou model neuronal text-to-speech nou, rapid și de înaltă calitate, folosind un model audio (encoder convertor + decodor ConvNeXt) și un model de generare a formei de undă (MS-FC-HiFi-GAN) așa cum se arată în Figura 2. Ca rezultat, modelul dezvoltat este capabil să sintetizeze o secundă de vorbire de mare viteză în doar 0,1 secunde folosind un singur nucleu CPU, care este de aproximativ opt ori mai rapid decât modelele tradiționale. În plus, prin introducerea unei metode în care modelului de generare a formei de undă se aplică doar reglarea în trepte (vezi Figura 3), modelul dezvoltat a realizat reglaj rapid cu o latență de 0,5 secunde pe un smartphone de gamă medie fără conectivitate la rețea sau degradare a performanței. Sinteză. Acest lucru elimină necesitatea unei conexiuni la Internet sau a unei sinteze tradiționale bazate pe server și permite transformarea textului în vorbire de înaltă calitate pe smartphone-uri, computere și alte dispozitive la costuri reduse de conectare. Mai mult decât atât, procesarea progresivă a sintezei face posibilă și sintetizarea instantanee a textului tradus în traducere simultană multilingvă.
Din martie 2024, tehnologia de ultimă oră a textului în vorbire a fost utilizată în 21 de țări.† din limbile acceptate în VoiceTra și a fost pus la dispoziția publicului.
†21 de limbi: japoneză, engleză, chineză, coreeană, thailandeză, franceză, indoneziană, vietnameză, spaniolă, myanmar, filipineză, portugheză braziliană, khmer, nepaleză, mongolă, arabă, italiană, ucraineană, germană, hindi și rusă
În viitor, vom promova implementarea socială, în special pentru aplicații pentru smartphone, etc., cum ar fi traducerea vorbirii în mai multe limbi și sistemele de navigație auto prin licențiere comercială.
Informații despre articol
Jurnal: Proceedings of the INTERSPEECH 2024 Conference
Titlu: Mobile PresenTra: Fast Neural TTS System NICT on Smartphones cu MS-FC-HiFi-GAN Progressive Inference for Low Latency Synthesis
Autori: Takuma Okamoto, Yamato Ohtani, Hisashi Kawai
Referințe
[1] T. Okamoto, Y. Otani, T. Toda și H. Kawai, „ConvNeXt-TTS și ConvNeXt-VC: conversie rapidă de la un capăt la altul al text-to-voce și conversie audio bazată pe ConvNeXt”, în Proceedings of ICASSP, aprilie 2024, pp. 12456-12460. [2] T. Okamoto, K. Tachibana, T. Astăzi. Shiga și H. Kawai, „Subwave network with overlapping single-side-band filter banks”, în Proceedings of ASRU, decembrie 2017, pp. 698-704. [3] T. Okamoto, K. Tachibana, T. Astăzi. Shiga și H. Kawai, „Un studiu asupra unui codificator sub-undă care acoperă întreaga gamă de frecvențe audibile cu caracteristici acustice limitate”, în Proceedings of the International Conference on Acoustics, aprilie 2018, pp. 5654-5658. [4] T. Okamoto, T. Astăzi. Shiga și H. Kawai, „Îmbunătățirea vocoderului FFTNet utilizând metode de modelare a zgomotului și subbandelor”, în Proceedings of SLT, decembrie 2018, pp. 304-311. [5] T. Okamoto, T. Toda și H. Kawai, „GAN multi-stream de înaltă rezoluție cu descompunere wavelet bazată pe date”, în Proceedings of ASRU, decembrie 2021, pp. 610-617. [6] T. Okamoto, H. Yamashita, Y. Otani, T. Toda și H. Kawai, „WaveNeXt: Un vocoder neural rapid bazat pe ConvNeXt fără strat iSTFT”, în Proceedings of ASRU, decembrie 2023. [7] e. Yamashita, T. Okamoto, R. Takashima, Y. Otani, T. Takiguchi, T. Toda și H. Kawai, „Modele de generare a vorbirii neuronale rapide cu eșantionare bazată pe straturi complet conectate”, IEEE Access, vol. 12, pp. 31409-31421, 2024./versiune generică. Acest material de la organizația/autorii originali poate fi de natură cronologică și a fost editat pentru claritate, stil și lungime. Mirage.News nu ia poziții corporative sau părți, iar toate opiniile, pozițiile și concluziile exprimate aici sunt exclusiv ale autorilor. Vedere completă aici.
„Student. Organizator subtil fermecător. Susținător al muzicii certificat. Scriitor. Făcător de-a lungul vieții. Iubitor de Twitter.”
More Stories
Nintendo nu poate repara Noul tău 3DS deoarece are piese fără piese
Yamaha MT-09 SP este bicicleta perfectă pentru cicliștii solitar
Google Pixel 9 bate peste greutatea sa – channelnews