Sintesi vocale cinese - Teknopedia Vai al contenuto

Sintesi vocale cinese

Da Teknopedia, l'enciclopedia libera.

La sintesi vocale cinese è l'applicazione delle tecniche di sintesi vocale alla lingua cinese, o più propriamente al mandarino standard.

Rispetto alla sintesi vocale degli altri linguaggi, l'applicazione alla lingua cinese comporta una serie di difficoltà aggiuntive legate alla determinazione della corretta pronuncia dei caratteri cinesi che è pesantemente dipendente dal contesto; alla complessità della prosodia, essenziale per veicolare il significato corretto; e in alcuni casi anche alla mancanza di un riferimento chiaro anche tra i madre-lingua sulla corretta pronuncia di alcuni fonemi.

Le caratteristiche della lingua cinese infatti, per la fortissima dipendenza dal contesto, presentano una serie di ambiguità che rendono molto complessa l'operazione di identificazione della corretta resa di un carattere scritto, sia che si parta dalla scrittura ideografica che da una forma translitterata come per esempio il pinyin. Per esempio, il carattere 凉 può essere pronunciato sia liáng (fresco) che liàng (raffreddarsi) e la scelta corretta dipende esclusivamente dal contesto semantico. Ancora maggiori sono le difficoltà di una sintesi che parta dal pinyin dato che quasi sempre a una stessa translitterazione possono corrispondere molti significati differenti e anche in questo caso strettamente dipendenti solo dal contesto. A questo vanno aggiunte le varianti di pronuncia relative alla posizione della parola nel contesto della frase e alla legatura eufonica tra parole o sillabe, che non trova espressione esplicita nella forma scritta.

Progetti di sintesi

[modifica | modifica wikitesto]

Progetti di sintesi basata su corpus

[modifica | modifica wikitesto]

La compagnia iflytek (ex Ifly Info Tech) ha pubblicato nel 2005 un documento nell'ambito del W3C in cui a partire dallo Speech Synthesis Markup Language si deriva un dialetto denominato Chinese Speech Synthesis Markup Language (CSSML) che prevede del markup specifico per formalizzare la pronuncia dei caratteri e aggiungere alcune informazioni di prosodia^[1]. Il sintetizzatore realizzato con questo metodo utilizza la tecnica della sintesi basata su un corpus di campioni preregistrato (parole, sequenze di caratteri, spezzoni di frase), che consente una resa molto naturale nella maggior parte dei casi ma che presenta delle lacune nel caso di frasi dal contenuto insolito o poco comune che non trovano un riscontro nei campioni del database. iflytek non ha mai rivelato la quantità di dati utilizzati ma l'analisi dei prodotti commerciali che sfruttano la sua tecnologia consente di effettuare alcune stime. Per esempio, il sintetizzatore SpeechPlus prodotto da Bider presenta una dimensione di download di 1.3 Gigabyte, di cui 1.2 usati per i dati relativi a una singola voce cinese, memorizzati in alta compressione.

Il sistema di sintesi di iflytek consente anche di sintetizzare testi misti contenenti parti sia in lingua inglese che cinese (per esempio frasi cinesi contenenti parole inglesi) con una qualità della sintesi in inglese che la stessa iflytek definisce "media".

Questo sistema inoltre sembra dipendere strettamente dai caratteri cinesi e non è in grado di ottenere una sintesi partendo dal solo pinyin, anche se il CSSML consente di affiancare il pinyin ai caratteri per tentare di risolvere ambiguità di pronuncia, con risultati non sempre garantiti.

Il programma di insegnamento Gradint comprende un'utilità che tenta di convertire un pinyin arbitrario in un CSSML che dovrebbe venir pronunciato correttamente da SpeechPlus, selezionando i caratteri cinesi che meglio rendono la pronuncia, tenendo conto anche delle specificità di SpeechPlus. Tuttavia le avvertenze relative a questa utilità raccomandano anche di verificare sistematicamente tutte le frasi sintetizzate e di ricorrere a un sintetizzatore alternativo nel caso la pronuncia non fosse quella corretta: infatti è possibile che l'audio risultante contenga sillabe completamente diverse o inattese rispetto al pinyin usato in ingresso.

Anche il progetto di sintetizzatore sperimentale sviluppato dall'università di Tsinghua, il SinoSonic, si basa su un corpus, con una quantità di dati pari a 800 Megabyte per la voce Harbin. Questo progetto non è mai stato reso disponibile per il download.

Progetti di sintesi per campioni unitari

[modifica | modifica wikitesto]

Il software KeyTip Putonghua Reader, prodotto da CJKware, adotta un approccio più semplice, basato sulla registrazione di 10000 termini multisillabici del vocabolario più registrazioni mono sillabiche in sei prosodie differenti (i quattro toni tipici del pinyin più un tono neutro e una variante del 3° tono da usare per il finale di frase). Con questo approccio la quantità totale di dati utilizzati si riduce a 120 Megabyte. I campioni possono essere concatenati liberamente in qualsiasi combinazione ma il parlato risultante suona forzato, come tipico per la sintesi a campioni unitari, con un effetto negativo sulla prodosia complessiva, e anche la velocità e l'espressione sono fisse. Tuttavia, basandosi su campioni di pronuncia elementari, il sistema è in grado di rendere in modo accettabile anche frasi ed espressioni meno comuni o particolarmente complesse.

Le voci "Lily" e "Wang" del software di sintesi SAPI5 prodotto da NeoSpeech utilizzano una sintesi concatenativa basata su circa 500MB di dati registrati in combinazione con altre tecniche non documentate^[2]. Il software è in grado nella maggior parte dei casi di sintetizzare affidabilmente anche frasi inusuali, purché vengano aggiunte al dizionario in modo opportuno^[3] e non presenta gli effetti di rigidità e di combinazione meccanica dei suoni tipici dei sistemi a semplice sintesi concatenativa.

La voce "MeiLing" del software RealSpeak prodotto da Nuance (ex ScanSoft)^[4] presente proprietà analoghe ma ha una dimensione in download molto più contenuta (42.7 MB). Tuttavia, a causa di alcuni errori nel programma, è molto difficile ottenere una sintesi affidabile partendo da testo pinyin o zhuyin^[5].

Tra queste due soluzioni, la più affidabile per la sintesi di frasi particolarmente complesse o insolite sembra essere la voce Lily, pur non essendo del tutto perfetta. Infatti, alcuni frasi vengono sintetizzate correttamente se si parte dai caratteri cinesi ma non se si parte dal pinyin. Per esempio, 用出来 viene resa correttamente come yong4-chu5-lai5 se si parte dai caratteri ma viene pronunciata yong4-chu1-lai5 (termine di uso più comune) se si parte dal pinyin. Analogamente avviene per 转来转去 (zhuan3-lai2-zhuan3-qu4) che, se si parte dal pinyin, rende il primo 转 come zhuai invece che zhuan, mentre partendo dai caratteri la pronuncia è completamente corretta. Questo comportamento è analogo a quello di alcuni sistemi di sintesi vocale per la lingua inglese, che presentano una qualità più bassa quando la sintesi avviene a partire da informazioni di pronuncia invece che da un testo. Questo potrebbe indicare che le informazioni di pronuncia accettate come sorgente non coincidono con il formato di pronuncia interno effettivamente utilizzato^[6]. Questo aspetto non è del tutto trascurabile, dato che non sempre è conveniente utilizzare come sorgente i soli caratteri di cui spesso è necessario specificare anche la diversa pronuncia.

Queste voci presentano anche altre imprecisioni non legate al formato di ingresso. Per esempio, sia la voce Lily che la voce MeiLing commettono una serie di errori comuni (il che potrebbe indicare che, nonostante la differenza macroscopica nella quantità di dati impiegata, entrambi i software potrebbero condividere le tecniche complementari non documentate): 首都 (shou3-du1) du1 ha una tonalità troppo bassa; 邮编 (you2-bian1) bian1 ha una tonalità troppo bassa; 天真 (tian1-zhen1) le due sillabe sono pronunciate con un effetto tipico del terzo tono mentre dovrebbero presentare la stessa tonalità; 糖尿病 (tang2-niao4-bing4) la N è molto poco chiara. Questo accade sia con un ingresso in caratteri cinesi che in pinyin. I primi tre errori inoltre non si presentano quando la parola è all'interno di una frase più lunga, ma solo quando è isolata (situazione che si verifica per esempio negli esercizi di apprendimento della lingua^[7].

In alcuni casi, tramite Lily è possibile correggere frasi generate in modo errato a partire dal pinyin, separando i termini più lunghi in parole distinte, ma questo metodo non funziona nei casi di errore menzionati.

Progetti open-source

[modifica | modifica wikitesto]

Ekho è un progetto open source di sintesi vocale cinese basata sulla concatenazione di campioni sillabici. Allo stato attuale, supporta la lingua cantonese, il cinese standard e la lingua coreana. Le tonalità di alcune sillabe per il mandarino standard sono state normalizzate per il software di sintesi Praat. Anche l'applicazione di Gradint "sintesi da voci parziali" utilizza parte di questo progetto.

Non sono previsti invece sviluppi nell'ambito di altri importanti progetti open source di sintesi vocale, come per esempio il progetto MBROLA. Non sono noti nemmeno progetti di sintesi della lingua cinese a partire dai tratti vocali umani, sull'equivalente di GNU Speech.

Programmi dimostrativi su web

[modifica | modifica wikitesto]

Alcuni esempi dimostrativi di programmi di sintesi vocale cinese, a funzionalità limitate o molto ridotte, sono disponibili su Internet.

NeoSpeech mette a disposizione una pagina per provare le varie voci di sintesi ma non consente di usare il pinyin per il testo di prova^[8].

iFlyTek ha previsto una pagina dimostrativa sul sito globale^[9], tuttavia il programma è molto spesso fuori servizio e non consente comunque di introdurre varianti di pronuncia basate su CSSML. iFlyTek fornisce anche altre pagine dimostrative su siti locali (la filiale statunitense ^[10] e quella cinese ^[11]) che consentono di provare anche CSSML per il controllo della pronuncia (Advanced Reading Mode Settings), ma l'interfaccia utente è poco accessibile perché non prevede un tasto di invio ma dei link Woman's voice (voce femminile) o Man's voice (voce maschile) da attivare dopo aver inserito il testo di prova da sintetizzare.

Fino al 1997 anche i Bell Labs fornivano una pagina web dimostrativa per la sintesi vocale del mandarino standard^[12]. La pagina è ancora accessibile ma la sintesi dimostrativa non funziona più così come i link e i contatti riportati sul sito non sono più attivi. La tecnica usata dai Bell Labs è descritta in una monografia dal titolo Multilingual Text-to-Speech Synthesis: The Bell Labs Approach^[13] e ulteriori informazioni sono disponibili dal sito internet dell'ex-capo progetto Chilin Shih, ora impiegata presso l'Università dell'Illinois^[14].

Sistemi operativi non Windows

[modifica | modifica wikitesto]

Tutti i prodotti di sintesi vocale cinesi descritti sono disponibili solo per la piattaforma Windows. Il programma di apprendimento sviluppato da Gradint tuttavia consente di esportare i dati KeyTIP e SpeechPlus su altri sistemi operativi, sia in modalità nativa che tramite emulazione di Windows tramite WINE.

La sintesi vocale cinese era disponibile sui computer Apple con sistema operativo Mac OS, fino alla versione 9. Il sistema operativo macOS inizialmente non supportava più la sintesi vocale cinese che è stata reintrodotta tra gli strumenti di accessibilità di serie a partire dalla versione Mac OS X Leopard.