Intelligenza generativa dei dati

Crea audio per i contenuti in più lingue con la stessa persona vocale TTS in Amazon Polly

Data:

Amazon Polly è un servizio basato su cloud leader che converte il testo in un discorso realistico. A seguito dell'adozione della sintesi vocale neurale (NTTS), abbiamo continuamente ampliato il nostro portafoglio di voci disponibili per fornire un'ampia selezione di parlanti distinti nelle lingue supportate. Oggi siamo lieti di annunciare quattro nuove aggiunte: Pedro che parla spagnolo americano, Daniel che parla tedesco, Liam che parla francese canadese e Arthur che parla inglese britannico. Come per tutte le voci neurali nel nostro portfolio, queste voci offrono una pronuncia nativa e fluente nelle loro lingue target. Tuttavia, ciò che rende uniche queste quattro voci è che sono tutte basate sulla stessa persona vocale.

Pedro, Daniel, Liam e Arthur sono stati modellati su una voce di Matthew in inglese statunitense esistente. Mentre i clienti continuano ad apprezzare Matthew per la sua naturalezza e la qualità del suono professionale, finora la voce ha servito esclusivamente il traffico di lingua inglese. Ora, utilizzando metodi di deep learning, abbiamo disaccoppiato lingua e identità del parlante, il che ci ha permesso di preservare la fluidità simile a quella di un nativo in molte lingue senza dover ottenere dati multilingue dallo stesso parlante. In pratica, ciò significa che abbiamo trasferito le caratteristiche vocali della voce inglese statunitense Matthew in spagnolo americano, tedesco, francese canadese e inglese britannico, aprendo nuove opportunità per i clienti Amazon Polly.

Avere una voce dal suono simile disponibile in cinque località sblocca un grande potenziale di crescita aziendale. Innanzitutto, i clienti con un'impronta globale possono creare un'esperienza utente coerente in tutte le lingue e le regioni. Ad esempio, un sistema di risposta vocale interattiva (IVR) che supporta più lingue può ora servire diversi segmenti di clienti senza modificare l'atmosfera del marchio. Lo stesso vale per tutti gli altri casi d'uso TTS, come la voce di articoli di notizie, materiale didattico o podcast.

In secondo luogo, le voci si adattano bene ai clienti Amazon Polly che cercano una pronuncia nativa di frasi straniere in una qualsiasi delle cinque lingue supportate.

In terzo luogo, il rilascio di Pedro, Daniel, Liam e Arthur serve i nostri clienti a cui piace Amazon Polly NTTS in spagnolo statunitense, tedesco, francese canadese e inglese britannico, ma sono alla ricerca di una voce maschile di alta qualità: possono utilizzare queste voci per creare audio per contenuti monolingue e aspettati una qualità superiore che è alla pari con altre voci NTTS in queste lingue.

Infine, può essere utilizzata anche la tecnologia che abbiamo sviluppato per creare le nuove voci maschili NTTS Voci di marca. Grazie a ciò, i clienti di Brand Voice non solo possono godere di una voce NTTS unica e adattata al loro marchio, ma anche mantenere un'esperienza coerente mentre servono un pubblico internazionale.

Caso d'uso di esempio

Esaminiamo un caso d'uso di esempio per dimostrare cosa significa in pratica. I clienti Amazon Polly che hanno familiarità con Matthew possono ancora utilizzare questa voce nel solito modo scegliendo Matthew sulla console Amazon Polly e immettendo il testo che desiderano ascoltare in inglese americano. Nello scenario seguente, generiamo campioni audio per un sistema IVR ("Per l'inglese, premere uno"):

Grazie a questa versione, ora puoi espandere il caso d'uso per offrire un'esperienza audio coerente in diverse lingue. Tutte le nuove voci hanno un suono naturale e mantengono un accento nativo.

  • Per generare il parlato in inglese britannico, scegli Arthur ("Per l'inglese, premi uno"):
  • Per utilizzare uno spagnolo di lingua americana, scegli Pedro ("Para español, por favor marque dos"):
  • Daniel offre supporto in tedesco ("Für Deutsch drücken Sie bitte die Drei"):
  • Puoi sintetizzare il testo in francese canadese scegliendo Liam ("Pour le français, veuillez appuyer sur le quatre"):

Nota che oltre a parlare con un accento diverso, la voce inglese britannica Arthur localizzerà il testo di input in modo diverso rispetto alla voce inglese statunitense Matthew. Ad esempio, "1/2/22" verrà letto da Arthur come "il 1 febbraio 2022", mentre Matthew lo leggerà come "2 gennaio 2022".

Ora uniamo questi prompt:

Conclusione

Pedro, Daniel, Liam e Arthur sono disponibili solo come voci neurali TTS, quindi per godertele, devi usare il motore neurale in una delle Regioni AWS che supportano NTTS. Questi sono di alta qualità voci monolingue nelle loro lingue di destinazione. Il fatto che i loro personaggi siano coerenti in tutte le lingue è un ulteriore vantaggio, che speriamo delizierà i clienti che lavorano con contenuti in più lingue. Per maggiori dettagli, consulta il nostro elenco completo di Amazon Polly voci di sintesi vocale , Prezzi TTS neurali, limiti di servizioe FAQ, e visita il nostro pagina dei prezzi.


Informazioni sugli autori

Patrik Wainaina è un ingegnere linguistico che lavora sulla sintesi vocale per inglese, tedesco e spagnolo. Con un background nell'elaborazione vocale e linguistica, i suoi interessi risiedono nell'apprendimento automatico applicato alle soluzioni front-end TTS, in particolare in contesti con risorse limitate. Nel tempo libero ama ascoltare musica elettronica e imparare nuove lingue.

Marta Smolarek è Senior Program Manager nel team Text-to-Speech di Amazon, dove si concentra sul caso d'uso TTS di Contact Center. Definisce le iniziative Go-to-Market, utilizza il feedback dei clienti per costruire la roadmap del prodotto e coordina i lanci vocali di TTS. Al di fuori del lavoro, ama andare in campeggio con la sua famiglia.

spot_img

L'ultima intelligenza

spot_img

Parla con noi

Ciao! Come posso aiutarla?