Generativ dataintelligens

Ny "Voice Engine" från OpenAI behöver bara 15 sekunder för att klona tal – dekryptera

Datum:

OpenAI, AI-företaget bakom det dominerande generativa AI-verktyget ChatGPT, har avslöjat en ny röstkloningsteknik som den kallar "Voice Engine". Denna ljudmodell kan replikera en persons röst, intonation och andra distinkt mänskliga talmönster baserat på ett relativt litet urval av originalljud.

"Det är anmärkningsvärt att en liten modell med en enda 15-sekunders sampling kan skapa känslomässiga och realistiska röster", säger företaget i sin Fredag ​​blogginlägg.

Som jämförelse, AI-röstplattform ElevenLabs har ett verktyg för omedelbar röstkloning som kräver prover på minst en minut. För bästa resultat krävs nästan 10 minuters kontinuerligt tal för dess professionella servicenivå.

Företaget visade olika exempel på vad denna teknik kan göra. I ett exempel klonades rösten från en ung patient som förlorade mycket av sin förmåga att tala på grund av en vaskulär hjärntumör med hjälp av en äldre inspelning som hon gjorde för ett skolprojekt. Detta är hur hon låter idag, enligt OpenAI.

OpenAI arbetade med Livslängd, en ideell organisation som är knuten till medicinskolan vid Brown University och skaparna av ett verktyg som heter Livox, en "alternativ kommunikationsapp" byggd för personer med funktionshinder. Teamet kunde arbeta med en inspelning som kvinnan gjort för en skolpresentation:

Open AI Voice Engine kunde sedan ge omedelbar text-till-tal-kapacitet som skulle tillåta patienten att effektivt tala med sin egen röst:

OpenAI visade också hur HejGen använder sin teknologi för att generera naturligt klingande översättningar av tal som laddats upp på ett specifikt språk på ett annat språk.

Företaget säger att Voice Engine först utvecklades i slutet av 2022 och redan används för att driva de förinställda rösterna som finns tillgängliga i OpenAI:s text-till-tal API, såväl som ChatGPT:s röst- och högläsningsfunktion. Med de senaste framstegen säger företaget att det är försiktigt inför en bredare release.

"Vi hoppas kunna starta en dialog om ansvarsfull användning av syntetiska röster och hur samhället kan anpassa sig till dessa nya möjligheter", skrev OpenAI och erkände det allmänt fördömda bruket av "deepfakes". Röster från kändisar, regeringstjänstemän och allt fler privata medborgare efterliknas i skändliga syften, från politiska kampanjer, falska annonser och direkt brottslig verksamhet. USA:s president Joe Biden har varit det trycka för fler skydd mot skadlig användning av AI-röstimitationer.

Faktum är att Meta avslöjade förra sommaren att dess AI-röstverktyg hölls tillbaka specifikt på grund av "potentiella risker för missbruk. "

"I linje med vårt förhållningssätt till AI-säkerhet och våra frivilliga åtaganden, väljer vi att förhandsgranska men inte släppa den här tekniken i stor utsträckning just nu," förklarade OpenAI.

Redan före offentlig publicering lägger OpenAI restriktioner på Voice Engine – inklusive en lista över framstående personer som den inte kommer att efterlikna.

"Vi anser att all bred användning av syntetisk röstteknik bör åtföljas av röstautentiseringsupplevelser som verifierar att den ursprungliga högtalaren medvetet lägger till sin röst i tjänsten och en no-go röstlista som upptäcker och förhindrar skapandet av röster som är alltför liknande framstående figurer”, skrev OpenAI.

Partnerna som testar Voice Engine idag har gått med på OpenAI:s användningspolicy, som förbjuder efterbildning av en annan individ eller organisation utan samtycke. Dessutom kräver företaget uttryckligt och informerat samtycke från den ursprungliga talaren, och de tillåter inte utvecklare att bygga sätt för enskilda användare att klona sina egna röster.

"Baserat på dessa samtal och resultaten av dessa småskaliga tester kommer vi att fatta ett mer välgrundat beslut om huruvida och hur vi ska distribuera denna teknik i stor skala", står det i blogginlägget.

Utöver Voice Engine arbetar Open AI med flera projekt parallellt. VD Sam Altman avslöjade att företaget arbetar med att släppa GPT-5 i år. Företaget visade också upp sitt generativa videoverktyg sora. Företaget hävdar att Sora kommer att vara den mest avancerade videogeneratorn på marknaden och överträffa modeller som Pika, Stable Video Diffusion och Runway ML.

Sora är för närvarande endast tillgänglig för "röda teamers" som värvats av Open AI för att se till att det inte kan missbrukas.

Voice Engine skulle säkert kunna överträffa andra röstkloningsverktyg, inklusive erbjudanden från Meta, ElevenLabs, WellSaid Labs och öppen källkodsmodeller som RVC.

Open AI arbetar också med en hemligt projekt som heter Q* varav endast dess namn har läckt ut. Sam Altman har vägrat att ge några detaljer, men sa att forskargruppen var starkt fokuserad på att hitta tekniker och tillvägagångssätt som gör AI bättre.

Redigerad av Ryan Ozawa.

Håll dig uppdaterad om kryptonyheter, få dagliga uppdateringar i din inkorg.

plats_img

Senaste intelligens

plats_img