生成的データ インテリジェンス

音声エンジン: OpenAI の合成音声における画期的な進歩

日付:

OpenAI著名な人工知能研究組織である は、29 月 2022 日にブログ投稿を公開し、最新の開発である音声エンジンについて説明しました。 15 年後半に作成されたこのモデルは、XNUMX 秒の音声サンプルとテキスト入力のみを使用して、元の話者によく似た自然な音声を生成できます。このテクノロジーは素晴らしいものですが、OpenAI は悪用の可能性があるため、その広範なリリースには慎重です。

Voice Engine は、OpenAI のテキスト読み上げ API でプリセット音声を強化したり、ChatGPT Voice および Read Aloud 機能を強化したりするなど、さまざまなアプリケーションですでに使用されています。 Voice Engine の実世界のアプリケーションをより深く理解するために、OpenAI は 2022 年後半から、選ばれた信頼できるパートナーのグループと協力してきました。

これらのコラボレーションは興味深い結果を生み出しており、Age of Learning は音声エンジンを使用してパーソナライズされた教育コンテンツを作成し、HeyGen は音声エンジンをビデオ翻訳に使用し、Dimagi は音声エンジンを使用して地域の医療従事者にインタラクティブなフィードバックを提供するなど、興味深い結果を生み出しています。この技術は医療分野でも試験的に導入されており、ライフスパンのノーマン・プリンス神経科学研究所は言語障害のある患者の音声を復元するためにこの技術を使用しています。

しかし、OpenAI は、特に選挙の年には、人々の声を忠実に模倣した音声の生成に伴うリスクを十分に認識しています。これらの懸念に対処するために、同社は、同意のないなりすましの禁止、元の話者からの明示的な許可の要求、生成された音声の出所を追跡するための透かしの使用など、パートナー向けの安全対策と使用ポリシーを導入しました。


<!–

使用されていません

–>

合成音声技術の進歩に伴い、OpenAI は 主張する 責任ある展開を確実にするための積極的な措置を講じます。これには、機密情報に対する音声ベースの認証の段階的な廃止、AI の機能と限界についての一般の教育、視聴覚コンテンツの出所を追跡する技術の開発などが含まれます。

AI の安全性への取り組みに沿って、OpenAI は音声エンジンをプレビューすることを決定しましたが、現時点では広くリリースしないことを決定しました。これらの洞察を共有することで、同社は合成音声の将来と、悪用のリスクを軽減しながらその可能性を活用するために必要な手順についての会話を開始することを目指しています。

OpenAI の発表に対するいくつかの反応は次のとおりです。

おすすめ画像via Pixabay

スポット画像

最新のインテリジェンス

スポット画像