OpenAI、ChatGPT 向けにより自然な高度な音声モードを展開
OpenAIは 本日、少数の有料ChatGPTユーザーにアドバンスト・ボイス・モードの展開を開始し、より自然でリアルタイムの会話をテストできるようにしたと発表した 。
高度な音声モードを使用すると、ChatGPT は中断可能なリアルタイム応答を提供できるほか、ユーモアや皮肉などを感知して応答することができます。新しいモデルでは、現在の ChatGPT 音声のように音声をテキストに変換し、再度変換する必要がないため、対話の遅延が短くなります。
OpenAI は 5 月にアドバンスト ボイス モードをデモンストレーションし、スカーレット ヨハンソンに 非常によく似た Sky と呼ばれる AI 音声を披露しました。この音声はヨハンソンさんの許可なしに作成、使用されたもので、最終的に彼女はこの状況について 声明を発表した 。彼女は、ヨハンソンにChatGPTの声を演じてほしいと望んでいたOpenAI CEOのサム・アルトマンからの複数のオファーを断ったと語った。彼女は、アルトマンが自分の声に「不気味なほど似ている」声を作り出したことに「ショックを受け、怒り、そして信じられない」と語った。 OpenAIは、スカイの声はヨハンソンの声 に似せることを意図したものではない と主張したが、彼女が弁護士を雇った後、削除された。
OpenAI は、Advanced Voice Mode のデモを行って以来、音声会話の安全性と品質の向上に取り組んできたと述べています。アドバンスト ボイス モードは、4 つのプリセット音声で話し、それらの音声とは異なる出力をブロックするように構築されており、有名人の声を模倣するのを防ぎます。 OpenAIはまた、暴力的なコンテンツや著作権で保護されたコンテンツのリクエストをブロックするための「ガードレールを実装」しており、初期のテストは、より広範なリリースの前に機能を改善するために使用される予定です。
アドバンスト音声モードへのアクセスを許可されたユーザーは、手順が記載された電子メールを受け取ります。OpenAI は、順次ユーザーを追加する予定です。 Plus のユーザーは全員、秋にアドバンスト ボイス モードにアクセスできるようになります。











