ホームテクの最新情報 OpenAI、ChatGPT 向けにより自然な高度な音声モードを展開

OpenAI、ChatGPT 向けにより自然な高度な音声モードを展開

7月 24, 2024

—

高度な音声モードを使用すると、ChatGPT は中断可能なリアルタイム応答を提供できるほか、ユーモアや皮肉などを感知して応答することができます。新しいモデルでは、現在の ChatGPT 音声のように音声をテキストに変換し、再度変換する必要がないため、対話の遅延が短くなります。

OpenAI は 5 月にアドバンストボイスモードをデモンストレーションし、スカーレットヨハンソンに非常によく似た Sky と呼ばれる AI 音声を披露しました。この音声はヨハンソンさんの許可なしに作成、使用されたもので、最終的に彼女はこの状況について声明を発表した。彼女は、ヨハンソンにChatGPTの声を演じてほしいと望んでいたOpenAI CEOのサム・アルトマンからの複数のオファーを断ったと語った。彼女は、アルトマンが自分の声に「不気味なほど似ている」声を作り出したことに「ショックを受け、怒り、そして信じられない」と語った。 OpenAIは、スカイの声はヨハンソンの声に似せることを意図したものではないと主張したが、彼女が弁護士を雇った後、削除された。

OpenAI は、Advanced Voice Mode のデモを行って以来、音声会話の安全性と品質の向上に取り組んできたと述べています。アドバンストボイスモードは、4 つのプリセット音声で話し、それらの音声とは異なる出力をブロックするように構築されており、有名人の声を模倣するのを防ぎます。 OpenAIはまた、暴力的なコンテンツや著作権で保護されたコンテンツのリクエストをブロックするための「ガードレールを実装」しており、初期のテストは、より広範なリリースの前に機能を改善するために使用される予定です。