
AI言語モデルを活用してコードのデバッグからデータの異常検出まで、OpenAI によって開発された は、音声と画像を介して対話できる新機能を導入し、直感的なインターフェイスと ChatGPT を日常生活に統合するためのより多くの方法を提供します。 OpenAI は Web サイトでの最近の発表で、これらの新機能を事前に公開することを決定しました。 同様に、彼はそれらがもたらす利点と、成長する AI 市場においてそれらがもたらす課題についても強調しました。
この記事のトピック:
ChatGPT: 音声対話
新しい音声機能により、ユーザーは次のことが可能になります。 ChatGPT を使用した対話型の会話。 これにより、移動中でもアシスタントを利用できるようになり、チャットボットの可能性が高まります。 たとえば、ユーザーは外出中に ChatGPT に子供の物語を聞かせるように依頼し、より楽しくすることができます。

あるいは、友人との夕食中に、特定のトピックについての議論が生まれるかもしれません。 この場合、ユーザーはボットを使用して正確な情報を取得し、議論を建設的に解決できます。
ChatGPT の音声テクノロジーは、 高度なテキスト読み上げモデル。 プロの声優と協力して、このモデルはテキストと短い音声サンプルからヒューマノイド音声を生成することができ、ChatGPT との対話をさらに自然かつ直感的にします。 また、おかげで ウィスパーOpenAI によって開発されたオープンソースの音声認識システムであり、話し言葉は 非常に正確にテキストに変換されるにより、チャットボットがユーザーのリクエストを理解し、効果的に応答できるようになります。
ChatGPT: 視覚的なインタラクション
上記のように、AI モデルは次のことが可能になります。 XNUMX つ以上の画像を分析するを使用すると、ユーザーは問題を解決したり、食事を計画したり、複雑なグラフを分析したりすることができます。 たとえば、ユーザーは冷蔵庫の中身の写真を送信できます。 したがって、チャットボットを使用する必要があります 存在する食品を分析し、これらの材料に基づいてレシピを提案します。 準備のための段階的な説明も提供します。

も参照してください。 GPT-4: Gemini は Google のライバルになります。 違いは次のとおりです
さらに、ユーザーが画像内の特定の要素に注目する必要がある場合は、 ChatGPT のモバイル アプリには描画ツールが含まれています これにより、画像の特定の領域を強調表示できるようになり、コミュニケーションと分析がさらに正確かつパーソナライズされたものになります。
画像の理解は、GPT-3.5 および GPT-4 マルチモーダル モデルによって強化されています。 これらの先進モデルは、 写真、スクリーンショット、文書などの幅広い画像に言語スキルを適用します。 テキストと画像の両方が含まれているため、ChatGPT は視覚的なコンテキストを正確かつ詳細に理解して解釈できます。
OpenAI が最近統合したのは、それだけではありません。 Canva も ChatGPT の DALL-E 3、または生成画像モデル。
いつ、誰が利用できるようになるのか
今後 XNUMX 週間で、OpenAI はユーザー向けに ChatGPT に音声と画像を実装します Plus および Enterprise サブスクリプションを持つユーザー。
音声インタラクション機能が利用可能になります iOS と Android で ただし、ほとんどの人が使用している Web バージョンにはありません。
代わりに視覚的なインタラクションを可能にする機能が利用可能になります すべてのプラットフォームでしたがって、Android、iOS、Web。
ソース| OpenAI