興味がありますか オファー? クーポンを利用して節約しましょう WhatsApp o 電報!

ChatGPT は、見て、聞いて、話すことができるアシスタントになりました

25 9月2023

AI言語モデルを活用してコードのデバッグからデータの異常検出まで、OpenAI によって開発されたは、音声と画像を介して対話できる新機能を導入し、直感的なインターフェイスと ChatGPT を日常生活に統合するためのより多くの方法を提供します。 OpenAI は Web サイトでの最近の発表で、これらの新機能を事前に公開することを決定しました。同様に、彼はそれらがもたらす利点と、成長する AI 市場においてそれらがもたらす課題についても強調しました。

この記事のトピック:

ChatGPT: 音声対話

新しい音声機能により、ユーザーは次のことが可能になります。 ChatGPT を使用した対話型の会話。これにより、移動中でもアシスタントを利用できるようになり、チャットボットの可能性が高まります。たとえば、ユーザーは外出中に ChatGPT に子供の物語を聞かせるように依頼し、より楽しくすることができます。

チャットボットが生み出すストーリー

あるいは、友人との夕食中に、特定のトピックについての議論が生まれるかもしれません。この場合、ユーザーはボットを使用して正確な情報を取得し、議論を建設的に解決できます。

ChatGPT の音声テクノロジーは、 高度なテキスト読み上げモデル。プロの声優と協力して、このモデルはテキストと短い音声サンプルからヒューマノイド音声を生成することができ、ChatGPT との対話をさらに自然かつ直感的にします。また、おかげでウィスパーOpenAI によって開発されたオープンソースの音声認識システムであり、話し言葉は 非常に正確にテキストに変換されるにより、チャットボットがユーザーのリクエストを理解し、効果的に応答できるようになります。

ChatGPT: 視覚的なインタラクション

上記のように、AI モデルは次のことが可能になります。 XNUMX つ以上の画像を分析するを使用すると、ユーザーは問題を解決したり、食事を計画したり、複雑なグラフを分析したりすることができます。たとえば、ユーザーは冷蔵庫の中身の写真を送信できます。したがって、チャットボットを使用する必要があります 存在する食品を分析し、これらの材料に基づいてレシピを提案します。 準備のための段階的な説明も提供します。

も参照してください。 GPT-4: Gemini は Google のライバルになります。違いは次のとおりです

さらに、ユーザーが画像内の特定の要素に注目する必要がある場合は、 ChatGPT のモバイルアプリには描画ツールが含まれています これにより、画像の特定の領域を強調表示できるようになり、コミュニケーションと分析がさらに正確かつパーソナライズされたものになります。

画像の理解は、GPT-3.5 および GPT-4 マルチモーダルモデルによって強化されています。これらの先進モデルは、 写真、スクリーンショット、文書などの幅広い画像に言語スキルを適用します。 テキストと画像の両方が含まれているため、ChatGPT は視覚的なコンテキストを正確かつ詳細に理解して解釈できます。

言及する価値があるのは、 poco OpenAI が統合したのはそれだけではありません Canva も ChatGPT の DALL-E 3、または生成画像モデル。