興味がありますか オファー? クーポンを利用して節約しましょう WhatsApp o 電報!

GPTの完全克服を目指したアーキテクチャ「Mamba」とは。 AIの新時代?

今日はもう少し技術的な話をしたいと思います。私たちは毎日人工知能について話しますが、それが何に基づいていて、どのように機能するかを知るのは正しいことです。この点に関してご紹介したいのは、 マンバ、私を変えることを約束する新しいアーキテクチャ 言語モデル 今日私たちが知っているように。 Mamba の機能は、GPT の機能と比較して、できることと同様に非常に優れています。

Mamba は人工知能の新たな地平です

Transformer アーキテクチャは、2016 年に論文「注意はあなたが必要とするすべてですGoogle による」は、言語モデルの画期的な進歩を表し、対話のコンテキストを維持できるようになりました。一言で言えば「建築」 Transformer は GPT のようなモデルを作成するために使用される AI モデルです (生成事前トレーニング済みトランスフォーマー)。

トランスのアーキテクチャの仕組み

Transformer アーキテクチャの中心となるのは、「注意これにより、モデルは別のテキストを生成または処理しながら、あるテキストの特定の部分に焦点を当てることができます。このメカニズムにより、Transformers はテキスト内のコンテキストと複雑な関係を理解するのに特に効果的になります。実際には、GPT などの Transformer アーキテクチャに基づくモデル 彼らは 2 つの段階を通じて言語を生成し理解することを学びます 主なもの: トレーニング (トレーニング) と推論 (テキスト生成)。
間に トレーニング、モデルは言語構造、単語間の関係、コンテキストなどを理解するために大規模なテキスト データセットでトレーニングされます。の段階で 推論、モデルは学習した内容を使用して、新しいテキストを生成し、質問に答え、言語を翻訳し、その他の言語処理タスクを実行します。

しかし、Mamba の出現は新しい時代の始まりを示す可能性があります。このアーキテクチャは次のことを約束します。 より効率的、GPT などの現在のモデルが直面するいくつかの重要な課題を克服できます。具体的には、次の 3 つの重要な側面により、Mamba は有望なアーキテクチャになっています。

  • 推論コストの削減: Mamba の重要な側面は、推論コストの大幅な削減です。前に述べたように、推論は、AI モデルがトレーニング後に学習した内容を新しいデータに適用し、テキストや画像を生成するプロセスです。 GPT-3 や GPT-4 などの複雑なモデルでは、このプロセスは計算リソースの点で高価になる可能性があります。マンバは約束します これらのコストを最大 5 分の 1 に削減します Transformer ベースのモデルと比較すると、特に迅速な応答生成が必要なアプリケーションや巨大なデータセットを扱うアプリケーションの場合、重大な影響を与える可能性があります。
  • 線形アテンションの計算コスト: Mamba の 2 番目の利点は、注意を計算する効率に関するものです。トランスフォーマーモデルでは、 コストが増大する 実際に (正確には力のレベルであり、比喩ではありません) テキストの長さが増すにつれて。これは、テキストが長ければ長いほど、その処理に多くのリソースが必要となり、一部のアプリケーションではモデルの実用性が制限されることを意味します。 Mamba が提案するソリューションは、 コストは直線的に増加します アテンションウィンドウのサイズと比較して、長いテキストの処理がより管理しやすくなり、計算上の負担が軽減されます。
  • 非常に大きなインプット: Mamba は最大入力ウィンドウを処理できます 最大1万トークンn、Transformer アーキテクチャで可能なことをはるかに超えています。これは、理論的には、Mamba が次のことができることを意味します。 本全体など、非常に長いテキストを分析して理解する、コンテキスト内の一貫性と詳細を維持します。たとえば、登場人物、プロット、テーマを最初から最後まで明確に理解しながら、小説全体を分析する場合があります。

マンバの約束にもかかわらず、 ソレバ スケーラビリティに疑問がある特に、4 億個のパラメータを持つ GPT-175 のような大規模なモデルと比較した場合に顕著です。スケーラビリティとは、非常に簡単に言うと、 効率性を損なうことなく、作業量の増加やサイズの拡大に対処できるシステムの能力。少数の客で繁盛している小さなレストランを想像してみてください。レストランが人気になり、さらに多くの顧客が集まり始めた場合、サービスや料理の品質を損なうことなく、この増加に対応できるはずです。成功すれば、「スケーラブル」になります。

Mamba は現在の状態でテスト済みです 3億のパラメータのみ。したがって、より大きなサイズに拡張した場合に、そのパフォーマンスと効率が維持または向上できるかどうかは依然として不確実です。

ジャンアルカ・コブッチ
ジャンアルカ・コブッチ

コード、言語、マンマシンインターフェイスに情熱を持っています。 私にとってはテクノロジーの進化すべてに興味があります。 私は、「最初のパス」ではなく、信頼できる情報源に頼って、自分の情熱を最大限に明確に伝えるように努めています。

購読します
知らせます
ゲスト

0 注釈
インラインフィードバック
すべてのコメントを見る
XiaomiToday.it
及び