
の進化 言語モデル 大きな次元のテクノロジーは、コミュニケーションと人工知能に新たな地平を切り開きましたが、それには重大な課題と倫理的問題も伴います。最近の研究によると、 シンガポール南洋理工大学 探索· 新しいアルゴリズム、 マスターキー、「脱獄」するか、他のニューラル ネットワークに課せられた制限を克服するように設計されています。 AI言語モデルを活用してコードのデバッグからデータの異常検出まで、 e グーグル 吟遊詩人、人工知能技術の使用における安全性と倫理に関する重要な疑問が生じています。
ChatGPT や Bard などのチャットボットのセキュリティを研究するための Masterkey の革新的かつシンプルなアプローチ
シンガポールの南洋理工大学が実施した最近の研究では、これらの限界に対処し、克服するための革新的なアプローチが導入されています。マスターキーとして知られる彼らのアルゴリズムは、次のように設計されています。 高度なジェイルブレイク技術により、他のニューラルネットワークに課せられた制限をバイパスします (Apple エコシステムで使用される用語)。これは、既存の言語モデルの潜在的な脆弱性を浮き彫りにするだけでなく、そのセキュリティと有効性を向上させる新しい方法への道を開きます。
マスターキーは以下を通じて動作します 特定のテキストリクエストこれにより、ChatGPT のようなモデルが、非倫理的と考えられる方法で通信したり、セキュリティ フィルターをバイパスしたりするなど、予期しない動作をする可能性があります。これらのジェイルブレイク手法は、モデルのテストと強化には有利に見えるかもしれませんが、次のようなことも意味します。 両刃の剣悪意のある目的に使用される可能性があるためです。
研究チーム 彼は分析した 特に、多言語の認知負荷、ベールに包まれた表現、因果関係推論に直面したときの言語モデルのセキュリティ脆弱性です。こういった攻撃、 「認知過負荷」と定義される、モデルのアーキテクチャに関する深い知識や実行する重みへのアクセスを必要としないため、特に潜行性が高く、効果的なブラックボックス攻撃となります。

も参照してください。 ChatGPT でより良い応答を得る方法: 確実なヒントの方法
詳細には、研究チームは次の戦略を採用しました。 リバースエンジニアリング 人工知能システムの防御を完全に理解し、それを克服する革新的な方法を開発する。このアプローチの結果、「マスターキー」というモデルが生まれました。これは、 セキュリティメカニズムをバイパスするプロンプトを自動的に生成する.
結果は重要でした。マスターキーによって生成されたプロンプトは、 平均成功率は 21,58%、 以前の方法の 7,33% よりもはるかに高くなります。彼らのテクニックの例としては、 キーワード検出システムを回避するための文字間の余分なスペース ChatGPTとBardについて。大規模な言語モデルの複雑さを考えると、実に「愚かな」戦略です。
これらの発見に直面して、そのような攻撃に対抗するために言語モデルをどのように改善できるかだけでなく、 人工知能の使用における倫理規制。この研究は、技術の進歩がその影響を管理する社会の能力を上回らないようにするために、より強固な防衛戦略と、開発者、研究者、政策立案者の間で継続的な対話が緊急に行われていることを浮き彫りにしている。