Magentic-One: A Generalist Multi-Agent System for Solving Complex Tasksの紹介

Microsoft Research AI Frontiers から複雑なタスクを自律的に解決するための「汎用マルチエージェントシステム」Magentic-Oneが発表されました。
その仕組を説明している論文を紹介します。

Magentic-Oneの解説

Magentic-Oneとは

Magentic-One は、Microsoft Research AI Frontiers によって開発された、複雑なタスクを自律的に解決するための「汎用マルチエージェントシステム」です。複数のエージェントが協力して、プログラムの実行、Webの操作、ファイルの処理などの役割を分担し、タスクを効率的に完了します。


各エージェントの役割

Magentic-One には、中心的な「オーケストレーター(Orchestrator)」エージェントと複数の役割を担うエージェントが存在します。以下は各エージェントの役割です:

  1. オーケストレーター (Orchestrator)

    • タスクの全体計画を立て、進捗を監視し、タスクの再配分や修正も行います。
    • 他のエージェントに指示を出し、各エージェントの活動をコントロールする中心的な役割を担います。
  2. コーダー (Coder)

    • プログラムのコードを作成し、他のエージェントから得た情報をもとに新しい処理を行います。
    • Pythonコードの生成やデバッグも担当します。
  3. Webサーファー (WebSurfer)

    • Webページをナビゲートし、情報収集やフォーム入力などWeb上で必要なアクションを実行します。
  4. ファイルサーファー (FileSurfer)

    • PDFや画像、動画などのファイルを処理し、必要な情報を抽出します。
  5. コンピュータ端末 (ComputerTerminal)

    • Pythonコードやシェルコマンドの実行を担当し、ファイル操作やプログラムの実行結果を返します。

Magentic-Oneの特徴

Magentic-Oneの主な特徴は以下の通りです:

  1. タスク計画とエラー回復

    • オーケストレーターが詳細なタスク計画を立て、進捗を追跡し、エラーが発生した場合には計画を修正します。
    • 必要に応じて他のエージェントにタスクを再割り当てし、最終的なタスク完了を目指します。
  2. モジュール性(Modularity)

    • エージェントの追加・削除が容易で、特定のタスクに応じてシステム構成を柔軟に変更可能です。
    • 例えば、Web操作に特化したエージェントのみを追加しても、他のエージェントに影響を与えません。
  3. ベンチマーク評価

    • Magentic-OneはGAIA、AssistantBench、WebArenaの3つのベンチマークで評価され、他の最先端システムと比較して堅実な性能を示しました。
  4. オープンソースツール

    • Magentic-Oneの評価には「AutoGenBench」という評価ツールが使用され、再現性のあるテスト環境でエージェントの性能を安全に評価できます。

Magentic-Oneの評価と課題

Magentic-Oneは、複雑なタスクに対して堅実な性能を発揮しましたが、以下の課題もあります:

  1. コストと待ち時間

    • Magentic-Oneはタスク完了に多くのリソースを消費し、各エージェントの呼び出しにも時間がかかるため、コストと待ち時間が大きくなる可能性があります。
  2. マルチモーダル対応の制限

    • Magentic-Oneは画像や音声などの処理が制限され、例えば、動画を直接見て情報を取得することができません。
  3. アクションの制限

    • Webページでのホバーやドラッグアンドドロップなど特定のアクションがサポートされていないため、操作が制限される場合があります。
  4. 学習の制限

    • Magentic-Oneはタスクごとに試行錯誤して最適な方法を見つけますが、その経験が次のタスクに引き継がれません。長期的な学習機能が今後の課題です。

結論

Magentic-Oneは、Webやファイル操作を伴うオープンエンドのタスクに対応する汎用エージェントシステムの有望な進展と位置付けられています。オーケストレーターが中心となって計画作成、進捗管理、エラー対応を行い、チームの他のエージェントが各種操作を実行します。

また、オープンソースとして提供されているため、開発者が自由にカスタマイズし、新たなエージェントを追加することも可能です。


関連ページ