Microsoft Research AI Frontiers から複雑なタスクを自律的に解決するための「汎用マルチエージェントシステム」Magentic-Oneが発表されました。 その仕組を説明している論文を紹介します。
https://arxiv.org/abs/2411.04468
Magentic-Oneの解説
Magentic-Oneとは
Magentic-One は、Microsoft Research AI Frontiers によって開発された、複雑なタスクを自律的に解決するための「汎用マルチエージェントシステム」です。複数のエージェントが協力して、プログラムの実行、Webの操作、ファイルの処理などの役割を分担し、タスクを効率的に完了します。
各エージェントの役割
Magentic-One には、中心的な「オーケストレーター(Orchestrator)」エージェントと複数の役割を担うエージェントが存在します。以下は各エージェントの役割です:
-
オーケストレーター (Orchestrator)
- タスクの全体計画を立て、進捗を監視し、タスクの再配分や修正も行います。
- 他のエージェントに指示を出し、各エージェントの活動をコントロールする中心的な役割を担います。
-
コーダー (Coder)
- プログラムのコードを作成し、他のエージェントから得た情報をもとに新しい処理を行います。
- Pythonコードの生成やデバッグも担当します。
-
Webサーファー (WebSurfer)
- Webページをナビゲートし、情報収集やフォーム入力などWeb上で必要なアクションを実行します。
-
ファイルサーファー (FileSurfer)
- PDFや画像、動画などのファイルを処理し、必要な情報を抽出します。
-
コンピュータ端末 (ComputerTerminal)
- Pythonコードやシェルコマンドの実行を担当し、ファイル操作やプログラムの実行結果を返します。
Magentic-Oneの特徴
Magentic-Oneの主な特徴は以下の通りです:
-
タスク計画とエラー回復
- オーケストレーターが詳細なタスク計画を立て、進捗を追跡し、エラーが発生した場合には計画を修正します。
- 必要に応じて他のエージェントにタスクを再割り当てし、最終的なタスク完了を目指します。
-
モジュール性(Modularity)
- エージェントの追加・削除が容易で、特定のタスクに応じてシステム構成を柔軟に変更可能です。
- 例えば、Web操作に特化したエージェントのみを追加しても、他のエージェントに影響を与えません。
-
ベンチマーク評価
- Magentic-OneはGAIA、AssistantBench、WebArenaの3つのベンチマークで評価され、他の最先端システムと比較して堅実な性能を示しました。
-
オープンソースツール
- Magentic-Oneの評価には「AutoGenBench」という評価ツールが使用され、再現性のあるテスト環境でエージェントの性能を安全に評価できます。
Magentic-Oneの評価と課題
Magentic-Oneは、複雑なタスクに対して堅実な性能を発揮しましたが、以下の課題もあります:
-
コストと待ち時間
- Magentic-Oneはタスク完了に多くのリソースを消費し、各エージェントの呼び出しにも時間がかかるため、コストと待ち時間が大きくなる可能性があります。
-
マルチモーダル対応の制限
- Magentic-Oneは画像や音声などの処理が制限され、例えば、動画を直接見て情報を取得することができません。
-
アクションの制限
- Webページでのホバーやドラッグアンドドロップなど特定のアクションがサポートされていないため、操作が制限される場合があります。
-
学習の制限
- Magentic-Oneはタスクごとに試行錯誤して最適な方法を見つけますが、その経験が次のタスクに引き継がれません。長期的な学習機能が今後の課題です。
結論
Magentic-Oneは、Webやファイル操作を伴うオープンエンドのタスクに対応する汎用エージェントシステムの有望な進展と位置付けられています。オーケストレーターが中心となって計画作成、進捗管理、エラー対応を行い、チームの他のエージェントが各種操作を実行します。
また、オープンソースとして提供されているため、開発者が自由にカスタマイズし、新たなエージェントを追加することも可能です。