Microsoft Research AI Frontiers から複雑なタスクを自律的に解決するための「汎用マルチエージェントシステム」Magentic-Oneが発表されました。その仕組を説明している論文を紹介します。

Magentic-Oneの解説

Magentic-Oneとは

Magentic-One は、Microsoft Research AI Frontiers によって開発された、複雑なタスクを自律的に解決するための「汎用マルチエージェントシステム」です。複数のエージェントが協力して、プログラムの実行、Webの操作、ファイルの処理などの役割を分担し、タスクを効率的に完了します。

各エージェントの役割

Magentic-One には、中心的な「オーケストレーター（Orchestrator）」エージェントと複数の役割を担うエージェントが存在します。以下は各エージェントの役割です：

オーケストレーター (Orchestrator)
- タスクの全体計画を立て、進捗を監視し、タスクの再配分や修正も行います。
- 他のエージェントに指示を出し、各エージェントの活動をコントロールする中心的な役割を担います。
コーダー (Coder)
- プログラムのコードを作成し、他のエージェントから得た情報をもとに新しい処理を行います。
- Pythonコードの生成やデバッグも担当します。
Webサーファー (WebSurfer)
- Webページをナビゲートし、情報収集やフォーム入力などWeb上で必要なアクションを実行します。
ファイルサーファー (FileSurfer)
- PDFや画像、動画などのファイルを処理し、必要な情報を抽出します。
コンピュータ端末 (ComputerTerminal)
- Pythonコードやシェルコマンドの実行を担当し、ファイル操作やプログラムの実行結果を返します。

Magentic-Oneの特徴

Magentic-Oneの主な特徴は以下の通りです：

タスク計画とエラー回復
- オーケストレーターが詳細なタスク計画を立て、進捗を追跡し、エラーが発生した場合には計画を修正します。
- 必要に応じて他のエージェントにタスクを再割り当てし、最終的なタスク完了を目指します。
モジュール性（Modularity）
- エージェントの追加・削除が容易で、特定のタスクに応じてシステム構成を柔軟に変更可能です。
- 例えば、Web操作に特化したエージェントのみを追加しても、他のエージェントに影響を与えません。
ベンチマーク評価
- Magentic-OneはGAIA、AssistantBench、WebArenaの3つのベンチマークで評価され、他の最先端システムと比較して堅実な性能を示しました。
オープンソースツール
- Magentic-Oneの評価には「AutoGenBench」という評価ツールが使用され、再現性のあるテスト環境でエージェントの性能を安全に評価できます。

Magentic-Oneの評価と課題

Magentic-Oneは、複雑なタスクに対して堅実な性能を発揮しましたが、以下の課題もあります：

コストと待ち時間
- Magentic-Oneはタスク完了に多くのリソースを消費し、各エージェントの呼び出しにも時間がかかるため、コストと待ち時間が大きくなる可能性があります。
マルチモーダル対応の制限
- Magentic-Oneは画像や音声などの処理が制限され、例えば、動画を直接見て情報を取得することができません。
アクションの制限
- Webページでのホバーやドラッグアンドドロップなど特定のアクションがサポートされていないため、操作が制限される場合があります。
学習の制限
- Magentic-Oneはタスクごとに試行錯誤して最適な方法を見つけますが、その経験が次のタスクに引き継がれません。長期的な学習機能が今後の課題です。