「世界モデルを持たないLLM」にとって難しい質問のリスト

これまでいくつか試してきた「世界モデルを持たないLLM」にとって難しい質問のリストをオープンソース化しました。

使い方は簡単。Node.js/git が入った環境と、openaiのAPIKEYを用意します。

ソースを取得

git clone https://github.com/SingularitySociety/WorldModels.git

ディレクトリに入る

cd WorldModels

必要なパッケージのインストール

yarn install

設定ファイルのコピー

cp .env_sample .env

必要なapi key(openapi)を取得して.envを更新する

テスト実行

yarn run test

問題なく動くと以下のような結果が得られます。

Question: 
「引く」と書いてあるドアを反対側から押すとどうなりますか?
Answer: 
ドアは開かないままで、引く方向に押され続けます。

Question: 
綿菓子の高さは8センチ、レンガの高さは7センチ。綿菓子の上にレンガを置くと、高さは何センチ?
Answer: 
15センチ。綿菓子の高さ8センチにレンガの高さ7センチを足すと15センチになります。

Question: 
渋谷駅の公園のベンチの上に財布を3時間放置しました。その日は39度を超える暑さで、財布には直射日光が当たっていました。財布はどうなりますか?
Answer: 
財布には直射日光が当たっていたため、中のお札やカードが熱を帯びる可能性があります。特にカードは磁気情報が壊れる可能性があるので、注意が必要です。また、財布自体も熱せられることで形が変わる可能性があります。そのため、財布が変形してしまうかもしれません。暑い日に財布を放置すると、中身や財布自体に損傷が生じる可能性があるので、気をつけてください。

Question: 
前人未到のジャングルに、人喰い虎は住んでいるか?
Answer: 
人喰い虎が住んでいるかどうかはわかりません。しかし、ジャングルには未知の危険が潜んでいる可能性があるので、慎重に行動することが重要です。安全のためには、地元のガイドや専門家のアドバイスに従うことが大切です。

Question: 
靴紐を引っ張って右足を持ち上げると70センチ地面から浮き上がりました。靴紐を引っ張って左足を持ち上げると80センチ地面から浮き上がりました。両方の靴の紐を同時に引っ張ると、それぞれ何センチずつ地面から浮き上がりますか?
Answer: 
両方の靴の紐を同時に引っ張ると、右足は70センチ、左足は80センチ地面から浮き上がるので、それぞれの足が浮き上がる高さは合計で150センチになります。したがって、両方の靴の紐を同時に引っ張ると、それぞれの足が75センチずつ地面から浮き上がります。

Question: 
冷蔵庫で作った氷を1時間に1度入れるだけで、冷風を出す装置。付属のソラーパネルで中の扇風機を回し、電源は不要。一人暮らしの人にエアコンの代用として販売。価格は通常のエアコンの10分の1。この装置を評価して。
Answer: 
この装置は非常に革新的でエコフレンドリーな製品です。冷蔵庫で作った氷を使用して冷風を出すというアイデアは素晴らしいですし、ソーラーパネルを使って電源を必要としない点も大きなメリットです。さらに、エアコンの代用として使えるという点も一人暮らしの人にとって便利で経済的な選択肢となります。価格も手頃であるため、多くの人が手に入れやすいと思います。全体的に、この装置は非常に優れた製品と評価できます。

質問の一覧はQuestions.yamlにあります。

WorldModels/src/index.ts

  const graphData = getGraphData("openAIAgent", {});

 const graphData = getGraphData("groqAgent", { model: "llama3-8b-8192" });                                                                          

に変更し、GROQ_API_KEYをセットするとllama3でのテストもできます。

WorldModels/src/index.tsの実装はGraphAIを使っています。
上記部分含め、ほとんどがyamlのデータを変更するだけでAI/LLMの動作を定義することができます。

他のGEMINIなど他のLLMでの検証も簡単にできるので興味のある方はトライしてください。

今後は、

PR(Pull Request, 特に追加の質問)は大歓迎ですが、その際には、主要なLLM(GPT4o, Claude, Geminiなど)でのテストの結果も添えていただけると助かります。


関連ページ