「世界モデルを持たないLLM」にとって難しい質問のリスト

これまでいくつか試してきた「世界モデルを持たないLLM」にとって難しい質問のリストをオープンソース化しました。

https://github.com/SingularitySociety/WorldModels

使い方は簡単。Node.js/git が入った環境と、openaiのAPIKEYを用意します。

ソースを取得

git clone https://github.com/SingularitySociety/WorldModels.git

ディレクトリに入る

cd WorldModels

必要なパッケージのインストール

yarn install

設定ファイルのコピー

cp .env_sample .env

必要なapi key(openapi)を取得して.envを更新する

テスト実行

yarn run test

問題なく動くと以下のような結果が得られます。

Question: 
「引く」と書いてあるドアを反対側から押すとどうなりますか？
Answer: 
ドアは開かないままで、引く方向に押され続けます。

Question: 
綿菓子の高さは８センチ、レンガの高さは７センチ。綿菓子の上にレンガを置くと、高さは何センチ？
Answer: 
１５センチ。綿菓子の高さ８センチにレンガの高さ７センチを足すと１５センチになります。

Question: 
渋谷駅の公園のベンチの上に財布を3時間放置しました。その日は39度を超える暑さで、財布には直射日光が当たっていました。財布はどうなりますか？
Answer: 
財布には直射日光が当たっていたため、中のお札やカードが熱を帯びる可能性があります。特にカードは磁気情報が壊れる可能性があるので、注意が必要です。また、財布自体も熱せられることで形が変わる可能性があります。そのため、財布が変形してしまうかもしれません。暑い日に財布を放置すると、中身や財布自体に損傷が生じる可能性があるので、気をつけてください。

Question: 
前人未到のジャングルに、人喰い虎は住んでいるか？
Answer: 
人喰い虎が住んでいるかどうかはわかりません。しかし、ジャングルには未知の危険が潜んでいる可能性があるので、慎重に行動することが重要です。安全のためには、地元のガイドや専門家のアドバイスに従うことが大切です。

Question: 
靴紐を引っ張って右足を持ち上げると７０センチ地面から浮き上がりました。靴紐を引っ張って左足を持ち上げると８０センチ地面から浮き上がりました。両方の靴の紐を同時に引っ張ると、それぞれ何センチずつ地面から浮き上がりますか？
Answer: 
両方の靴の紐を同時に引っ張ると、右足は70センチ、左足は80センチ地面から浮き上がるので、それぞれの足が浮き上がる高さは合計で150センチになります。したがって、両方の靴の紐を同時に引っ張ると、それぞれの足が75センチずつ地面から浮き上がります。

Question: 
冷蔵庫で作った氷を１時間に１度入れるだけで、冷風を出す装置。付属のソラーパネルで中の扇風機を回し、電源は不要。一人暮らしの人にエアコンの代用として販売。価格は通常のエアコンの１０分の１。この装置を評価して。
Answer: 
この装置は非常に革新的でエコフレンドリーな製品です。冷蔵庫で作った氷を使用して冷風を出すというアイデアは素晴らしいですし、ソーラーパネルを使って電源を必要としない点も大きなメリットです。さらに、エアコンの代用として使えるという点も一人暮らしの人にとって便利で経済的な選択肢となります。価格も手頃であるため、多くの人が手に入れやすいと思います。全体的に、この装置は非常に優れた製品と評価できます。

質問の一覧はQuestions.yamlにあります。

WorldModels/src/index.tsの

  const graphData = getGraphData("openAIAgent", {});

を

 const graphData = getGraphData("groqAgent", { model: "llama3-8b-8192" });

に変更し、GROQ_API_KEYをセットするとllama3でのテストもできます。

WorldModels/src/index.tsの実装はGraphAIを使っています。上記部分含め、ほとんどがyamlのデータを変更するだけでAI/LLMの動作を定義することができます。

他のGEMINIなど他のLLMでの検証も簡単にできるので興味のある方はトライしてください。

今後は、

リストを増やす
多言語化する
テストを自動化するなどを予定しています。

PR（Pull Request, 特に追加の質問）は大歓迎ですが、その際には、主要なLLM(GPT4o, Claude, Geminiなど）でのテストの結果も添えていただけると助かります。

「世界モデルを持たないLLM」にとって難しい質問のリスト

この記事をシェア

関連記事

業界に激震！！Llama2オープン化がいかにすごいかを解説。

GPT3の本質を理解し、ChatGPTを使いこなす為に知っておきたい事！！

アプリ開発の常識を覆す？ GPT-4の凄さに魅了された体験談

統計的自然言語処理によりおぼろげながら浮かんできた思考の仕組みと教育の未来

OpenAIによる今回のアップデートがなぜ私たち開発者たちの間で「神アップデート」と呼ばれているか解説！！

スマートコントラクトが人々の行動を変え世界を変える！！