「世界モデルを持たないLLM」にとって難しい質問のリスト
これまでいくつか試してきた「世界モデルを持たないLLM」にとって難しい質問のリストをオープンソース化しました。
使い方は簡単。Node.js/git が入った環境と、openaiのAPIKEYを用意します。
ソースを取得
git clone https://github.com/SingularitySociety/WorldModels.git
ディレクトリに入る
cd WorldModels
必要なパッケージのインストール
yarn install
設定ファイルのコピー
cp .env_sample .env
必要なapi key(openapi)を取得して.envを更新する
テスト実行
yarn run test
問題なく動くと以下のような結果が得られます。
Question:
「引く」と書いてあるドアを反対側から押すとどうなりますか?
Answer:
ドアは開かないままで、引く方向に押され続けます。
Question:
綿菓子の高さは8センチ、レンガの高さは7センチ。綿菓子の上にレンガを置くと、高さは何センチ?
Answer:
15センチ。綿菓子の高さ8センチにレンガの高さ7センチを足すと15センチになります。
Question:
渋谷駅の公園のベンチの上に財布を3時間放置しました。その日は39度を超える暑さで、財布には直射日光が当たっていました。財布はどうなりますか?
Answer:
財布には直射日光が当たっていたため、中のお札やカードが熱を帯びる可能性があります。特にカードは磁気情報が壊れる可能性があるので、注意が必要です。また、財布自体も熱せられることで形が変わる可能性があります。そのため、財布が変形してしまうかもしれません。暑い日に財布を放置すると、中身や財布自体に損傷が生じる可能性があるので、気をつけてください。
Question:
前人未到のジャングルに、人喰い虎は住んでいるか?
Answer:
人喰い虎が住んでいるかどうかはわかりません。しかし、ジャングルには未知の危険が潜んでいる可能性があるので、慎重に行動することが重要です。安全のためには、地元のガイドや専門家のアドバイスに従うことが大切です。
Question:
靴紐を引っ張って右足を持ち上げると70センチ地面から浮き上がりました。靴紐を引っ張って左足を持ち上げると80センチ地面から浮き上がりました。両方の靴の紐を同時に引っ張ると、それぞれ何センチずつ地面から浮き上がりますか?
Answer:
両方の靴の紐を同時に引っ張ると、右足は70センチ、左足は80センチ地面から浮き上がるので、それぞれの足が浮き上がる高さは合計で150センチになります。したがって、両方の靴の紐を同時に引っ張ると、それぞれの足が75センチずつ地面から浮き上がります。
Question:
冷蔵庫で作った氷を1時間に1度入れるだけで、冷風を出す装置。付属のソラーパネルで中の扇風機を回し、電源は不要。一人暮らしの人にエアコンの代用として販売。価格は通常のエアコンの10分の1。この装置を評価して。
Answer:
この装置は非常に革新的でエコフレンドリーな製品です。冷蔵庫で作った氷を使用して冷風を出すというアイデアは素晴らしいですし、ソーラーパネルを使って電源を必要としない点も大きなメリットです。さらに、エアコンの代用として使えるという点も一人暮らしの人にとって便利で経済的な選択肢となります。価格も手頃であるため、多くの人が手に入れやすいと思います。全体的に、この装置は非常に優れた製品と評価できます。
質問の一覧はQuestions.yamlにあります。
const graphData = getGraphData("openAIAgent", {});
を
const graphData = getGraphData("groqAgent", { model: "llama3-8b-8192" });
に変更し、GROQ_API_KEYをセットするとllama3でのテストもできます。
WorldModels/src/index.tsの実装はGraphAIを使っています。
上記部分含め、ほとんどがyamlのデータを変更するだけでAI/LLMの動作を定義することができます。
他のGEMINIなど他のLLMでの検証も簡単にできるので興味のある方はトライしてください。
今後は、
- リストを増やす
- 多言語化する
- テストを自動化する
などを予定しています。
PR(Pull Request, 特に追加の質問)は大歓迎ですが、その際には、主要なLLM(GPT4o, Claude, Geminiなど)でのテストの結果も添えていただけると助かります。
関連ページ
- HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge in RAG Systemsの紹介
- Magentic-One: A Generalist Multi-Agent System for Solving Complex Tasksの紹介
- 書評:LangChainとLangGraphによるRAG・AIエージェント[実践]入門 (エンジニア選書)
- SS推薦の図書
- Singularity Societyに入るには?
- 話題のネコ型ロボット「ミーア」!パワーアップします!
- 「世界モデルを持たないLLM」にとって難しい質問のリスト
- Raycastの機能拡張をカスタマイズ(テンプレート解説)
- RaycastJapan Meetup 第0回 イベントレポート
- Raycastのイベント発表資料
- Macの生産性を10倍上げるRaycastのイベント開催!!
- 「蔦屋家電+」ミーアの展示期間を延長しました!
- 安野たかひろ × 中島聡 緊急対談 書き起こし
- 蔦屋家電+でミーアたちに合う
- 安野たかひろ × 中島聡 緊急対談
- 蔦屋家電+とTi B SHOPでおしゃべり型ロボット「ミーア」に会いに行こう🐾
- W&Bミートアップ#13in東京 Stability AIとTuringからモデルサービングの最新手法を学ぶMeetup
- Turing CTOが語る自動運転2.0 生成AIで実現する次世代自律運転
- サンノゼで開かれたVisionProハッカソンに参加しました!
- おしゃべり猫型ロボット「ミーア」を開発
- コストコを超えるイノベーション!高品質・サプライズ価格なECの立ち上げ
- 空間ジェスチャーアプリを作る
- Turing Semiconductor/AI Day潜入レポ
- アーバンデータチャレンジ2023にてW受賞しました
- visionOSアプリ、Teegardenの開発物語
- エンジニア未経験のPMがChatGPTを使って簡単なプログラミングだけでプロダクトを作った話
- 新しい挑戦を躊躇する心理:優先順位の真実
- 時を超える知の投資:良書と大学教育の意義
- 動画生成AI SORAの革新とサム・アルトマンのビジョン
- イノベーションを起こしやすい組織について
- サッカー選手になりたいが、サッカーボールを蹴ったことがない人の話
- 2024年、国産クラウドに期待
- 仕事と焼肉、意外な共通点とは?
- 業界に激震!!Llama2オープン化がいかにすごいかを解説。
- OpenAIによる今回のアップデートがなぜ私たち開発者たちの間で「神アップデート」と呼ばれているか解説!!
- 統計的自然言語処理によりおぼろげながら浮かんできた思考の仕組みと教育の未来
- アプリ開発の常識を覆す? GPT-4の凄さに魅了された体験談
- あなたの NFT がゴミになるかもよ?
- GPT3の本質を理解し、ChatGPTを使いこなす為に知っておきたい事!!
- 今世紀のベストペーパー
- 「Web3がもたらす未来を考える」中島聡×塚田学対談
- これが未来の生活スタイル。遊牧民のように旅をしながら暮らす理想のノマドライフの提案。
- あなたのNFTは大丈夫?!某NFTが存在するのか確認してみました。
- 元米マイクロソフトのソフトウェアエンジニアが教える「エンジニアになりたいなら知っておいた方がいいコト!」
- 「フルオンチェーンでないNFTの怖さ」が現実に!〜フルオンチェーンNFTを可能にする技術
- 知らないと恐ろしい事に!AM/PM表記のなぞ?!
- DAOに対する「株式会社に代わる新しい仕組み」や「参加者全員が成功の果実を共有できる」という認識は間違いです。DAOの本質とは?
- スマートコントラクトが人々の行動を変え世界を変える!!
- フルブロックチェーンのスマートコントラクトは世の中に価値を提供し続ける!
- ビットコインこそ「究極のDAO」
- Pride Squiggle で画像をオンチェーンでダイナミックに生成するために使ったテクニック
- Netscapeからシェアを奪い取ったInternet Explorerが、終焉してしまった理由
- ソフトウェア・アーキテクチャの面からWeb2.0とWeb3の違いを分かり易く解説
- Web3の技術は素晴らしいがそれを生かすも殺すもエンジニア次第!
- AppleのWWDC22の基調講演で、最も私に刺さったのはCarPlay!!これが何を意味するのか?!
- Web3時代!NounsDAOの最大の発明はこれだ!
- 日本のシステムは最大のポンジースキームだった!?
- そして、すべてはソフトウェアになった
- パーソナル・ブランディング
- あなたの知らないWeb3/NFT/DAOの真実
- ハッカソン開会式のご挨拶「過去の戦争と比べて違うなと思うところ」
- NounsDAOをフォークした人にインタビューを受けました(翻訳)
- すでに解散したバンドのファンになった話
- 帝国化する企業と民主主義の末路
- 衰退していく日本のテレビ業界について語る
- Youtube のダークサイド
- 「理解できない」と言える強さ
- Oculus Go
- メタバース時代に掘り起こせそうな本屋さん
- 日本は少子高齢化・人口減少で新しい枠組みを作るのに良い実験場-<コモン>の領域を再建し人々の生活を安定させる
- Nintendo Switch とエクササイズ・バイク
- こんなダメな日本がかわるきっかけは「戦争か大災害しかない」噴火・地震・メタバースなど
- カルト・オンライン
- 中島聡×草場 壽一 「ソサエティを立ち上げた思い」
- 人工知能・機械学習の父
- 起業家と現実歪曲空間
- デマンド交通『おでかけ号』のタクシー予約/配車システムをDX化、高知・土佐清水で新登場
- 中島聡×SONY社内イベント
- メルカリ × 中島聡 ディスカッション イベントレポート
- 自動車業界の近未来
- 未来の社会のあり方
- SS推薦の動画
- 汎用人工知能・強いAIの開発にまつわる懸念点
- 未来のソフトウェアエンジニア教育を考える
- 財政出前講座 SIM2030
- Elon Musk の悩み
- Elon Musk のビジョン
- 自動運転社会のひとつの形
- Amazon Goに行ってみた
- 中島さん関連動画