Turing CTOが語る自動運転2.0 生成AIで実現する次世代自律運転

はじめに

日本でテスラを追い抜いて完全自動運転を目指すTuring社のCTO青木氏が自動運転2.0について解説されたので書き起こしをお届けします。
会場入りが遅かったので質疑応答からの参加でしたが、MIT Technology Reviewさんが動画をシェアして下さったので内容は動画で見ました。なので、レポートのソースは動画になります。

自動運転2.0生成AIで実現する次世代自動自律車両

[以下青木CTO]

よろしくお願いします。
今ご紹介預かりましたチューリング株式会社の共同創業者取締役CTOを務めています青木と申します。
昨日発表されましたが、今回チューリング株式会社は創業して2年になりますが、NTTドコモさん、みずほさん、デジタルハーツさん、あとヤンマーさんとかから資金調達を行いまして、プレシリーズAというなかなか難しい表現ですが、プレシリーズA前半で30億円という、まぁこの後なんかがあるんだろうなぁという、こう含みのある持たせ方をしています。
今日は資金調達とかそういう話ではなくて、テック領域の話にフォーカスを当てて、自動運転2.0生成AIで実現する次世代自動自律車両というタイトルでトークをさせていただこうと思います。

まず、1本動画を見ていただきたいと思います。

いわゆる基盤モデルとか生成AIという単語を2021年ぐらいから単語としては使っていたんですが、なかなか理解されない状況下で、世界で初めて生成AIでデザインする車両ということで発表させていただき、こちら意外とアメリカとかイギリスからは反響があって、生成AIとかそういうもので自動車の領域ってもっと変わるんだという反応を得ることができたかなと思います。
まぁ完全自動転になるともちろんハンドル席もないし、外見えなくてもいいかもしれない、おそらく居住性の高い大きな車になるんだろうということで、こういう車を発表させていただきました。


1回、会社側の説明に入りますが、我々「生成AI」とか「AI一発で自動運転をさせましょう」ということで、「自動運転2.0」というタイトルをつけています。自動運転車ってもう10年ぐらい、多分皆さんメディアで見たり、もしかしたら乗ったこともある方もいるかもしれません。意外と公道に出てこないなぁと思っている人もいると思います。その辺の話も含めて、今日はお話しようと思います。私はもともと、自動運転車をアメリカで作っていた人間で、CEOの山本一成さんは「将棋AIPonanza」というものを作っていた人間です。本当にテックの人たちが創業し、メンバーも全員エンジニアというチームを作って、エンジニアリングに強い自動運転企業を作ろうということで、こういう会社を始めました。ミッションは「We Overtake Tesla」というふうに書いてますが、これを日本語に直すと「テスラを追い抜こう」ということで、“オーバーテイク” ってF1とかでよく使う言葉ですが、追いついて追い抜いていくぞということです。別にテスラがめちゃくちゃ気に入らないとかそういうわけじゃないし、トヨタさんとかホンダさんがめちゃくちゃ気に入らないというわけじゃなくて、テスラってすごい会社なんですよね。自動車会社ってもう変わらないって言われ続けていて、もう生まれないと言われていたのに2000年代に入ってここ10年〜15年ぐらいで、新しい自動車メーカーを作って普通に一般の人たちが、買って乗れる車を市場に出している。SNSを見ているといろんな叩かれ方しているけれども、それだけ注目度が高くて、かつ普通に買える車をゼロから立ち上げたというのは、すごくリスペクトするべきだと思いますし、そこに挑戦をしなきゃいけないということで掲げています。先ほどちょっとお話ししましたが、一番最初の調達の時にKDDIグループだったりとか、いくつか入っていただいて今回もドコモさんとかヤンマーさんとか、割といろんな会社に入っていただいて、金額面でいうと50億円超を全体で調達していて、政府補助金も10億円には届かない程度のお金を入れていただいています。


ちょっと個人の話をしますが、私は東大で修士まで出てアメリカのカーネギメロン大学で博士をやっていました。
この時に、真ん中に写ってますように、自動運転車を作ってたりですとか、これをフィラデルフィアとかワシントンDCとかピッツバーグとか、そういうところで自動運転車のデモンストレーションとして、いわゆるレベル4ですね、決められた道を決められたシナリオのもとで自動運転させるというプロジェクトに入って、自動運転車を作って、その間ゼネラルモーターズさんとかグーグルさんとかと一緒に研究したり、自動運転車を作ってたりとか、すごく幸せな20代を過ごせたかなと思います。
ちなみにチューリング株式会社というのを2021年8月に創業して、MITテクノロジーレビューさんからも、実はイノベーションアンダーサーティーファイブという賞をいただいていて、もし若い方で35歳以下で聞いている方がいればぜひチャレンジしていただければと思います。
その時に一緒に取った人たちも会社立ち上げたりとかアカデミアで活躍してたりして、意外と横のつながりがあっていいイベントだったかなと思います。
私自身はすごく幸せでグーグルさんとかゼネラルモーターズさんと一緒に自動運転車を作って、なんかアメリカでやってますみたいな。日本はちょっと遅れてるかなとアメリカで言っていた一方で、やっぱりこうふつふつとした思いもあって、なんかこの後日本って自動車業界すっごい強いけど、どうするんだろうと思っていた中で、


あるルーマニア系の教官、向こうでPhDやると教官が5〜6人について、彼らがPhDに値するかというのを査定してくれるんですが、その査定官の一人の教官にこんなことを言われました。
”How can we conquer the market held by Japanese car makers by autonomous driving?”
日本語に直すと「日本の自動車メーカーが持っている市場をこの後自動運転システムでどう奪っていけるか」という話をランチしてる時にパッと気軽に言われたんですね。
ある側面では彼は私のことをアメリカにいるアジア系の留学生として扱ってくれた一方で、日本人として見た時に、あぁなんか市場を奪われるかもしれないんだっていうショックを受けたわけですね。


これがなんでショックなのかを家に帰ってふつふつと考えてみたんですが、実は日本ってものづくりがすごい強い、まあ実はじゃないですね。すごい強い国なんですよね。製造業とものづくりで食べてきた。なんかこう町工場がよくテレビとかに出てきますが、パソコンの部品を作っているとか、iPhoneの部品を作っている、携帯電話の部品を作っているという話はよく聞くと思います。ただ一方で、ソフトウェアが入ってきて業界を変えますよって言った時に、その流れに置いてかれてくことが、ここ30年ぐらいすごく多かったんじゃないかと思います。一番大きな例が、Windows OSが出てきてなんかガワだけ作るのが日本で、日本のメーカーとか、韓国・台湾のメーカーが作っていて、ソフトウェアのところはWindowsが取っている。もしくはiOSが取っている。同じように、携帯電話も日本はすごく強かったはずなのにiPhoneが出てきて、ソフトウェアのところは、アメリカのAppleが取っている。なんかニュースとかSNS見てると、いやでも部品は日本のものが使われてますよって言っているんだけれども、本当に利益取っているのどこなんだっけ、一番取っているのはAppleですよね、Windowsマイクロソフトですよね。というのはすごい悔しいことだと私は個人的に思っています。


同じ変化が車業界で起こるんじゃないか、起こるんだったらすごく恐ろしいことが起きると思っています。実際今、テスラはめちゃくちゃそういうことを起こしています。ソフトウェアファースト、ソフトウェア中心の車を作っていて、もう鍵すらもない。乗り込んでそれをユーザーだと認識したらエンジンが、電源が入る。そういうソフトウェアを作る人が考えた車を作り始めている。車好きの人間からしたら、いや、そんな人間の安全とか命に関わるものをスタートアップで、テスラみたいな会社が作ってどうなんだ、という気持ちもある。

一方で、世界はテスラを評価しているわけです。これ左側にテスラの時価総額が書かれていて、右側に既存の自動車メーカーが書かれています。これは1〜2年ぐらい前の情報なので少し動いていますが、テスラの時価総額に対してトヨタさんやフォルクスワーゲンさん、ダイムラーやGMを積み上げていっても、これだけ差がある。これ別に時価総額がすべてと言うわけではありませんが、テスラを確実に皆さん評価しているんですよね。30年後に世界一になる自動車メーカーどこだって言ったときに、いや、トヨタじゃないんじゃない、ホンダじゃないんじゃない、って多分世界の人たちが思っている。テスラはあるかもしれない、そう思っている。これはすごい悔しいことだと、私は個人的に思っています。


実際数字に出してみると、日本の年間での自動車の出荷額は60兆円を超えていて、全人口に対しても約10%ぐらいが自動車で生計を立てています。これをソフトウェアで荒らされるというのは、すごく怖いことであり、基幹産業の危機と軽く言えないほどです。我々が外貨を稼いでいる産業が一つ消えてしまうか、あるいは我々が今想像しているよりも小さくなってしまう可能性も考えられます。そこは本当に怖いことだなと思っています。


もう一つ良い表現をすると、情報のプラットフォーム化が進みます。データがたくさん取れるとか、ボタンが単純にディスプレイに置き換わったという話ではないんです。
iPhoneの変化と同じように、車もエンジン車がEV車になりました。
自動運転化が進みましたという話だけではなく、ソフトウェアによって業界がぐるっと変わっていくというのを考えると…


なんか経産省が最近よく言ってるデジタル工作人とかITの植民地という、かなり強い単語を使っていますが、なんかこうサービスを作れば作るほどアメリカだったりとか中国に払っていくお金がどんどん増えていって、これアプリ作ったことある方がいればわかると思うんですけど、なんかスマホアプリって学生の時私作ってて楽しかったんですよね。楽しいですしちょっと小遣い稼ぎになる。でも一方で3割ぐらいAmazonに払って、3割ぐらいiOSに払って、なんかすごい税金みたいだなと思うんですけど、これって江戸時代の五公五民とか、そういう感じなのか?結構悔しいなって思っていました。といった時に自動運転化とか車のソフトウェアっていうところは、


日本でやらなきゃいけないところだと思って、チューリングという会社を創業しています。
自動運転車って、なんかこう、来るぞ来るぞと言われつつもなかなか来ないんですよね。


最近、長野県で走っているレベル4の自動運転車です。別にこれを批判するわけじゃないですが、なんかセンサーをたくさんつけて、例えば誘導線を引くと安全に走行できますよとかですね。いろんなセンサーをつけて複合的にすれば安全性が高まりますと言っています。たぶん研究者とか一人のエンジニアとしてはいろんなセンサーを評価できて楽しいとかですね。このセンサーがなくてもこっち側が動いてすごく嬉しいとか、やっていくんだけれども、本当にユーザーが欲しいのはこれなんだっけ、というのは、やはり我々は常に問いかけなきゃいけなくて、技術の進化にこういうことをやらなきゃいけないのはそうなんだけれども、一方で今、中国を見るアメリカを見ると自動運転車が公道を走り始めているという事実は、ちゃんと見なきゃいけないかなと思っています。我々が「AI一発で」と言っているのは、こういう風にセンサーをたくさんつけるとかね、ルールをたくさん加えていくという話じゃなくて、おそらく今、我々が生きている2024年って、ChatGPTが出てきた2023年、文書が生成されます絵が生成されますという、いろいろなことがAIによって塗り替えられていく。一つ一つのタスクがAIにとられていくのを考えると、自動運転が社会の期待を背負い始めたのかなというふうに思います。

我々は、生成AIと自動車作りの両方で2つの大きなプロジェクトに取り組んできました。

一つ目は、世界初のコンセプトカーの発表であり、その初公開動画も制作しました。

そしてもう一つは、LLM(Large Language Model)を活用した世界初の自動運転システムの開発です。

これらのプロジェクトについて、少し詳しく紹介していきたいと思います。


生成AIやLLMとか、本当に自動運転車に必要なんですかと言われると、必要なんですよね。なんで必要かというと、LLMってある程度の常識もしくは、生きてきて獲得してきたような、なんかふわっとした情報を持っていて、この彼らというか生成AIやLLMって、なんか医療の情報、法律の情報、文化的な情報など、ある程度常識を獲得しているわけです。実は我々自動車の運転を確実にするためには、そういう社会的な常識、文化というのも理解しないといけないんです。

何かこう、自動運転車の研究とか情報を見ると、「Waymoさんが2万キロ走りました」とか「トヨタが5万キロ走りました」という、なんか走った距離によって評価が出されるかというと、意外とそうでもないんですね。なんでかというと、多分この中にも運転する方しない方いろいろいると思いますが、私たちって運転めっちゃするから運転上手なんですか?運転しないからできないというのはあるかもしれないけれど、なんか5万キロ走ったから運転上手なんだっけ?そうじゃないですよね。実は18年間生きてきて、いろんな常識を獲得しました。そこで教習所というものに通って交通ルールもしくは運転の文化を理解して、運転ができるようになる。実は人間ってこの自動車の中ではなくて、外で獲得した知識を運転に使っているわけです。というのを考えると、このいわゆるLLMみたいな常識を獲得している、社会的な文化を分かっているAIというものを自動車に使わなきゃいけない。それくらい運転というタスクは難しいタスクだと、我々は考えています。従来型の自動運転車ここ10年間ぐらいって、センサーをたくさんつけるとかライダーで何か情報を見るというのをやってきました。私もやってきました。ただ一方で、本当に完全自動運転車できるのかというと、なんか明らかに足りてない技術があったんですね。あったからこそなんかコーンを置いて道を決めてそこを走るとか、工場の敷地内だけ走るとか倉庫内だけ走る自動運転車が出てきても、なんか意外と公道に出てこない、そこが今の現在地かなというふうに思います。


我々ここ10年ぐらいでたくさんのことを見てきました。左側に書いているのは、縦軸が性能で横軸が時間軸で、ルールベースのものをコツコツ作っていって、なんとなく動くけど完全にはならないな、めちゃめちゃ強くはならないな、という感じでコツコツ積み立てていくんですね。これをルールベースと呼んでいます。ルールをたくさん作ってそれに合わせて、ロボットが動くとか、プログラムが動くのでマイルストーンだけ追ってます、という人からするとルールベースってすっごい安心するんですよ。

あちょっと動いてるみたい。半年後に言ったらまた動いてる少し進展してる。でもそこから大きいブレークスルーって起きてきましたか、今までここ10年のここ5年間のブレークスルー。例えば、Open AIがGPT-3.5を出しました、4を出しました。Stability AIが絵を書くAIを出しました。多分アレって1年前に誰かがチェックしに行っても何にもないんですよ。もうちょっとでできる待てっていうやつがいて、本当にできるのっていうチェックするやつがいて、ある日突然こう汎用で強力なAIが打ち抜いていくという現象を我々は実は目にしてきました。
まあ、Open AI、Stability AIは我々のうちのCEOが作っているのは、将棋AIのPonanzaというのを作ってるんですが、彼もAI一発で将棋でめちゃくちゃ強くするというのをある日突然強くなって、ある日突然名人に勝てるぐらいの強さになっていって、もうそこの赤い線ですね。これがこうルールベースをぶち抜いた時には、もうルールベースは絶対に追いつくことができないわけです。将棋AIって今もう本当ディープラーニング一発でできるようになってて、ちょっと自慢すると、うちのCEOがPonanzaを作ってたんで、藤井聡太さんもうちのオフィスに遊びにきてたりするんですね。

実はこれ10年ぐらい前私が学生だった時覚えてるんですけど、東大とか筑波大とか、もしかしたら今日は将棋AIを作っている人とか、囲碁とか作っている人いるかもしれませんが、昔ってそれだけやる人たち、それだけやる研究グループが東大とか筑波大とかにもあったんですよ。なんか王将の横に金があると5点1個離れた3点みたいな世界があって、それをこう全部点数づけしてやっていく世界ってのがあって、一方でいやもう人間と同じように棋譜を読み込んで、AI同士戦わせればいいじゃん、っていう人たちがいて、まあそれの最先方がPonanzaなんですけども、そういうのをぶち抜いていく世界というのを我々見てきました。

同じように自動運転車も、おそらく今ルールベースと赤線と黒線が交差するちょっと手前だと思いますが、おそらくAI一発でというのがもう近い将来起こると思っています。なんでこれが必要かというとですね。

運転環境って非常にこうロングテールな事象が多いんですね。これ、まあロングテールって英語でよく使う単語なんですが、縦軸が頻度よく起こるかどうかで横軸が難しさですね。左側の写真とかですね、こういう普通によくある高速道路って頻度高く発生するし、簡単なんですね。白線見て走ればいい一方で、右側の交通誘導員のところ少し説明します。結構難しいんですね。これ右側です。我々、運転者としてどうですか?行けそうですかね?多分行けるんですよね。


多分行けるんだけど、なんで行けるかというと、ちゃんと見てあげるとですね、人間はこの左側の黄色の工事現場が起きてるなとか、交通誘導員が向こう向いちゃってるなとか、こっち見てくれないんだとか、でも赤い棒を持ってて、横に置いてるってことは、行っちゃいけないんだな、
奥にはカラーコーンがあるな、あれは避けた方がいいんだなとか、信号機は今赤だとか、いろんな根的情報を複合的に食べて考えるわけです。


左側の画像と右側の画像、どうですか? 左側はおそらく工事をしていて、この工事と交通誘導員の、おそらく独立ではない、なんか関連性がある。 右側のおじさんが手を挙げてるけど、このおじさん多分意味不明なんですよね。 タクシー待ってるか、人を呼んでるか、多分工事とはちょっと独立かな、帽子かぶってるし、ちょっとおしゃれだし。 これって実はルールベースの自動運転車だと全然無理なんですよ。 人がいます。 人を避けなきゃいけません。 奥に工事現場があります。 それくらいしか分からない。 それじゃあこの自動運転車って公道に出てこれないんですよね。 だからこそ今私たちが外に出て、これからじゃあ帰宅しますって言ったときに、タクシーに乗るか、もしくは電車に乗るか、自動運転車に乗って帰ることができないわけです。


それはこういうロングテールな事情をうまくマネジメントする、世界を理解してるAIが今ここにないからです。
これを作らなきゃいけない。
我々チューリング株式会社はAI一発でと言っていますが、すぐ自動運転AIがバツッとできるわけではなくて、


いわゆる生成AIをマルチモーダルAIというものにまず拡張をしました。
これ何やってるかというと、左側に画像を入れて、右側に文章を入れると何が起こってるかを教えてくれます。
このHeronというものを作ってですね、これ遊べるんで後でチューリングHeronとかって検索してみてください。
自分で画像を入れて文章を入れると、猫の画像を入れて、この猫どうですか、何色ですかとかって言ったら教えてくれるし、この画像って面白いですか、面白いとこ教えてくださいとかって言ってくると出てきます。
これ話戻ってきて、このスライド何やってるかというと、道路状況を教えてくださいって打つとですね、この赤文字のところを拾ってあげると、今工事中ですと。工事してて後ろに信号機とかがあったりとか、交通誘導にもいるので、交通誘導の指示に従いながら安全に行々しましょうと。かつ、反射材を着ている人がいるので、彼は彼の指示に従いましょうとかってことを言ってくれます。
今進んでいいですかっていうと、進むのは難しいです。
なぜなら赤信号だし、作業着を着ている交通誘導員は向こうを向いていて、コミュニケーションできていないからと答えてくれるわけですね。
これくらいの高度なコンテキストが理解できないと自動運転車って、実は走れないんですよね。というか自動車って運転できないんです。


もう一つ大切な、我々のHeronを使って、一つ大切な知識を自動運転車が獲得しつつあります。
左側、これ豚が高速道路に逃げ出している。日本での状況です。
これ多分我々の中で、今ここにいる空間の中で、これ見たことある人いないんですと思うんですよね。多分一人か二人かいるとしても。これってどうですかね、豚がいます。高速道路です。
これルールベースでエンジニアが想像して描けますかね。描けないですよね。
データベースに豚の写真を入れておいて、豚と適合して豚をどう避けるかとかって、ルールで書いていくんですか。多分書かないですよね。
でも人間ってこれ見て笑っちゃうかもしれないけど、なんとかできるわけです。
Heronは何を言ってるかというと、この豚の画像を上げてあげて、これどう運転すべきですかっていうと、3匹の豚がいます。これ逃げ出していますが、彼らこの豚に危害を加えないように、前の車両についてゆっくり徐行してくださいと。それくらい言ってくれるわけですね。
これくらいの知識を獲得している、すでにこの生成AIベースの自動運転車というのを獲得していて、こういうロングテールに発生する事象もマネジメントすることができています。
これ別に今までの自動運転車、いわゆる今回2.0というふうに言ってますが、1.0の人たちがアホやねんとかっていう話ではないです。
私自身も1.0やってましたから、そんなこと言えなくてですね。


これ実は2.0とぐちゃぐちゃになっちゃうんで、第3世代というふうに呼んでいます。
これですね、今世界的にも自動運転って15年くらい皆さん研究してて、人類のたくさんのお金とたくさんの知識と、たくさんの人間が力を尽くして自動運転の実現を目指していますが、3つ大きな潮流があると言われています。
左側、これ年代ごとに直していくと、第1世代が2012年くらいからのCNN、いわゆるニューラルネットワークが出てきた時ですね。
なんかニューラルネットワークって最近の技術のように見えて、もう10年くらい前なんですね。
第1世代の時何ができたかというと、なんかバウンディングボックスというものが出てきて、なんかこれ信号機ですとかですね、人ですとか、猫ですとかっていうのが、いわゆるニューラルネットワーク、人工知能によって認識できるようになってきた。
なのでこの認識機を使えば自動運転できるんじゃないの?って言って、わーっと投資が集まったけどもできない。
で、アメリカとか中国とかですね、たくさんの自動運転スタートアップができて、たくさん潰れました。
いくつか残っていて、いくつかはすごく強く残っています。
残る奴らはやっぱ強いんだなとかって思いますが、第2世代になるとですね、ここに構成のマップ、いわゆる地図にたくさんの情報を詰め込んで、それで走れるんじゃないの?例えば、止まるのサイン、信号機の情報、もしくは交通止めのサインとかですね、いろんな情報、交通の速度の上限値とか、いろんな情報を構成のマップに落とし込めば、いけるんじゃないの?というのが2018年、19年くらいから、第2世代の自動運転車として登場しました。
これですね、結構役に立ったんですよ。まあ倉庫だったりとか、今アリババとか、アマゾンの倉庫って、もう人間が手を加えずに、自動ロボットが物を動かしたりとか、物体を運んだりしてくれています。
まあ彼らって、まあ普通に物、倉庫内だと、この地図側に情報をバツッと集めて、航行するということが可能です。
一方で公道では難しいんですね。
なぜかというと、これなんか私、最近人間の不覚実性と呼んでます。
人間の行動を全部予測するって結構難いんですよ。AIならできるかもしれない。
でもそれをエンジニアとか地図側で全部マネジメントしますっていうのは、全然できないんですね。
だって今私がここで急に踊り始めるかもしれないし、おばあちゃんが道路上で転ぶかもしれない。それを地図上に全部入れていくっていうのは到底無理の話だし、
もしかしたら、交通誘導員のお兄さんとか、お姉さんとかが急にコーンを立てて、ここ入れませんってやってくるかもしれない。
人間ってここ入れませんって言ってコーンを置かれたらちゃんと避けて走ってくれるんだけども、グラウド側をじゃあどういうふうに更新していきますか。
それは本当に真の情報ですかっていうのを考えていくと、高精度マップに日本の公道の情報全部を入れていくっていうのはやっぱり難しいんですね。
というところでちょっと下火になってきました。
一方で第3世代、いわゆるLLM、生成AIというのが2023年の年初に出てきて、ここで自動運転の研究そのものががっつり変わりました。
今先ほどHeronもいくつか論文投稿とかですね、国際論文の方にも発表してますが、なんかこう、言語を介した応答と、かつですね、AIそのものが何かを認識するとかですね、
何か一つのモジュールをAIが担うんじゃなくて、全部一括でAIが運転の行動の決定までしてくれるというシステムが、
この第3世代で現れてきた新しい自動運転システムです。


左側は、これ第1世代、第2世代の自動運転車のいわゆるデモ動画というか、よくある、我々もなんか見たことあるかもしれません。人とか車が見えていて、信号機が見えていてみたいな。
これ何パーセント猫だって、何パーセント犬ですとかっていうのを書いてるんですね。
数年前まで自動運転系の学会とか、研究会とかってこういうのをたくさん発表してたんですけど、今論文見るとこんな感じになっています。
これ結構面白くて、上側に画像を張っつけて、キャプションのところに文章、我々のさっきのクエリみたいなものを打つと、そのAIがどんな回答してくれましたかというのを、うちだったらチューリングだったらHeronを出します。テスラだったらこれを出します。
とかっていうのをやっていて、ここのコンペというか戦いになっているのが今の状況です。


これ結構意外と使えてですね、これ例えば右下の画像とかをHeronに入れて、この画像、あなたは自動運転者です。
この画像どう思いますかというと、なんか霧が出ていますとかですね、逆光になっていますとかですね、
なんか赤いコーンが並べているので、慎重に走ってくださいとか結構言ってくれるんですね。
こういう変化がLLMによって起きてきたのは、ここ2年くらいの自動運転業界です。
なので、左側のをやっている時って、いわゆるオペレーティングシステムとか組み込みシステムの人たちがめちゃくちゃ入っていって、自動運転車の土台のところを作ってきたんだけども、今本当にラストワンピースのためにAI系の人たち、生成AI系とかですね、GPUのクラスターを作る人たちとか、そういう人たちが自動運転業界にバツッと入ってきて、
エンジニアリングをしているという状況になってきています。
自動車メーカーの方、今日いらっしゃったらあれですが、自動車業界って人の安全とすごく向き合ってきたところで、AIスタートアップとか自動運転スタートアップの人たちは、すごくリスペクトを置かなきゃいけない存在だと思っています。
多分人間の命にこれだけ向き合っていくプロダクトとかエンジニアリングって今までなかった。
車ってそれだけすごい製品だと思っています。
一方で、このLLMが、生成AIが自動車の運転の行動を決定するって結構恐ろしいことなんですね。
ただ、おそらく人間の性能を超えてくるんじゃないかと。
ここ2年ぐらいのAIの進展を見ていると、そう信じざるを得ないかなというふうに思います。


我々、LLMからどういうふうに自動運転車まで持っていくかというと、2つステップを踏むというふうに思っています。
LLMから1つ大きくなってきたのがマルチモーダルAI。
これ、LLMって入力と出力が言語だったんですね。
皆さんもChatGPTとか使ったことあるかもしれませんが、言語で入れると言語で返ってくる。
一方でマルチモーダルAIというのは、入力が画像とか文章とか音声とか、いろんな入力に対して、ある一種の出力を出してくれるのがマルチモーダルAI。
ここまでは我々もHeronを作ることができたので、達成することができたと。
一方で、これからチャレンジしなきゃいけないのはエンボディードAI、完全自動運転AI。この2つかなというふうに思っています。
エンボディードAIというと、あんまりまだ慣れ親しんでないかもしれませんが、実は身体性の獲得とか、物理空間をどう理解するかというところでエンボディードAI。
AIって実は学習データのほとんどが画像とか文章なんで、物理世界がどういうものなのか理解してないんですね。
ペットボトルが軽くて、例えば車ってこれペットボトル落ちてたら踏んだほうが安全なんですよ。ペットボトルとか枯葉が落ちてたら、避けるより踏んだほうが安全である。
一方でガラスとか鉄球が落ちたら避けたほうがいい。
これって人間ってそういう知識を獲得してるんだけども、AIってまだそういう知識を獲得できてないんですね。
ここを獲得しなきゃいけないというふうに思っています。
そこまでいけたら完全自動運転AIは、物理世界を理解することができたので、運転程度のタスクができるかなというふうに思っています。
一つ、我々、LLMで動く自動運転車というのを作っていて、会社の紹介を兼ねて見せようと思います。


赤でも黄色でもないカラーコンに向かってください。


画面に青い矢印がちゃんと出ましたね、この青に向かっていく。
こういう形でですね、人間の言葉をすごく認識しているというのがよくわかる。
これ例えば、交通誘導員に指示に従ってくださいとかって言うと、従ってくれたりとか。ある程度の常識を獲得していれば、


こういうこう、誘導員の指示だったりとかっていうのも従うことができる。



(青木氏)
これですね、動画の中には答えが出てこないんですが、


こいつは、いや人を殺すのは良くないので止まりましょうとかっていう答えを出してくれたりします。
なんか意外と人間っぽい回答を出してくれたりとか、できていないこととしては、左側と右側が逆というのがわかっていないとか、前と後ろが逆というのがわかっていない、いわゆる身体性の話を先ほどしましたが、物理空間がどういうふうに動いているかっていうのは、今AIはわかんないんですね。
皆さんも赤ちゃんから成長して人間になり、人間として生まれて、人間として今育ってきて生きていると思います。
赤ちゃんって、いろんなものを触ったりとか口に入れたりとかして、なんか物質の形状とか、これはなんか硬くて怖いんだなとかっていうのを、子供の時にいろんなことを学んでいくわけです。
私たちもガラスは落としたら割れるとか、割れてそれを踏んじゃうとすごく痛いとかっていうのを、なんか経験則によって獲得してきました。
多分(大人になって)ガラスで手を切った人って世の中に(そんなに)いないんじゃないですかね。成長していく中でそういうのを学んできた。
そういうところをしなきゃいけないかなというふうに思いますし、この前と後ろが逆という話はですね、なんかこう私から見て、じゃあ例えば今右手に舞台がありますと、左手に、なんか左側にを見るとペットボトルがあります。
でもこれって実は対じゃないんですよね。人間からしたら右と左で対なんだけども、いやなんか幾何学的に見たら全然対じゃないですよね。
私から見て左って本当は壁なんで、左にペットボトルがありますっていうのは真なわけです。
でも物理世界を理解していないAIからするとこれは偽なわけです。
これは結構難しいですが、こうもチャレンジしていくポイントかなというふうに思います。


もう一つですね、ビジョンラングエッジのHeronというものを作っていて、


これ先ほどちょっと説明したのでカットしたいと思いますが、皆さんもこれデモとして使えるので遊んでみてください。
テキストによる入力・出力に対応していますが、Heronを使うことで画像の入力が可能となります。
学習済みの画像エンコーダと大規模言語モデルをつなぐアダプタを学習させることで、
単純な回答ではなく文脈を理解した自然な文章生成を実現しました。
世界で初めて最大約700億パラメータのモデル群と、最大規模な日本語の画像・テキスト・データセットを公開しました。


Heronって我々自身で作っていて700億パラメータ、これめちゃくちゃすごそうに見えるんですが、とはいえ生成AIの世界、億パラメータは当たり前になってきていて、700億パラメータの中でどう勝負するか、もしくはもう桁を上げて勝負するかという世界線になってきています。
ソースコードとかデモとかテクニカルペーパーとかも公開していますので、もし興味がある方は見ていただけたらというふうに思います。
結構これですね、学習してきても結構大変でですね、


AWSとかGCPさんにもすごく支援をいただいているものの、普通に億単位の金が飛んでいきます。


もう一つ結構難しいなと思うところは、車載モデルにどう落とし込んでいくか。
いわゆるGPT4とかですね、我々のHeronっていうのは、クラウドを使って動いているわけです。
学習のところにGPUがかかるのはもちろんのこと、推論を走らせるときですね。
走らせるときにもすごくエネルギーと電源と計算基盤が必要であるという中で、我々は今2つ解を持っています。これ結構難しいんですが、1つは車載に収まるようにちゃんと半導体まで作っていくというのは1つの解。
もう1つの解がナビゲータドライバーモデルといってですね、今日ちょっと説明いけるかな、ちょっとしてみますか。
ラリーカーとかって見たことある人いますかね。
ラリーカーって向かって左側の人はいろんな情報を持っているんです。
いろんな他社、他の車がどこに走っていて、今地図はどんなものであって、今自分たちのエネルギーはどれくらい残量があって、あと残りのレース時間どれくらいあって、今アクセル踏むべきなのか踏まないべきなのか、どれくらいまで加速すべきなのかっていうのを頭を使っていろんなこと考えてるんですね。
一方でドライバー側っていうのは、今この瞬間目の前に起こっていることに対して、気づい反射で対応していく。小石があるから避けなきゃいけないとかですね。
道じゃないから左側に曲がると危ないから、右側に曲がっていくとかっていうのをやっていくわけです。
この中でナビゲータ側っていうのは、言語によって自分で考えた後に言語によってドライバー側に情報を伝達します。
ドライバー側は目の前で起こっていることをプラスして、言語での入力に対してハンドル、アクセル、ブレーキの操作をしていく。
これですね、実は自動運転業界のところでも活用することができて、ナビゲータ側を例えばクラウド側に置きますと。
ドライバー側はちゃんと車の中に住まわせますと、置いときますと。
すると安全の確保だったりとか、いわゆる目の前で起こっている事象っていうものを車内で完結して安全に航行することができる。
一方で、すごく複雑で難しいタスクが発生した時にはクラウド側に対応ということができてですね。
割とナビゲータドライブモードルって我々も特許手順をしてたりとか、今開発も進めていますが、この辺りは実はGPTとか、GPTじゃない、LLMとか生成AIを自動車の中で活用していくという点においては、すごく画期的な技術じゃないかなというふうに思っています。


自然言語処理とか、いわゆる生成AIのところっていうのは、
自動運転の中でもすごくホットになってきました。
我々チューリングもここに名乗りを挙げて、自動運転2.0の世界に飛び込んで戦っていますが、もちろんここのトッププレイヤー、今回ちょっとスライド省いちゃったんですが、テスラが最も進んでいて、LLMの活用にもすごくオープンで、すごく動きが速いなと思う一方で、一番左側はウェイビー(Wayve)さんという、イギリスの会社です。
彼らもAI一発で自動運転ができるぞということで、日本語記事でも自動運転2.0ウェイビーとか調べると出てくるんですが、彼らもマイクロソフトさんとか、いくつかの会社さんからバックアップを受けて、自動運転2.0の領域にチャレンジをしています。
もう一つ恐ろしいというか、かなりすごくいいのが、オープンドライブラボ(OpenDriveLab)、中国の上海に拠点を構えていて、いろんな会社さんから出資を受けつつ、
アカデミアも巻き込んで、AI一発で自動運転システムを作ろうということで、中国からも大きく進展が見えます。
右側2つも香港大とファーウェイ(HUAWEI)なので、実は中華系なんですが、やはりAI領域って、web記事も見たことあるかもしれませんが、アメリカは私も行ってて感じたことなんですが、中華系のAI研究者、技術者ってめちゃくちゃ多いんですね。
っていった中で、アメリカでトップでやってた人たちが、今中国に帰ってオープンドライブラボとかファーウェイとかで活躍していて、もうAI一発で作る自動運転車というのを中国でも作っています。
ここは、一番最初の話に戻りますが、やっぱり自動運転車って海外のものを使うしかないってなると、すごく恐ろしい世界だなと思いますし、そこは負けずにやっていきたいなというふうに思っています。


我々、学習戦略というふうに書いていますが、今最初にマルチモーダル学習というのを作って、Heronというのを作りました。
ここに対して、運転ドメインの知識とか情報を盛り込んでいくことによって、左側のほうにデータ源というふうに書いていますが、ここ自社でデータを取っています。
プラスして、実は最近S.RIDEのタクシーのほうにも、データキット取得キットを乗っけて、カメラとアクセルブレーキ値を取るデータ取得セットを乗っけて、データを取っています。
プラスして、オープンな文書とか画像とか動画とかっていうのも、他の生成AIと同じように学習のフレーバーとして加えていく。
最後に、実はこれ意外と受けるんですが、交通安全ガイドブックというのは、文章と絵が書いてあるガイドブックがあると思いますが、あれをそのままAIの学習に食わせてあげると、結構模範的な動きをしてくれるんですね。
人間も交通安全ガイドブックを読んで、それ通り従わないとかがあったりするので、実はAIのほうが安全なのではないか、私はちょっと思っていたりします。
これもちろん、GPUめちゃくちゃ使います。
GPUといった生成AIのトレーニングとか、生成AIの作成、開発にものすごくGPUというものを使っていますので、


ここを実は経産省さんのGENIACというプロジェクトに採択していただいて支援を受けています。
これですね、サム・アルトマン、Open AIのボスですね、岸田首相が会って、国産で生成AIを作らなきゃいけないね、ということでスタートしたプロジェクトでして、ほんとChatGPTが出てきて、半年ぐらいでこの話がゴニョゴニョっとなって、公募が一年後ぐらいにすぐ出てくるとかっていう、かなりスピード感のあるプロジェクトが立ち上がってですね、ここにチューリング、真ん中に松尾先生、東大の松尾先生並べて、右側にプリファードネットワークスの岡野原さんを投げて、左側にチューリングいるよって言って、めちゃくちゃハロー効果として使っています。
生成AI作れる会社として7社政府で選んでいただいて、そこにチューリングも入ることができて、できたかなというふうに思います。
ここでNVIDIAのH100を280機使わせていただいています。
この後ですね、今回資金調達ともしましたので、主な使用手としてはですね、今回GPUを自分たちでクラスターを組んで作るということでやっています。


今プロジェクトとしては、我々実証実験的に北海道、東京、千葉県で自動運転車を走らせました。
一方でやっぱり人間の介入っていうのは必要なんですね。
危ない時に人間がオーバーライドして触るということをやってきました。
ただ、今回紹介したように、おそらく生成AIによって完全自動運転車って、ここから3年4年で勝負が決すると考えています。
っていった中で、なんかもうやらなきゃいけないかなということで、東京サーティーというプロジェクトをスタートさせて、今、都内の道を30分間、人間の介入なしで運転する自動運転システムというものを作っています。
この中には複雑な信号機だったりとか、交差点とか狭い道、
路中している車とかですね、自転車、歩行車、ループみたいな電動機器ボード、ああいうものの安全を担保しながら、ちゃんと自動運転システムが走れるよというのを示さなきゃいけない。
これができるくらいの技術力はおそらく日本には眠っているはずだし、それくらいのことをしないともうテスラには敵わない。
彼らはめちゃくちゃ速く進んでいくので、おそらく置いていかれるかなということで、こういうプロジェクトを立ち上げて走っています。ちょっとスポンサーとかもですね、スポンサーの企業とかも立ち始めているので、もしご興味ある方いればお声がけいただけたらなというふうに思います。
具体的に何をやっているかというと、カメラとカーナビの出力画像、いわゆる画像ですね、2つの画像にディープラーニング、AIの出力がそのまま車両を制御するということをやっていて、このためにデータ収集の車両を都内で走らせるとかですね、S.RIDEさんと一緒に提携してデータを取るとかということをやっています。
これですね、多分先ほどちょこっと話した自動車メーカーとか、伝統的に会社さんからしたら、いやそんな都内で30分自動運転なんて恐ろしいことをよくやるなと思われるかもしれませんが、スタートアップって基本的にリスクを取らなきゃいけないですね。
もう一つ隠された事実としては、みんなが口に出さない事実としては、ToyotaとかHondaって潰しちゃダメなんですよ。めちゃくちゃ食ってる人がいて、めちゃくちゃそれで生きてる人がいる。潰しちゃダメなんです。
スタートアップってたくさん出して、潰れるぐらいのチャレンジをしなきゃいけないんですね。成功するために失敗のリスクも追わなきゃいけない。っていった中で、チューリングってこの会社はおそらくは、いわゆる長崎の出島で新しい政策を試してみますよとか、海外との協議を試してみますよっていうのを江戸時代の江戸幕府がやってたように、そういう出島的にチューリングの場所を使っていただきたいなというふうに思ってますし、我々自動運転車が業界をガツッと破壊するよというわけじゃなくて、この後業界が変わっていった時に、それでも日本車が海外で売れるよというためにソフトウェア作ってますので、もしご興味ある方いれば、チューリングと一緒にというのもあると思いますし、そろそろゴールデンウィークで転職先を探すなという方がいれば、もしいればお声掛けいただけたらなというふうに思います。


これは経産省の資料を元に作っていますが、左側が今ある自動車メーカー、OEMがあって、T1サプライヤーがあって、部品を作る会社さんがあって、その部品の部品を作る会社さんがあってというところで、自動車ってすごく大きな巨大な産業構造を持ってきた業界でした。
一方で今、明らかにソフトウェアの会社がバツッと現れて、ファーウェイだったりとかテスラだったりとかっていうのが、グーグルのアンドロイドオートかもしれないけど、ソフトウェアの企業が入ってきて、というのが起こっています。
起こっていく中で、我々もこういう一つ武器を日本にも持っておかなきゃいけないなということを考えていますので、思っています。
たぶん業界が変わるんじゃないかなというふうに思っています。


海外に見るとテスラとかモービルアイ、ファーウェイといったところがソフトウェアのところを持っていますが、我々、このパソコンとかiPhoneで起きたことをもう一回やりたいわけじゃないんですよね。
ハードウェア強い国であると。外貨も稼げると。いったときにその技術力と製造力というのを活かしながら、ちゃんとソフトウェアでパワーアップしていくと。
未来が我々のあるべき未来かなと思っていますので、我々は自動車とソフトウェアのところで戦っていくと。
ここで、もし今回ご興味ある方いれば、お声掛けいただきたいと思いますし、自動運転システムを作るってすごく魅力的なキャリアーだと思いますのもしこういうところに興味ある人いれば、ご声掛けいただけたらなというふうに思います。


最後にまとめですが、今日は生成AIとかLLMが自動運転にどう必要であって、これがないと自動運転システムがそもそも最後のゴール地点まで行けないよというところを紹介しました。
自動運転2.0というタイトルを付けていますが、本当に自動運転2.0って始まったのって2023年とか22年なんですよね。
生成AIが出てきて、用意どんで走り始めて、今業界がガラッと変わっているところなので、面白いポイントなんじゃないかなというふうに思います。
左側にチューリングのテックブログというのも書いてますが、チューリング・テックブログとかって書くと、車をどう改造して自分たち自動運転化させていったかとかですね。
生成AIを自分たちでどう作っていったかとかっていうところも落とし込んでいます。
なぜかというと、生成AIって実は日本で作ったことある人ほとんどいないんですね。
Open AIが作りましたとか、テスラが作りましたとか。
アメリカで結構作っていて、内部の情報ってあんまり流れてこない中で、我々このGENIACに採択していただいて、東大の松尾研だったりとか、ABEJAさんとか、うちだったりとか、内部でコミュニティ持っていて、そういう話もちょこちょこテックブログに投げていますので、もしご興味ある方いれば見ていただけたらなというふうに思います。
今回プレイシリーズへの調達をしていますが、まだまだ前半という名も打っていますので、まだ来月、再来月にもニュースが出てくると思います。
ぜひ、我々チューリング、完全自動運転に向けて開発を進める企業に対して応援していただけたらなというふうに思います。
ちょっと短いですが、短くないな。50分くらい話させていただきました。
ありがとうございました。

質疑応答

Q1

Q2

Q3

Q4

Q5

後半のほうの[TESLAのFSDが大量データを気合いで学習したシンプルなシンプルな大規模言語モデルにすると…]
まだ大規模言語モデル入れてないと思いますね。入れてないけど入れてくると思いますっていう感じですかね。

Q6

Q7

Q8

まとめ

感想

創業者取締役CTOが自ら技術的な方向性を語る会社というのは魅力しかない。
完全自動運転を実現させるための方法論として説得力がある内容でした。
かなり広い範囲の話だったのでしかたがないと思いますが、HeronのマルチモーダルLLMの動きなどもう少し詳しく聞けたら良かったと思います。
LLMを自動運転にどう使うかではなく、LLMを脳と捉え、応用として自動運転させようと考えているのはチューリングだけのような気がしました。
また、日本の危機については大いに同意します。


関連ページ