人工知能・機械学習の父
最近、機械学習の勉強をするために、数多くの論文を読んでいます。それぞれの論文は10ページほどですが、必ずそのベースには過去の研究が存在し、それを理解せずには読みこなせない、という状況がしばしば生じます。そんな時には、その論文から引用されている過去の論文を読む必要がありますが、私のようにこの世界の新参者だと、さらにそこで引用されている論文を読まなければいけなくなることもしばしばあります。
けっこう手間のかかる作業ですが、ひと昔前であれば図書館に行かなければ不可能だった作業が、ネットに接続したパソコンされあれば、どこからでも、かつ効率良くできてしまうのですから、文句を言う筋合いの話ではありません。
そうやって歴史を遡りながら勉強をしていると、一連の研究の流れ、のようなものが見えて来ます。
例えば、「写真をゴッホの作品風にする手法」のベースになった論文「A Neural Algorithm of Artistic Style(2015年9月)」も、そのベースには、「似たようなテキスチャーを生成する手法」を提案した論文「Texture Synthesis Using Convolutional Neural Networks(2015年)」がベースにあり、さらにそれが活用しているのが、画像認識のために設計された VGG-19 というニューラルネトワークなのです(論文は「[Very Deep Convolutional Networks for Large-Scale Image Recognition][https://arxiv.org/abs/1409.1556](2014年)」)。
そうやってどんどん遡って行くと、今の機械学習のすべてのベースになる Perceptron という仕組みを1958年に発表した Frank Rosenblatt という学者にたどり着きます。
Perceptron とは、m 次元の入力ベクトル x に対して、重み付けベクトル w を掛け合わせ(dot production)、それにバイアス b を加えた値が、0以上か否かで成否を判定する、とてもシンプルな計算式です。
$$ f(x) = (dot(w, x) + b > 0) $$
ベクトルを開いて書けば、
$$ f(x_{1}, x_{2}, x_{3}, …x_{m}) = (w_{1} * x_{1} + w_{2} * x_{2} … + w_{m} * x_{m} + b > 0) $$
となります。ちなみに、不等号は真(1)か偽(0)を返す計算式です。
Perceptron は、重み付けさえ変更すれば、m次空間を二つに分割するすべての線形方程式を表現できるため、正しい学習データ(入力と出力)を与えることにより重み付けを適切に変更する仕組み(学習機能)さえ作れば、常に正しい答えを出す方程式を作れてしまいます。
Rosenblatt は、Perception こそが人工知能への道だと考え、“perceptron may eventually be able to learn, make decisions, and translate languages (Perceptron はいつの日か、学習し、物事を決め、言葉を翻訳するだろう)“とまで予想しています。
ここ数年間で急速に実用化がされるようになった人工知能・機械学習の仕組みが、Perception をベースに作られていることを考えると、Rosenblatt の予想は驚くほどまでに的を射ていると言えます。
その意味では、Rosenblatt こそが「機械学習の父」と呼ぶべき人物なのだと思います。
しかし、斬新的なイノベーションがしばしばその時代に人たちに理解されないのと同じく、Perceptron も同じ目にあってしまいます。
Rosenblatt が Perceptron を発表した約10年後の1969年に、Marvin Minsky と Seymour Papert が、「Perceptrons」という書物の中で、「Perceptron は線形の問題しか扱えず、かといって(非線形の問題を扱うために)複数のレイヤーにすると、学習が不可能になる」と批判したことが、それまで盛んだった Perceptron 研究に大きなダメージを与えてしまったのです。
たった一冊の書物のために、Perceptron研究への予算が大きく削られることになり、機械学習の研究は、暗黒時代に突入してしまうのです。
Perceptron をベースにした機械学習の研究が再び盛んになったのは、Paul Werbos という学者が発明した backpropagation という仕組みを使えば、複数レイヤーの Perceptron に学習させることが可能だということが一般的に知られるようになった (13年後の)1982年のことです。
Perceptron、backpropagation に続く三つ目のイノベーションは、Convolution Neural Network (CNN)の機械学習への応用で、これは、1980年代の終わりから1990年代のはじめに書けて、Yann LeCun 博士を中心とした研究者たちが起こしました。
この件で面白いのは、その研究が「郵便番号の自動読取装置の開発」という非常に明確なゴールのために行われた、という点です。基礎研究というと、ニーズや実用化とは程遠いところで行われているイメージがありますが、このケースでは、明確なニーズと政府の予算がイノベーションを加速したのです。
その後、機械学習はしばらく水面下で停滞しますが、これは1970年代の暗黒時代とは大きく異なり、当時のコンピュータの計算能力が「文字認識」以上のこと(例えば画像認識)をするにはまったくもって不十分だったからなのです。
これは、「半導体の集積率は18か月で2日倍となる」というムーアの法則により、90年代後半から2000年代に書けて CPU の能力が大幅に伸びてもまだ不十分で、GPU を使った並列演算が身近なものになった2010年代になって、ようやく花開いたのです。
この中でも興味深いのは、人類が文字認識に取り組んでいた1980年代には、人手による特徴点の抽出アルゴリズムが作られながら、それが結局は CNN による機械学習に置き換えられたたのと同じく、人類が画像認識に取り組んでいた2000年代には人手による「画像認識アルゴリズム」が作られながら、それが結局は深層学習に置き換えられるという似たようなプロセスを経たところです。
私自身、いろいろなアルゴリズムを作って生計を立ててきたソフトウェア・エンジニアとして、この「人間が作ったアルゴリズムよりも、大量のデータを使って統計的な手法で作ったアルゴリズムの方が良い結果を出す」という話は最初、直感的には理解しづらいものでした。
しかし、画像認識や音声・言語認識のような「あいまいさ」を含んだ処理の場合、人間が良いアルゴリズムを作る際にも、結局は「パラメータの調整」などの試行錯誤が必要なのは経験則として知っていました。それであれば、最初から「試行錯誤のみでアルゴリズムを作る」前提で設計し、「いかに試行錯誤の効率を良くするか」に人間の頭を使った方が良いと考えると、昨今の機械学習のアプローチはとても納得できるものになります。
関連ページ
- 私の寿命、あと何年?
- HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge in RAG Systemsの紹介
- Magentic-One: A Generalist Multi-Agent System for Solving Complex Tasksの紹介
- 書評:LangChainとLangGraphによるRAG・AIエージェント[実践]入門 (エンジニア選書)
- SS推薦の図書
- Singularity Societyに入るには?
- 話題のネコ型ロボット「ミーア」!パワーアップします!
- 「世界モデルを持たないLLM」にとって難しい質問のリスト
- Raycastの機能拡張をカスタマイズ(テンプレート解説)
- RaycastJapan Meetup 第0回 イベントレポート
- Raycastのイベント発表資料
- Macの生産性を10倍上げるRaycastのイベント開催!!
- 「蔦屋家電+」ミーアの展示期間を延長しました!
- 安野たかひろ × 中島聡 緊急対談 書き起こし
- 蔦屋家電+でミーアたちに合う
- 安野たかひろ × 中島聡 緊急対談
- 蔦屋家電+とTi B SHOPでおしゃべり型ロボット「ミーア」に会いに行こう🐾
- W&Bミートアップ#13in東京 Stability AIとTuringからモデルサービングの最新手法を学ぶMeetup
- Turing CTOが語る自動運転2.0 生成AIで実現する次世代自律運転
- サンノゼで開かれたVisionProハッカソンに参加しました!
- おしゃべり猫型ロボット「ミーア」を開発
- コストコを超えるイノベーション!高品質・サプライズ価格なECの立ち上げ
- 空間ジェスチャーアプリを作る
- Turing Semiconductor/AI Day潜入レポ
- アーバンデータチャレンジ2023にてW受賞しました
- visionOSアプリ、Teegardenの開発物語
- エンジニア未経験のPMがChatGPTを使って簡単なプログラミングだけでプロダクトを作った話
- 新しい挑戦を躊躇する心理:優先順位の真実
- 時を超える知の投資:良書と大学教育の意義
- 動画生成AI SORAの革新とサム・アルトマンのビジョン
- イノベーションを起こしやすい組織について
- サッカー選手になりたいが、サッカーボールを蹴ったことがない人の話
- 2024年、国産クラウドに期待
- 仕事と焼肉、意外な共通点とは?
- 業界に激震!!Llama2オープン化がいかにすごいかを解説。
- OpenAIによる今回のアップデートがなぜ私たち開発者たちの間で「神アップデート」と呼ばれているか解説!!
- 統計的自然言語処理によりおぼろげながら浮かんできた思考の仕組みと教育の未来
- アプリ開発の常識を覆す? GPT-4の凄さに魅了された体験談
- あなたの NFT がゴミになるかもよ?
- GPT3の本質を理解し、ChatGPTを使いこなす為に知っておきたい事!!
- 今世紀のベストペーパー
- 「Web3がもたらす未来を考える」中島聡×塚田学対談
- これが未来の生活スタイル。遊牧民のように旅をしながら暮らす理想のノマドライフの提案。
- あなたのNFTは大丈夫?!某NFTが存在するのか確認してみました。
- 元米マイクロソフトのソフトウェアエンジニアが教える「エンジニアになりたいなら知っておいた方がいいコト!」
- 「フルオンチェーンでないNFTの怖さ」が現実に!〜フルオンチェーンNFTを可能にする技術
- 知らないと恐ろしい事に!AM/PM表記のなぞ?!
- DAOに対する「株式会社に代わる新しい仕組み」や「参加者全員が成功の果実を共有できる」という認識は間違いです。DAOの本質とは?
- スマートコントラクトが人々の行動を変え世界を変える!!
- フルブロックチェーンのスマートコントラクトは世の中に価値を提供し続ける!
- ビットコインこそ「究極のDAO」
- Pride Squiggle で画像をオンチェーンでダイナミックに生成するために使ったテクニック
- Netscapeからシェアを奪い取ったInternet Explorerが、終焉してしまった理由
- ソフトウェア・アーキテクチャの面からWeb2.0とWeb3の違いを分かり易く解説
- Web3の技術は素晴らしいがそれを生かすも殺すもエンジニア次第!
- AppleのWWDC22の基調講演で、最も私に刺さったのはCarPlay!!これが何を意味するのか?!
- Web3時代!NounsDAOの最大の発明はこれだ!
- 日本のシステムは最大のポンジースキームだった!?
- そして、すべてはソフトウェアになった
- パーソナル・ブランディング
- あなたの知らないWeb3/NFT/DAOの真実
- ハッカソン開会式のご挨拶「過去の戦争と比べて違うなと思うところ」
- NounsDAOをフォークした人にインタビューを受けました(翻訳)
- すでに解散したバンドのファンになった話
- 帝国化する企業と民主主義の末路
- 衰退していく日本のテレビ業界について語る
- Youtube のダークサイド
- 「理解できない」と言える強さ
- Oculus Go
- メタバース時代に掘り起こせそうな本屋さん
- 日本は少子高齢化・人口減少で新しい枠組みを作るのに良い実験場-<コモン>の領域を再建し人々の生活を安定させる
- Nintendo Switch とエクササイズ・バイク
- こんなダメな日本がかわるきっかけは「戦争か大災害しかない」噴火・地震・メタバースなど
- カルト・オンライン
- 中島聡×草場 壽一 「ソサエティを立ち上げた思い」
- 人工知能・機械学習の父
- 起業家と現実歪曲空間
- デマンド交通『おでかけ号』のタクシー予約/配車システムをDX化、高知・土佐清水で新登場
- 中島聡×SONY社内イベント
- メルカリ × 中島聡 ディスカッション イベントレポート
- 自動車業界の近未来
- 未来の社会のあり方
- SS推薦の動画
- 汎用人工知能・強いAIの開発にまつわる懸念点
- 未来のソフトウェアエンジニア教育を考える
- 財政出前講座 SIM2030
- Elon Musk の悩み
- Elon Musk のビジョン
- 自動運転社会のひとつの形
- Amazon Goに行ってみた
- 中島さん関連動画