統計的自然言語処理によりおぼろげながら浮かんできた思考の仕組みと教育の未来

Satoshi :GPT3.5のtokenizerがなぜか「こんにちは」だけを1トークンで表せるという不思議な謎を指摘した人がいたので試したところ、確かにそうでした。「おはよう」「こんばんは」「今日は」は1トークン化されていないのに、なぜか「こんにちは」だけ特別扱いされています。

他に1トークン化されているものはないかと探したところ、唯一見つけたのが「ありがとう」です。「どういたしまして」も「ごめんなさい」も1トークン化されていないのです。なぜこんな中途半端なことになっているのだろう?

isamu :確率に基づいてサブトークン化されるようなので、「こんにちは」と「ありがとう」だけは、出現頻度がめちゃくちゃ高い、という理由じゃないですかね。

Satoshi :頻度で考えて探してみたところ、1トークン化されているものが、いくつか見つかりました。「しかし、そして、でも、ました、する、した」です。

isamu :日本語のtokenizerはオープンソースでも色々あるのでそういうツールを使えばもっと効率よく作ることはできそうですし、日本語のデータセットを持っている会社は強みがあるでしょうね(LINE, Googleなど。CAもかな?)

Satoshi :OpenAIのtokenizerは、結構頻繁に使う漢字でも複数トークンに分割してしまうケースがあります。 例:機械->[162, 102, 253, 162, 95, 108] これで attention の仕組みがちゃんと働くのか、ちょっと心配です。

isamu :サブトークンにならなくても、相互に遷移確率が高いから、違和感なくつながるのでしょうね。 tokenizerなしでこのあたりがうまく動いているので、すごく不思議ですよね。

こういう仕組みをみていると、人間は本当に考えているのかどうか、疑ってしまいます。単純に文字を確率モデルに従って文字を組み立てているだけなのかもしれません。 元々の物理の量子の仕組みを考えると、そうだったとしても不思議では有りません。

Satoshi :特に喋っている時はそう感じます。自分が喋る文章を組み立ててから喋ることなどはせず、その瞬間にアクティベートされたニューロンから送られてきた単語を発生しているだけで、もっともらしい(=自分らしい)発言になってしまうだけのように思います。

そう考えると、自分のニューロンのLLMを構成するときに、どうやって良い学習をさせるか、ということが重要になりますね。普段耳から入る学習データの影響は計り知れません。学習効率のよいマシーンでも学習内容によって結果が大きく変わります。

Satoshi :すると究極の教育とは、ニューラルネットワークと人間の脳を一つのニューラルネットワークと見なして、全体を機械学習させることになるのかも知れませんね。マシン側が「この人に脳を賢くするにはどう教えるべきか」を学んでいくようなプロセスです。

isamu :一見、関連のない学習や遊びをしていると、その影響で別の分野の学習が伸びる、という体験があるので、おそらくはニューラルネットワークの作用で相互に影響しているのでしょうね。 今までの教育とは別のアプローチで考えると楽しいですね。

Satoshi :後、これからの教育界のトピックになりそうなのは、脳単体の能力を上げるべきなのか、「脳+AI」の能力さえ上がれば良いのか、という議論です。既に「脳+Excel」で仕事をしている人がいることを考えれば、答えは自明 ですが、どんな教育をすれば良いのかは、まだ見えていません。

isamu :日本は未だに漢字のハネや、掛け算の順番、という部分が熱く議論されているようなので、そこまでたどり着けるか心配です。 AIを使う前に、科学的、倫理的、文化的素養は身につけておく必要はあるので、学ぶことが増えそうですね。そこもAIを教えてもらいながら学べばよいのかな。

学ぶことが増えたその先は、BMIで脳の拡張、、、となるのですかね。

最後に

ニューラルネットワークによって言語処理が実現される仕組みについて考えると、人間の脳と同じように、単に確率モデルに従って言葉が組み立てられるだけなのか、独自のアルゴリズムがあるのかは不明だが、その影響は計り知れない。教育界においても、脳単体の能力を上げるか、AIと脳の総合力を上げるかは議論が分かれ、科学的、倫理的、文化的素養に注目しながら、AIと協力して学ぶことが求められる。そして、今後は脳の拡張によって、人間の能力、教育のあり方も大幅に変貌していくことが予想されます。


関連ページ