2025.07.30

「The Bitter Lesson」再読から見える、AIの本質と進化の3ステップ

info@appfreelife.com

最近、Richard Sutton氏の著名なエッセイ『The Bitter Lesson（痛い教訓）』を改めて読み直しました。

Sutton氏によると、AIの発展において長期的に最も効果的で、持続的に拡張可能な方法は、「探索（Search）」と「学習（Learning）」の二つだとされています。実際、この二つの方法は、ここ数年、囲碁（AlphaGo）、チェス（AlphaZero）、音声認識、画像認識など多くの分野で劇的な成功を収めてきました。

しかし、AIの発展傾向や可能性をより正確に理解するためには、AIモデルの本質をさらに細かく二種類に分類する必要があると私は考えます。

❶ 教師あり学習（Supervised Learning）モデル：

音声認識や画像認識のように、大規模なデータを用いてパターン認識と類推を行うモデル。
Transformerアーキテクチャが成功した理由は、単に大量の計算資源とパラメータ数にあるだけでなく、その「自己注意機構（Self-Attention）」が複雑なパターンや分野横断的な知識の関連性を効果的に捉えることにあります。
大量の計算資源で訓練された大規模モデルは、異なる分野の知識を統合するポテンシャルを持っており、単なる認識能力を超えて、より創造的な推論や応用へと発展する可能性があります。

❷ 強化学習（Reinforcement Learning）モデル：

AlphaZero、ゲームAI、コード生成AIなどのモデルがこれに該当します。これらのモデルは、『探索→評価→学習』というサイクルを繰り返すことで、能動的に最適解に近づき、自律的な自己進化を遂げます。
強化学習の本質的な優位性は、明確で即時のフィードバック（報酬：Reward）さえあれば、計算資源を継続的に投入することによって自己進化が加速され、人間の既存知識や直感を超えるような解決法を発見できる点にあります。

長期的に見ると、これらのAI発展傾向は徐々に人間が持つ既存の知識への依存を減らし、AI自身が独立した自己探索・自己発見プロセスを重視する方向へと移行するでしょう。つまり、未来のAIは人類が築いた知識基盤を踏み台として、その先の最適化や進化の道筋を自ら見つけ出すことが可能になるでしょう。

私はAIの将来的な発展は、以下の三つの段階で継続的な計算資源の投入を通じて、さらに拡張・深化していくと考えています。

🚩 第一段階（Pretraining：事前学習）

GPTシリーズなどのように、大規模な教師なし学習を通じてパターン認識や汎化能力を向上させます。
計算資源の継続的な増加を通じて、パラメータ数の増加やモデル構造の改善を図り、より効率的に高度なAIモデルを構築します。

🚩 第二段階（Post-training：事後学習）

強化学習、RLHF（人間フィードバックによる強化学習）、専門領域向けのファインチューニングなどを用いて、特定領域におけるパフォーマンスを精緻化します。
今後さらに進んだ方法としては、『探索→評価→学習』という強化学習の閉ループを活用し、AIが計算資源の継続的な投入によって自己進化し、人間の認知的限界を超える領域へと到達するでしょう。

🚩 第三段階（Inference & Deployment：推論と実運用）

推論段階では、単なる予測処理を超え、状況に応じて外部ツールや情報源から追加情報を探索し、自己評価やフィードバック機構を用いて解を洗練させる可能性があります。
継続的な計算資源の投入により、探索的推論（Explorative inference）が進化し、未来の自律的・インタラクティブなAIシステム（例えば自律エージェント型AIやAutoGPTなど）は自ら答えを探索・改善し、より優れたソリューションへと導いていくでしょう。

上記のような分類と発展段階を明確にすることで、私たちはAIが持つ可能性や将来の方向性について、より包括的かつ明確な理解を深められるのではないかと思います。

以下は、Rich Sutton氏の『The Bitter Lesson（苦い教訓）』の全文を、自然かつ読みやすい日本語に翻訳したものです。

苦い教訓（The Bitter Lesson）

著者：Rich Sutton
投稿日：2019年3月13日

70年にわたる人工知能（AI）研究から私たちが学ぶべき最大の教訓は、計算資源を活用する汎用的な方法が最終的に圧倒的に有効だということである。 その究極的な理由は「ムーアの法則」、より正確に言えば、単位あたりの計算コストが指数関数的に低下し続けるという一般化された法則にある。これまでの多くのAI研究は、エージェントが利用できる計算リソースが一定だという前提で進められてきた（その場合、人間の持つ知識を活用することが性能向上の唯一の手段となる）。しかし、実際には典型的な研究プロジェクトの期間をやや超える長さで、利用可能な計算資源は飛躍的に増加する。そのため、研究者は短期的な改善を求めて自身が持つ領域知識を利用しようとしがちだが、長期的に本質的な重要性を持つのは、いかに計算リソースを有効に活用できるかという点だけである。

理論上、この二つの方向性（人間の知識を活用するか、計算資源を活用するか）は必ずしも相反する必要はないが、実際には対立しやすい。どちらか一方に時間を費やせば、もう一方に割く時間は少なくなる。また、一つの方法に心理的にコミットすると、もう一方への移行が難しくなる。さらに、人間の知識を基礎とした方法は、システムを複雑化させる傾向があり、結果として計算資源をフルに活用できるような一般的な手法には適さなくなってしまう。

AI研究の歴史を振り返ると、この教訓を遅れて学んだ例が多数ある。以下に代表的な事例を挙げよう。

コンピュータチェスの例

1997年にチェスの世界王者カスパロフを打ち破ったコンピュータチェスシステムは、**大規模で深い探索手法（Deep Search）**を中核にしていた。当時、チェス研究者の多くは、人間が持つチェスの特殊な構造への理解を活用するアプローチを追求してきていたため、この結果に落胆した。特殊なハードウェアとソフトウェアを駆使したシンプルな探索中心のアプローチの方が遥かに効果的だと証明された時、人間の知識を重視する研究者たちは簡単には敗北を認めなかった。彼らは「ブルートフォース（力まかせの）探索」は今回勝っただけで、一般的な戦略ではないし、人間がチェスをプレイする方法ではないと主張した。人間の知識に基づく手法が勝利することを望んでいた研究者は、それが実現しなかったことに失望した。

コンピュータ囲碁の例

同じような歴史が、囲碁でも再現された。ただし、約20年遅れてのことである。当初、研究者たちは人間の知識や囲碁特有の性質を活用して、探索を避ける努力に多大な労力を費やしたが、最終的にはそれらの努力は役に立たないどころか、逆効果になることさえあった。**大規模探索と自己対局による学習（Self-play）**が有効に適用されると、それ以前のアプローチを大きく超える成果がすぐに出た。

特にAlphaGoなどで使われた自己対局による価値関数の学習は、大規模な計算資源を効果的に活用する点で「探索」と同様である。「探索」と「学習」は、膨大な計算能力を効果的に活用するためのAI技術の二大柱である。

チェスと同様に、囲碁においても初期の研究は人間の知識を活用して探索を減らそうとしたが、最終的なブレイクスルーをもたらしたのは、やはり探索と学習を徹底的に活用することだった。

音声認識の例

1970年代に米国DARPAが音声認識コンペを開催した。当時、参加者は二つの陣営に分かれていた。一つは人間の知識を利用する陣営（音声器官の構造、音素、単語の知識を利用するアプローチ）であり、もう一つは当時新しく登場した、より統計的な方法（隠れマルコフモデル:HMM）であり、大量の計算能力を必要とする陣営だった。

結果的には統計的な方法が勝利した。その後の数十年間、自然言語処理（NLP）全体が統計と計算を中心に再編されることになった。近年のディープラーニングの台頭も、この流れをさらに進めている。ディープラーニングによる音声認識手法はほとんど人間の知識を使わず、大量の計算と巨大なデータセットでモデルを訓練することで、大きく精度を向上させている。

コンピュータビジョンの例

視覚分野でも同じような歴史を辿った。初期の視覚システムはエッジや一般化された円柱（generalized cylinders）、SIFT特徴などを使って画像を理解しようとしたが、現在これらの手法はディープラーニングのニューラルネットワークに完全に置き換えられている。現在のモデルは主に畳み込みと一定の不変性（Invariance）概念だけを用いて、はるかに優れた性能を実現している。

核心となる教訓

これは非常に重要な教訓だが、AI研究分野はまだ完全には学んでおらず、同じ間違いを繰り返している。我々は自らが考える方法をAIに内蔵することは、最終的にうまくいかないというこの「苦い教訓」を学ばなければならない。

歴史から得られる具体的な教訓は以下の通り：

AI研究者は頻繁に人間の知識をAIに組み込もうとしてきた。
その方法は短期的には確かに有効で、研究者にも満足感を与える。
しかし長期的には停滞し、さらなる進歩を阻害してしまう。
真のブレイクスルーは、その反対に「計算能力を活用した探索と学習の拡張」によって起きている。

我々が学ぶべき二つの重要な教訓：

汎用的手法の圧倒的な力
心の複雑さを素直に認め、単純化しないこと

つまり我々が作るべきは、「人間の発見」を詰め込んだAIではなく、人間のように自ら「発見できる」AIなのだ。

📖 引用元：
Rich Sutton『The Bitter Lesson』
http://www.incompleteideas.net/IncIdeas/BitterLesson.html

ABOUT ME