生成AIの歴史を徹底解説|1950年代の黎明期からChatGPT・エージェントAIまで

生成AIの歴史を徹底解説|1950年代の黎明期からChatGPT・エージェントAIまで 生成 AI

生成AIの歴史を黎明期から現在まで完全網羅。Transformer・GPT・拡散モデルなど技術の仕組みをわかりやすく解説し、ChatGPT以降の最新動向やAI規制の流れまでカバーした保存版です。

  1. 1. 黎明期(1950年代〜1970年代)
    1. 1.1 チューリングの問い(1950年)
    2. 1.2 ELIZA(1966年)
    3. 1.3 マルコフ連鎖によるテキスト生成
    4. 1.4 SHRDLU(1970年)
  2. 2. 冬の時代と再起(1980年代〜1990年代)
    1. 2.1 第一次・第二次AI冬の時代
    2. 2.2 バックプロパゲーションの普及(1986年)
    3. 2.3 リカレントニューラルネットワーク(RNN)
    4. 2.4 LSTM(1997年)
  3. 3. ニューラルネットワークの復権(2000年代〜2010年代前半)
    1. 3.1 ディープラーニングの夜明け
    2. 3.2 ImageNetとAlexNet(2012年)
    3. 3.3 Word2Vec(2013年)
    4. 3.4 Seq2Seq(2014年)
    5. 3.5 Attention機構(2014〜2015年)
  4. 4. GAN革命(2014年〜2017年)
    1. 4.1 GAN の誕生(2014年)
    2. 4.2 DCGAN(2015年)
    3. 4.3 Pix2Pix(2016年)と CycleGAN(2017年)
    4. 4.4 Progressive GAN(2017年)
    5. 4.5 VAE(変分オートエンコーダ)
  5. 5. Transformerの登場(2017年〜2019年)
    1. 5.1 “Attention Is All You Need”(2017年)
    2. 5.2 GPT-1(2018年6月)
    3. 5.3 BERT(2018年10月)
    4. 5.4 GPT-2(2019年2月)
    5. 5.5 StyleGAN(2018年)と StyleGAN2(2019年)
  6. 6. 大規模言語モデルの台頭(2020年〜2022年)
    1. 6.1 GPT-3(2020年6月)
    2. 6.2 DALL-E(2021年1月)
    3. 6.3 拡散モデル(Diffusion Model)の台頭(2020年〜2022年)
    4. 6.4 DALL-E 2(2022年4月)
    5. 6.5 Stable Diffusion(2022年8月)
    6. 6.6 Midjourney(2022年7月)
    7. 6.7 InstructGPT と RLHF(2022年1月)
    8. 6.8 GitHub Copilot(2021年〜2022年)
  7. 7. ChatGPTと社会的インパクト(2022年〜2023年)
    1. 7.1 ChatGPT(2022年11月30日)
    2. 7.2 GPT-4(2023年3月)
    3. 7.3 Claude(Anthropic)
    4. 7.4 LLaMA と オープンソースLLMの波(2023年)
    5. 7.5 生成AIの法的・倫理的議論
  8. 8. マルチモーダルAIと競争激化(2023年〜2024年)
    1. 8.1 画像生成の進化
    2. 8.2 動画生成AIの登場
    3. 8.3 音声・音楽生成AI
    4. 8.4 Google Gemini(2023年12月〜2024年)
    5. 8.5 Claude 3 ファミリー(2024年3月)
    6. 8.6 小型モデルの躍進(2024年)
    7. 8.7 RAG(検索拡張生成)の普及
  9. 9. エージェントAIと社会実装(2025年〜2026年)
    1. 9.1 推論モデルの時代
    2. 9.2 Claude 4 ファミリー(2025年〜2026年)
    3. 9.3 AIエージェントの時代
    4. 9.4 オープンソースの成熟
    5. 9.5 社会実装と規制の進展(2025年〜2026年)
  10. 10. 年表(タイムライン)
  11. おわりに

1. 黎明期(1950年代〜1970年代)

1.1 チューリングの問い(1950年)

生成AIの歴史は、アラン・チューリングの論文「Computing Machinery and Intelligence」(1950年)に遡る。チューリングは「機械は思考できるか?」という問いを立て、後に「チューリングテスト」として知られる基準を提案した。人間の審査員が、テキストのやり取りだけで相手が人間か機械かを判別できなければ、その機械は「知能がある」と見なせるという考え方である。

この問いは、「機械が人間のようなテキストを生成できるか」という生成AIの根幹テーマを60年以上前に先取りしていた。

1.2 ELIZA(1966年)

MITのジョセフ・ワイゼンバウムが開発したELIZAは、パターンマッチングと置換ルールによって人間の会話を模倣する初期の自然言語処理プログラムである。特に「DOCTOR」スクリプトはロジャーズ派心理療法士を模し、ユーザーの入力を質問形式に変換して返すだけの単純な仕組みだったが、多くのユーザーがELIZAに感情移入し、本当に理解されていると感じた。

ELIZAは「生成」と呼べるほどの創造性は持たなかったが、テキストベースで人間らしい応答を返すという方向性を示した最初のシステムの一つである。

1.3 マルコフ連鎖によるテキスト生成

1950〜1970年代にかけて、マルコフ連鎖(Markov Chain)を用いたテキスト生成が研究された。直前のN個の単語から次の単語の確率を計算し、テキストを生成するというアプローチである。統計的言語モデルの原型であり、後の言語モデルに繋がる重要な概念だが、長い文脈を保持できないという根本的な限界があった。

1.4 SHRDLU(1970年)

MITのテリー・ウィノグラードが開発したSHRDLUは、「積み木の世界」という限定された環境内で自然言語による指示を理解し、応答を生成できるシステムだった。非常に限られた領域では人間らしいやり取りが可能であることを示したが、現実世界の複雑さに対応できないという限界も明らかにした。

2. 冬の時代と再起(1980年代〜1990年代)

2.1 第一次・第二次AI冬の時代

1970年代後半から1980年代前半にかけて、AIへの過大な期待と実際の成果のギャップから研究資金が削減され、「AI冬の時代」(AI Winter)が訪れた。

ルールベースのエキスパートシステムが1980年代に一時的なブームを起こしたが、知識の手動入力の限界が露呈し、1980年代後半〜1990年代前半には再び冬の時代を迎えた。

2.2 バックプロパゲーションの普及(1986年)

デビッド・ルメルハート、ジェフリー・ヒントン、ロナルド・ウィリアムズが1986年に発表した論文により、バックプロパゲーション(誤差逆伝播法)が広く知られるようになった。この手法によりニューラルネットワークの学習が実用的になり、後のディープラーニング革命の基礎が築かれた。

2.3 リカレントニューラルネットワーク(RNN)

1980年代後半から1990年代にかけて、時系列データを扱えるRNN(Recurrent Neural Network)が研究された。RNNは過去の情報を「記憶」として保持できるため、テキスト生成に適していたが、長い系列では勾配消失問題により学習が困難だった。

2.4 LSTM(1997年)

ゼップ・ホッホライターとユルゲン・シュミットフーバーが1997年に発表したLSTM(Long Short-Term Memory)は、RNNの勾配消失問題を解決する画期的なアーキテクチャだった。ゲート機構により長期的な依存関係を学習でき、後に機械翻訳、音声認識、テキスト生成など多くの分野で標準的な手法となった。

3. ニューラルネットワークの復権(2000年代〜2010年代前半)

3.1 ディープラーニングの夜明け

2006年、ジェフリー・ヒントンらが深層信念ネットワーク(Deep Belief Network)の効率的な学習手法を発表し、「ディープラーニング」の再興が始まった。GPUの性能向上と大量データの利用可能性が、ニューラルネットワークの大規模化を後押しした。

3.2 ImageNetとAlexNet(2012年)

2012年、アレックス・クリジェフスキー、イリヤ・サツキヴァー、ジェフリー・ヒントンが開発したAlexNetが画像認識コンペティション「ImageNet Large Scale Visual Recognition Challenge(ILSVRC)」で圧倒的な精度を達成した。このブレイクスルーはディープラーニングへの注目を爆発的に高め、画像生成AIの基盤となるCNN(畳み込みニューラルネットワーク)研究を加速させた。

3.3 Word2Vec(2013年)

Googleのトマス・ミコロフらが発表したWord2Vecは、単語を高次元のベクトル空間に埋め込む手法である。「王 – 男 + 女 = 女王」のようなベクトル演算が可能になり、単語の意味的関係を数学的に表現できることが示された。この「分散表現」の概念は、後のすべての言語モデルの基盤となっている。

3.4 Seq2Seq(2014年)

Googleの研究チームが発表したSeq2Seq(Sequence-to-Sequence)モデルは、エンコーダ・デコーダ構造により可変長の入力を可変長の出力に変換する枠組みを確立した。機械翻訳の精度が飛躍的に向上し、テキスト生成の実用化に大きく貢献した。

3.5 Attention機構(2014〜2015年)

Seq2Seqモデルの限界(長い文の翻訳精度が低下する)を克服するため、Attention機構が導入された。入力系列のどの部分に「注目」すべきかを動的に決定する仕組みであり、後のTransformerアーキテクチャの核心技術となった。

4. GAN革命(2014年〜2017年)

4.1 GAN の誕生(2014年)

2014年、イアン・グッドフェローがGAN(Generative Adversarial Network:敵対的生成ネットワーク)を発表した。これは生成AIの歴史における最大級のブレイクスルーの一つである。

GANは2つのニューラルネットワーク ― 生成器(Generator)識別器(Discriminator)― を競わせることで学習する。

  • 生成器: ランダムノイズから偽のデータ(画像など)を生成する
  • 識別器: 入力が本物か偽物かを判別する

生成器は識別器を騙せるほどリアルなデータを生成するよう学習し、識別器はより正確に本物と偽物を見分けるよう学習する。この「敵対的」な学習プロセスにより、驚くほどリアルなデータが生成可能になった。

4.2 DCGAN(2015年)

DCGAN(Deep Convolutional GAN)は、CNNをGANに組み込んだアーキテクチャである。より安定した学習と高品質な画像生成を実現し、GANの実用化を大きく前進させた。寝室の画像や顔画像の生成で印象的な結果を示した。

4.3 Pix2Pix(2016年)と CycleGAN(2017年)

Pix2Pixは、ペアになった画像データセットを使い、ある画像を別のスタイルに変換する条件付き画像生成を実現した。例えば、線画からリアルな写真への変換が可能になった。

CycleGANはさらに進化し、ペアになっていない画像データセットからスタイル変換を学習できるようにした。馬をシマウマに変換する、写真をモネ風の絵画に変換する、といった変換が可能になり、画像生成AIの可能性を大きく広げた。

4.4 Progressive GAN(2017年)

NVIDIAが発表したProgressive GANは、低解像度から段階的に解像度を上げながら学習する手法で、当時としては驚異的な1024×1024ピクセルのリアルな人間の顔画像を生成した。この技術は後のStyleGANへと発展する。

4.5 VAE(変分オートエンコーダ)

GANと並行して、VAE(Variational Autoencoder)も生成モデルとして発展した。2013年にキングマとウェリングが提案したVAEは、データを潜在空間にエンコードし、そこからデコードして新しいデータを生成する確率的モデルである。GANほど高精細な画像は生成できなかったが、学習が安定しており、潜在空間の操作による制御可能な生成が可能だった。後の拡散モデルにもVAEの概念が組み込まれている。

5. Transformerの登場(2017年〜2019年)

5.1 “Attention Is All You Need”(2017年)

2017年、Googleの研究チーム(アシシュ・ヴァスワニら)が発表した論文「Attention Is All You Need」は、生成AIの歴史を決定的に変えた。この論文で提案されたTransformerアーキテクチャは、RNNやCNNを完全に排除し、Self-Attention機構のみでシーケンス処理を行う。

Transformerの革新点:

  • 並列処理: RNNのように逐次処理する必要がなく、系列全体を同時に処理できるため、GPUを効率的に活用した高速な学習が可能
  • 長距離依存性: Self-Attentionにより、文中の離れた単語間の関係も直接的に捉えられる
  • スケーラビリティ: モデルサイズとデータ量を増やすほど性能が向上する(スケーリング則)

Transformerは当初機械翻訳のために開発されたが、そのアーキテクチャはあらゆる生成タスクに応用可能であることが判明し、以降のすべての主要な生成AIモデルの基盤となった。

5.2 GPT-1(2018年6月)

OpenAIが発表したGPT(Generative Pre-trained Transformer)は、Transformerのデコーダ部分を使用した言語モデルである。

GPT-1の核心的なアイデアは「事前学習 + ファインチューニング」というパラダイムだった:

  1. 事前学習: 大量のテキストデータ(BookCorpus、約7,000冊の書籍)で「次の単語を予測する」タスクにより学習
  2. ファインチューニング: 特定のタスク(質問応答、感情分析など)に少量のデータで適応

パラメータ数は1.17億で、現在の基準では小規模だが、汎用的な言語理解と生成の可能性を示した。

5.3 BERT(2018年10月)

Googleが発表したBERT(Bidirectional Encoder Representations from Transformers)は、Transformerのエンコーダ部分を使用し、双方向の文脈を捉えるモデルである。

GPTが左から右への一方向予測であるのに対し、BERTは文の両方向から文脈を理解する。BERTは「生成」よりも「理解」(分類、質問応答、固有表現抽出)に優れ、自然言語処理の多くのベンチマークで記録を更新した。

BERTの成功は、Transformerの汎用性を証明し、「事前学習済み大規模モデル」というパラダイムを確立した。

5.4 GPT-2(2019年2月)

OpenAIが発表したGPT-2はパラメータ数15億と、GPT-1の約13倍に拡大された。インターネットから収集した40GBのテキストデータ(WebText)で学習された。

GPT-2は、ファインチューニングなしでもさまざまなタスクをこなせるゼロショット学習能力を示し、驚くほど流暢で一貫性のある長文テキストを生成できた。

OpenAIは当初、「悪用のリスクがある」として完全なモデルの公開を見送り、段階的にリリースした。この判断は賛否を呼び、AI研究におけるオープン性と安全性のバランスについての議論を巻き起こした。これは後の「責任あるAI」に関する議論の先駆けとなった。

5.5 StyleGAN(2018年)と StyleGAN2(2019年)

NVIDIAが発表したStyleGANおよびStyleGAN2は、GANベースの画像生成の頂点を極めたモデルである。「This Person Does Not Exist」というウェブサイトで、実在しない人物のリアルな顔写真が無限に生成される様子は世界中で話題になった。

6. 大規模言語モデルの台頭(2020年〜2022年)

6.1 GPT-3(2020年6月)

OpenAIが発表したGPT-3はパラメータ数1,750億という、当時前例のない規模のモデルだった。インターネットテキスト、書籍、Wikipediaなど約570GBのフィルタリング済みデータで学習された。

GPT-3はFew-Shot学習の驚異的な能力を示した。プロンプトに数例を含めるだけで、翻訳、要約、コード生成、質問応答など多様なタスクに対応できた。これにより、タスクごとにファインチューニングする必要性が大幅に減少した。

OpenAIはGPT-3をAPI経由で提供し、開発者がAIアプリケーションを構築できるようにした。これは生成AIのビジネス化の転換点となった。

6.2 DALL-E(2021年1月)

OpenAIが発表したDALL-Eは、テキストの説明から画像を生成するモデルである。GPT-3のアーキテクチャを応用し、「アボカドの形をした椅子」のような創造的な指示にも対応できた。

テキストから画像への生成(Text-to-Image)という新しいパラダイムを確立し、AIによるクリエイティブコンテンツ生成の可能性を広く認知させた。

6.3 拡散モデル(Diffusion Model)の台頭(2020年〜2022年)

GANに代わる画像生成手法として、拡散モデルが台頭した。

拡散モデルの原理:

  1. 拡散過程(Forward Process): 画像にノイズを段階的に加えて、完全なノイズに変換する
  2. 逆拡散過程(Reverse Process): ノイズから段階的にノイズを除去して、画像を復元する方法を学習する

この手法はGANよりも学習が安定し、より多様で高品質な画像を生成できることが判明した。

主要なマイルストーン:

  • DDPM(2020年): ホーら(Jonathan Ho ら)が拡散モデルの実用的な学習手法を確立
  • Guided Diffusion(2021年): 分類器ガイダンスにより生成品質が大幅向上
  • Classifier-Free Guidance(2022年): テキスト条件付き生成の標準手法を確立

6.4 DALL-E 2(2022年4月)

OpenAIが発表したDALL-E 2は、CLIPとDiffusion Modelを組み合わせ、初代DALL-Eを大幅に上回る品質の画像を生成した。写実的な画像からアート作品まで、テキスト指示に忠実な高解像度画像を生成できた。

6.5 Stable Diffusion(2022年8月)

Stability AIが発表したStable Diffusionは、拡散モデルによる画像生成をオープンソースとして公開した。潜在空間での拡散(Latent Diffusion)を採用し、一般的なGPUでも動作可能にしたことで、画像生成AIの民主化を実現した。

Stable Diffusionは爆発的に普及し、無数のコミュニティ、ツール、派生モデルが生まれた。オープンソースAIモデルの力を示す象徴的な出来事となった。

6.6 Midjourney(2022年7月)

Midjourneyは、Discordボットを介してアクセスするテキストから画像への生成サービスとして登場した。特にアーティスティックでスタイリッシュな画像生成に優れ、クリエイターやデザイナーの間で急速に普及した。

6.7 InstructGPT と RLHF(2022年1月)

OpenAIが発表したInstructGPTは、RLHF(Reinforcement Learning from Human Feedback:人間のフィードバックによる強化学習)を用いて、言語モデルの出力を人間の意図に沿うように調整する手法を確立した。

RLHFのプロセス:

  1. 人間のデモンストレーションデータで教師あり学習(SFT)
  2. 人間が複数の出力を比較・ランク付けして報酬モデルを学習
  3. 報酬モデルを用いた強化学習(PPO)でモデルを最適化

この手法により、モデルはより有用で、正確で、安全な応答を生成するようになった。InstructGPTは後のChatGPTの直接の前身である。

6.8 GitHub Copilot(2021年〜2022年)

GitHub Copilotは、OpenAIのCodexモデル(GPT-3ベースのコード特化モデル)を活用したAIペアプログラミングツールである。2021年にテクニカルプレビューが開始され、2022年6月に一般公開された。

コード生成AIの実用化の先駆けとなり、開発者の生産性向上を実証した。

7. ChatGPTと社会的インパクト(2022年〜2023年)

7.1 ChatGPT(2022年11月30日)

ChatGPTの公開は、生成AIの歴史において最大の転換点の一つである。GPT-3.5をベースに、RLHFによる対話最適化を施したこのモデルは、公開からわずか5日で100万ユーザー2ヶ月で1億ユーザーを達成し、史上最速で普及したアプリケーションとなった。

ChatGPTが社会に与えたインパクト:

  • 一般認知: AIが専門家だけのものから、誰もが使える技術になった
  • 産業への影響: あらゆる業界でAI活用の検討が始まった
  • 教育への影響: 学校・大学でのAI利用に関する議論が世界中で巻き起こった
  • 投資ブーム: AI関連企業への投資が爆発的に増加した

7.2 GPT-4(2023年3月)

OpenAIが発表したGPT-4は、テキストと画像の両方を入力として受け付けるマルチモーダルモデルとして登場した。

GPT-4の特徴:

  • 司法試験で上位10%相当のスコアを達成するなど、専門的な知識と推論能力を示した
  • より長い文脈の理解と、より正確で安全な応答生成が可能になった
  • 画像理解能力により、図表やスクリーンショットの解析が可能になった

パラメータ数は公表されなかったが、Mixture of Experts(MoE)アーキテクチャを採用しているとの推測がある。

7.3 Claude(Anthropic)

Anthropicは元OpenAI研究者のダリオ・アモデイとダニエラ・アモデイらが2021年に設立した企業で、AI安全性を重視したアプローチで注目を集めた。

  • Claude 1(2023年3月): Anthropic初の一般公開モデル
  • Claude 2(2023年7月): 長文処理能力(100Kトークン)と安全性の向上
  • Constitutional AI(CAI): RLHFを補完する独自の安全性手法。AI自身に原則(Constitution)を与え、自己批判と改善を繰り返させることで、有害な出力を減らす

7.4 LLaMA と オープンソースLLMの波(2023年)

2023年2月、MetaがLLaMA(Large Language Model Meta AI)を研究者向けに公開した。7B〜65Bパラメータのモデルが含まれ、比較的小規模でも高い性能を示した。

モデルの重みが流出し、コミュニティによるファインチューニングが活発化:

  • Alpaca(スタンフォード大学): LLaMA 7Bを52KのGPT生成データでファインチューニング
  • Vicuna: ShareGPTの会話データでファインチューニング
  • LLaMA 2(2023年7月): Metaが商用利用可能なライセンスで公開

オープンソースLLMの台頭は、大規模な計算資源を持たない研究者や企業にも最先端の言語モデルへのアクセスを可能にし、AI民主化の重要な一歩となった。

7.5 生成AIの法的・倫理的議論

ChatGPTの普及は、深刻な法的・倫理的問題を浮き彫りにした:

  • 著作権問題: 学習データに含まれる著作物の利用をめぐる訴訟が多数提起された(Getty Images vs Stability AI、NYT vs OpenAI など)
  • ディープフェイク: 生成AIによる偽画像・偽動画の悪用に対する懸念
  • 雇用への影響: ライティング、イラスト、プログラミングなどの職業への影響
  • 規制の動き: EUのAI法(AI Act)が2023年に合意に達し、AIの包括的規制の先鞭をつけた

8. マルチモーダルAIと競争激化(2023年〜2024年)

8.1 画像生成の進化

  • DALL-E 3(2023年10月): ChatGPTとの統合により、対話を通じた画像生成が可能に。プロンプトの理解力が大幅に向上
  • Midjourney V5/V6(2023〜2024年): 写真と見分けがつかないレベルの画像生成を実現
  • Stable Diffusion XL / SD3(2023〜2024年): オープンソース画像生成のさらなる進化

8.2 動画生成AIの登場

  • Runway Gen-2(2023年): テキストから動画を生成する商用ツールの先駆け
  • Pika(2023年): テキストからの動画生成と動画編集を提供
  • Sora(OpenAI、2024年2月発表): 最大60秒の高品質動画を生成。物理法則を理解しているかのようなリアルな動画で大きな衝撃を与えた

8.3 音声・音楽生成AI

  • ElevenLabs(2023年〜): 高品質な音声合成と音声クローニング
  • Suno / Udio(2023年〜2024年): テキストから音楽を生成するサービスとして急速に普及
  • OpenAI Voice Engine(2024年): 15秒の音声サンプルからの音声クローニング

8.4 Google Gemini(2023年12月〜2024年)

GoogleはGeminiを発表し、OpenAIに対する本格的な対抗馬となった。

  • Gemini Ultra: GPT-4に匹敵する性能
  • Gemini Pro: 中規模で幅広い用途に対応
  • Gemini Nano: モバイルデバイス向け

Geminiはテキスト、画像、音声、動画、コードを統一的に扱えるネイティブマルチモーダルモデルとして設計され、Google検索やAndroidへの組み込みにより広範な社会実装が進んだ。

8.5 Claude 3 ファミリー(2024年3月)

Anthropicが発表したClaude 3ファミリーは、3つのモデルで構成された:

  • Claude 3 Opus: 最高性能。複雑な推論タスクでGPT-4に匹敵・凌駕する場面も
  • Claude 3 Sonnet: 性能とコストのバランスに優れた中位モデル
  • Claude 3 Haiku: 高速・低コストの小型モデル

ビジョン機能(画像理解)を標準搭載し、200Kトークンのコンテキストウィンドウを提供した。

8.6 小型モデルの躍進(2024年)

大規模モデルへの対抗として、効率的な小型モデルの開発が加速した:

  • Mistral 7B / Mixtral 8x7B(Mistral AI): フランス発のスタートアップが、少ないパラメータで高い性能を実現
  • Phi-2 / Phi-3(Microsoft): 高品質なデータ選定により、小型でも高い推論能力を達成
  • Gemma(Google): Geminiの技術を基にしたオープンなモデルファミリー

これらは、エッジデバイスでの実行やプライバシー重視の用途に道を開いた。

8.7 RAG(検索拡張生成)の普及

RAG(Retrieval-Augmented Generation)は、言語モデルの生成時に外部の知識ベースを検索・参照する手法である。ハルシネーション(事実と異なる情報の生成)の軽減と最新情報の活用を可能にし、企業でのLLM活用の標準的なアーキテクチャとなった。

9. エージェントAIと社会実装(2025年〜2026年)

9.1 推論モデルの時代

2024年末から2025年にかけて、推論能力に特化したモデルが登場した:

  • OpenAI o1 / o3(2024年9月〜2025年): 「思考の連鎖」を内部で実行し、数学やコーディングで飛躍的な性能向上を達成
  • Claude 3.5 Sonnet(2024年6月〜): コーディング能力とバランスの良さで広く採用
  • DeepSeek-R1(2025年1月): 中国発のオープンソース推論モデルが世界を驚かせた。低コストでの学習が可能であることを示し、「高性能AI = 膨大な資金」という前提を覆した

9.2 Claude 4 ファミリー(2025年〜2026年)

AnthropicはClaude 3.5を経てClaude 4世代へと進化を遂げた:

  • Claude 3.5 Sonnet / Haiku(2024年): コーディングとツール利用で特に高い評価
  • Claude 4 Opus / Sonnet(2025年): 複雑な推論、長時間のエージェントタスク、コード生成で大幅な性能向上
  • Claude 4.5 Sonnet(2025年): ハイブリッドモデルとして推論と創造性を両立
  • Claude Opus 4.6 / Sonnet 4.6(2025年): 最新世代。ツール利用、長文コンテキスト、マルチステップ推論がさらに強化

Claude Codeなどのエージェント製品を通じて、AIが開発者のワークフローに深く統合される時代を牽引している。

9.3 AIエージェントの時代

2025年は「AIエージェント」の年となった。単にテキストを生成するだけでなく、ツールを使い、計画を立て、自律的にタスクを遂行するAIが実用化された:

  • Claude Code(Anthropic): ターミナル上でコードの読み書き、コマンド実行、Git操作を自律的に行うAIエージェント
  • OpenAI Codex / Operator: コーディングやウェブブラウジングを自動化
  • Google Project Mariner / Jules: ブラウザ操作やコード開発の自動化
  • Devin(Cognition AI): 「AIソフトウェアエンジニア」として注目を集めた

9.4 オープンソースの成熟

  • LLaMA 3 / 3.1 / 4(Meta): オープンウェイトモデルが商用モデルに迫る性能を達成
  • Qwen(Alibaba)、Yi(01.AI)、Command R+(Cohere): 世界各地からの競争が激化
  • ローカルLLM: llama.cpp、Ollama、LM Studioなどのツールにより、個人のPCでもLLMを実行可能に

9.5 社会実装と規制の進展(2025年〜2026年)

  • EU AI Act: 2025年2月から段階的に施行開始。リスクベースの分類でAIシステムを規制
  • 日本: AI事業者ガイドライン策定、著作権法との関係整理が進展
  • 米国: 各州レベルでの規制と連邦レベルの大統領令による対応
  • 企業導入の加速: カスタマーサポート、法務、マーケティング、ソフトウェア開発など、あらゆる分野で生成AIの業務利用が標準化

10. 年表(タイムライン)

出来事
1950 チューリング「Computing Machinery and Intelligence」発表
1966 ELIZA開発(MIT、ワイゼンバウム)
1970 SHRDLU開発(MIT、ウィノグラード)
1986 バックプロパゲーション普及(ルメルハート、ヒントン、ウィリアムズ)
1997 LSTM発表(ホッホライター、シュミットフーバー)
2006 ヒントンらが深層学習の再興を牽引
2012 AlexNetがImageNetで圧勝 → ディープラーニングブーム
2013 Word2Vec発表(Google、ミコロフら)
2013 VAE(変分オートエンコーダ)提案
2014 GAN発表(グッドフェロー)
2014 Seq2Seqモデル発表(Google)
2017 Transformer発表 ―「Attention Is All You Need」
2018 GPT-1発表(OpenAI)
2018 BERT発表(Google)
2018 StyleGAN発表(NVIDIA)
2019 GPT-2発表(OpenAI)※段階的公開
2020 GPT-3発表(OpenAI) ― パラメータ1,750億
2020 DDPM(拡散モデル)実用化
2021 DALL-E発表(OpenAI) ― テキストから画像生成
2021 GitHub Copilotテクニカルプレビュー開始
2022.01 InstructGPT発表 ― RLHF手法の確立
2022.04 DALL-E 2発表
2022.06 GitHub Copilot一般公開
2022.07 Midjourney公開
2022.08 Stable Diffusion公開 ― オープンソース画像生成の民主化
2022.11 ChatGPT公開 ― 生成AI社会浸透の転換点
2023.02 LLaMA公開(Meta)
2023.03 GPT-4発表 ― マルチモーダルLLM
2023.03 Claude 1公開(Anthropic)
2023.07 Claude 2公開 / LLaMA 2公開
2023.10 DALL-E 3発表
2023.12 Gemini発表(Google)
2024.02 Sora発表(OpenAI) ― 動画生成AI
2024.03 Claude 3ファミリー発表
2024.06 Claude 3.5 Sonnet発表
2024.09 OpenAI o1発表 ― 推論特化モデル
2025.01 DeepSeek-R1公開 ― 低コスト推論モデル
2025 Claude 4世代発表 / AIエージェント本格化
2025 Claude Opus 4.6 / Sonnet 4.6 発表
2025〜2026 EU AI Act施行開始 / 世界的なAI規制枠組みの形成

おわりに

生成AIの歴史は、1950年代の理論的な問いかけから始まり、約75年をかけて社会を根本から変える技術へと成長した。特に2017年のTransformerの登場以降、進化の速度は指数関数的に加速している。

現在の生成AIは、テキスト・画像・動画・音声・コードなど、あらゆるモダリティにおいて人間レベルに迫る、あるいは一部では人間を超える生成能力を持つ。AIエージェントの発展により、単なるコンテンツ生成を超え、自律的なタスク遂行へと応用範囲が広がっている。

同時に、著作権、雇用、安全性、規制といった課題は今後も社会全体で取り組むべきテーマであり続ける。生成AIの歴史は、まだ始まったばかりである。

Views: 6