人工智能通史（下卷）

深度学习与大模型时代：从感知到认知

第五章：深度学习的寒武纪爆发 (2011-2016)

如果说上卷的历史是漫长的潜伏与积累，那么从2011年开始，AI进入了类似生物进化史上的“寒武纪大爆发”时期。算力（GPU）、数据（互联网）和算法（深度神经网络）三要素的齐备，引爆了这场革命。

5.1 神经网络的复兴：ImageNet 时刻 (2012)

尽管Geoffrey Hinton等人在2006年就提出了深度置信网络（DBN），但学术界主流依然对神经网络持怀疑态度。直到2012年，一切都改变了。

在当年的ImageNet大规模视觉识别挑战赛（ILSVRC）中，Hinton的学生Alex Krizhevsky设计了一个包含8层神经元、6000万个参数的卷积神经网络——AlexNet。它以15.3%的Top-5错误率夺冠，将第二名（使用传统SVM方法）甩开了惊人的10.8个百分点[1]。

技术细节：AlexNet 的突破

AlexNet的成功不仅仅是因为网络更深，还因为它引入了几个关键技术：

ReLU激活函数：解决了深层网络中的梯度消失问题，加速了收敛。
Dropout：在训练过程中随机“丢弃”部分神经元，有效防止了过拟合。
GPU加速：利用两块GTX 580显卡进行并行计算，将训练时间从几个月缩短到一周。

AlexNet的胜利标志着深度学习（Deep Learning）时代的正式到来。此后，VGG、GoogLeNet、ResNet等架构层出不穷，计算机视觉（CV）的错误率迅速降低至超越人类水平。

5.2 AlphaGo：强化学习的奇迹 (2016)

2016年3月，Google DeepMind开发的AlphaGo在首尔以4:1击败了围棋世界冠军李世石。围棋因其巨大的状态空间（10^170，比宇宙中的原子数还多）曾被认为是AI难以攻克的最后堡垒。

AlphaGo并非单纯依赖暴力搜索，而是结合了深度神经网络与蒙特卡洛树搜索（MCTS）。它拥有两个大脑：

策略网络（Policy Network）：直觉网络，预测下一步最可能走哪里，缩小搜索宽度。
价值网络（Value Network）：评估网络，判断当前局面的胜率，缩小搜索深度。

最令人震撼的是第二局的第37手。AlphaGo下出了一步人类棋谱中从未有过的“五路肩冲”。这一手棋在当时被李世石认为是失误，但事后证明是极具创造力的一手。这标志着AI不再仅仅是模仿人类，而是开始创造新的知识。

5.3 生成对抗网络 (GAN)：机器的想象力 (2014)

2014年，Ian Goodfellow在一个酒吧聚会后提出了生成对抗网络（GAN）。GAN包含两个网络：一个生成器（Generator）试图制造假图片欺骗判别器，一个判别器（Discriminator）试图分辨真假。两者在博弈中共同进化。

GAN让机器首次具备了“想象力”，能够生成逼真的人脸、风景甚至艺术画作。Yann LeCun称其为“过去十年机器学习领域最有趣的想法”。

第六章：Transformer 与大模型时代 (2017-2022)

当计算机视觉领域激战正酣时，自然语言处理（NLP）领域也在酝酿一场更大的风暴。传统的RNN和LSTM模型在处理长文本时面临并行化困难和记忆遗忘的问题。

6.1 Attention Is All You Need (2017)

2017年，Google Brain团队发表了划时代的论文《Attention Is All You Need》[2]。论文提出了Transformer架构，完全抛弃了循环和卷积，仅依赖自注意力机制（Self-Attention）。

技术细节：自注意力机制

自注意力机制允许模型在处理一个词时，同时关注句子中的其他所有词，并计算它们之间的关联度（权重）。例如，在处理“The animal didn't cross the street because it was too tired”时，模型能通过注意力机制知道“it”指代的是“animal”而不是“street”。这种机制不仅解决了长距离依赖问题，还实现了高度并行化训练。

6.2 BERT vs GPT：路线之争 (2018)

Transformer诞生后，NLP领域分裂为两条路线：

BERT (Encoder-only)：Google提出。它像做完形填空一样，通过双向上下文理解文本。BERT在理解任务（如分类、问答）上表现卓越。
GPT (Decoder-only)：OpenAI提出。它像做成语接龙一样，单向预测下一个词。虽然起初效果不如BERT，但OpenAI坚信生成式预训练（Generative Pre-training）才是通往通用智能的道路。

6.3 GPT-3：大力出奇迹与涌现 (2020)

2020年，OpenAI发布了GPT-3，参数量达到了惊人的1750亿（是GPT-2的100倍）。GPT-3展示了令人震惊的“涌现能力”（Emergent Abilities）：在没有专门训练的情况下，它竟然学会了写代码、做数学题、翻译语言，甚至进行简单的逻辑推理。

这证明了缩放定律（Scaling Laws）：只要模型足够大、数据足够多、算力足够强，智能就会自然涌现。这一发现彻底改变了AI的研究范式，从“精雕细琢的小模型”转向了“大炼模型”时代。

第七章：生成式 AI 与 AGI 曙光 (2023-Present)

历史的车轮滚滚向前，终于来到了我们亲历的当下。2022年底，一个聊天机器人的发布，彻底引爆了全球对AI的热情与恐惧。

7.1 ChatGPT 时刻：对齐人类意图

GPT-3虽然强大，但它像一个口无遮拦的狂人，经常胡言乱语。为了让它成为有用的助手，OpenAI引入了RLHF（基于人类反馈的强化学习）技术。

2022年11月30日，基于GPT-3.5微调的ChatGPT低调上线。它流畅的对话能力、广博的知识和惊人的逻辑性震惊了世界。短短两个月，月活用户突破1亿，成为史上增长最快的消费级应用。比尔·盖茨称其为“自图形用户界面（GUI）以来最重要的技术进步”。

7.2 多模态与世界模型：Sora (2024)

2024年初，OpenAI发布了文生视频模型Sora。它不仅能生成长达60秒的高清视频，更重要的是，它展现出了对物理世界的理解能力（如光影反射、物体遮挡、流体运动）。

这引发了关于“世界模型”（World Model）的讨论：AI是否已经构建了一个关于物理世界的内部模拟器？如果是，那么通往AGI（通用人工智能）的道路已经铺平。

7.3 迈向 AGI：推理与智能体

随着OpenAI o1 (Strawberry)等模型的发布，AI开始通过思维链（Chain of Thought, CoT）进行慢思考（System 2），攻克了数学证明和复杂科学推理的难关。同时，智能体（Agents）技术让AI不仅能“说”，还能使用工具、浏览网页、编写代码来“做”事。

我们正处于一个奇点临近的时刻。AI不再是冷冰冰的工具，它正在成为人类的合作者、竞争者，甚至是某种意义上的“新物种”。

结语：我们与神的距离

从1956年达特茅斯的那个夏天，到如今遍布云端的大模型，人工智能走过了近70年的历程。我们见证了它从逻辑符号的推演，到神经网络的直觉，再到生成式模型的创造力。

今天，我们制造出的机器已经通过了图灵测试，战胜了棋类冠军，解开了蛋白质折叠之谜，甚至开始创作诗歌和绘画。但真正的挑战才刚刚开始：如何确保超级智能与人类价值观对齐（Alignment）？如何解决算法偏见与就业替代？

正如阿瑟·克拉克所言：“任何足够先进的技术，都与魔法无异。”我们正手握魔法，站在新时代的门槛上。未来已来，只是分布尚不均匀。

参考文献

Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). ImageNet Classification with Deep Convolutional Neural Networks. Advances in Neural Information Processing Systems, 25.
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems, 30.
Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., Van Den Driessche, G., ... & Hassabis, D. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484-489.
Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., ... & Bengio, Y. (2014). Generative adversarial nets. Advances in Neural Information Processing Systems, 27.
OpenAI. (2023). GPT-4 Technical Report. arXiv preprint arXiv:2303.08774.

← 上一卷：逻辑起源返回课程主页