GPT5训练失败的思考

SisterFucker

https://zhuanlan.zhihu.com/p/718513570

近期硅谷VC、ai创始人交流要点：scaling law或已放缓

1、大模型：AI仍是硅谷唯一的话题，但是没有去年那么狂热了，主要是scaling的速度有所放缓（警惕对于训练算力的需求放缓），大约3-4周前谷歌内部训练Gemini下一代模型（比上一代大10倍，类似GPT-5）时2次都失败了。这也解释了为什么GPT-5延期发布。硅谷目前认为LLM层面再把模型做大难度较大，原因在于：
a) MOE后post-training效果不太好，模型没有收敛
b) 数据是瓶颈，合成数据质量比网上搜的数据质量差了不少
2、不排除GPT-5继续延期

思考一：

在日常使用GPT-4的过程中，我发现其在许多场景下的输出已经非常接近完美。

这里的“完美”并不意味着通用人工智能（AGI）已经实现。

而是在现有系统形态，对话界面+输入有限的信息，模型基于有限的信息给出回复，已经接近有限信息理论上应该有的回复。虽然表述有些复杂，但简而言之，许多问题之所以没有得到满意的回答，主要是因为输入的信息不足。

思考二：

虽然模型拥有庞大的上下文能力，这对于搜索和总结场景非常有用，但在推理场景中，我们不应期望现有的技术方案能够实现长上下文的复杂推理。

现有的模型更像是一种快速思考系统，对于涉及多阶推理、前后信息对比、路径探索和经验积累等复杂任务，不应期望这些功能在模型内部完成。

慢思考所需要的信息输入一个快思考系统得不到慢思考的结果。

COT（思维链）的应用实际上是推理外部化的一个信号，而慢思考则应通过Agent架构来解决。

思考三：

许多问题不应期望在现有模型架构中直接解决，例如精确的数学计算。对于人类而言，简单的计算依赖于记忆，而稍微复杂的计算，即使是心算，也是一个逻辑推理和记忆的过程，例如计算58+34，心算实际上是一种慢思考的推理。因此，大模型使用工具进行计算是一个合理的方案。

思考四：

“压缩即智能”但人类最高度的智能，如物理理论，并非通过压缩而来。压缩是一种归纳方法，例如，将各种物体自由落体的视频交给大模型进行归纳，可能会得出轻物体下落慢、重物体下落快，或者归纳出数百种物质的下落模型。然而，仅靠归纳是无法得出重力加速度或空气阻力等结论的。尽管压缩可以体现智能，但最高度的压缩来自于推理、假设和实验。

总结：

如果现在的大模型不能解决你手上的任务，真的是模型智能不够吗？真的需要的是更大参数的模型吗？