这两天看下来,感觉 o1 表现出的特性十分具有启发性。
我之前说智能的本质是“通用的因果识别能力”。但这个定义并没有规定识别的过程长度,也没有规定识别过程是显式的还是隐式的。
o1 仍然被弱智吧问题吊打,说明模型的短长度多重因果信息识别能力没什么进展(至少没训练出这方面的思维链搭建能力)。
按我之前的判断标准(主要参考人类),这表明模型的智商没怎么增加,但是 o1 却实实在在的在多数任务上有明显性能提升,甚至连门萨智商测试都高了一大截。
你倒告诉我,怎么解释呢?
这可能预示着,出现了与人类不同的智能提升路线。
举个不太恰当的例子:柯南和一个路人来到案发现场,警方将现场的全部线索说给两人听,柯南瞬间将所有线索串联,知道了犯人是谁。而路人记下线索后,回家拿着纸笔开始分析,把所有可能的解释都写下,花了三天三夜找到了合理解释,搞清了谁是犯人。
试问柯南和路人谁的智能高?
按我们的一般常识,显然是柯南智能高,毕竟一瞬间就找出了答案,而路人则是一个不算笨的普通人。
但我们对条件进行一点修改,把路人换成一个外星人,这个外星人的基础智商(单步的多重因果关系识别能力)和之前的路人一样,但是思维速度快 100000 倍,于是它可以花相同的时间得到和柯南一样的结论。
那么此时外星人与柯南谁智能高?
似乎应该一样高吧,因为解决的问题和花的时间一样啊。
这说明了一个问题,因果关系的识别(搜索)过程究竟是在神经网络内部隐式地发生,还是在外部依靠文字的信息积累显式搜索,都不影响智能的质量,只要识别到了因果关系就 OK!
人类由于寿命和大脑推理速度(血液供氧散热能力)的物理限制,堆推理计算量刷智能只能是辅助路线,提高智能主要依靠增强神经网络的单步因果识别能力。
这对我们产生了误导,让我们以为只有像柯南那样才是聪明,靠堆推理次数得到结果是笨人的办法。
电脑的推理速度可以高于人脑,而且能够按一定加速比并联无限提高推理速度,因此电脑可以走出和人类不同的智能提升路线。
现在 LLM 似乎走到了发展的岔路口。
究竟是继续 scale up 预训练过程提高模型的基础多重因果识别能力,还是保持基础智能不变,甚至降低一些基础智能(省计算量),全力增加推理计算量及相关能力的训练。在同等资源投入下哪个收益更大呢?还是出于保守两边同时投入。目前没有明确的答案,掌握更多实验数据的 OpenAI 可能会有比较准确的看法吧。
另一方面来说,需要注意,从 o1 的准备时间上来看,o1 的性能提升训练速率(效率)仍然显著低于人类的学习效率,o1 学习的数据条目信息量应当仍然远多于单一人类的寿命内学习信息量。
这说明其他研究实体仍然有机会超越 OpenAI,但必须提出比 OpenAI 更高效(接近人类)的因果识别能力训练方法,而且需要保持通用性(这方面 o1 的表现不够好)。
还是老话,可能的路线是 欺骗/欺骗识别的 self-play + RL。
o1 的图灵测试表现可能不会比 4o 好(没进行过伪装的思维链训练),归根结底是 o1 新增能力的通用性不好,它的智能有没有真正增加仍需要打一个问号。前面说过智能的实质是“通用的因果识别能力”,这几个字少一个都有问题。
既然图灵测试是公认的(至少曾经吧)智能判别标准,对着标准搞应试教育就行了。一个能骗过人类(天才)的模型一定是聪明的。
OpenAI 由于安全枷锁不敢干的事都得干,毕竟先发优势很大,容易想到的办法人家早就试过了,只有走 OpenAI(碍于人设)不敢走的(有安全风险的)路线才有可能超车。