黄仁勋首公开回应 DeepSeek,称该模型在推理阶段表现出色,但后训练才是「智能的核心」,如何解读?

来自通约智库
跳转至: 导航搜索

老黄这次完全装作是在给投资人上课。

我找到了黄仁勋这次的访谈视频,看了就知道,主持人问的是『为什么DeepSeek R1出来之后大家觉得是不好的事(bad thing)』,然后老黄就说很多投资人(investor)有一种思维模式就是AI大模型只有两部分,预训练(pre-training)和推理(inference)。

拜托,任何一个对大模型技术有所了解的人都知道,现在所有的大模型在pre-training之后要做post-training,pre-training产生的基座模型是没法直接拿来应用的,这一点,也许只知道追热门股票的散户可能不知道,但是真正给AI和芯片砸大钱的投资人怎么可能不知道呢?

黄仁勋首公开回应1.png

所以,真不知道老黄这是真觉得投资人傻呢,还是只是没话找话。

然后老黄接着说,后训练Post-Training很重要,Post-Training需要很多计算,DeepSeek R1正说明需要更多Post-Training,所以实际上需要更多的计算量。

真的是这样的吗?

可以理解老黄,老黄总不能承认DeepSeek R1导致计算需求量降低,不然投资人真想neng死他,所以台面上的话还是要说的,只是——真的没啥逻辑。

众所周知,Pre-Training要比Post-Training花费更多的计算资源。

一个基座模型的Pre-Training往往要花费几个月的时间,根据公开的Llama 3的数据[1],基座模型要16000张H100卡开足马力,8B模型花了3天,70B模型花了17天,400B模型花了97天!而对于基座模型的Post-Training,单GPU就可以进行,甚至游戏级别的显卡都可以做。

一个Post-Training所用资源远小于Pre-Training,怎么能够得出结论Post-Training会需要更多计算资源呢?

黄仁勋首公开回应2.png

而且,DeepSeek R1证明的就是,Post-Training只要做得好,不需要很多的计算资源也可以达到很好的效果,这不正说明没有那么大的计算资源需求吗!

这种逻辑真正了解AI的人一眼就能看破,所以,老黄只能继续装作给投资人上课,老黄在访谈中接着说市场(也就是投资人)对R1的反应就是『哎呀,AI完蛋了,天塌了,其实Duck不必』。

黄仁勋首公开回应3.png

唉,够难为老黄的,港真,现在这个局面,真的很难圆出一个合乎逻辑的AI依然对计算资源有持续增长的说法。

不过,也无妨,反正你看主持人那清澈的眼神,好像也被老黄给说服了,很多投资人估计就是真不懂,老黄说啥就是啥,但是,最后市场的走向会说明问题。

资本家的思维就是:先把投资人忽悠住,拼一把,万一能成呢,对吧:-)

来自知乎