“黄仁勋首公开回应 DeepSeek,称该模型在推理阶段表现出色,但后训练才是「智能的核心」,如何解读?”的版本间的差异
(创建页面,内容为“{{4}} 老黄这次完全装作是在给投资人上课。 我找到了黄仁勋这次的访谈视频,看了就知道,主持人问的是『为什么DeepSeek R1…”) |
|||
第35行: | 第35行: | ||
资本家的思维就是:先把投资人忽悠住,拼一把,万一能成呢,对吧:-) | 资本家的思维就是:先把投资人忽悠住,拼一把,万一能成呢,对吧:-) | ||
+ | |||
+ | [https://www.msn.cn/zh-cn/news/other/%E9%BB%84%E4%BB%81%E5%8B%8B%E9%A6%96%E5%85%AC%E5%BC%80%E5%9B%9E%E5%BA%94-deepseek-%E7%A7%B0%E8%AF%A5%E6%A8%A1%E5%9E%8B%E5%9C%A8%E6%8E%A8%E7%90%86%E9%98%B6%E6%AE%B5%E8%A1%A8%E7%8E%B0%E5%87%BA%E8%89%B2-%E4%BD%86%E5%90%8E%E8%AE%AD%E7%BB%83%E6%89%8D%E6%98%AF-%E6%99%BA%E8%83%BD%E7%9A%84%E6%A0%B8%E5%BF%83-%E5%A6%82%E4%BD%95%E8%A7%A3%E8%AF%BB/ar-AA1zDgPS?ocid=msedgntp&pc=CNNDDB&cvid=b78e33d83fee4abaaf984d308e700ff9&ei=11 来自知乎] |
2025年2月24日 (一) 09:23的最新版本
老黄这次完全装作是在给投资人上课。
我找到了黄仁勋这次的访谈视频,看了就知道,主持人问的是『为什么DeepSeek R1出来之后大家觉得是不好的事(bad thing)』,然后老黄就说很多投资人(investor)有一种思维模式就是AI大模型只有两部分,预训练(pre-training)和推理(inference)。
拜托,任何一个对大模型技术有所了解的人都知道,现在所有的大模型在pre-training之后要做post-training,pre-training产生的基座模型是没法直接拿来应用的,这一点,也许只知道追热门股票的散户可能不知道,但是真正给AI和芯片砸大钱的投资人怎么可能不知道呢?
所以,真不知道老黄这是真觉得投资人傻呢,还是只是没话找话。
然后老黄接着说,后训练Post-Training很重要,Post-Training需要很多计算,DeepSeek R1正说明需要更多Post-Training,所以实际上需要更多的计算量。
真的是这样的吗?
可以理解老黄,老黄总不能承认DeepSeek R1导致计算需求量降低,不然投资人真想neng死他,所以台面上的话还是要说的,只是——真的没啥逻辑。
众所周知,Pre-Training要比Post-Training花费更多的计算资源。
一个基座模型的Pre-Training往往要花费几个月的时间,根据公开的Llama 3的数据[1],基座模型要16000张H100卡开足马力,8B模型花了3天,70B模型花了17天,400B模型花了97天!而对于基座模型的Post-Training,单GPU就可以进行,甚至游戏级别的显卡都可以做。
一个Post-Training所用资源远小于Pre-Training,怎么能够得出结论Post-Training会需要更多计算资源呢?
而且,DeepSeek R1证明的就是,Post-Training只要做得好,不需要很多的计算资源也可以达到很好的效果,这不正说明没有那么大的计算资源需求吗!
这种逻辑真正了解AI的人一眼就能看破,所以,老黄只能继续装作给投资人上课,老黄在访谈中接着说市场(也就是投资人)对R1的反应就是『哎呀,AI完蛋了,天塌了,其实Duck不必』。
唉,够难为老黄的,港真,现在这个局面,真的很难圆出一个合乎逻辑的AI依然对计算资源有持续增长的说法。
不过,也无妨,反正你看主持人那清澈的眼神,好像也被老黄给说服了,很多投资人估计就是真不懂,老黄说啥就是啥,但是,最后市场的走向会说明问题。
资本家的思维就是:先把投资人忽悠住,拼一把,万一能成呢,对吧:-)