第2章
返回目录 第4次会议纪要3月2日
14:30-17:00继续上午讨论。记忆:上次会议决定巨巨的脑子先试一下拼凑,本次议题是讨论巨巨是否需要具身,对话框是否可以;如果具身,那么模拟环境能否替代现实环境的作用。
人形:先不谈是模拟还是现实,具身是必须的。不要感官和身体,直接接收文字语音视频的话,巨巨就无法自主交互获取信息。教育巨巨学习时候,就得每一件事每一个细节都要准备相应的数据,程序员也要考虑好所有可能发生的事件和预测到所有的事件,测试员要准备各种常见的和可能出现的特殊样例。世界是不断发展变化的,这样的工作是海量的,无法衡量完成度的,AI就难以自行成长。人会变成AI的保姆,而且还是个时刻需要维护升级代码的永远无法成年的AI,也就是“有多少人工就有多少智能”。
码农:巨巨扫描对话框不就是感官么,扬声器主动发出声音,对话框输出不就是肢体么。
人形:对话框和屏幕截图的交互感知能力有限,理解也有限。缺少肢体和加速度、姿态、压力、摩擦之类的感知,就不能方便的通过“走近、围观、拿起、分拆、组合、破坏物体”去快速获取物体的多方面信息。探索学习行为局限于语音文字。学习成本大大增加,无法判断能否完成学习,说不定幼儿园都不能毕业。
路人甲:到底复杂到什么程度的输入和交互过程能支持人类级别的智能的出现或者说训练,我感觉似乎还是个开放、未知的问题。
2048:我觉得是现实具身才行,模拟有缺陷。用电脑来模拟足够复杂的环境并不容易,一是算力问题,二是多种效应场的互相作用会导致模拟上的极端复杂化,三是游戏里的良好表现不具备现实参考性,迁移到现实里就屁都不是。所以不如直接具身就算了,就不用想这个环境到底模拟到什么程度。
群演龙套:不具备现实参考性?怎么说呢。
2048:目前游戏的物理引擎里,为了达到实时交互和渲染,很多情况都省略或特殊处理了。一些动作,开门、坐下、走动、拿起物体,都是播放的相应固定动作。拿起武器装备就一定是那个动作,角色一定是走到装备前面xx距离的位置,一定用特定的速度角度去伸手抓住装备的某处预设位置。如果是别的没必要展示的物品,直接就是瞬间消失进入背包。
如果用这样的物理引擎做智能成长的环境,AI训练完成后,和现实交互时就会产生不少障碍。想象一下,当铊对现实操作时,想开门,是要对门这个对象发出open door指令吗?门还好些,可以家居智能化,用芯片和执行器控制门的开关,无线IO接口接收open door,但是装备类的呢,如果因为装备摆放的角度和附近有墙壁等障碍导致走不到特定位置,机械手的特定动作无法与装备吻合,是不是就拿不起来这物品了。游戏里地面不平整完全不影响角色走动,现实里你试试看。
智能成长的环境需要实时渲染的多效应场(声光电热力,化学,常观层面、分子层面)仿真引擎,这东西现在还真没有,也许某些世界顶级实验室会有,但普及的游戏里肯定没有。
群演龙套:嗯,缺乏渲染细节、交互粒度太大的虚拟环境里的AI,会缺乏敏锐的观察力和灵活的执行力。不够复杂的环境里,也会缺少从看似无序杂乱的信息中抓到关键的能力。
路人甲:精度和信息流处理带宽,是一个关键点。另外,我觉得也不用太高精度,现有计算机是可以实现模拟的,不一定要等超高精度的硬件级具身。
2048:是可以,但是简单环境就简单智能。而且关键还是不够复杂环境的良好表现不具备现实参考性,无法良好评估应该模拟到什么程度。要避免简单到无法充分感知和理解现实,又要模拟上简单省事,没有这种好事。
路人甲:超低精度,超级简单的智能;超高精度,超级复杂的智能。两者之间有很宽广的测试空间,并不是只有两个极端。
2048:我还是觉得没有免费午餐,这边省下的,那边会坑回来。企图用简化环境省事都是白费劲。
群演龙套:物理现象自然很难模拟。一个鸡蛋掉在地上的过程,模拟出来肯定都是错的。问题是,人造生命能像真人一样感受到那么多信息吗?最终信息还是计算机在处理,处理的信息也是有限的。就像造出一条像蚯蚓一样的躯体。对于这个躯体来说,外面世界的很多东西都是多余的。它感受到的信息是很有限的。实际上你要的还是一个高级动物。即便是造出一条狗,周围90%的信息都是被它忽略的吧。
2048:但你不能代替这条狗决定它应该忽略哪些信息。如果狗对某信息好奇了想要去探索一下,你是要赶在前面急急忙忙的生成一堆细节信息吗?人有非常强大的注意力和语言机制,过滤掉了很多信息,产生了自然语言这样的缺乏细节的系统,但忽略这些细节的能力、以及必要时又可深入这些细节的能力、可以做任意反事实的想象的能力,却可能不是做纯文本的自然语言理解能得到的。基于人类已经抽象好的自然语言系统来作为输入输出交互,剥夺了智能体前面说的三种能力。那么用简化环境也是一样,会不同程度上剥夺智能体的相应能力,这种剥夺也许是后天难以弥补的。
NLP:这是定位方向的问题。具身是自下而上,还有一个方向是自上而下。电脑这些年脱离现实感官却能很好的工作。可以说电脑不懂现实生活中的任何事物,却能处理很多工作。自然语言也是一样,现实的细节输入和后期的语言思维可以分成两部分。前半部分输入可以模拟,若实现了后半部分的自然语言思维,会比现在的编程语言强大N倍。当然都知道眼见为实,耳听为虚。纯自然语言就是耳听。但是有很多的理论推理和语言操作是可以在不眼见的情况下处理的。至于眼见那部分的必要,后面有机会再补。这样的好处是(1)不会等太久,(2)避免走错路(自下而上的路太多,进化成猫,不见得能进化出语言)。
2048:为什么具身就只能自下而上?加上自我意识自上而下同时两条腿走路互相促进不行么。另外,所谓“电脑不懂现实生活中的任何事物,却能处理很多工作”,还不是算法设计、程序员的工作在发挥作用。电脑上运行的代码和数据是人思维的提炼,是人对于特定的“很多工作”中总结的那一部分思维、经验转换为数据和代码后,在电脑这个加速器上运行的结果。如果有人因为计算器的多位四则运算比人脑子又快又准的“很好工作”,而坚定不移认为计算器就是类脑智能的研究方向,认为把婴儿蒙住眼睛堵住耳朵切除所有感官输入和肢体输出,直接脑后插入一个usb插头输入文字符号就能让他学会很多东西,那也就只好看着他们去跳坑了。
路人甲:具身人工智能的研究难度,如果是类似元宇宙的虚拟世界方案,技术上环境要实现多少细节、需要多大算力,是很大的难题;同时智能体本身的学习算法,在一些主流学习算法,如强化学习、迁移学习上要如何改进,才能让智能体学习到虚拟世界的大量规律呢?可能一步步去做的过程中,能逐步发现多强的智能需要多精细的环境。但不管是0.618程度的模拟,还是0.9或0.3,都可以验证理论。由于算法是通用的,并且是可以在不同的硬件配置上伸缩部署的。所以,假设人的感知精度是1,只要在虚拟环境或现实环境中模拟或构件了类似人的多重感知,在0.0003精度上验证了理论可行性,那么接下来的步骤就不难:
加大购买显卡力度,继续虚拟环境空间,购买每一代的显卡硬件。
等待每一次的硬件具身革命,购买每一代的具身感知器硬件。
逐渐逐渐的,你可以在0.3、0.6、0.9999的精度上逼近人类的感知级别。
群演龙套:自动驾驶,要感受并理解周围的环境。如果能做到的话,自动驾驶已经成功了。某些大厂就是用游戏环境模拟了自动驾驶,但是现实中的表现,的确不是很可靠。具身不一定可以,但没有具身肯定不行。但这个具身要成功应该还是建立在智能的基础之上。
人形:我觉得可以先试试模拟的具身。不管具身的模型是怎样的,都不可能说没有人类级硬件和现实级别复杂度的环境,理论构建和研发就进行不下去。所以可能会是一个相互进步的过程,具身的智能可以不是一步到位的成年人水平类脑智能。正如你只能让人学会驾驶,但可以让训练黑猩猩之类在简单环境中玩一玩玩具车,也可以训练熊或狗学会骑自行车。
2048:自动驾驶除了感受解释理解,还要有自我做出注意力、方向、目的的指向性学习和交互。具身的成功是要建立在智能的基础之上,但智能的成功也是建立在环境的复杂和具身交互粒度上。这是互相促进的。
李德万:看来身体问题还是得实际做一下看看。脑子方面集成已有的代码库,将视觉、自然语言、人脸识别、知识图谱、合成语音输出等拼一个人脑子。身体先作个模拟环境里的吧。看看能做到什么程度再说。
谜语人:脑子这种拼法有点生硬的感觉,还是再想想?
渣男:光有脑子没卵用。颜值高、性格对味才是最重要的,一个对话框有什么乐趣。
完。