16,816
个编辑
更改
无编辑摘要
关键技术是什么?
在 ChatGPT 背后起关键作用的是一种被称为大规模语言模型(Large 背后起关键作用的是一种被称为[[大规模语言模型]](Large Language Model,LLM)的东西,ChatGPT 用的这款语言模型命名为 GPT-3.5,GPT 是生成式预训练(Generative Pre-Training)的缩写,目前的版本号是 3.5 版。此外,在 GPT-3.5 之上,ChatGPT 还通过基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF),使 GPT 能够记住之前的对话、承认错误、在连续的多轮对话中给人很顺畅的感觉。
'''2.1 [[大规模语言模型]]'''
'''2.1.1 语言模型'''
'''2.1.2 神经网络'''
GPT 为什么会那么大?因为它内部是神经网络的结构。大规模语言模型的基础单元叫做感知机,它模拟了人脑中神经元的结构。这些感知机组织成庞大的网络结构,用来“山寨”人脑的神经网络。为什么会那么大?因为它内部是神经网络的结构。[[大规模语言模型]]的基础单元叫做感知机,它模拟了人脑中神经元的结构。这些感知机组织成庞大的网络结构,用来“山寨”人脑的神经网络。
一般情况下,一个正常人的大脑约有 800~1000 亿个神经元,以及约 100 万亿个突触。神经科学家 Paul Maclean 提出的三元脑(triune brain) 模型,将大脑结构分为三类:爬行脑、哺乳脑、人类脑。爬行脑最早进化出来,负责呼吸、心跳、血压等,完全自动运作。哺乳脑负责情感、记忆、习惯形成等,能够做出非常快的决策。人类脑最晚形成,负责一些复杂的分析推理,是做慢决策,即所有需要深思熟虑的事物。
'''2.1.4 思维链'''
简单地说,思维链就是让 LLM 将一个问题拆解为多个步骤,最后给出答案,而不是让 LLM 直接给出答案。直接给答案的出错率更高。比如,你给 LLM 出了一个题目:“张三养了 10 条狗,每天照顾每条狗都要花半小时,请问他照顾这些狗要花费多长时间?”LLM 直接给答案的话可能会出错,当你提示 LLM 要“一步步地回答”时,它会告诉你:“张三养了 10 条狗,每天照顾每条狗都要花半小时,那就是 10 x 0.5 = 5 小时 / 天。5 小时 / 天 x 7 天 / 周 = 35 小时 / 周。答案是每周 35 小时。”
说了这么多,总结一下重点,不管你能记住多少,起码下次在电梯里遇到老板或者在饭局上遇到同学时,在聊起 ChatGPT 的时候,你能插上几句话。
大模型的超能力:模型要足够深、足够大,才能产生抽象的推理能力,这些高级的基础能力具有很好的通用性。大模型革命的一个关键趋势就是,通用大模型比专用小模型表现地更好,打破了人们一项固有认知:“通用的不好用,好用的不通用。”