更改

跳转至: 导航搜索

张杰:ChatGPT解读

添加24字节, 2023年6月20日 (二) 19:41
无编辑摘要
关键技术是什么?
在 ChatGPT 背后起关键作用的是一种被称为大规模语言模型(Large 背后起关键作用的是一种被称为[[大规模语言模型]](Large Language Model,LLM)的东西,ChatGPT 用的这款语言模型命名为 GPT-3.5,GPT 是生成式预训练(Generative Pre-Training)的缩写,目前的版本号是 3.5 版。此外,在 GPT-3.5 之上,ChatGPT 还通过基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF),使 GPT 能够记住之前的对话、承认错误、在连续的多轮对话中给人很顺畅的感觉。
'''2.1 [[大规模语言模型]]'''
顾名思义,大规模语言模型就是非常大的语言模型。什么是语言模型呢?顾名思义,[[大规模语言模型]]就是非常大的语言模型。什么是语言模型呢?
'''2.1.1 语言模型'''
'''2.1.2 神经网络'''
GPT 为什么会那么大?因为它内部是神经网络的结构。大规模语言模型的基础单元叫做感知机,它模拟了人脑中神经元的结构。这些感知机组织成庞大的网络结构,用来“山寨”人脑的神经网络。为什么会那么大?因为它内部是神经网络的结构。[[大规模语言模型]]的基础单元叫做感知机,它模拟了人脑中神经元的结构。这些感知机组织成庞大的网络结构,用来“山寨”人脑的神经网络。
一般情况下,一个正常人的大脑约有 800~1000 亿个神经元,以及约 100 万亿个突触。神经科学家 Paul Maclean 提出的三元脑(triune brain) 模型,将大脑结构分为三类:爬行脑、哺乳脑、人类脑。爬行脑最早进化出来,负责呼吸、心跳、血压等,完全自动运作。哺乳脑负责情感、记忆、习惯形成等,能够做出非常快的决策。人类脑最晚形成,负责一些复杂的分析推理,是做慢决策,即所有需要深思熟虑的事物。
'''2.1.4 思维链'''
此外,大规模语言模型还带给人们的一项意外的惊喜,那就是让人细思极恐的思维链(Chain此外,[[大规模语言模型]]还带给人们的一项意外的惊喜,那就是让人细思极恐的思维链(Chain-of-Thought,CoT)能力。
简单地说,思维链就是让 LLM 将一个问题拆解为多个步骤,最后给出答案,而不是让 LLM 直接给出答案。直接给答案的出错率更高。比如,你给 LLM 出了一个题目:“张三养了 10 条狗,每天照顾每条狗都要花半小时,请问他照顾这些狗要花费多长时间?”LLM 直接给答案的话可能会出错,当你提示 LLM 要“一步步地回答”时,它会告诉你:“张三养了 10 条狗,每天照顾每条狗都要花半小时,那就是 10 x 0.5 = 5 小时 / 天。5 小时 / 天 x 7 天 / 周 = 35 小时 / 周。答案是每周 35 小时。”
说了这么多,总结一下重点,不管你能记住多少,起码下次在电梯里遇到老板或者在饭局上遇到同学时,在聊起 ChatGPT 的时候,你能插上几句话。
关于大规模语言模型:训练时要用到万亿级的数据、花费百万美元的算力,才能使它能说人话,并具有一定的“思维链”推理能力。关于[[大规模语言模型]]:训练时要用到万亿级的数据、花费百万美元的算力,才能使它能说人话,并具有一定的“思维链”推理能力。
大模型的超能力:模型要足够深、足够大,才能产生抽象的推理能力,这些高级的基础能力具有很好的通用性。大模型革命的一个关键趋势就是,通用大模型比专用小模型表现地更好,打破了人们一项固有认知:“通用的不好用,好用的不通用。”
行政员、groupone、管理员
16,816
个编辑

导航菜单