最近真的忙死了,然后也没有特别值得发专栏的论文,就杂谈吧。
(资料图片仅供参考)
这次杂谈的话题是——我们的思维是某种prompt吗?
1.神经网络到prompt
再梳理一下吧。
最开始有神经网络,神经网络是需要数据集进行训练的,这个过程比较漫长。
所以后来我们可以将大头给别人训练,小头自己训练。例如一个网络我要训练1000轮,那么就把它拆分成990轮和10轮,990轮由其他人做,称为预训练,剩下的10轮自己做,称为微调。
当然,最传统的神经网络都是专精于一个任务的,例如一个猫狗分类网络不能直接做鸡鸭分类,那么有没有办法在预训练的时候就让网络具有能适应多种任务的能力呢?
当然可以做,但是要把模型搞大,相应地,就出现了自监督方法。
原先的有监督方法需要对数据进行标注,这大大限制了数据集规模,想要训练大模型,一一标注太耗时耗力。自监督方法就是要学习数据原本就隐含的信息,例如对于一段文本,它本身就具有一定的逻辑、情感等信息,那我们就直接扒拉语料学习就好了。
相应地,神经网络被拆解成了两部分——编码器和解码器,编码器负责将输入编码成富含信息的格式,解码器将整个格式映射到不同的任务上。这样预训练我们就只保存编码器,在微调时我们再放入新的解码器。
但是自回归语言模型不这样想,因为它本身只有解码器架构,但是做的足够大之后它发现自己有了更强的能力。以往的“预训练-微调框架”下,微调是需要修改网络参数的,但是大自回归语言模型不再需要了,取而代之的是使用prompt(一般可以翻译成提示,业界一般不进行翻译),即“预训练-prompt”框架。
prompt简单来说就是给出例子,例如我们想让语言模型做翻译,我们只需要给它几个翻译的例子,然后给出自己真正要翻译的文本就好了。
换句话说,prompt的作用是引出模型的某项能力而不是赋予它某项能力。
2.涌现
ChatGPT大火,其实是显示出啦大语言模型的能力,例如语言理解、上下文语境、世界知识等能力,还有最近研究较多的思维链能力。这些能力是小模型不曾具有的,只有在达到某个界限的时候,这类能力才会突然地提升,所以一般称为涌现。所以大模型和小模型可能是有着根本性的不同的。
涌现可能表明,我们人的智能可能并没有什么惊天秘密,单纯是脑容量增大后自然而然出现(涌现)的东西
ChatGPT和人类像的地方还有很多,例如有“知觉”等,这需要让我们重新审视它,而不是单纯当做一个概率模型来看
3.看看人脑
你完全可以把人的大脑理解成一个多模态大模型。多模态是说,我们可以接受视觉的、听觉的等多种信息,大模型不用多说,我们的大脑中有大量神经元。
为什么说思维本身可能是某种prompt呢,因为我们的思维某种程度上不正是用来提示大脑的运作的吗?我们在做一步步推理的时候,可能就和大语言模型的思维链一样,一步一步地给出结果。或者说,大脑的输出当然可以当做下一轮的prompt。
当然,这个prompt也可以从外部环境获得,当我们阅读文本的时候,实际上可能就是从视觉那边获得了一个新的prompt,所以我们的思维就会不自觉地跟着我们看到的文字走了。
4.结语
当然,这种看法目前也只是猜想罢了,目前要证明它可能还为时尚早。
关键词: