149 大模型151(1 / 2)

现在的大模型大多都是decoder-only架构,一般的NLPQ任务都是根据给定的输入来预测输出,完全无条件的随机生成是很少的,换句话说,任何NLP任务都可以分解为“输入”跟“输出”两部分,我们可以把处理“输入”的模型叫做Encoder,生成“输出”的模型叫做Decoder,那么所有任务都可以从“Encoder-Decoder”的视角来理解,而不同模型之间的差距在于Encoder、Decoder的注意力模式以及是否共享参数。

在LLM时代,如果你提出的新的算法结构可能有5%的效果提升,但是引入了额外50%的训练成本(计算时间or通信量)的话,那这个新的算法一定是一个负优化。因为这50%的训练成本,基于ScalingLaws我可以在原模型上多训练50%的tokens,或者训练大一半的模型,带来的最终提升都远大于新算法的5%。因此,新的算法研究必然在探索阶段就需要引入Infra因素的考量。

而GPT就是Decoder-only的代表作;UniLM则是跟GPT相似的Decoder架构,但它是混合的注意力模式;

T5则是Encoder-Decoder架构的代表作,主要是Google比较感兴趣。

Google在T5和UL2两篇论文中做了较为充分的对比实验,结果均体现出了Encoder-Decoder架构相比于Decoder-only的优势,但由于从LLM的角度看这两篇论文的模型尺度都还不算大,以及多数的LLM确实都是在做Decoder-only的,所以这个优势能否延续到更大尺度的LLM以及这个优势本身的缘由。

工业界所需要的B端需要的是确定性和稳定性,对业务价值的确定产出。

因为深度学习时代泛化能力差,具体每个任务pretrainedmodel+fine-tuning是必然结果,transformer最初发布的时候,就是针对翻译的任务,后来发现对NLP其他任务也有价值,大家都开始采用。

29K的引用量说明了一切。BERT的呈现,更具有划时代的意义,在NLP领域,第一次出现,训练一个比较大比较深的神经网络,然后应用在N个NLP任务中:简化了NLP的训练,提高了模型性能。

对应OpenAI来说,如果还是走pretrainedmodel+fine-tuning的路线,初创公司就没有核心业务,也玩不起。

所以就开始了Few-shotlearning的玩法。

GPT-1原论文名是-ImprovingLanguageUnderstandingbyGenerativePre-Training

返回