149 大模型151（1 / 2）-我真没想驾驭无人姬啊

149 大模型151（1 / 2）

现在的大模型大多都是decoder-only架构，一般的NLPQ任务都是根据给定的输入来预测输出，完全无条件的随机生成是很少的，换句话说，任何NLP任务都可以分解为“输入”跟“输出”两部分，我们可以把处理“输入”的模型叫做Encoder，生成“输出”的模型叫做Decoder，那么所有任务都可以从“Encoder-Decoder”的视角来理解，而不同模型之间的差距在于Encoder、Decoder的注意力模式以及是否共享参数。

在LLM时代，如果你提出的新的算法结构可能有5%的效果提升，但是引入了额外50%的训练成本（计算时间or通信量）的话，那这个新的算法一定是一个负优化。因为这50%的训练成本，基于ScalingLaws我可以在原模型上多训练50%的tokens，或者训练大一半的模型，带来的最终提升都远大于新算法的5%。因此，新的算法研究必然在探索阶段就需要引入Infra因素的考量。

而GPT就是Decoder-only的代表作；UniLM则是跟GPT相似的Decoder架构，但它是混合的注意力模式；

T5则是Encoder-Decoder架构的代表作，主要是Google比较感兴趣。

Google在T5和UL2两篇论文中做了较为充分的对比实验，结果均体现出了Encoder-Decoder架构相比于Decoder-only的优势，但由于从LLM的角度看这两篇论文的模型尺度都还不算大，以及多数的LLM确实都是在做Decoder-only的，所以这个优势能否延续到更大尺度的LLM以及这个优势本身的缘由。

工业界所需要的B端需要的是确定性和稳定性，对业务价值的确定产出。

因为深度学习时代泛化能力差，具体每个任务pretrainedmodel+fine-tuning是必然结果，transformer最初发布的时候，就是针对翻译的任务，后来发现对NLP其他任务也有价值，大家都开始采用。

29K的引用量说明了一切。BERT的呈现，更具有划时代的意义，在NLP领域，第一次出现，训练一个比较大比较深的神经网络，然后应用在N个NLP任务中：简化了NLP的训练，提高了模型性能。

对应OpenAI来说，如果还是走pretrainedmodel+fine-tuning的路线，初创公司就没有核心业务，也玩不起。

所以就开始了Few-shotlearning的玩法。

GPT-1原论文名是-ImprovingLanguageUnderstandingbyGenerativePre-Training

智能小说网

149 大模型151（1 / 2）