150 计算152（1 / 2）-我真没想驾驭无人姬啊

GPT是OpenAI推出来的一系列语言模型，全称为GenerativePre-trainedTransformer，目前已经到了第4代，GPT-4，它的核心本质依然是语言模型。

从结构来看，这是数据决定的。

对于transformerencoder和decoder模型来说，大模型成功的关键，在于如何在大量的文本数据上做无监督学习。

其实，对于文本数据进行建模的思路一直很清晰，那就是语言模型，也就是

p(w1，w2，...，wt)=p(w1)p(w2|w1)...p(wt|w1，w2，...，wt−1)

这是因为语言天然就有序列性，用条件概率来分解联合分布是非常自然的选择。对于条件概率，也就是所谓的nexttokenprediction问题，自然适合用rnn或者表达能力更强的transformerdecoder来解决。

其实其图像本身并没有简单的序列性，强行建模成nextvisualtokenprediction问题，并用transformerdecoder来解决不一定是最优方案。起码在当前的ViT模型中，包括diffusiontransformer，我们用的还是双向注意力，而不是单向注意力。

假如说，我们给定token序列u1，u2，...，un，语言模型输出概率p(u1，u2，...，un)，表示这是一个句子（或片段）的概率。

还可以将这个概率模型展开成条件概率形式：

p(u1，u2，...，un)=p(u1)∏i=2np(ui|u1，u2，...，ui−1)

或者我们进行简化，引入马尔可夫链，每个条件概率只观察前k个token，就得到近似公式：

p(u1，u2，...，un)=p(u1)∏i=2np(ui|ui−k，ui−k+1，...，ui−1)