150 计算152(1 / 2)

GPT是OpenAI推出来的一系列语言模型,全称为GenerativePre-trainedTransformer,目前已经到了第4代,GPT-4,它的核心本质依然是语言模型。

从结构来看,这是数据决定的。

对于transformerencoder和decoder模型来说,大模型成功的关键,在于如何在大量的文本数据上做无监督学习。

其实,对于文本数据进行建模的思路一直很清晰,那就是语言模型,也就是

p(w1,w2,...,wt)=p(w1)p(w2|w1)...p(wt|w1,w2,...,wt−1)

这是因为语言天然就有序列性,用条件概率来分解联合分布是非常自然的选择。对于条件概率,也就是所谓的nexttokenprediction问题,自然适合用rnn或者表达能力更强的transformerdecoder来解决。

其实其图像本身并没有简单的序列性,强行建模成nextvisualtokenprediction问题,并用transformerdecoder来解决不一定是最优方案。起码在当前的ViT模型中,包括diffusiontransformer,我们用的还是双向注意力,而不是单向注意力。

假如说,我们给定token序列u1,u2,...,un,语言模型输出概率p(u1,u2,...,un),表示这是一个句子(或片段)的概率。

还可以将这个概率模型展开成条件概率形式:

p(u1,u2,...,un)=p(u1)∏i=2np(ui|u1,u2,...,ui−1)

或者我们进行简化,引入马尔可夫链,每个条件概率只观察前k个token,就得到近似公式:

p(u1,u2,...,un)=p(u1)∏i=2np(ui|ui−k,ui−k+1,...,ui−1)

返回