大模型LLM的定位器Attention自注意力|兼看Qwen2参数构成

发布日期：2024-07-18 04:38:55 浏览次数： 4433

我们先简单回顾一下注意力机制(Attention Mechanism)的概念。注意力机制是一种广泛应用于序列数据(如自然语言、时间序列等)处理的技术,它允许模型在处理当前输入时,选择性地关注输入序列中的某些部分,而忽略其他不相关的部分。这种机制类似于人类在阅读文本时,会自动关注重点信息而忽略无关内容。
在大语言模型LLM中，注意力机制是最重要的模块，不管多大的模型，不管多大的变化，本质上都是多个自注意力层的堆叠。理解了注意力之后，我们将在模型层面上对大模型不再陌生。

注意力机制通过计算查询(Query)和键(Key)之间的相似性得分,从而确定应关注输入序列中的哪些部分。

下图中的可视化例子我们可以很直观的感受到，在生成“making”时，只有部分词对其产生了贡献。

Attention是如何计算的

上一篇文章讲到了，我们将文本切分成一个个token后，通过查词嵌入矩阵将token转化成了向量，在Qwen2中向量的维数3584维；为简化计算，我们假设token向量的维数为4维，下图为计算演示。

attention的目标是在预测当前token时，我们用整个句子中的token（编码后向量）的加权平均值表示。如何计算这个值呢，我们先将token的向量转化为，Q(查询)，K(键)，V(值)三个向量。然后在计算时，我们用当前token的Q与其它token的K计算相似度score，最后把所有token的score*V的值相加，就是得到加权平均值啦。

比如：我爱人工智能，三个token，下面是计算score的过程：

上面就是attention计算过程的简单描述，形式上就是做这个计算，具体包含一些优化的细节，这里不做介绍。大家有没有发现，这样计算相同的token在不同位置好像贡献没有差别哦，“我爱 ai，我爱人工智能“，这两个”爱“计算出来的结果一样，为了区别所以加入了位置编码，同时位置编码也是约束大模型处理长度的重要因素，感兴趣的可以交流哦。

多头自注意力

有了注意力，为什么要有个多头注意力啊？其实就跟人类评价一个食物一样，会从视觉、嗅觉、味觉上多个方面评价，因此注意力可不可以有多个角度呢，后面验证了从多个角度处理确实可行。具体是怎么做的呢？

在Qwen-7B中，隐藏层的维数是3584，把它却分成28份，每份128维；将他们分别做上节介绍的attention加权平均得到28个128维的新向量；再拼接起来就又是3584维了，这样就做了多头注意力操作，是不是很简单。

Qwen2-7B中自注意力模块有多少参数

上一篇文章中，我们计算出了Qwen2-7B中词嵌入矩阵的参数量，这篇文章中，我们来看一下其自注意力模块包含多少参数。首先我们给出其配置文件：


{  "architectures": [    "Qwen2ForCausalLM"  ],  "attention_dropout": 0.0,  "auto_map": {    "AutoModel": "modeling_qwen.Qwen2Model",    "AutoModelForCausalLM": "modeling_qwen.Qwen2ForCausalLM",    "AutoModelForSequenceClassification": "modeling_qwen.Qwen2ForSequenceClassification"  },  "bos_token_id": 151643,  "eos_token_id": 151643,  "hidden_act": "silu",  "hidden_size": 3584,  "initializer_range": 0.02,  "intermediate_size": 18944,  "max_position_embeddings": 131072,  "max_window_layers": 28,  "model_type": "qwen2",  "num_attention_heads": 28,  "num_hidden_layers": 28,  "num_key_value_heads": 4,  "rms_norm_eps": 1e-06,  "rope_theta": 1000000.0,  "sliding_window": 131072,  "tie_word_embeddings": false,  "torch_dtype": "float32",  "transformers_version": "4.41.2",  "use_cache": true,  "use_sliding_window": false,  "vocab_size": 151646}

比较重要的参数是隐藏层维度、attention中间层维数，隐藏层层数，分别为如下参数hidden_size:3584, intermediate_size:18944, num_hidden_layers: 28, num_key_value_heads：4,num_attention_heads: 28

Qwen2-7B大体采用的是左边这一半流程，attention(注意力) + Feed Forward(扩维再降维的线性变换)

# Qwen2Attentionself.num_heads = config.num_attention_heads # 28self.head_dim = self.hidden_size // self.num_heads  # 128 self.num_key_value_heads = config.num_key_value_heads # 4self.q_proj = nn.Linear(self.hidden_size, self.num_heads * self.head_dim, bias=True)self.k_proj = nn.Linear(self.hidden_size, self.num_key_value_heads * self.head_dim, bias=True)self.v_proj = nn.Linear(self.hidden_size, self.num_key_value_heads * self.head_dim, bias=True)self.o_proj = nn.Linear(self.num_heads * self.head_dim, self.hidden_size, bias=False)

可以看出，有四个参数：q_proj, k_proj, v_proj, o_proj，前三个是用在将token向量映射为attention的输入，最后一个是将attention的输出做映射，这些操作都是为了增加语义表示，参数量qo相同kv相同，因此参数量为(还有3个bias)：

2*3584*(28*128)+ 2*3584*(4*128)+(3584+2*4*128)= 29364736

# Qwen2MLPself.gate_proj = nn.Linear(self.hidden_size, self.intermediate_size, bias=False)self.up_proj = nn.Linear(self.hidden_size, self.intermediate_size, bias=False)self.down_proj = nn.Linear(self.intermediate_size, self.hidden_size, bias=False)