harry's blog

原创 paperreading

LLaMA

1. 分词器

使用 BPE 算法，从 SentencePiece 中实现的，所有的数字都分开成独立的数字形式

2. 模型结构

模型采用 Transformer 结构，区别如下

Pre-normalization: 归一化每一层 transformer 的输入，不归一化输出，使用 RMSNorm
SwiGLU activation function: 用 SwiGLU 替换 ReLU，使用$\frac{2}{3}\times 4d$的维度
Rotary Embeddings: 移除绝对位置编码，使用 rotary positional embeddings，即 RoPE

模型的具体参数如下

3. 训练

仅使用开源数据集，数据组成如下，所有的数据在 tokenize 之后包含大约 1.4T 的 tokens

对于每个子集，列出了采样比例、在 1.4T 令牌上训练时对子集执行的迭代次数和磁盘大小。1T 代币上的预训练运行具有相同的采样比例

LLaMA2

提出了 LLaMA2 和 LLaMA2-Chat，相比于 LLaMA 的改进在于提升训练预料，上下文长度加倍，采用 Grouped-query attention（GQA），发布了 7B，13B，34B 以及 70B 的版本，具体如下

1. 分词器

使用与 LLaMA 相同的 tokenzier，即由 SentencePiece 实现的 BPE 算法，一共 32000 个 token

2. 模型结构

与 LLaMA 基本相同，该用了 GQA 来替换 Attention

3. 训练

预训练数据

没怎么透露，可能只是使用了更多的高质量数据

微调数据

Quality is all you need.

使用数以万计的高质量标注数据足矣，因此这里使用了 27540 个标注数据

LLaMA3

LLaMA3 支持多语言，coding，reasoning，tool usage，最大的 dense model 为 405B，支持 128K 的上下文 token

文中指出高质量的基座模型有三个关键点: data, scale, managing complexity

Data: 更高的质量和过滤数据的方法，使用 15T 的多语言数据集
Scale: 规模更大，405B 的模型在 15.6T 的数据上进行训练，并用大模型来提升小模型的能力
Managing complexity: 使用 dense transformer 并进行了细微调整，放弃 moe 架构来提高稳定性，使用 SFT，RS，DPO 等后处理方法提升稳定性和 scale 能力，不用 RLHF

1. 分词器

2. 模型结构

模型结构与 LLaMA 和 LLaMA2 相比没有很大的变化，主要是数据质量和 training scale 的改变

使用 GQA with 8key-value heads 来提升推理速度
词表为 128K，100k 来自 tiktoken tokenizer，另外 28K 支持 non-english
将 RoPE 超参数提升至 50w

3. 训练

训练的整体 pipeline 如下所示

pre-training: 多语料的 NTP 训练，使用 8K 的窗口训练，pre-training 训练之后改为 128K
post-training: 指令微调的 SFT 和 DPO 训练，包含各种各样的 task
多模态训练: 包含 vision encoder，speech encoder，vision adaptor（还包含了 video），speech adaptor

Pre-Training Data

预训练数据大多来自 web，过滤分为下面步骤: PPI and safety filtering; Text extraction and cleaning; De-duplication; Model-based quality filtering; Code and reasoning data; Multilingual data

Data mix: 知识分类，小模型预训练，数据汇总（50%的 general knowledge，25%的 mathematical 和 reasoning tokens，17% code tokens，8%多语 tokens）

Scaling Laws

本文由 Yonghui Wang 创作，采用知识共享署名4.0 国际许可协议进行许可
本站文章除注明转载/出处外，均为本站原创或翻译，转载前请务必署名
最后编辑时间为: Dec 19, 2024 12:13 pm

LLaMA series

LLaMA

LLaMA2

LLaMA3