LLaMA series
paperreading
本文字数:775 字 | 阅读时长 ≈ 3 min

LLaMA series

paperreading
本文字数:775 字 | 阅读时长 ≈ 3 min

LLaMA

1. 分词器

使用 BPE 算法,从 SentencePiece 中实现的,所有的数字都分开成独立的数字形式

2. 模型结构

模型采用 Transformer 结构,区别如下

模型的具体参数如下

3. 训练

仅使用开源数据集,数据组成如下,所有的数据在 tokenize 之后包含大约 1.4T 的 tokens

对于每个子集,列出了采样比例、在 1.4T 令牌上训练时对子集执行的迭代次数和磁盘大小。1T 代币上的预训练运行具有相同的采样比例

LLaMA2

提出了 LLaMA2 和 LLaMA2-Chat,相比于 LLaMA 的改进在于提升训练预料,上下文长度加倍,采用 Grouped-query attention(GQA),发布了 7B,13B,34B 以及 70B 的版本,具体如下

1. 分词器

使用与 LLaMA 相同的 tokenzier,即由 SentencePiece 实现的 BPE 算法,一共 32000 个 token

2. 模型结构

与 LLaMA 基本相同,该用了 GQA 来替换 Attention

3. 训练

预训练数据

没怎么透露,可能只是使用了更多的高质量数据

微调数据

Quality is all you need.

使用数以万计的高质量标注数据足矣,因此这里使用了 27540 个标注数据

LLaMA3

LLaMA3 支持多语言,coding,reasoning,tool usage,最大的 dense model 为 405B,支持 128K 的上下文 token

文中指出高质量的基座模型有三个关键点: data, scale, managing complexity

1. 分词器

2. 模型结构

模型结构与 LLaMA 和 LLaMA2 相比没有很大的变化,主要是数据质量和 training scale 的改变

3. 训练

训练的整体 pipeline 如下所示

Pre-Training Data

预训练数据大多来自 web,过滤分为下面步骤: PPI and safety filtering; Text extraction and cleaning; De-duplication; Model-based quality filtering; Code and reasoning data; Multilingual data

Data mix: 知识分类,小模型预训练,数据汇总(50%的 general knowledge,25%的 mathematical 和 reasoning tokens,17% code tokens,8%多语 tokens)

Scaling Laws

4月 06, 2025
3月 10, 2025
12月 31, 2024