Intern series
paperreading
本文字数:428 字 | 阅读时长 ≈ 1 min

Intern series

paperreading
本文字数:428 字 | 阅读时长 ≈ 1 min

InternLM

训练分为三个阶段,dataset preparation,model pretraining,alignment,这点好像没有什么特别的

1. 分词器

使用 BPE 算法进行多语训练,token 总数为 65.5K

2. 模型结构

104B 的模型大小,82 层 transformer layers,head 为 80,head 维度 128,即总维度 10240

3. 训练

用了 1.6T 的 token 数据,主要进行中英的训练,其他语言也有,但是很少

训练数据

训练首先进行预训练,随后用 5M 的数据 SFT,接下来 RLHF

InternLM2

读了一下 InternLM2,给我最大的感受就是,论文过于学术,话太多了。。

模型大小有 1.8B,7B 以及 20B。

1. 分词器

采用 cl100k 的前 60004 个 tokens 以及自定义了 32397 个 chinese tokens,此外加了 147 个 spare token 使得总 tokens 数量为 256 的倍数

2. 模型结构

原文中扯了很多,但是好像和 LLaMA 没什么本质区别

3. 训练

采用的 GQA attention,预训练阶段首先用 4k context 训练,接下来转为高质量的 32k 数据

训练数据部分的文章也非常枯燥,建议只看图就可以了,很多细节感觉可以放到补充材料里

预训练数据

总数数据汇总如下

1. Text data

web pages, papers, patents, and books

数据统计如下

数据处理流程如下所示

2. Code data

代码数据的分布如下

3. Long Context Data

4月 06, 2025
3月 10, 2025
12月 31, 2024