- InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output
- InternLM-XComposer2-4KHD: A Pioneering Large Vision-Language Model Handling Resolutions from 336 Pixels to 4K HD
- InternLM2 Technical Report
- InternLM-XComposer2: Mastering Free-form Text-Image Composition and Comprehension in Vision-Language Large Model
- InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition
- InternLM: A Multilingual Language Model with Progressively Enhanced Capabilities
InternLM
训练分为三个阶段,dataset preparation,model pretraining,alignment,这点好像没有什么特别的
1. 分词器
使用 BPE 算法进行多语训练,token 总数为 65.5K
2. 模型结构
104B 的模型大小,82 层 transformer layers,head 为 80,head 维度 128,即总维度 10240
3. 训练
用了 1.6T 的 token 数据,主要进行中英的训练,其他语言也有,但是很少
训练数据

训练首先进行预训练,随后用 5M 的数据 SFT,接下来 RLHF
InternLM2
读了一下 InternLM2,给我最大的感受就是,论文过于学术,话太多了。。
模型大小有 1.8B,7B 以及 20B。
1. 分词器
采用 cl100k 的前 60004 个 tokens 以及自定义了 32397 个 chinese tokens,此外加了 147 个 spare token 使得总 tokens 数量为 256 的倍数
2. 模型结构
原文中扯了很多,但是好像和 LLaMA 没什么本质区别
3. 训练
采用的 GQA attention,预训练阶段首先用 4k context 训练,接下来转为高质量的 32k 数据
训练数据部分的文章也非常枯燥,建议只看图就可以了,很多细节感觉可以放到补充材料里
预训练数据
总数数据汇总如下

1. Text data
web pages, papers, patents, and books
数据统计如下

数据处理流程如下所示

2. Code data
代码数据的分布如下

3. Long Context Data
本文由 Yonghui Wang 创作,采用
知识共享署名4.0
国际许可协议进行许可
本站文章除注明转载/出处外,均为本站原创或翻译,转载前请务必署名
最后编辑时间为:
Dec 19, 2024 12:13 pm