raincandy-u
/

Rain-v2

Text Generation

100m-parameters

single-gpu-training

flashattention2

Eval Results (legacy)

text-generation-inference

Model card Files Files and versions

raincandy-u commited on Mar 19

Commit

ea1f810

·

verified ·

1 Parent(s): 3a3b45b

Update README.md

Files changed (1) hide show

README.md +6 -9

README.md CHANGED Viewed

@@ -45,27 +45,24 @@ model-index:
 # Rain-v2
-Rain-v2 是一个约 1 亿参数的英文自回归语言模型，专为单张 RTX 4090 在两天内可完成的个人级预训练实验设计。它采用“深而窄”的 Transformer 解码器架构，并结合 RoPE、GQA、SwiGLU 与权重共享等现代技巧，展示了在有限算力下从数据到模型的完整实践路径。
 ## 模型与训练配置
 - 参数规模：≈100M
 - 架构：32 层解码器，隐藏维 512，8 头 GQA（4 个 KV 头），RoPE，RMSNorm，SwiGLU，输入/输出权重共享
-- 词表：自训 BPE，16,384 词元，面向英文/代码/数学混合语料
 - 上下文长度：1024
-- 优化器：AdamW (β1=0.9, β2=0.999)，梯度裁剪
-- 精度：bfloat16
-- Batch：65,536 tokens/step（单卡，无梯度累积）
 - 学习率调度：1% warmup + cosine decay
 - 训练总量：≈6.64×10^8 tokens，总用时 ~40 小时 @ RTX 4090
-- 高效算子：FlashAttention 2
 ## 数据配比
 - FineWeb-Edu（高质量英文教育语料）60%
 - Stack-Edu（Python 教学代码/问答子集）30%
-- FineMath-4+（高质量数学/逻辑）10%
-策略：小而精，强调知识密度与多样性；总量约 10 B。
 ## 评测摘要（5-shot）
@@ -76,7 +73,7 @@ Rain-v2 是一个约 1 亿参数的英文自回归语言模型，专为单张 RT
 ## 安全与限制
-易输出错误事实或伪造信息。未经对齐，可能生成偏见/有害/违法内容；请勿直接面向终端用户。
 ## 使用示例

 # Rain-v2
+Rain-v2 是一个约 1 亿参数的英文自回归语言模型，在 RTX 4090 约两天内完成预训练，展示了在有限算力下从数据到模型的完整实践路径。
 ## 模型与训练配置
 - 参数规模：≈100M
 - 架构：32 层解码器，隐藏维 512，8 头 GQA（4 个 KV 头），RoPE，RMSNorm，SwiGLU，输入/输出权重共享
+- 词表：自训 BPE，16,384 词，面向英文/代码/数学混合语料
 - 上下文长度：1024
 - 学习率调度：1% warmup + cosine decay
 - 训练总量：≈6.64×10^8 tokens，总用时 ~40 小时 @ RTX 4090
 ## 数据配比
 - FineWeb-Edu（高质量英文教育语料）60%
 - Stack-Edu（Python 教学代码/问答子集）30%
+- FineMath-4+（高质量数学/逻辑）10%
+总量约 10 B。
 ## 评测摘要（5-shot）
 ## 安全与限制
+易输出错误事实或伪造信息。未经对齐，会生成偏见/有害/违法内容；请勿直接面向终端用户。
 ## 使用示例