科研成果

伶荔中文大语言模型
2024-05-29

伶荔中文大语言模型,基于全球首个模块化大模型预训练框架TencentPreTrain(下载量10万/月,发表在自然语言处理顶会ACL 2023),是首个中文开源7B、13B、30B大模型。

其核心技术包括:(1)LLaMA 中文预训练、指令微调及问答;(2)自适应数据采样的语言迁移学习;(3)英文 → 中英文平行语料训练;(4)自适应调整训练比例,解决知识遗忘和迁移。