当前位置: 首页 > news >正文

昇思大模型预训练数据来源

昇思 MindSpore 大模型如鹏程・盘古、Qwen、Skywork 等的预训练数据以中文为核心、多源异构融合、高质量过滤为特点依托开源数据、互联网爬虫、电子书与领域数据构建经分布式清洗、去重、过滤后形成百亿至千亿级 Token 的训练语料是国产大模型知识能力与语言理解的核心基础。一、预训练数据核心来源昇思大模型数据来源遵循 “开源打底、网页主力、书籍补充、领域增强” 原则覆盖通用与专业场景开源开放数据集采用 Common Crawl、Wikipedia 中文、BookCorpus、CC100、CLUECorpus 等提供基础文本与知识底座占比约 30%。互联网网页数据通过合规爬虫抓取中文主流门户、博客、论坛、百科原始数据达80TB经清洗后保留高质量网页文本占比约 50%。电子书与出版物收录公开授权小说、教材、学术文献、古籍补充长文本与专业知识占比约 15%。领域与合作数据联合科研机构 / 企业获取政务、金融、能源、代码等领域数据增强行业适配性代码类模型如 CodeGeeX额外引入 GitHub 开源代码库23 种语言。自研补充数据如昆仑万维 Skywork 开源600GB/150B Token中文语料 Skypile作为模型专属训练数据。以鹏程・盘古为例原始数据约 80TB经 4 级清洗去重后得到1.1TB 高质量语料250B Token确保数据无偏、低噪、合规。二、数据处理核心流程昇思采用HadoopSpark 分布式集群处理 PB 级数据流程标准化、工程化格式归一化统一转换为 JSONL提取有效文本过滤乱码 / 特殊字符。多级去重通过 n-gram、SimHash、局部敏感哈希LSH剔除网页间 / 网页内重复内容。质量过滤用 fastText 分类模型过滤广告、垃圾、敏感内容通过语言模型 PPL 值筛选高流畅度文本。分词与编码基于 SentencePiece/BPE 分词生成 input_ids、attention_mask适配模型输入长度如 2048/4096。格式转换转为 MindRecord昇思原生格式或 Megatron 格式支持分布式训练高效读取。三、核心代码示例数据加载与预处理环境准备与依赖安装pip install mindspore mindformers datasets git clone https://gitee.com/mindspore/mindformers.git数据加载与预处理Pythonfrom mindformers import LlamaTokenizer from datasets import load_dataset import mindspore.dataset as ds # 1. 加载分词器与数据集 tokenizer LlamaTokenizer.from_pretrained(tokenizer.model) dataset load_dataset(json, data_filesraw_corpus.jsonl, splittrain) # 2. 预处理函数分词、截断、填充 def preprocess_func(examples): texts [text.strip() for text in examples[text]] return tokenizer( texts, truncationTrue, max_length2048, paddingmax_length, return_tensorsnp ) # 3. 批量处理多线程加速 tokenized_ds dataset.map( preprocess_func, batchedTrue, num_parallel_workers8, remove_columns[text] ) # 4. 转为MindSpore数据集适配分布式训练 ms_ds ds.NumpySlicesDataset( tokenized_ds, column_names[input_ids, attention_mask], shuffleTrue ) ms_ds ms_ds.batch(4) # 设置批次大小转换为 MindRecord 格式高效存储from mindspore.mindrecord import FileWriter writer FileWriter(pretrain_data.mindrecord, shard_num8) # 8分片 schema {input_ids: {type: int32, shape: [-1]}} writer.add_schema(schema, pretrain_data) for item in ms_ds.create_dict_iterator(): sample {input_ids: item[input_ids].asnumpy()} writer.write_raw_data([sample]) writer.commit()四、数据质量与合规保障昇思严格遵循数据合规、隐私保护、版权授权原则清洗阶段剔除个人信息与侵权内容所有开源数据遵守对应许可证自研数据通过合规审核确保模型训练与发布合法合规。高质量数据使模型在中文理解、知识问答、逻辑推理等任务上性能显著提升。
http://www.zskr.cn/news/1320082.html

相关文章:

  • Ultimate ASI Loader核心原理与实战指南:游戏MOD加载的终极解决方案
  • AntiDupl.NET:3步快速清理重复图片,智能释放硬盘空间的终极解决方案
  • Perplexity职业查询失效的9种致命误区,87%用户正在踩坑(附权威校验清单)
  • STM32 HAL库串口接收:除了回调函数,你还有这3种更灵活的玩法(附代码对比)
  • 新能源汽车电池包涂胶,伯朗特机器人匀速出胶,胶线无断胶无气泡
  • 终极PlotSquared指南:5分钟学会Minecraft领地管理插件安装与配置
  • 天猫购物卡秒回收,提现简单快捷! - 团团收购物卡回收
  • FVCOM流域、海洋水环境数值模拟方法及实践技术应用
  • 告别导师 “格式打回”!Paperxie 智能排版,让你半小时搞定毕业论文格式
  • 【技术解析】Real-ESRGAN:高阶退化建模如何让合成数据“骗过”真实世界
  • Linux下基于V4L2与MJPEG的网页视频监控系统构建指南
  • Overleaf实战:手把手教你用LaTeX制作符合A4排版要求的跨页长表格(含完整代码)
  • 轻松解包网易游戏资源:unnpk工具完整使用指南
  • LinuxCNC新手到专家:5个步骤打造你的完美数控系统
  • LangChain 自定义 Chain 手写实现
  • 别只盯着SQL注入了!聊聊SRC挖掘中那些被忽视的‘低垂果实’:XSS与弱口令实战复盘
  • EPLAN部件库高效管理实战:从EDZ快速导入到树形结构优化
  • 5个技巧彻底解决鸣潮性能卡顿:WaveTools终极优化指南
  • 我的第一个量化模型翻车实录:用Sklearn随机森林预测股票价格,我踩了这三个大坑
  • DS4Windows终极指南:5步解锁PS手柄在PC上的完整游戏体验
  • 从沙子到车辙(2.5):半导体制造工艺
  • 拯救者笔记本终极性能优化指南:Lenovo Legion Toolkit完全掌握教程
  • 别再只盯着分辨率了!汇川伺服编码器选型避坑指南(含Er.730/731故障排查)
  • 微信考勤小程序开发环境搭建
  • 2026学术发文避坑攻略:拒绝排版内耗,垂直学术编辑器实测推荐
  • Leetcode56 Merge Intervals 合并区间 -- C++实现
  • 学术研究者的福音:Unpaywall浏览器扩展如何帮你免费获取付费论文
  • Perplexity查留学信息效率提升300%:资深留学顾问亲授7步精准检索法
  • Unity Recorder保姆级教程:从录屏到透明帧动画,一次搞定游戏素材制作
  • 3步掌握Meshroom:从零构建可视化编程工作流