当前位置：首页 > news >正文

阿联酋AI大学联手IBM研究院，打造覆盖82种语言的文档“翻译官“

news 2026/6/10 16:27:55

这项由阿联酋人工智能大学MBZUAI与IBM研究院联合开展的研究以预印本形式于2026年5月12日发布在arXiv平台论文编号为arXiv:2605.12623。有兴趣深入了解的读者可通过该编号查阅完整论文。**一、故事从一道翻译难题说起**假设你手边有一份泰语的法律合同、一份阿拉伯语的学术报告、再加上一份用缅甸文写成的医疗记录。你想让电脑帮你把这些文件里的文字、表格、图表全部准确提取出来最好连版面结构也一并保留。听起来不难实际上这正是当今人工智能领域最棘手的问题之一。现有的文档理解系统在英语上表现相当出色但一旦遇到资源匮乏的小语种准确率就会断崖式下跌——有时甚至跌去40%到60%。造成这一困境的根本原因在于训练数据严重短缺。没有足够的标注数据再聪明的模型也无从学起。更棘手的是现有的数据制作方式本身就存在恶性循环要么靠人工标注费时费力根本无法覆盖几十种语言要么靠已有的AI模型自动打标签但这些模型本身就对英语有偏见它们给出的标注同样带着偏见用这些数据训练出来的下一代模型偏见只会有增无减。这就好比一个只读过中文书的老师你让他去教学生认日文他教出来的学生自然也只会中文。正是为了打破这个死循环阿联酋人工智能大学和IBM研究院的联合团队提出了DocAtlas——一套全新的多语言文档理解框架目标是让机器真正读懂来自世界各地的文件覆盖82种语言、9种不同任务。**二、传统做法的三条死胡同**要理解DocAtlas的价值得先搞清楚前人是怎么做的以及为什么做不下去。第一种做法是人工标注。研究人员把文档打印出来或者在屏幕上然后人工框出每一段文字、每一张表格、每一个标题告诉机器这是段落那是表格。这种方式质量最高但代价极其昂贵。一个人一天能标注多少页一个团队能覆盖多少种语言FUNSD这个经典数据集只有199份文档只支持一种语言XFUND扩展到7种语言也只有1300份。对于82种语言来说人工标注根本是杯水车薪。第二种做法是合成生成。既然真实文档难以标注那就自己造文档吧——把文字放在预设好的位置上位置本身就是标注。这种方式省去了人工但造出来的文档太假缺乏嵌套表格、混排图文这些真实世界里常见的复杂结构训练出来的模型一遇到真实文件就懵了。第三种做法是让AI模型自动打标签。用一个已有的布局检测模型扫描文档图片框出各个区域再贴上标签。这看似省事却引入了前面说的恶性循环——模型的偏见直接污染了标注数据。DocBank就是这样做的拥有50万份文档但标注质量受制于检测模型的能力上限。研究团队还提到了另一条路渲染驱动的标注方法。已有的WordScape项目就沿着这个方向走从Common Crawl一个覆盖全球网页内容的超大型数据库里抓取Word文档通过给文档里的不同组件染色来识别它们的位置。这个思路没错但执行上存在几个明显漏洞用LibreOffice把Word文档转成PDF时会因为字体替换和文字重排产生渲染漂移也就是说转换前后同样的文字可能出现在不同位置文字提取和位置框对不上没有几何对齐保证对于阿拉伯语、希伯来语这类从右向左书写的文字完全没有支持图表被当作不透明的图片一概处理内容无从提取。DocAtlas的核心贡献正是在吸收了渲染驱动这条路的合理内核之后把上述每一个漏洞都堵上了。**三、差值渲染像照相机找不同一样精确定位**DocAtlas的第一条数据生产流水线处理的是真实的Word文档.docx格式数据来源同样是Common Crawl这个公开的网页存档库。整个流程可以用一个日常的比方来理解假设你在一张空白画布上画了一幅画现在你想知道画里每一个元素的精确位置。最笨的办法是让人肉眼去框。聪明的办法是先拍一张原版照片再把某个你感兴趣的元素比如天空涂成鲜红色再拍第二张照片然后把两张照片叠在一起做减法——哪里出现了红色哪里就是天空。DocAtlas就是这么干的只不过操作对象是Word文档。团队先从OpenXML格式Word文档的内部代码格式里识别出文档里的各类组件——标题、正文、表格、图片、页眉等等——然后通过Word的样式属性给不同类型的组件注入不同的颜色代码。接着用微软官方的Word引擎注意不是LibreOffice分别渲染出染色版和原版两份PDF再用图像处理工具OpenCV对两张图做逐像素相减。哪里有颜色差异哪里就是被标注的组件而且可以通过颜色直接判断是哪类组件。这种差值渲染方法有一个非常关键的优势它能区分注入的颜色和文档里本来就有的颜色。以前的单次染色法做不到这一点——如果文档本来就有红色背景那注入的红色标记就混进去了根本分不清。差值法则完全绕过了这个问题因为只有在两次渲染之间发生变化的像素才被算作标注结果。位置框确定之后还需要把文字内容和位置对应起来。团队同时从OpenXML里提取文档级别的文字再用Docling工具一个基于规则的PDF解析器不是神经网络模型从PDF里提取页面级别的文字和位置然后用交并比IoU一种衡量两个区域重叠程度的指标把每个词语匹配到对应的组件区域里。当多个组件区域有重叠时系统会根据样式置信度来决定优先级确保结构映射的一致性。所有这些信息最终被序列化成一种叫做DocTag的统一格式。DocTag是一种类似XML的标记语言每个标签同时包含组件类型、几何位置和文字内容。这种格式比HTML更好因为HTML不保存位置信息比Markdown更好因为Markdown会把层次结构压扁。有了DocTag一张页面就变成了一个扁平的标签序列每个标签告诉模型这里有什么、在哪里、写的是什么从而实现版面检测、阅读顺序还原、内容提取的多任务联合训练。在数据质量控制上团队还做了两轮筛选。第一轮用fastText预测文档语言再用5-gram Kneser-Ney语言模型计算困惑度困惑度可以理解为模型对这段文字有多困惑困惑度越高说明文字质量越差设置阈值为120过滤掉38%的低质量页面保留94%以上的高质量数据。第二轮计算标注可靠性分数衡量通过原生XML信号而非启发式规则成功标注的字符比例低于0.6分的页面直接剔除最终约有15%的页面因视觉异常信号如大量空白、渲染错误被过滤。在效率上整条流水线在一台普通的苹果M2 Pro笔记本上运行没有GPU加速没有分布式计算每天能处理10万张以上的标注页面100万个样本不到72小时就能跑完。**四、为从右往左的文字专门开辟第二条路**阿拉伯语、希伯来语、波斯语、乌尔都语都是从右向左书写的语言。这类语言在现有PDF解析工具里普遍存在双向文本解析失败的问题——工具把从右往左的文字顺序搞反或者完全无法识别段落结构。因此仅靠真实Word文档的流水线无法覆盖这类语言。研究团队为此专门设计了第二条流水线用合成生成的方式来补足这个缺口。这条流水线的输入是结构化的电子书和网页文件EPUB、HTML、XML格式先用解析工具把内容转换成标准的Docling JSON格式给每个内容元素打上标签并赋予初步的位置框然后通过205个基于LuaTeX一种专业排版引擎的模板把这些内容渲染成精确排版的PDF文档。这些模板每一个都针对特定语言的排版规范设计字体选择遵循各语言的书写传统阿拉伯语用Amiri、Scheherazade等字体希伯来语用David、Narkisim等波斯语用Nazanin、Lotus等乌尔都语用Nastaliq、Naskh等版面参数涵盖页面方向、列数1到3列、字号9到14磅、颜色、边距、页眉页脚样式以及关键的双向文字控制原语。在渲染过程中系统通过三次编译来保证位置精度第一次编译确定初步版面第二次编译把每个元素的精确坐标写入.pos文件第三次编译生成最终的PDF并验证位置。坐标经过系统性转换从LaTeX的缩放点sp到PDF的点pt再到图像的像素px确保最终标注框与实际渲染位置完全吻合。整条流水线在单核CPU上能达到每分钟183页的吞吐量。质量筛选过滤掉了三类问题页面编译前后坐标漂移超过2pt的页面占原始输出的15.2%、模板排版错位如元素重叠或文字溢出占8.9%、字体渲染失败如字形缺失或字形错乱占2.1%。最终这条流水线生成了9036份文档共19.5万张页面覆盖阿拉伯语、希伯来语、波斯语、乌尔都语四种右向左书写的语言。**五、数据总量与构成一个覆盖82种语言的巨型语料库**两条流水线合并之后原始语料库包含101万份文档548万张页面跨越136种语言。其中第一条流水线真实Word文档贡献了100万份文档、529万张页面第二条流水线合成右向左文档贡献了9036份文档、19.5万张页面。数据分布呈典型的长尾形态英语、俄语、西班牙语占据高频区间约占总页数的60%希伯来语、泰语、缅甸语、高棉语等中低资源语言每种也贡献了超过5万张页面确保了在多样语言类型上的有效覆盖。经过质量筛选和难度感知采样最终训练语料库包含36万张页面覆盖82种语言、31类结构组件、25个以上内容领域包括医疗、法律与政府、金融、科学等。在标注组件类型上高频标签包括普通文本、表格、一级标题低频但重要的标签包括数学公式、表单字段、参考文献列表后者为训练模型识别罕见但关键的文档元素提供了监督信号。整个语料库来自公开网络内容均使用CC-BY 4.0、CC0或公共领域等宽松许可协议。研究团队还部署了自动化的个人隐私信息PII检测流程使用Microsoft Presidio工具结合spaCy命名实体识别和自定义正则表达式识别并过滤了包含三条及以上个人信息如姓名、电话、政府证件号、地址、金融标识符的文档共移除94.2万份文档占初始收集量的5.15%。人工抽查1000份保留文档漏检率仅为0.1%。**六、一把测量多国文档理解能力的量尺**有了训练数据还不够还需要一套严格的测试标准才能知道哪个模型真的厉害、哪个模型只是在本语言上刷了高分。DocAtlas同时构建了一个多语言基准测试集包含5862张页面覆盖82种语言、9项评测任务。页面选取遵循难度分层原则用ResNet-50一种图像特征提取网络提取每张页面的视觉特征再用FAISS聚类算法把相似页面聚在一起然后在每个聚类内部按难度综合考虑表格占比、公式密度、图表数量、字体多样性、图片比例等因素分成简单、中等、困难三档从中均匀采样每种语言最多取100张页面共5575个样本。此外团队还手工挑选了201份含有高难度公式的PDF额外增加144个公式样本。图表数据是单独生成的先用Qwen3-VL模型生成多语言主题再用Matplotlib或Plotly渲染成柱状图、折线图、饼图等多种图表类型经GPT-4o初步筛选后由三位领域专家交叉验证结构完整性、LaTeX公式对齐、右向左阅读顺序达到94.2%的标注一致率Cohens κ0.89。9项评测任务分别是端到端全页面解析把一张页面完整转换为Markdown或DocTag格式、文字识别、表格提取、公式转录、图表解析、阅读顺序还原以及三项格式转换子任务图表→HTML、公式→LaTeX、表格→HTML。评测指标覆盖归一化编辑距离衡量预测文字与真实文字的相似度、TEDS树编辑距离相似度专门评估表格结构的准确性、CDM字符检测匹配用于公式评估和图表分数将图表先转成HTML表格再用TEDS评估。**七、 16个模型的大考谁是多语言文档理解的真正强者**研究团队在这套基准上评测了16个当前最先进的模型按照定位分为三类。第一类是通用多模态大语言模型包括Gemini-2.0-Pro、GPT-4o、Qwen3-VL3B参数版、Qwen2.5-VL2B版和InternVL3.52B版。这类模型本身没有专门针对文档版面做过训练相当于全科生选手。第二类是专家文档模型包括SmolDocling2.56亿参数、Granite-Docling2.58亿参数和DotsOCR3B参数。这类模型体量较小但专门针对文档版面解析做了训练属于专科生。第三类是OCR专项系统包括PaddleOCR-VL1B参数、DeepseekOCR3B参数、MonkeyOCR-pro1.2B参数、Dolphin4亿参数、Nanonets-OCR-s4B参数、Nanonets-OCR23B参数、Chandra9B参数和MinerU2.51.2B参数以及DocAtlas团队微调过的DocAtlas-DeepSeek3B参数。评测结果呈现出几个清晰的规律。在总体分数上DocAtlas-DeepSeek以83.37%位居第一DeepseekOCR以81.66%紧随其后——要知道DeepseekOCR只有3B参数能达到这个成绩相当令人惊讶说明在文档理解这个任务上参数量大不等于性能强。GPT-4o的总分是75.30%远不如这些专业OCR系统。文字识别和结构化内容提取之间存在巨大鸿沟。顶尖模型的文字编辑距离在0.068到0.095之间越低越好说明文字识别已经相当准确但表格TEDS分数普遍停留在71%到73%而且不论语言如何变化这个天花板几乎纹丝不动。这意味着表格的空间推理能力而非文字辨认能力才是当前文档理解的真正瓶颈。高资源语言和低资源语言之间的落差触目惊心。英语、俄语、西班牙语等主流语言的准确率稳定在80%到95%波动很小而低资源语言的准确率区间是20%到85%中位数常常低于40%。换句话说对于那些训练数据匮乏的语言即使是最先进的模型也经常只能答对不到一半。从语言家族维度看印欧语系和基里尔字母俄语、乌克兰语等语言表现最好准确率在80%到87%之间日语家族26.9%到70.5%和南亚语系Austroasiatic表现最差即使是最顶级的模型也举步维艰。团队认为这说明形态复杂的语言和表意文字体系暴露了现有视觉特征学习的根本性缺陷。在图表提取这项任务上专业OCR系统和通用多模态大模型之间出现了戏剧性的分化。Gemini-2.5-Flash在15种语言上平均得分61.82%跨语言一致性最好而DeepseekOCR在英语图表上得分87%到了泰语、阿拉伯语、意大利语就跌到8%到17%。SmolDocling在折线图上的准确率接近于零0.038说明仅靠文字提取根本应付不了图表理解这项任务需要真正的视觉推理能力。同时研究团队系统分析了16个模型在5345份文档上犯的88036个错误归纳出12种错误类型其中最主要的四种分别是表格跨行跨列错误占15.7%表格里的合并单元格处理不对、格式错误14.6%粗体斜体标签弄错、破折号字符混用、字符编码错误13.2%Unicode归一化问题比如省略号用了不同的Unicode字符、内容遗漏13.2%带连字符的词语和列表分隔符被丢失。**八、如何让模型学会新语言而不忘记旧语言**训练数据和测试基准都有了接下来最关键的问题是怎样把这些数据用起来让已有的OCR模型真正学会新语言同时又不把以前学过的英语等语言忘掉这就像教一个已经精通英语的人学中文——如果学习方式不对他学会中文的同时可能把英语忘了这叫灾难性遗忘。团队系统比较了三种训练策略。第一种策略是全页面监督微调Full-Page SFT把每张页面的图片和对应的DocTag/Markdown文字配对直接训练模型在看到页面图片时生成正确的结构化文字。这是最直接的方法相当于让学生反复做整卷练习题。第二种策略是组件级监督微调Component-level SFT把页面裁剪成一个个小区域段落、表格、图表、公式针对每个组件单独训练。这相当于把整卷题目拆成一道道单题来练。第三种策略是直接偏好优化DPO这是一种不同于普通微调的训练范式。它的核心思路是对于同一张页面图片给模型看两个答案——一个是由渲染驱动的标注系统生成的正确答案作为正样本一个是模型自己原本给出的回答作为负样本——然后训练模型偏好正确答案。这相当于不直接告诉学生背这个答案而是让学生在两个答案里辨别哪个更好从而培养判断力。除了选择哪种训练策略团队还研究了另一个变量训练哪些参数。全量微调所有参数都更新效果最猛但副作用最大LoRA低秩适应是一种参数高效的方法相当于在模型里插入一个小适配器只更新这个适配器原模型参数基本不动从而大幅减少遗忘。LoRA又有几个变体更新全部层、只更新MLP层、只更新MLP的门控和下投影、更新所有QKV层、只更新QKV层。综合评测结果清晰地揭示了一个规律。全量SFT在新语言上涨幅最大表格TEDS提升13.6个百分点但基础语言性能下降幅度也最大–12.1个百分点。组件级SFT的新语言增益更大但基础语言遗忘也更严重严重时下降超过21个百分点——意味着模型把以前学的东西几乎全忘光了。只更新QKV层的LoRA变体达到了最优的收益-遗忘平衡新语言文字编辑距离改善0.021基础语言不降反升改善0.011个百分点。团队对此的解释是QKV参数控制的是注意力路由即模型在处理一段文字时决定把注意力放在哪里调整这部分参数能帮助模型学会跨语言的注意力分配而不会干扰MLP层负责输出词汇分布所以不会导致遗忘。DPO策略在四个被评测的模型上Qwen2.5-VL、Nanonets-OCR、DotsOCR、DeepseekOCR都表现出了同样的规律在域内语言训练时见过的语言提升约1.8%到1.9%在域外语言训练时没见过的语言也提升约1.4%到1.8%基础语言降幅低于3%。这是唯一一种能同时改善新语言和基础语言性能的方法打破了学新忘旧的规律因为把模型自己的错误答案作为负样本相当于给模型保留了对原有能力的记忆锚点。更进一步团队还专门比较了DPO用不同正样本的效果用渲染驱动的真实标注作为正样本和用GPT-4o的输出作为正样本结果差异显著。GPT-4o蒸馏带来的域内增益只有0.4个百分点域外性能反而下降了0.7个百分点。原因在于GPT-4o本身对低资源语言也存在系统性偏见会在某些语言里产生错误的变音符号、把从右往左的列顺序搞反。这些错误通过蒸馏传递给了被训练的模型污染了跨语言泛化能力。这一结果证明驱动DPO效果的根本不是DPO算法本身而是背后那套模型无关的标注流水线。DocAtlas-DeepSeek在两个外部测试集DocPTBench和OmniDocBench均以英文文档为主包含拍摄或扫描的文档训练时完全没见过上也展示了迁移泛化能力编辑距离分别从22.1%降到20.7%、从0.137降到0.122。这说明通过DPO学到的跨语言注意力路由不仅在训练见过的语言上有用在训练域之外也能发挥作用。从语言家族维度看DPO的增益可以发现有趣的分布规律汉藏语系、日语家族、南亚语系获益最大汉藏语系文字增益高达40%可能是因为这些语言的视觉特征之间存在共享结构有助于知识迁移印欧语系和乌拉尔语系增益较小低于5%说明这些语言在训练前已经被模型学得比较好基里尔字母语言的增益主要体现在表格而非文字说明结构化内容的迁移比纯文字更容易。说到底DocAtlas这套工作回答了一个对整个文档AI领域都意义深远的问题机器能不能在不借助任何已有AI模型的情况下自己学会读懂来自世界各地的文件答案是肯定的而且通过差值渲染这个近似照相机找不同的方式还能做到相当高的精度和相当广的语言覆盖。对于资源匮乏的语言社区来说这意味着未来本地语言的文档数字化、法律合同分析、医疗记录提取都有望获得与英语用户同等质量的工具支持。当然这套系统也有明显局限它依赖文档源文件Word或结构化标记格式对于扫描件、照片拍摄的文档完全无能为力因为这类文档根本没有数字文字层可以提取。研究团队坦承将DocAtlas的监督信号与传统的OCR技术结合针对扫描文档做进一步延伸是一个自然的后续方向。另外表格TEDS在71%到73%附近的天花板问题说明空间推理能力仍然是整个领域尚待突破的核心难题。对于有兴趣进一步探索的读者可以通过arXiv编号2605.12623查阅完整论文数据集和代码则托管在论文封面所标注的GitHub仓库地址下。---**QA**Q1DocAtlas的差值渲染和普通的文档标注方法有什么本质区别A普通的文档标注要么靠人工框选要么靠已有AI模型自动识别两者都有上限人工太慢、AI有偏见。差值渲染则完全绕开了这两条路——它先给Word文档里的不同组件染上不同颜色用微软Word引擎渲染出染色版和原版两份PDF再逐像素相减哪里有颜色差异就说明哪里有标注组件。整个过程不需要任何已有的AI模型参与核心标注标注质量不受现有模型能力的限制。Q2DPO训练为什么能避免学新语言忘旧语言这个问题A传统微调SFT直接让模型记住新的输入输出对更新幅度大容易把旧知识覆盖掉。DPO的做法不同它给模型同时展示正确答案渲染驱动的真实标注和模型原来给出的回答训练模型学会偏好正确答案。把模型自己原来的输出作为负样本相当于给模型保留了对旧能力的记忆锚点所以能在学会新语言的同时维持旧语言的性能。Q3DocAtlas基准测试和之前的多语言文档测试集相比优势在哪里A覆盖范围和任务深度都有显著扩展。之前最好的多语言文档基准READOC覆盖27种语言不支持图表解析OmniDocBench只覆盖2种语言DocAtlas覆盖82种语言同时支持9项任务端到端页面解析、文字识别、表格提取、公式转录、图表解析、阅读顺序还原以及图表→HTML、公式→LaTeX、表格→HTML三项格式转换是目前语言覆盖最广、任务最全的文档理解基准。

查看全文

http://www.zskr.cn/news/1397260.html