UniAR:统一预测人类视觉注意力与主观反馈的多模态模型
1. 项目概述:为什么我们需要一个预测人类视觉行为的统一模型?
在数字内容爆炸式增长的今天,无论是设计师打磨一个App界面,还是内容创作者优化一张海报,一个核心问题始终萦绕:“人”会怎么看?更具体地说,他们会先看哪里?觉得哪里重要?最终又会给出怎样的评价?过去十几年,学术界和工业界为解决这些问题,发展出了两条泾渭分明的技术路线。一条路专注于预测“注意力”,比如通过眼动追踪数据训练模型,生成能模拟人眼注视点分布的“热力图”。这项技术非常有用,能帮我们优化界面布局、减少视觉干扰,甚至在渲染超大图像时优先加载用户可能关注的区域。另一条路则聚焦于预测“主观反馈”,比如审美评分、偏好选择,这些通常发生在用户仔细审视内容之后,属于更深层次的认知决策。
但问题在于,人的视觉行为是一个连续、统一的整体。我们被某个区域吸引(注意力),然后进行认知加工,最终形成判断(反馈)。将两者割裂研究,就像只研究汽车发动机的轰鸣声,却不去理解它如何驱动车轮前进,得到的结论往往是片面的。更现实的是,对于产品、设计团队而言,他们需要的不是一个只能预测热力图的工具,再加一个只能打分的工具;他们需要的是一个能理解“从注意到反馈”全过程的智能伙伴,能提供一站式的洞察。这就是我们启动“UniAR”项目最根本的出发点:构建一个能够同时、统一地预测人类对视觉内容多种反应(从隐性的注意到显性的评价)的模型。
这个想法并非凭空而来。在我们之前的工作中,已经尝试用单一模型来预测生成式AI图片的多种人类反馈(如图文对齐度、审美质量、瑕疵区域等),并成功用于改进图像生成效果。这证明了统一建模的可行性。而近期大语言模型与视觉模型结合(多模态大模型)的突破性进展,为我们提供了强大的技术底座。于是,我们问自己:能否将这种统一建模的思路,从“生成图片的评价”扩展到更广泛的“人类对一切视觉内容的反应”?这包括了真实的自然图片、平面设计、网页乃至移动端UI界面。UniAR便是我们对这个问题的回答——一个首次尝试统一建模人类早期知觉注意力与后期主观决策偏好的多模态模型。
2. 模型架构设计:如何用一套框架处理多种任务?
要让一个模型同时搞定热力图预测、扫视路径预测和评分预测,听起来像让一个厨师同时做中餐、西餐和甜点。核心挑战在于,这些任务的输出形式天差地别:热力图是一张概率分布图,扫视路径是一个坐标序列,评分则是一个标量数值。我们的解决方案是借鉴并改造了当前最有效的多模态架构范式,即“视觉编码器-文本编码器-解码器”的Transformer体系。
2.1 核心组件与输入设计
模型的输入有两部分:图像和文本提示。这模仿了人类理解场景的方式:我们不仅看画面,还会结合上下文和任务意图。
- 视觉编码器:我们采用Vision Transformer模型来处理输入图像。它将图像分割成块,转换为序列化的特征表示,能够捕捉从局部细节到全局语义的丰富信息。
- 文本编码器:文本提示并非简单的描述,而是承载了关键的“任务指令”和“领域信息”。我们使用一个词嵌入层将文本转换为向量,然后通过一个T5 Transformer编码器进行深度理解。这个文本提示是模型实现“统一”和“可控”的关键。例如,我们可以输入:
[DOMAIN: mobile UI] [TASK: predict attention heatmap] [SCENARIO: free-viewing][DOMAIN: natural image] [TASK: predict aesthetic score][DOMAIN: webpage] [TASK: predict scanpath] [QUESTION: “Where is the login button?”]通过这种方式,我们明确告诉模型:“现在请你以移动UI的视角,执行自由浏览场景下的注意力热力图预测任务。” 这极大地增强了模型对不同领域和任务的适应与泛化能力。
- 多模态融合与解码:图像特征和文本特征在T5编码器中进行深度融合。之后,模型根据文本提示指定的任务,将融合后的特征路由到三个独立的预测头(Decoder):
- 热力图预测头:输出一张与输入图像同宽高的概率图,表示每个像素被注意或被认为重要的可能性。
- 扫视路径预测头:输出一个坐标序列
[(x1, y1), (x2, y2), ...],模拟人眼注视点的转移顺序。 - 评分预测头:输出一个或多个标量值,例如审美分数(0-10)、偏好等级等。
注意:这种“共享主干,任务特定头”的设计是平衡通用性与专业性的经典做法。主干网络学习通用的视觉-语言联合表征,而每个预测头则专注于学习将通用表征映射到特定形式的输出。这比训练三个完全独立的模型更高效,且能促进知识在任务间迁移。
2.2 训练策略与数据准备
构建这样一个模型,数据是基石。我们采用了“预训练 + 多任务微调”的两阶段策略。
第一阶段:大规模跨领域预训练为了让模型具备广泛的视觉理解基础,我们使用了两个大规模数据集进行预训练:
- WebLI:一个超大规模的自然图像-文本对数据集,让模型学习将视觉内容与语言描述关联起来。
- 网页与移动UI数据集:包含大量网页截图和App界面截图,并附带有屏幕内元素的标注(如按钮、文本块的边界框和描述)。 在预训练阶段,我们主要使用图像描述生成任务(给定图片,生成描述文本)和区域定位任务(给定文本描述和截图,预测对应区域的边界框坐标)。后者对于后续预测注视坐标(扫视路径)尤为重要,因为它教会模型理解“语言所指的屏幕位置”。
第二阶段:多任务混合微调预训练后,模型已经是一个“见多识广”的视觉-语言理解模型。接下来,我们用来自11个公开数据集的标注数据对其进行微调。这些数据集覆盖了三大领域:
- 自然图像:尺寸多样,内容广泛。
- 平面设计:海报、信息图等。
- 移动用户界面:各种App的截图。 这些数据集的标注类型正是我们的三个目标任务:眼动热力图、扫视路径序列和主观评分。在训练时,我们采用均匀采样的策略,从所有数据集中随机抽取样本,确保模型不会偏向于某个特定领域或任务。这种混合训练迫使模型学会根据文本提示,动态调整其“思维模式”,以应对不同的预测需求。
3. 实验结果深度解读:统一模型真的能打过“专家”吗?
提出一个统一模型,最直接的质疑就是:它会不会是“样样通,样样松”?为了回答这个问题,我们设计了全面而严格的评测,将UniAR与当前各个任务上表现最好的专用模型(可视为“领域专家”)进行对比。评测指标也因任务而异,确保评估的公正性。
3.1 注意力热力图预测
对于热力图,我们采用计算机视觉领域的标准指标:
- 皮尔逊相关系数:衡量预测热力图与真实热力图在所有像素值上的线性相关程度,值越高越好。
- KL散度:衡量两个概率分布(将热图视为分布)的差异,值越低越好。
- AUC-Judd:将热力图预测视为二分类问题(注视点 vs. 非注视点),计算ROC曲线下面积,值越高越好。
- 标准化扫描路径显著性:计算在真实注视点位置上,预测热力图像素值的平均值,值越高越好。
结果:在涵盖自然图像、平面设计和移动UI的七个公开基准测试中,UniAR在总计27项指标对比中,取得了17项最佳,并在22项指标中排名前二。特别是在移动界面和平面设计数据集上,UniAR在多项指标上超越了之前的最高纪录。这表明,统一模型不仅没有牺牲性能,反而通过跨领域知识的共享与互补,在某些场景下表现更为出色。
3.2 主观评分/偏好预测
对于评分预测,我们使用斯皮尔曼等级相关系数和皮尔逊线性相关系数来衡量模型预测分数与人类平均打分之间的一致性。
结果:在两个主要的评分数据集上,UniAR在皮尔逊相关系数上均取得了最佳结果。这意味着模型能够较好地捕捉人类审美或偏好的线性趋势。虽然斯皮尔曼系数上可能与某些专用模型持平,但综合来看,统一模型在评分任务上具备了与顶尖专家模型竞争的实力。
3.3 扫视路径预测
预测连续的注视点序列是最具挑战性的任务。我们使用序列相似度、时间维度上的误差等指标进行评估。
结果:UniAR的表现与基线模型相当,并在部分数据集的所有五项指标上超越了基线,取得了四项最佳。更重要的是,我们在任务间知识迁移的实验中观察到了令人鼓舞的现象。例如,让模型去预测网页上的扫视路径,而它在训练阶段从未见过“网页+扫视路径”这个组合任务,只分别学习过“网页”和“扫视路径”。结果显示,模型展现出了一定的泛化能力,能够将分别学到的知识组合起来应对新情况。这证明了统一建模带来的潜在优势:学到的表征具有更强的可组合性和泛化性。
实操心得:如何解读这些结果?对于从业者而言,这些实验结果传递了几个关键信息:
- 性能代价极小:采用统一模型并不会必然导致预测精度下降。在充足、多样化的数据和多任务训练的驱动下,统一模型可以达到甚至超越多个专用模型组合的效果。
- 效率大幅提升:从工程部署角度看,维护一个UniAR模型,远比维护热力图模型、评分模型、扫视模型三个独立系统要简单。它减少了代码复杂度、部署资源和推理开销。
- 涌现能力:模型展示出的跨任务泛化潜力是专用模型不具备的。这意味着未来面对全新的“领域+任务”组合时,UniAR这类模型可能具备更好的零样本或少样本适应能力。
4. 从模型到应用:如何在实际工作中使用这类预测?
模型性能再好,不能落地也是空中楼阁。UniAR这类统一预测模型的核心价值,在于它能为人机交互设计、内容创作和用户体验评估提供一套高效、量化的洞察工具。下面我结合几个具体场景,谈谈它的应用方式和实操要点。
4.1 用户界面与交互设计优化
场景:你设计了一个新的电商App商品详情页。在投入大量开发资源前,你想知道用户的注意力会如何分布?“加入购物车”按钮是否足够醒目?复杂的促销信息会不会造成视觉混乱?
应用流程:
- 生成设计稿截图:将高保真原型图或视觉稿作为输入图像。
- 构造文本提示:根据你想探究的问题,构造不同的提示词。
- 整体注意力评估:
[DOMAIN: mobile UI] [TASK: predict attention heatmap] [SCENARIO: free-viewing] - 关键任务引导:
[DOMAIN: mobile UI] [TASK: predict scanpath] [SCENARIO: goal-oriented] [TARGET: “Find and click the ‘Add to Cart’ button”]
- 整体注意力评估:
- 获取预测结果:模型会输出热力图或扫视路径序列。
- 分析与迭代:
- 热力图分析:如果热力图显示核心行动按钮(如“购买”)区域热度很低,而旁边的装饰元素热度很高,这可能意味着视觉层次出现了问题,需要调整色彩、对比度或位置。
- 扫视路径分析:如果模拟的视线路径在几个信息块之间来回跳跃、杂乱无章,说明信息布局可能不符合用户的认知习惯,需要简化或重组信息流。
注意事项:模型预测的是“平均趋势”或“典型模式”。它不能替代真实用户的A/B测试,但可以在设计初期快速筛选出明显存在问题的方案,将迭代次数从“10次测试淘汰9个”减少到“3次测试淘汰2个”,极大提升设计效率。
4.2 视觉内容创作与评估
场景:你是社交媒体运营,需要制作活动海报;或者你是AI绘画工具的用户,生成了几张图,想知道哪张更吸引人、审美上更胜一筹。
应用流程:
- 将待评估的图片输入模型。
- 使用提示词
[DOMAIN: graphic design] [TASK: predict aesthetic score]获取审美评分。 - 同时使用
[DOMAIN: graphic design] [TASK: predict attention heatmap]获取注意力分布。 - 综合决策:
- 选择审美评分较高的图片。
- 检查高分图片的注意力热力图,确保视觉焦点落在你想要传达的核心信息(如活动主题、品牌Logo)上,而不是无关的背景细节上。如果焦点偏离,即使评分高,也可能不是最优选择。
实操心得:评分模型的校准模型给出的审美评分是一个相对值,其绝对数值(比如7.5分)本身意义不大。关键在于横向比较。建议内部建立一个“基准图库”,包含历史上数据表现好(如高点击率、高转化率)的图片。每次评估新图时,连同几张基准图一起输入模型打分。通过观察新图与基准图在分数上的相对位置,来判断其潜力。这比单纯看一个孤立的分数要可靠得多。
4.3 无障碍设计与可访问性评估
这是一个极具社会价值的应用方向。模型可以辅助评估视觉内容对于低视力人群的可用性。
- 模拟注视困难:通过调整提示词或输入,可以部分模拟视觉搜索效率较低的情况。
- 评估信息优先级:结合热力图和扫视路径,可以分析关键信息(如重要按钮、警示文字)是否处于视觉流的早期位置,这对于依赖屏幕阅读器或放大功能的用户至关重要。 未来,如果能直接引入残障人士的交互数据训练模型,将能打造更强大的无障碍设计辅助工具。
5. 局限性与未来方向:理性看待模型的边界
在热情拥抱技术的同时,我们必须清醒地认识到当前模型的局限性,这是负责任地研究和应用的前提。
5.1 模型预测的本质:是参考,非圣旨
这是最重要的认知。UniAR或其他任何人类行为预测模型,其输出都是基于历史数据学习到的统计规律。它预测的是“在给定条件下,大多数人可能如何反应”。它无法捕捉个体独特的文化背景、瞬时情绪、特殊经历所带来的差异。因此,模型的结果必须作为人类决策的参考和辅助,而非不可置疑的最终答案。设计师的创意、产品经理对业务的理解、用户研究员对特定人群的洞察,这些都无法被模型完全替代。模型的作用是提供数据驱动的洞察,缩小决策的不确定性范围,而不是做出决策本身。
5.2 数据的局限与偏见
我们的模型建立在现有的公开数据集之上。这些数据集虽然规模可观,但在人口统计学多样性上仍有欠缺。例如,可能过度代表了特定年龄、地域、文化背景的互联网用户。用这样的数据训练出的模型,其预测可能无意中固化或放大某些群体偏好,而对其他群体产生偏差。未来工作的一个重点就是持续扩展和多样化数据集,特别是纳入更多来自不同地区、年龄、能力水平(包括视障用户)的数据,让模型能更好地代表全人类。
5.3 个性化与动态适应
当前模型是一个“通用”模型。但人的偏好是高度个性化的,且会随时间变化。一个可行的方向是开发轻量级的个性化微调机制。例如,允许企业基于自己产品的用户交互数据,对模型的某些层进行微调,使其预测更贴合自己的用户群体。甚至在未来,可以考虑在保护隐私的前提下,为单个用户建立微型的偏好模型,用于个性化内容推荐或界面适配。同时,模型需要定期用新的数据更新,以跟上审美和交互习惯的变迁。
5.4 任务与领域的扩展
目前UniAR聚焦于视觉注意力、扫视和评分。人类对视觉内容的反馈远不止这些。未来可以探索将更多任务纳入统一框架,例如:
- 情感预测:图片/UI带给人的情绪感受(愉悦、紧张、信任等)。
- 可理解性预测:信息图表或复杂界面是否容易被理解。
- 交互意图预测:用户接下来可能点击哪里或进行什么操作。 将更多维度的反馈统一起来,才能构建真正全方位、深层次的“人工用户体验分析师”。
6. 常见问题与实操排错指南
在实际尝试使用或借鉴此类模型时,你可能会遇到一些典型问题。以下是我根据经验总结的排查思路。
6.1 预测结果不准确或反直觉
- 可能原因1:输入域不匹配。模型在训练时接触了自然图像、UI、设计图等。如果你输入一张医学X光片或抽象艺术画,效果可能很差。因为它的特征与训练数据分布差异太大。
- 解决方案:确保输入内容与模型熟悉的领域大致相关。如果必须处理新领域,考虑能否进行少量数据的微调。
- 可能原因2:文本提示词设计不当。提示词是指挥官,模糊的指令会导致混乱的输出。例如,只输入“预测注意力”,而没有指定
[SCENARIO: free-viewing]还是[SCENARIO: searching],模型可能默认一个,而这不是你想要的。- 解决方案:严格按照模型定义的提示词语法,明确指定
DOMAIN、TASK、SCENARIO等关键信息。进行简单的提示词AB测试,观察输出变化。
- 解决方案:严格按照模型定义的提示词语法,明确指定
- 可能原因3:图像预处理问题。模型训练时对输入图像尺寸、归一化方式有特定要求。
- 解决方案:严格复现论文或代码库中提到的预处理流程,包括缩放、裁剪、归一化(均值/标准差)等步骤。
6.2 模型推理速度慢
- 可能原因:完整的Transformer模型参数量大,计算耗时。
- 解决方案:
- 模型蒸馏:用大模型(教师)训练一个更小、更快的模型(学生),尽可能保留性能。
- 量化与加速:使用TensorRT、OpenVINO等工具对模型进行量化(如FP16, INT8),并利用硬件加速。
- 任务裁剪:如果你只需要热力图预测,可以在部署时移除扫视路径和评分预测头,减少计算量。
- 缓存与预热:对于固定的常见查询(如特定领域的标准提示词),可以缓存预测结果。
- 解决方案:
6.3 如何评估自己场景下的模型效果?
- 问题:论文中的指标很高,但用在自己的产品界面上感觉不准。
- 解决方案:建立自己的小型黄金标准数据集。
- 选取10-20个具有代表性的自家设计稿或内容。
- 组织一次小规模的、严谨的用户实验(或利用现有的眼动/评分数据),收集真实的注意力热力图或评分数据。这作为你的“地面真值”。
- 用你的数据运行模型,计算相同的评测指标(如热力图的AUC,评分的相关系数)。
- 将结果与论文公布的基准性能对比,同时更重要的,是观察模型预测与真实数据在案例层面的差异,定性分析错误模式。这能帮你明确模型的适用边界。
6.4 伦理与隐私考量
- 问题:使用用户行为数据训练模型是否存在隐私风险?模型预测是否会被滥用?
- 实践建议:
- 数据脱敏:训练使用的所有眼动、交互数据必须经过严格的匿名化和脱敏处理,去除任何可识别个人身份的信息。
- 知情同意:如果自行收集数据,必须确保参与者充分知情并同意其数据用于模型研究。
- 结果解释:明确告知使用模型预测结果的团队,这只是群体概率的预测,不能用于对个体用户进行评判或决策。
- 防止滥用:建立内部使用规范,防止模型被用于设计诱导性、成瘾性或带有偏见的界面(如利用注意力弱点进行过度营销)。
构建和应用预测人类反应的模型,是一个在技术能力、实用价值和伦理责任之间不断寻找平衡的过程。UniAR代表了一种有前景的方向:通过统一建模来更高效、更全面地理解人与视觉内容的互动。它的价值不在于提供一个终极答案,而在于为我们打开了一扇窗,让我们能以数据驱动的方式,更深刻地洞察那些原本依赖直觉和经验的领域。最终,工具的意义由使用者赋予。
