当前位置: 首页 > news >正文

情绪识别论文阅读——Eyemotion - 详解

Eyemotion: Classifying facial expressions in VR using eye-tracking cameras

问题:当你戴着一个VR头盔(头戴显示器)时,你的大半张脸都被遮住了。你的朋友在虚拟世界里看到的只是一个冷冰冰的卡通头像(Avatar),根本看不到你真实的皱眉、微笑、惊讶等表情。这就像隔着墙和人聊天,失去了面对面交流的丰富性,社交体验大打折扣。

解决方案:既然看不到整张脸,那就只看眼睛来猜出整个表情。

  1. 借用现成的设备:巧妙地利用了现在很多高端VR头盔里就是他们没用任何外接摄像头,而自带的一个小摄像头
  2. 收集“表情”数据:他们请了23个人戴上VR头盔,并让他们做出各种表情(比如开心、惊讶、厌恶等)。同时,头盔里的红外摄像头就一直拍下他们眼睛的照片。这样,他们就得到了一套非常独特的数据库:成千上万张“眼睛照片”和对应的“表情标签”
  3. 教AI学习: 他们使用了卷积神经网络(CNN) 模型。
  4. 个性化提升(关键创新点):他们发现每个人的眼睛和表达习惯都不一样。为了让AI更准,他们加入了一个**“个性化”** 步骤。轻松说,就是让新用户先对着头盔做几个标准表情,让AI快速学习一下该用户的独有特点,之后AI对这个用户的判断准确率就能立刻提高大约4%。这就像给AI做了一个简便的“用户人脸校准”。
  5. 实时变脸(应用):最后,他们把该技术用了起来。当你在VR里聊天时,系统实时分析你的眼睛,猜出你的表情,继而立刻让你在虚拟世界里的Avatar做出对应的丰富表情。

**核心创新点:**别人做表情识别,要么需要看全脸,要么需要加装一堆奇怪的传感器。而该论文的途径,只用VR设备自带的、现成的一个小摄像头,就能构建不错的表情识别效果,而且还做了一个很巧妙的‘个性化’功能来让它更准。

数据

精细肌肉动作(Facial Action Units - AUs):这是科学家定义的一套编码框架,用来精确描述面部肌肉的细微运动。比如:

根本情绪表情(Emotive Expressions):这就是我们普通人更容易理解的整体情绪,比如:

如何收集数据

表演-模仿”流水线:

  1. 提供样板: 先录好了专业演员做各种表情的视频。
  2. 用户模仿:参与者来到实验室,看着屏幕上的演员视频,模仿着做出同样的表情
  3. 自动打标:在“模仿”,所以系统就知道,就是因为用户在他模仿的这段时间里,摄像头拍到的所有眼睛图像,对应的就是当前这个表情标签。这样就构建了海量数据的自动、准确标注,完全不需要人工一张张去标。
  4. 增加多样性:为了让数据更丰富,他们还会让用户在做表情时,眼睛跟着一个随机移动的靶点看(这样眼球位置就有变化),或者让他们摘下头盔再重新戴上(模拟日常生活中头盔佩戴位置会滑动的情况)。

清洗和增强

  1. 数据清洗(Data Cleanup):
    • 问题:用户在实验过程中会不由自主地眨眼,这些眨眼图片会干扰AI学习“故意做的表情”(比如wink)。
    • 解决方案:他们训练了一个小的AI分类器,专门用来识别和过滤掉所有“眼睛闭上”的图片,只留下眼睛睁开的有效数据。
  2. 数据增强(Data Augmentation):
    • 问题:数据量可能还是不够多,AI容易学“死记硬背”(过拟合)。
    • 解决方案:对现有的图片进行一些微小的、合乎情形的改动,来创造出“新”图片。比如:
      • 把图片稍微旋转一点点(因为人头也会微微晃动)。
      • 稍微调整一下亮度(模拟不同人的肤色和反光)。
    • 他们做得非常谨慎。比如他们绝不会把图片左右翻转,因为“左眼wink”翻转后就变成“右眼wink”了,标签就错了。

个性化

不同人的眼睛外观差异巨大(比如眼皮单双、眼窝深浅、眼睛大小),这些差异与表情无关,但却会干扰AI的判断。

http://www.zskr.cn/news/13626.html

相关文章:

  • WPF XAML资源文件中的换行、回车、空格及Tab的转义
  • longchain4j 学习系列(2)-调用远程deepseek
  • 2025最新国内过滤器品牌 TOP10 权威测评推荐厂家与选购指南
  • Python 将 HTML 转换为纯文本 TXT (HTML 文本提取) - 实践
  • 【Android之路】界面和状态交互 - 详解
  • ubi文件系统的 制作 + 挂载
  • 元推理用无限嵌套,取代目前弱ai的暴力无限试错
  • java 语法基础课后作业
  • 完整教程:Nginx HTTPS 深入实战 配置、性能与排查全流程(Nginx https
  • 20243907张驰
  • ubuntu系统挂载硬盘
  • RAG实践:一文掌握大模型RAG过程
  • 完整教程:上下文工程驱动智能体向 透明化推理日志
  • 深入解析:@scqilin/phone-ui 手机外观组件库
  • ES 是否有类似mysql explain的语句诊断用法
  • Codeforces 补题笔记
  • 【RabbitMQ】消息可靠性保障
  • 变电站、开闭所、环网柜、配电站
  • 聚焦 AI 应用基础设施,云栖大会 Serverless AI 全回顾
  • Redis HASH+RediSearch 设计自定义索引
  • Altium Designer 25.8.1 最新版安装指南
  • 数据结构篇
  • 2025 年二氧化氯发生器厂家最新权威推荐排行榜:TOP 级企业技术实力与成本优势解析,助力用户精准选购电解法二氧化氯发生器/电解食盐二氧化氯发生器厂家推荐
  • winform 烦人的键盘事件 再遇上 chart 上下左右 失灵
  • 2025 年铝板品牌最新权威推荐排行榜:1-7 系主流铝板企业 TOP5 精选及工艺品质测评指南1060/1100/3003/3004/5052/6061/6063/6082铝板厂家推荐
  • 2025 防撞软包生产厂家权威推荐排行榜:E0 级环保 + B1 级阻燃,公检法 / 幼儿园场景最新优选厂家谈话室/留置病房/教育中心/体育馆防撞软包厂家推荐
  • 中位数定理
  • 计算机网络---网络层 - 详解
  • 国标GB28181视频平台EasyGBS:强大的视频监控与一站式视频服务解决方案
  • 题解:P13507 [OOI 2024] Three Arrays