当前位置: 首页 > news >正文

苹果PICO编解码器:打破传统指标束缚,文件体积节省20%-40%!

01 PICO登场:苹果团队的答案

2025年2月,国际图像专家组(JPEG)宣布JPEG AI正式发布,这是第一个端到端学习型图像编码国际标准。JPEG标准诞生于1992年,如今人工智能开始重写其语法。但即便JPEG AI,距真正的「感知压缩」仍有距离。传统衡量压缩质量的指标峰值信噪比(PSNR)与人眼看到的「好不好看」关系不大。几十年来,多数编解码器设计逻辑都在数学指标框架内,感知压缩一直是远景目标。此时,苹果一支工程师团队发了一篇论文,给出代号PICO的答案。论文标题为What Matters in Practical Learned Image Compression ,论文地址为https://arxiv.org/pdf/2605.05148。理解PICO前,需明白图像压缩是「忘记什么、记住什么」的取舍题。JPEG、AV1、VVC等传统编解码器是手工设计规则系统,可在PSNR上表现好,但面向「减少像素误差」,而非「减少人眼不适感」。人眼对纹理、文字、细节敏感程度远超数学公式。学习型编解码器理论上可针对人的感知训练,但此前的感知型学习编解码器存在速度慢、缺乏兼容性、无法灵活控制码率等问题,装不进消费级产品。

02 三个核心问题,三种解法

PICO全称是Perceptual Image Codec,目标是让人眼满意。研究团队探索数百万种模型配置,引入关键技术创新。第一个问题是熵编码慢,最精确的自回归编码像厨师放食材要回头看锅,精确但极慢。PICO的「一次性上下文模型」把熵编码关键的「尺度参数」单独拆出,一次前向传播算完,其余参数并行计算,保留精度且绕开速度瓶颈,去掉该模块模型性能下降10.28%,加上速度几乎不受影响。第二个问题是感知训练会产生幻觉,GAN训练出的图像可能是编造的真实,人眼对文字敏感。PICO针对文字设计TextFidelityLoss ,用文字检测器找出文字区域,施加像素保真约束,压制GAN在文字区域「发挥空间」,实验显示加上损失函数后文字区域绝对误差降低一半。第三个问题是图像分块处理会留下色块边界,PICO把图像切成504×504像素瓦片处理再拼回,但GAN训练时忽略低频色彩,导致相邻瓦片有色差。研究团队引入TilingArtifactLoss ,强制模型在多空间频率保持色彩一致,使瓦片边界误差下降一半以上。

03 实验结果

苹果团队委托第三方平台Mabyduck组织大规模人类主观评测,采用盲测两两对比方式,610位评测者(通过色盲检测和压缩伪影辨别测试)对同一张图在不同编解码器下的重建结果配对比较,汇总为Bayesian ELO分数,共收集74,925次配对比较结果。最终数字显示,相同视觉质量下,PICO文件体积是AV1、AV2、VVC、ECM和JPEG AI的三分之一到二分之一,需比特数是这些标准的30%-43%;对比最强学习型感知编解码器,PICO节省20%-40%文件大小。速度方面,在iPhone 17 Pro Max上,PICO编码12MP照片需230毫秒,解码需150毫秒,多数顶级ML编解码器在NVIDIA V100服务器显卡上运行都比它慢。论文还记录在PSNR传统指标上PICO表现平平,印证优化感知质量和优化数学指标是不同方向。

04 一个时代节点,而非终点

PICO有局限性,对于卡通、示意图等高度规则化合成图像,压缩效率不如传统编解码器。但过去三十年图像压缩技术进步多在「让数字更好看」赛道,人眼感知是难题,PICO首次系统拆解该难题,装进可在手机实时运行的编解码器。用苹果设备分享照片时,也许感受不到不同,但安静压缩过程中,针对人眼感知的算法在决定信息取舍。

05 团队:从WaveOne到苹果

论文通讯作者是Oren Rippel,苹果研究员,压缩领域老面孔。2017年他在初创公司WaveOne发表「实时自适应图像压缩」论文,用神经网络打败主流编解码器并维持实时速度,奠定其在学习型压缩领域地位。之后WaveOne团队推出面向视频压缩的ELF-VC,在UVG视频测试集上相比H.264实现44%码率节省,运行速度比同类ML编解码器快五倍以上。WaveOne团队整体加入苹果,PICO是他们在图像感知压缩上交出的第一份系统性答卷。

http://www.zskr.cn/news/1429275.html

相关文章:

  • Live Room Watcher:专业级直播间数据抓取框架深度解析与实战指南
  • Koodo Reader:打造你的专属个性化电子书阅读空间
  • 赛灵思平台 lwIP 断线重连深度解析与实现指南
  • 015. UG 二次开发,拉伸草图生成实体类,高级草图类封装
  • 别再为数据发愁:用Simulink批量仿真,为你的电力系统AI模型造一个专属数据集
  • 5月26日每日60秒读懂世界:人口城市治理、劳动权益、医药监管与国际动态
  • UE5 Lumen流明引擎实战:手把手教你配置实时全局光照,告别漫长的光照烘焙
  • GsonFormatPlus深度解析:如何3分钟内实现JSON到Java对象的智能转换
  • 拍秋衣不用再找模特,AI上身图直出
  • 5.30 武汉黄金回收,今日克价直接报 - 资讯纵览
  • CO₂激光管怎么用?这份使用+维护指南请收好!
  • 临沂本地靠谱推荐高分口碑好漏电漏水检测商家-星瀚漏电漏水检测- 消防/热力/自来水/地埋电缆/卫生间漏水 - 资讯热点
  • 2026年平顶山本地六大装修品牌真实实力全面对比解析 - 国麟测评
  • 算力的理性回归:自动驾驶下半场的算力之争
  • 《Turing Complete》通关笔记:我是如何通过游戏理解‘图灵完备’与处理器架构核心的
  • 从脚本到自动化:用Python和Shell封装YARN应用管理,实现一键终止与巡检
  • 基于Arduino的防酒驾系统:从传感器到物联网的嵌入式实战
  • 2026成都花园户型装修设计榜单|一楼庭院+顶楼露台花园专属装企推荐,避坑首选 - 资讯纵览
  • 2026年新闻稿发布平台TOP10权威测评报告 - 资讯纵览
  • 2026年企业如何鉴别一家靠谱的AI搜索GEO服务商 - 品牌报告
  • DS4Windows终极指南:让PS4/PS5手柄在Windows电脑上完美运行
  • 5.30 天津黄金回收,今日大盘价无套路 - 资讯纵览
  • 步进梁加热炉炉温综合优化控制策略【附仿真】
  • 终极指南:如何快速解包Godot游戏资源文件
  • HotSpot VM源码剖析2026版开源!
  • 【信息融合】自适应集成粒子滤波算法的磁图与惯性导航融合算法【含Matlab源码 15579期】
  • 5步将键盘鼠标变专业游戏手柄:vJoy虚拟手柄完整使用指南
  • 不同国家发稿合规要求不同,平台能帮处理吗?媒介易一站式合规发稿能力解析 - 一搜百应
  • 2026年徐州企业AI获客效率提升3倍,怎么做到的?
  • Linux 基金会征集 DNS - AID 项目贡献,让 AI 代理借 DNS 通信无需新基建