文章目录摘要Abstract一、项目问题记录1. codex的安装2. 问题记录使用VSCode远程服务器连接codex的403问题二、《UniCompress: Token Compression for Unified Vision–Language Understanding and Generation》论文解读1. 摘要2. 引言2.1 统一多模态模型的优势2.2 核心痛点Token效率瓶颈2.3 研究目标3. 主要贡献4. 方法UniCompress框架4.1 整体架构4.2 全局Token提取Cross-Attention4.3 视觉Token压缩平均池化4.4 全局引导自回归解压缩4.5 轻量化训练流程5. 实验5.1 实验设置5.2 视觉-语言理解性能5.3 图像生成性能5.4 训练与推理效率5.5 消融实验总结摘要本周主要解决项目运行中出现的问题并且阅读论文《UniCompress: Token Compression for Unified Vision–Language Understanding and Generation》论文中提出UniCompress插件式压缩框架通过全局元 token 引导压缩与解压缩无需全量重训即可集成实现4 倍 token 压缩。AbstractThis week, I fixed issues arising during project operation and read the paper UniCompress: Token Compression for Unified Vision–Language Understanding and Generation. The paper proposes a plug-and-play UniCompress compression framework. It guides compression and decompression via global meta tokens, supports integration without full retraining, and achieves fourfold token compression.一、项目问题记录1. codex的安装参考教程codex安装教程主要流程为1git下载。根据自己电脑系统安装合适版本2Node.js节点的下载与安装。官网下载输入指令node-v npm-v查看是否安装成功。3codex安装。终端输入npm install-g openai/codex并且使用指令检查是否安装成功codex--version2. 问题记录使用VSCode远程服务器连接codex的403问题目前没有找到解决方法但是尝试了多个教程中方法进行记录方法一1. 设置环境变量排除本地回调地址Codex CLI 会在本地启动一个回调服务器通常是 http://localhost:1455但代理把这个地址也代理了导致 OpenAI 的 token 回调失败。设置以下环境变量排除本地地址不走代理#Windows 命令行setNO_PROXY127.0.0.1,localhost2. 设置 HTTP/HTTPS 代理环境变量确保 Codex 能访问 OpenAIsetHTTP_PROXYhttp://127.0.0.1:PORTsetHTTPS_PROXYhttp://127.0.0.1:PORT这里的 PORT 是确认有效的代理端口。3.验证登录流程是否成功重新运行 Codex CLI 登录命令codex login二、《UniCompress: Token Compression for Unified Vision–Language Understanding and Generation》论文解读1. 摘要统一多模态模型通过将图像编码为离散Token与文本在单一自回归框架中处理可同时支持理解与生成任务但大量视觉Token带来高额计算与内存开销限制其在资源受限场景部署。本文提出UniCompress插件式Token压缩框架在保留理解与生成性能的前提下将视觉Token数量最高减少4倍显著降低推理延迟与训练成本仅带来极小性能损耗为现实世界多模态应用提供高效统一建模方案。2. 引言2.1 统一多模态模型的优势当前多模态学习向统一模型发展将图像编码为离散视觉Token后与文本Token共同输入大语言模型主干可在单一架构下完成图像描述、视觉问答、图像编辑等多任务简化部署与多任务训练。2.2 核心痛点Token效率瓶颈传统离散Tokenizer如VQ-VAE、VQGAN会将512×512图像转为1024个Token长视觉序列大幅提升内存占用、训练成本与推理延迟。简单压缩下采样、均匀剪枝对理解任务有效但会使生成任务性能下降超15%因生成依赖细粒度、空间一致的Token。重新训练高效Tokenizer需从头微调大语言模型成本极高。2.3 研究目标设计插件式、轻量化的Token压缩方法无需完整重训练同时适配统一模型的理解与生成双任务在压缩Token的同时保留性能。3. 主要贡献指出统一多模态模型中Token效率是核心瓶颈验证简单压缩会严重损伤生成性能明确统一理解与生成的紧凑视觉Token空间目标。提出UniCompress插件式压缩框架结合全局引导自回归解压缩在缩短视觉序列的同时保留生成细节可无缝集成到现有统一模型。多模型实验验证最高实现4倍Token压缩理解与生成任务性能下降均≤5%部分基准持平推理延迟最高降低41.8%训练时间缩短15.4%。4. 方法UniCompress框架4.1 整体架构在现有视觉Tokenizer基础上新增三个轻量化模块大语言模型LLM结构保持不变全局Token提取器通过单向交叉注意力提取场景级语义基于池化的压缩器将Token网格聚合为短序列自回归解压缩器将紧凑表示恢复为原始分辨率密集Token。采用两阶段训练先训练Tokenizer侧压缩解压缩模块再冻结Tokenizer轻量微调LLM实现“一次压缩双任务复用”。4.2 全局Token提取Cross-Attention引入少量可学习元查询Token通过多头交叉注意力从完整视觉Token中提取图像专属全局Token捕获整体布局与物体关系全局Token数量远少于原始视觉Token额外序列开销极小。4.3 视觉Token压缩平均池化将视觉Token恢复为H×W网格通过非重叠平均池化聚合局部Token降低空间冗余压缩后加入[IMG_BOS]、[IMG_SEP]、[IMG_EOS]三个特殊嵌入适配多模态序列输入。4.4 全局引导自回归解压缩生成任务中LLM自回归输出全局元Token与压缩局部Token经码本映射为连续特征后解压缩器以Transformer解码器结构结合全局Token引导将紧凑表示恢复为密集Token重建图像细节。4.5 轻量化训练流程第一阶段Tokenizer训练冻结LLM用重建损失训练压缩解压缩模块学习密集Token与紧凑表示的双向映射。第二阶段LLM微调冻结Tokenizer在压缩后数据上轻量微调LLM无需修改架构即可适配理解与生成任务。5. 实验5.1 实验设置模型主干Llama-3.2-1B基线模型UNITOK、VILA-U、VARGPT、UNIFORK、OPENUNI、BAGEL六种主流统一模型压缩配置下采样因子s24倍局部Token压缩全局Token数Ng4评估基准理解任务GQA、MME、POPE、TextVQA、MMMU等生成任务MJHQ-30KFID、CLIPScore效率指标训练时间、推理延迟。5.2 视觉-语言理解性能所有模型压缩后理解精度仅小幅下降多数任务下降≤3个点部分模型如OPENUNI-COMPRESSED在MM-Bench上甚至超越原始模型压缩后生成的图像描述可完整保留关键实体、空间关系与动作信息。5.3 图像生成性能轻量主干UNITOK、VARGPT、VILA-U压缩后FID与CLIPScore接近原始模型生成质量几乎无损耗强基线模型BAGEL压缩后仍保持竞争力仅OPENUNI对压缩较敏感全局元Token相比平均池化、CLS Token能显著提升生成保真度。5.4 训练与推理效率压缩后训练时间缩短15%左右推理延迟最高降低41.8%生成任务的加速效果最显著因自回归生成对序列长度高度敏感实现训练推理、理解生成的全流程效率提升突破现有方法仅优化单一环节的局限。5.5 消融实验压缩比例1/44倍压缩为性能与效率最优平衡点进一步压缩会严重损伤生成全局Token数量Ng4时达到精度峰值继续增加无明显收益压缩方式平均池化在理解与生成任务上综合表现最优。总结UniCompress是面向统一视觉-语言模型的插件式Token压缩框架通过全局引导解压缩机制实现4倍视觉Token压缩同时最小化理解与生成性能损耗显著提升训练与推理效率可无缝集成到现有模型为资源受限场景下的多模态应用提供高效解决方案。