图像基础：RGB、BMP、JPG、PNG等格式的存储结构与编码原理（二）-尧图网络科技

1. 图像格式的存储结构基础

当你用手机拍下一张照片时，系统会自动把它保存为JPG格式；当你用截图工具截取屏幕内容时，默认可能是PNG格式。这些常见图像格式背后，其实都是二进制数据的排列组合。就像乐高积木有不同的拼接方式，图像格式也通过不同的存储结构来平衡画质和文件大小。

以最原始的BMP格式为例，它像是一本毫无压缩的相册。当你用十六进制编辑器打开BMP文件，会看到清晰的三个部分：

文件头（14字节）：包含"BM"魔数标识、文件大小和像素数据偏移量
信息头（40字节）：记录图像宽度、高度、色深等元数据
像素阵列：按从下到上、从左到右的顺序排列的原始像素数据

// BMP文件头示例结构体 #pragma pack(push, 1) typedef struct { char magic[2]; // "BM" uint32_t file_size; // 文件总字节数 uint16_t reserved1; uint16_t reserved2; uint32_t data_offset;// 像素数据起始位置 } BMPFileHeader; #pragma pack(pop)

而PNG格式则像是个精心设计的收纳箱。它采用分块(chunk)存储，关键块包括：

IHDR：图像基本信息（宽、高、色深等）
PLTE：调色板（索引色模式使用）
IDAT：压缩后的像素数据
IEND：结束标记

这种结构使PNG支持渐进式加载——就像先看模糊的预览图，再逐渐变清晰。我在处理卫星影像时发现，即便网络中断，已下载的部分PNG块仍能显示，这种特性在Web开发中非常实用。

2. RGB编码的二进制实现

2.1 索引色与直接色

早期计算机受内存限制，发展出两种RGB编码方案。就像画家可以选择用调色板（索引色）或直接调配颜料（直接色）：

索引色模式：

调色板就像色卡本，存储有限颜色（如16色、256色）
像素值实际是色卡编号，比如"12"代表调色板第12号颜色
典型应用：Windows 95的桌面图标、早期游戏像素图

直接色模式：

每个像素直接存储RGB分量值
像用三原色调色，可以表现更丰富的色彩
现代设备普遍采用这种方式

我曾调试过一个嵌入式设备显示异常的问题，最终发现是程序错误地将RGB565数据当作RGB555解析，导致颜色错乱。这让我意识到理解二进制格式的重要性。

2.2 常见RGB格式对比

格式	位数	R位宽	G位宽	B位宽	典型应用场景
RGB555	16	5	5	5	游戏机纹理贴图
RGB565	16	5	6	5	嵌入式系统显示
RGB24	24	8	8	8	数码相机原始数据
ARGB32	32	8	8	8	带透明通道的UI设计

在内存中，这些格式的排列顺序可能出人意料。比如测试发现，Windows系统下RGB24实际存储顺序是BGR，而Android系统则可能是RGB。这种差异会导致跨平台开发时出现"红蓝互换"的诡异现象。

3. 压缩编码原理剖析

3.1 有损压缩：JPEG的智慧

JPEG的压缩就像素描画家抓重点。它通过以下步骤精简数据：

色彩空间转换：将RGB转为YUV，分离亮度与色度
离散余弦变换(DCT)：将8x8像素块转换为频率系数
量化：舍弃人眼不敏感的高频成分
熵编码：用更紧凑的方式表示剩余数据

# 简化的JPEG量化示例 def quantize(block, quality=50): # 标准量化表 luminance_quant_table = np.array([ [16, 11, 10, 16, 24, 40, 51, 61], [12, 12, 14, 19, 26, 58, 60, 55], [14, 13, 16, 24, 40, 57, 69, 56], [14, 17, 22, 29, 51, 87, 80, 62], [18, 22, 37, 56, 68,109,103, 77], [24, 35, 55, 64, 81,104,113, 92], [49, 64, 78, 87,103,121,120,101], [72, 92, 95, 98,112,100,103, 99] ]) scale = 5000/quality if quality < 50 else 200 - quality*2 quant_table = np.floor((luminance_quant_table * scale + 50)/100) quant_table[quant_table < 1] = 1 return np.round(block / quant_table)

实测发现，当JPEG质量设为85%时，文件大小比100%质量减少约50%，而人眼几乎看不出区别。但在处理文字截图时，低于70%的质量会导致文字边缘出现明显锯齿。