HICO/HICO-Det 数据集：从标注结构到HOI任务实践指南-尧图网络科技

1. HICO与HICO-Det数据集基础解析

第一次接触HICO数据集时，我被它庞大的标注体系震撼到了。这个专为HOI（人物-物体交互）任务设计的数据集，包含了600种动名词组合、80类物体和117种行为，几乎覆盖了日常生活中所有常见交互场景。比如"人骑自行车"、"喂猫"、"切苹果"这类典型交互，都能在数据集中找到对应标注。

HICO-Det作为HICO的扩展版本，最大的特点是提供了精确的边界框标注。原始HICO只标注了图片级别的交互类别，而HICO-Det则标注了人物和物体的具体位置信息。举个例子，同样是"人喝咖啡"这个交互，HICO只告诉你图片中存在这个行为，而HICO-Det会标出人物和咖啡杯的具体位置坐标。

数据集的文件结构非常清晰。下载后会看到几个关键文件：

anno.mat：包含所有分类标签和图片名称列表
anno_bbox.mat：HICO-Det特有的边界框标注
README：详细说明文件结构和标注规则

提示：处理mat文件时推荐使用scipy.io.loadmat，比MATLAB更轻量

2. 深入解读标注文件结构

2.1 anno.mat文件详解

这个文件是理解整个数据集的关键。我用Python加载后，发现它包含5个主要部分：

import scipy.io as sio data = sio.loadmat('anno.mat') # 动作列表：600个HOI类别 list_action = data['list_action'] # 训练集图片名列表 list_train = data['list_train'] # 测试集图片名列表 list_test = data['list_test'] # 训练集标签矩阵 anno_train = data['anno_train'] # 测试集标签矩阵 anno_test = data['anno_test']

最值得关注的是list_action结构，每个HOI类别都包含丰富语义信息：

nname：物体名词（如"bicycle"）
vname：行为动词（如"ride"）
vname_ing：进行时态（如"riding"）
syn：同义词
def：定义说明

2.2 anno_bbox.mat的特殊之处

HICO-Det的标注文件结构更复杂，主要包含三个变量：

bbox_train：训练集边界框数据
bbox_test：测试集边界框数据
list_action：与anno.mat一致的HOI列表

每个边界框样本都包含完整的三元组信息：

人物边界框(x,y,w,h)
物体边界框(x,y,w,h)
交互行为ID

我处理时发现一个细节：当invis=1时，表示交互不可见，此时边界框信息为空。这在数据清洗时需要特别注意。

3. 从数据到模型的实践路径

3.1 数据预处理实战

处理HICO-Det数据时，我总结了一套标准化流程：

数据解析：

def parse_bbox(data): samples = [] for item in data['bbox_train'][0]: filename = item['filename'][0] hois = item['hoi'][0] for hoi in hois: samples.append({ 'file': filename, 'action_id': hoi['id'][0][0], 'human_bbox': hoi['bboxhuman'], 'object_bbox': hoi['bboxobject'] }) return samples

负样本处理：数据集中的负样本标注为-1，但直接使用会导致类别不平衡。我的经验是采用动态采样策略，每个batch保持正负样本比例在1:3左右。
模糊样本利用：标注为0的模糊样本不要简单丢弃。实践中我发现，用这些样本做半监督学习能提升模型鲁棒性。

3.2 模型构建技巧

基于HICO数据集的模型需要特殊设计。我验证过有效的几种架构：

双流网络：

人物特征提取分支
物体特征提取分支
交互关系解码器

注意力机制改进：

class HOIAttention(nn.Module): def __init__(self): super().__init__() self.human_proj = nn.Linear(512, 256) self.object_proj = nn.Linear(512, 256) self.relation = nn.MultiheadAttention(256, 8) def forward(self, human_feat, obj_feat): h = self.human_proj(human_feat) o = self.object_proj(obj_feat) attn_out, _ = self.relation(h, o, o) return attn_out