当前位置: 首页 > news >正文

山东大学等团队构建头颈癌显微高光谱病理基准数据集,突破医学组织切片智能分类难题

近日,由山东大学、齐鲁医院、德国慕尼黑工业大学、西安电子科技大学等单位联合完成的学术论文《HSPath-Bench: A microscopic hyperspectral dataset and local-global learning network for histopathological classification》正式公开发布。该研究首次构建了面向头颈癌免疫组化(IHC)与原位杂交(ISH)切片的显微高光谱公开基准数据集 HSPath-Bench,并提出了创新的最大质量波段选择(M²BS)算法与自适应局部‑全局特征融合(ALGFF)网络,在极少量标注样本下实现了病理组织的高精度分类。

01研究背景

高光谱成像能够捕获组织切片在数百个连续波段上的光谱信息,为生物细胞分析和医学病理诊断提供了超越传统RGB图像的”光谱指纹“级分辨能力。然而,该技术在医学显微领域落地仍面临三大瓶颈:

1. 数据极度稀缺:至今没有一个公开的、带有像素级精细标注的显微高光谱病理数据集,严重制约了算法开发与公平对比。

2. 光谱冗余与噪声:高光谱数据波段多、相关性强,且采集过程中存在暗电流、光源不均等噪声,直接使用会导致“休斯现象”(维度灾难),降低分类精度。

3. 标注成本高昂:病理专家手工逐像素标注耗时极长,深度学习方法在少量训练样本下容易过拟合,泛化能力差。

为了打通从“先进传感”到“智能诊断”的最后一公里,研究团队与高谱成像紧密合作,从数据采集、算法设计到实验验证,完成了一次系统性的创新突破。

02核心贡献

2.1 发布 HSPath-Bench 数据集

团队采集了43例头颈鳞癌患者的组织切片,涵盖EGFR、P16、P53、P63、EBER五种关键分子标记物,经过严格病理专家双重标注与仲裁,构建了包含60万+像素级精标注样本的高光谱数据集。每个样本均提供:

  • 400-1000nm 范围内300个连续光谱波段

  • 像素级的三类染色强度标注(强阳性、弱阳性、阴性)以及上皮/间质区域划分

  • 校准后的光谱透射率数据(附暗电流与空白参考校正)

HSPath-Bench 是目前国际领先的、多类别、像素级标注的显微高光谱病理数据集,为后续算法研究与行业基准测试提供了宝贵的“标尺”。

2.2 提出 M²BS 波段选择算法

针对高光谱波段冗余问题,研究团队创新性地提出最大质量波段选择(M²BS)算法。不同于传统仅考虑方差或互信息的方法,M²BS 通过最大化平行多面体体积来评估波段组合的代表性,在有效去冗余的同时最大程度保留判别信息,显著降低了后续网络的计算负担。

2.3 设计 ALGFF 自适应局部‑全局融合网络

为了兼顾显微组织的局部细节纹理全局空间上下文,论文设计了ALGFF(Adaptive Local‑Global Feature Fusion)模块,核心创新包括:

  • 空间‑光谱注意力(SS):在编码器‑解码器结构中强化对关键光谱特征的响应。

  • Swin Transformer 与 CNN 自适应融合:通过通道级动态权重,平衡窗口自注意力(建模长程依赖)与卷积操作(捕获局部精细结构)。

  • 无补丁(patch‑free)全图处理:避免了传统滑窗造成的感受野受限与计算冗余。

03实验结果

3.1 极稀疏标注下显著优于当前主流算法

在每类仅使用5个像素作为训练样本的极端条件下,所提方法在10张测试图像上的总体分类精度(OA)达到61% – 90%,平均准确率(AA)与 Kappa 系数均显著超越十种主流方法(包括 SVM、随机森林、1D/2D CNN、Transformer、FPGA、SSDGL 等)。

部分典型结果:

  • EGFR-17:OA 86.6%(第二名80.7%)

  • P16-03:OA 83.6%(第二名78.3%)

  • EBER-01:OA 78.8%(第二名68.8%)

  • P53-01:AA 86.6%(第二名82.7%)

3.2 训练样本增加时性能持续提升

当训练样本增加到每类50像素时,精度相比5像素条件平均提升6–16个百分点;增加至100像素时仍有小幅稳定增长,表明模型具有良好的数据扩展性,不会因样本增多而饱和。

3.3 消融实验验证各模块贡献

  • 移除 SS 模块(替换为普通卷积):分类精度下降2–10个百分点,尤其在复杂核染色的 P53 数据集上下降近10%。

  • 移除 ALGFF 模块(仅保留单分支):平均精度下降1–2个百分点。

  • 结合 M²BS + SS + ALGFF 的完整模型在所有测试集上均取得最优或次优结果。

3.4 可视化分类图对比

论文提供了每种方法在各类切片上的分类伪彩图。可以看到:

  • 仅用光谱信息(像素级方法)会产生大量椒盐噪声,边界模糊。

  • 基于固定尺寸补丁的方法(2DCNN、2DFormer)在阳性细胞散在分布的区域容易漏检或误判。

  • 本方法生成的分类图最接近专家标注的真值,尤其在 EGFR 胞膜连续阳性与 EBER 核阳性混合区域表现突出。

04显微高光谱

HY-5010-S 具备400–1000 nm光谱范围、优于2.8 nm的光谱分辨率、推扫式成像与暗电流/空白双重校正,为研究团队提供了高信噪比、高一致性的光谱数据,是 HSPath-Bench 数据集高标注质量的硬件保障。

论文链接:

https://doi.org/10.1016/j.optlastec.2025.114413

光谱数据集地址:

https://github.com/zhangchenglong1116/HSPath-Bench

http://www.zskr.cn/news/1489985.html

相关文章:

  • AD导出的STEP模型在SOLIDWORKS里总弹窗?一个设置搞定默认模板问题,附完整SW导入配置流程
  • AI大模型实战:从零完成LoRA轻量化微调
  • 从《信息学奥赛一本通》到LeetCode:手把手教你用C++ STL(vector+queue)实现SPFA最短路算法
  • 性价比高的企事业单位功能性服装定制哪个靠谱
  • 团队协作中的 Git Tag 最佳实践:从入门到精通
  • 信息学奥赛刷题指南:如何高效攻克洛谷P1068这类‘排序+模拟’题?
  • 从一次线上数据‘丢失’事故,复盘MySQL INSERT ... ON DUPLICATE KEY UPDATE的隐藏细节
  • Beyond Compare 5终极激活指南:3分钟解决文件对比工具授权难题
  • FPGA实战:用Verilog实现一个50%占空比的5分频器(附完整代码与仿真)
  • 高效解锁九大网盘直链下载:告别客户端束缚的技术方案
  • 国内外知名高端网站建设公司推荐:专业网站建设公司推荐与评测
  • AI Agent在智慧城市管理中的多场景协同实战
  • 保姆级教程:在CentOS 7上从零部署Elasticsearch 7.17与Kibana(含系统调优与中文界面配置)
  • 用STM32CubeMX和HAL库复刻第八届蓝桥杯电梯赛题,我的调试笔记与避坑指南
  • 《B3959 [GESP202403 四级] 做题》
  • Argo Cd 3.4.2 官方版下载(夸克网盘+百度网盘,SHA256校验)
  • 图片怎么去水印?2026图片去水印方法+工具推荐|图片去水印工具哪家强?
  • SuperPoint_CSDN
  • Vue3自定义指令实战:手把手教你封装一个拖拽弹窗组件(附完整代码)
  • 从仿真到物理图像:如何用Rsoft分析LPFG中的模式耦合与能量泄露
  • 【数据库系统原理】第11篇:聚集函数与分组归约:GROUP BY子句的代数原理与陷阱
  • 【Kubernetes01】—— K8s核心原理一文吃透:从架构到调度的完整拆解
  • 小程序毕设项目:基于Springboot+微信小程序的粤语文化传播平台的设计与开发 (源码+文档,讲解、调试运行,定制等)
  • MATLAB版蛙跳算法特征筛选工具包:含数据、分类器接口与完整运行示例
  • 用MATLAB复现经典圆柱绕流:手把手教你跑通POD模态分解(附完整代码与避坑指南)
  • 从FreeRTOS转向ThreadX:在STM32F103C8上体验微软开源RTOS的移植差异
  • SOLIDWORKS转CAD字体终极指南:TrueType vs SHX字体怎么选?看完这篇不再纠结
  • AI 聊天辅助为什么不应该替你自动发送消息?
  • 纯文科考生,有没有机会报考大数据类本科专业?
  • 别再死磕公式了!用MATLAB/Octave手把手教你搞定LMMSE信道估计里的自相关矩阵