Histgen

Code：

https://github.com/dddavid4real/HistGen

Data：

https://huggingface.co/datasets/david4real/HistGen

Abstract

Background：
- 数字化WSI得以普及，推动CPATH发展
- WSI Gigabyte 和GPU的限制，MIL被用于WSI分析
Motivation：
- 撰写报告是劳动密集且容易出错的任务，自动化生成很有前景
- MIL 领域集中在WSI级别的预测，很少有WSI report 生成
Challenges：
- 缺少数据集，数据集主要关注patch级别的图像和标题，忽略了全面，全局性的描述
- WSI 图像巨大，阻碍现有方法直接使用
- WSI patch 信息密度高（密集的视觉信号） → 简介的诊断报告(离散的文本标记)
- WSI 依赖于MIL，需要pre-train的特征提取器，这是一个关键瓶颈，阻碍了WSI报告的最佳性能
Contributions：
- 构建了标注数据集
- 提出局部-全局分层视觉编码器
- 跨模态上下文模块
- pre-train一个通用MIL特征提取器
- 通过实验验证了模型的优越性

dataset
- 从TCGA下载诊断报告pdf
- 使用GPT-4进行清洗和摘要
- 将病例ID和WSI进行匹配，形成一个77753样本的WSI-报告数据集
Histgen 框架
1. LGH：使用预训练backbone进行提取patch feature，然后从局部到全局方式进行编码
2. CMC：链接视觉和文本两种不同的模态，存储迭代中的只是供模型参考
3. decoder：生成报告
4. transfer learning 模型微调用于WSI级别的下游任务
LGH
- 局部编码，全局交互，信息融合
CMC
- 作为一个外部存贮器，可以被迭代访问和更新
  - 对于视觉输入，通过交叉注意力原型学习选取关键补丁作为query，避免序列冗余。CMC生成response，随后聚合会原始视觉特征中，为其注入跨模态信息。这种交互也用哦关于解码器的文本嵌入
Loss function
- 最大化给定WSI I的情况下生成T的概率
$$
\theta^*=\text{argmax}\theta \sum{i=1}^t\text{log}P(y_i|y_1,y_2,…,y_{i-1},I;\theta)
$$

Implementation Details
- Train: test: val = 8:1:1
- 癌症亚型分类：为了测试迁移学习的能力三个外部数据集：UBC-OCEAN、Camelyon和TUPAC16
- 生存分析：在TCGA的六个数据集上进行评估
Evaluation Metrix：
- NLG：包括BLEU、METEOR和ROUGE-L
- 分类使用蒙特卡洛交叉验证的准确率和AUC
- 生存分析使用蒙特卡洛交叉验证的c-index
模型设置
- 特征提取器采用预训练的 DINOOv2 ViT-L，hidden dimension为1024
- LGH模块区域大小为96，解码器为三层的transformer，8个attention head，隐藏状态维度为512
- CMC dimension 512 x 2048
- learning rate 1e-4
- 推理时采用beam search 波束大小为3
WSI 报告生成结果
- ImageNet预训练的ResNet50、WSI上预训练的CTransPath以及本文的莫i选哪个
- 本文的提升更加显著
- 在所有指标上提升了约3%
消融实验
- 以基础模型作为起点(transformer + pooling)
- 叠加LGH和CMC会带来性能的持续提升
Transfer learning
- 为了证明模型学到了诊断相关信息，将预训练好的模型微调并应用于下游任务
- 癌症亚型分类：
  - 显著优于传统方法
- 生存分析：所有6个数据集上保持了最高的平均分