脑肿瘤分割论文打卡2：E1D3 U-Net for Brain Tumor Segmentation_综合

E1D3 U-Net for Brain Tumor Segmentation: Submission to the RSNA-ASNR-MICCAI BraTS 2021 challenge 【E1D3 U-Net 用于脑肿瘤分割】

Abstract
1 Introduction
2 Realted Works
3 Methodology
- 3.1 E1D3 U-Net :One Encoder, Three Decoders
- 3.2 Training
- 3.3 Testing
4Experiments
- 4.1 System Specifications
- 4.2 Dataset and Preprocessing
- 4.3 Segmentation Results
- - BraTS2018
  - BraTS2021
5 Conclusion

代码地址：https://github.com/Clinical-and-Translational-Imaging-Lab/brats-e1d3

Abstract

介绍编码解码器结构（背景）
- 卷积神经网络(CNN) 已经在医学图像分割任务中表现出最先进的性能，在大多数性能最好的CNN中有一个共同的特征是受U-Net启发的编码解码器体系结构。
介绍任务和工作
- 对于多区域脑肿瘤分割，3D U-Net结构和它的变体提供了最具竞争性的分割性能。
- 在本文中，我们提出了一个标准的3D U-Net结构的有趣的扩展，专门用于脑肿瘤分割。
介绍提出的工作的具体情况
- 提出的网络叫E1D3 U-Net,是一个单编码器，三个解码器的全卷积神经网络结构，其中每一个解码器分割感兴趣的分层区域之一，全肿瘤（WT),肿瘤核心（TC)和增强核心（TC）。
介绍性能
- 在BraTS2018验证集（标签不可见）E1D3 U-Net在脑肿瘤分割中的单项预测性能可以与最先进的网络媲美。具有合理的计算需求和没有集成
- 作为BraTS2021的参赛者，我们同杨在BraTS2021数据集上评估了我们的性能，E1D3 U-Net表现出了标准3DUnet结构的灵活性，我们用该结构来完成脑肿瘤分割任务。

1 Introduction

介绍脑肿瘤分割重要性
- 脑肿瘤亚区的准确分割对于病变负荷的定量分析至关重要，为了解患者的功能转归提供依据。
- 在这方面,3D多参数磁共振成像（3D mpMRI）被广泛用于非侵入性的脑肿瘤可视化和分析，不同的MRI序列（例如，T1，T2，T1ce,FLAIR)常被用来提供不同脑肿瘤亚区域的补充信息。
- 脑肿瘤区域通常被分类为三个亚区域：肿瘤周围水肿（PTE），非增强核心（NEC)和增强核心（ENC），如图1所示。另外，这三个亚区域通常被认为是一个分级组合：全肿瘤（WT：PTE+NEC+ENC)，肿瘤核心（TC:NEC+ENC),和增强核心（ENC）。
介绍卷积神经网络发展
- 在过去的十年里，卷积神经网络已经在医学图像分割任务挑战赛中取得最先进的性能，在各种CNN结构中，U-Net和它的变体作为医学图像分割中最具有前途的结构脱颖而出。
- 然而，脑肿瘤及其亚区域的分割一直是一个挑战，即使是深层神经网络，由于下面的一些原因
  - （1）缺乏高质量的图像数据
  - （2）人工制品的存在（这里应该是人工标注？）
  - （3）高度的类别不平衡
  - （4）原始体素数据及其通过神经网络处理需要大的计算和内存需求
总结自己工作所解决的问题
- 在本文中，我们提出了一个由一个编码器跟着三个独立二进制输出的解码器组成的结构（所以命名为E1D3 U-Net）,通过标准的图像处理技术对二值分割进行融合，生成多类分割图。
- 我们利用合理的计算预算在BraTS2018验证数据集上实现了具有竞争力的分割性能，我们选择了它，因为与最先进的方法进行广泛的比较是现成的。
- 此外，我们作为BraTS2021 挑战赛的参赛者，我们同样在BraTS2021数据集上评估了我们的工作。

2 Realted Works

介绍在脑肿瘤分割中前人的工作
- 之前在脑肿瘤分割上的工作从不同观点指出了问题：
  - Pereira等通过两个略有不同的2D网络(LGG和HGG各一个)对较小的2D线段执行像素分类。
  - Kamnitsas等通过一个有效的多尺度处理结构在3D片段上执行分割，同时使用3D条件随机域进行后处理。
  - Wang等人利用肿瘤子区域的层次结构，使用层次级联的网络: 每个子区域一个。他们利用各向异性卷积，训练了三个这样的级联，每个视图(轴位、冠状位、矢状位)一个。因此，整个架构需要9个训练有素的2.5 d 网络来产生一个单一的预测。
  - Dong等人使用2d u-net 在切片级上分割每个3d mpmri体素。该方法训练和测试速度快，计算量小，但参数大大超参数化(3500万个参数) ，不利用三维上下文信息。
  - Isensee等人使用了一个集合的多个3 d unets 训练了一个大数据集，并集中于小的改进，以提供有竞争力的分割性能。
  - Myronenko提出了一种带有额外输入重构分支的编码器结构，该分支对编码器进行引导和规范化。网络在分段性能方面很突出，但是不能在合理的计算预算内实现(作者提到了32gb 的 gpu 内存)。
  - Xu等人采用由一个共同的特征提取器组成的体系结构，该特征提取器由三个相对较小的3D U-Net组成的注意力引导级联来分割每个分层的肿瘤子区域。每个U网包含特征桥模块，级联通过注意块耦合以获得具有竞争力的分割性能。
介绍我们工作的渊源
- 我们提出的框架独立于Daza等人最近的工作，但在本质上类似于Daza等人最近的工作。[5]。作者使用了一个编码器，四个解码器的架构，其中三个解码器执行二进制分割(每个分级的肿瘤亚区一个)，第四个解码器(由三个二进制解码器的学习参数的学习线性组合产生)执行有效的多类分割。

3 Methodology

3.1 E1D3 U-Net :One Encoder, Three Decoders

介绍这个工作的具体内容
- 我们研究工作的baseline是基于3DnnUnet结构，我们使用基于卷积的上采样和下采样取代了最大池化和三线性上采样层。我们称这种baseline结构为E1D1 U-Net 这是原始3D U-Net的变体，是一个由收缩路径（编码器）和扩张路径（解码器）组成的全卷积神经网络.
- 编码器通过在不同层级上连续的卷积执行特征提取，解码器将编码后的特征与每一级的语义信息组合以产生输出分割图。
- 我们提出的结构，如图2所示，通过一个简单的改动扩展了基线的编码解码结构：添加了两个额外的解码器，在设计上与原始的解码器类似。
- 最终所得到的结构由一个编码器，三个解码器组成，每一个解码器独立的从编码器获得特征图并在输出生成分割，我们将总体函数化为：
  $z=(z1,z2,z3,z4,z5)=E(x)y^r=Dr(z),r∈{WT,TC,EN}\begin{aligned} \mathbf{z} &=\left(\mathbf{z}_{1}, \mathbf{z}_{2}, \mathbf{z}_{3}, \mathbf{z}_{4}, \mathbf{z}_{5}\right)=E(\mathbf{x}) \\ \hat{\mathbf{y}}_{r} &=D_{r}(\mathbf{z}), \quad r \in\{\mathrm{WT}, \mathrm{TC}, \mathrm{EN}\} \end{aligned}$
  这里 $E (.)$ and $D (.)$ 分别表示（代表）编码器和解码器, $x\mathrm{x}$ 代表输入的sample或者minibatch，, $z\mathbf{z}$ 是从编码器的每一级上获得的特征图的元组， $y^r\hat{\mathbf{y}}_{r}$ 是来自解码器 $D_{r} .$ 子区域 $r$ 的输出二进制掩码。
- 注意 $E1D1\mathrm{E}_{1} \mathrm{D}_{1}$ (标准 U-Net) 可以简化为: $y^=D(E(x))\hat{\mathbf{y}}=D(E(\mathbf{x}))$
二进制分割图被融合来生成最终的分割，在3.3结中，我们的方法是从一下概念中获得灵感：
- 1.TreeNet：在这些结构中，网络由多条从一个共同的主干分枝而来的路径组成，这允许网络分支在前面的部分共享参数（在学习的过程中会由很多通用的特征）而每个分支机构都有专门从事不同任务的自由。此外，茎（主干）中的参数接受来自多个来源(每个分支一个)的累积监督，这可能有利于学习健壮的低级表示。
- 2.Region-based Prediction：这一概念提出了以一种学习优化分层肿瘤区域的方式来组织网络，而不是独立地分割每一类，这样的配置旨在直接优化为其计算分割度量的区域。在我们的配置中，我们让每个解码器专门处理三个分级肿瘤区域中的一个：整体肿瘤(WT)、肿瘤核心(WT)和增强核心(EN)。
介绍一下网络的具体构成
- 该网络将大小为96的多模式段作为输入，以产生相同大小的输出。
- 输入/输出大小保持相对较小，以平衡添加两个额外解码器所产生的计算成本。我们注意到，在类似的设置(GPU内存、批处理大小)下，使用较小的输入大小和每层更多的功能地图比使用更大的输入大小和更少的每层功能地图效果更好。
- 在后一种情况下，可以观察到性能的下降，在TC和EN肿瘤亚区表现更为明显。请注意，该体系结构仍然非常简单，并且不包括许多广泛使用的组件，例如剩余连接和深度监控，这可能会显著增加内存需求。

3.2 Training

介绍训练策略
- 网络的输入是来自每个多参数序列的大小96的3D段的堆栈。我们在包含全脑的bounding box，从每个受试者体积中随机提取3D片段。
- 每个提取出来的片段都经受了畸变(概率为50%) ,它按顺序由以下操作组成(每个操作都有50%的概率）：沿着每个轴随机翻转，随机仿射变换，随机弹性变形，随机gama校正（这应该是一系列数据增强的手段）
- 我们设定了batch size = 2，受限于机器
介绍具体的参数选择
- 网络的所有卷积层的参数的初始化使用He初始化权重，网络被训练为应用于架构的每个头的输出的目标函数的平均值。
- 整体的目标函数如： $L=(LWT+LTC+LEN)/3\mathcal{L}=\left(\mathcal{L}_{\mathrm{WT}}+\mathcal{L}_{\mathrm{TC}}+\mathcal{L}_{\mathrm{EN}}\right) / 3$ ,
- 这里每一个 $Lx\mathcal{L}_{x}$ 是Soft Dice loss和 Cross-entropy loss函数的非加权和, i.e. $Lx=?\mathcal{L}_{x}=-$ SoftDice $+$ CrossEntropy.
- 随机梯度下降的 Nesterov 动量为 $(0.99)$ , 按照片权重衰减 $10^{-6}$ 进行正则化, 优化网络. 学习率被初始化为 $η0=10?2\eta_{0}=10^{-2}$ 并且在每个epoch结束时候使用多项式衰减策略y $ηt=η0(1?t/tmax?)0.9\eta_{t}=\eta_{0}\left(1-t / t_{\max }\right)^{0.9}$ , 其中 $η(t)\eta(t)$ 在第 $t$ 个epoch之后的学习率， $t_{\max }$ 代表总共的epoch数（最大epoch数，设定为500）

3.3 Testing

在推理过程中，分段的大小为96（多参数堆栈）被从具有bounding-box的全肿瘤区域提取，提取沿每个空间轴50%重叠的分段，并在所有重叠区域对来自网络的Softmax输出进行平均。
通过形态学处理、聚类阈值和分级施加操作的组合，融合预测的分级区域以生成多类分割图[23]，参见。图3.
介绍一些涨点策略
- 除了原始分割结果之外，我们还提供了(在提到的地方)测试时间增强(TTA)[9，17]的结果，其中对原始的3DmpMRI体积及其7个附加的转换版本进行了推断。
- 这些变换包括沿三个正交轴(轴向、冠状轴和矢状轴)中的每一个单独以及组合地旋转。在将区域融合在一起以生成多类分割图之前，对所得到的概率图进行平均(在解压之后)，以生成每个分层区域的单一概率图。

4Experiments

4.1 System Specifications

介绍使用到的工具
- 我们的实验使用了开源的python包：numpy，nibabel，pytorch，torchIO，使用了具有64G内存的和一块2080TI显卡的计算机系统，并开源了代码。

4.2 Dataset and Preprocessing

介绍数据集
- 为了验证我们提出结构的有效性，我们采用了公开可获取的BraTS2018和BraTS2021数据集。
- 其中，BraTS2018数据集由285个训练目标（HGGs，LGGs)和66个验证目标组成，BraTS2021数据集由1251例训练目标（HGGs,LGGs)和219个验证目标组成。
- 这些数据集都由3D mpMRI（多参数MRI）扫描组成(包括T1，T1ce,T2,FLAIR),仅仅训练目标具有手动分割的肿瘤子区域（由瘤周水肿，非增强核心，增强核心，健康或背景区域组成）。也就是只有训练集开放了标签，验证集没开放标签。
- 对于这些数据集，训练集按照9：1的比例划分为训练集和验证集。除此之外，作为BraTS2021的参赛者，我们在BraTS2021训练目标上进行了五折交叉验证，通过由BraTS2021挑战赛组织者提供入口在线提交来获取每一个验证集的预测分割评估。
- 在训练和测试之前，我们独立地将每一个3DMRI体素归一化为全肿瘤区域的零均值和单位方差。

4.3 Segmentation Results

BraTS2018

介绍BraTS2018数据集上的结果
- BraTS2018验证集中的评估结果如表1.在DSC方面，E1D3（没有TTA）在WT和TC区域更有竞争力，在EN区域也比大部分方法更优。
- 添加测试时间增强之后，E1D3在整个肿瘤区域的表现优于3DVAE的最佳组合，仅仅需要很少的计算消耗。单一预测(不带TTA)的E1D3与No New-Net的十网集成[9]有竞争力。
- 这些指标显示了所提出的多解码器修改对UNET体系结构的有效性，从而消除了对集成以获得有竞争力的性能的需要。【大致意思就是，不需要集成模型也能取得不错的效果】。必须注意的是，No New-Net[9]体系结构集成是在更大的训练数据集(作者称之为联合训练)上进行训练的，而我们只利用了Brats 2018年的训练数据集。
- 3D VAE架构和No New-Net架构分别囊括了Brats 2018挑战赛的前两名。各向异性-RegCascade[23]使用三个网络的分级级联，三个肿瘤区域各一个，并将三个不同的级联集合起来，每个3D视图训练一个级联。
- 在DSC方面，只有一个训练的网络的E1D3在所有三个地区都优于分层级联网络。E1D3获得的肿瘤核心HD评分优于表1所示的所有单一预测和集成方法。
介绍E1D3这么干的主要原因，即介绍消融实验部分
- 由于三个层次区域的分割不是一个独立的任务，我们将我们的E1D3U-net(具有独立的解码器)与一个变体进行比较，其中肿瘤核心区域的解码器分支为整个肿瘤去的解码器(在第一次上采样阶段之后)，用于增强核心区分支的解码器解码肿瘤核心区(也是在第一次上采样阶段之后)。我们将这种变体称为E1D3-BR。
- E1D3的性能略好于E1D3-BR，因此，建议对WT、TC和EN区域使用三条完全独立的路径。人们还可以将E1D3性能的改善归因于由两个额外的解码器添加的额外数量的参数所产生的更大的表现力。
- 因此，我们还比较了E1D3和E1D1-Wide，其中每层的特征映射增加以匹配E1D3的参数计数，并且观察到情况并非如此。为了强调每个解码器专门化的重要性，我们还训练了E1D3-ENS，它类似于E1D3，但每个解码器的输出是一个多类概率图，该图被平均以生成NAL预测。在这种情况下，我们可以看到 wt 区域的得分稍微差一点，但 tc 和 en 子区域的差异更大。尽管如此，e1d3-ens 在整体上比 e1d1(基线)和 e1d1-wide 表现更好，重新激活了我们对 treenets 的直觉。
  TC和EN亚区的事件。然而，与E1D1(基准)和E1D1-Wide相比，E1D3-ENS的整体表现更好，重新武装了我们对TreeNets的直觉。
后处理的影响
- 为了评估[23]所采用的后处理流水线的影响，我们使用NAiVE后处理程序，参见。图3，
- 其简单地施加分层约束以生成NAL分割图(在表1中称为E1D3NvP)。我们观察到，网络产生的DSC和HD分数仍然可以与性能最好的方法相媲美，强调E1D3本身设计良好，而广泛的后处理方法(包括标准图像处理技术) 以产生更好的分割。
- 为了再次强调，我们使用相同的方法(参见第3.2和3.3节)训练和测试了表1中提到的所有架构，除了 e1d1(训练: 计算单个软最大输出的损失; 测试: 容易获得多类分段)和 e1d3-ens (训练: 每个多类最大输出的损失平均; 测试: 多类最大输出的平均产量预测)。如前所述，e1d3和 e1d3-nvp 之间的差异只存在于测试中使用的后处理管道中。

BraTS2021

BraTs2021训练数据集的五折交叉验证结果以及2021验证数据集的推断结果(标签不可见) ，参见表2。
E1d3仅通过单一模型预测获得了接近峰值的性能，因为使用五折交叉验证集合并没有明显改善性能。有人可能会把这归功于一个设计良好的架构，它提取了丰富而有用的特性，以实现难以进一步提升分割性能，在没有任何改变的情况下（这段有点翻译问题）。
分割性能可以通过图4所示的分割图定性判断，图中显示了中位数、更好和相对较差的情况。在更糟糕的情况下，我们观察到瘤周水肿区的孤立岛，这可能是轻微的过度分割导致相应指标下降。在中位数情况下，网络正确地分割了一个明显大的瘤周水肿区域，达到了99:0的 DSC。

5 Conclusion

总结本文提出的算法
- 在本文中，我们提出了一个Unet架构的简单的扩展，专门用于脑肿瘤分割。
- 我们结合了一个编码器和三个独立的解码器，每一个解码器都从共同的编码器直接得到特征图，并分割三个分级肿瘤子区域之一：全肿瘤（WT),肿瘤核心（TC).增强核心（EC).
- 由此产生的架构叫E1D3 U-Net，提供了与大多数最先进网络相媲美的单一模型分割性能，在合理的计算预算内，没有残差连接和深度监督这种大型结构的新奇之处。
- 通过这个工作，我们证明了U-Net结构的灵活性，它可以被用于手头的工作。