Mining infuential genes based on deep learning

摘要

背景：

目前，大规模的基因表达谱已经成功应用于去发现：疾病、遗传扰动和药物作用之间的功能联系。为了解决基因表达谱不断扩大的成本，作者提出了一种新的、低成本，低高通量表示的表达谱分析方称为L1000，该方法产生了100万个谱。

尽管精心挑选的一组~1000标志性基因可以捕获全基因组中~80%的信息已经被确定用于L1000,但是使用这些标志基因来推断靶基因的稳健性并不能让人满意。因此，仍然需要更有效的计算方法来深入挖掘基因组中的有影响的基因。

结果：

在这里，我们提出了一个基于深度学习的计算框架，该框架可以覆盖更多基因信息的基因子集。具体来说，首先构建一个AutoEncoder框架来学习基因之间的非线性关系，然后应用DeepLIFT计算基因重要性分数。使用这种数据驱动的方法，我们重新获得了一个具有里程碑意义的基因集。结果表明，基于两个指标（平均绝对误差MAE）和（皮尔逊相关性系数PCC），我们的标志性基因可以比L1000更准确、更稳健的预测目标基因。这表明我们的方法检测到的标志性基因包含更多的基因组信息。

结论：

我们相信我们提出的框架非常适合分析生物大数据并用于解释生命的奥秘。此外，从这项研究中推断出的标志性基因可用于基因表达谱的爆炸性放大，以促进对功能联系的研究。

结果和讨论

计算框架简述：

我们的计算框架主要由两部分组成，基于AutoEncoder和基于DeepLIFT。在基于AutoEnconder的部分中，我们使用~130000个基因表达谱来训练一个由编码器和解码器两步组成的AutoEnconder。但是，AutoEncoder是一种特征提取的方法，它将数据从原始的高维空间转化到相对低维的空间。换句话说，新特征通常不同于原始特征。在本文中，编码器将22268维度的样本压缩到100维度。在基于DeepLIFT部分，我们使用DeepLIFT计算每个输入层神经元在瓶颈层神经元上的重要性得分。然后，我们根据平均重要性的得分对基因进行排序，通过选择前943个基因可以识别新的标志性基因

AutoEnconder模型的性能评估：

在使用基于GEO的训练样本（99，909）训练AutoEnconder模型后，我们使用保留的测试样本（11100）来评估其在基因和样本维度上的预测能力。

在基因方面，我们使用MAE和PCC来衡量每个基因的预测误差和相似性。如下图2a所示、所有基因的平均MAE和PCC分别为0.2222和0.7627，排列检测表明几乎所有基因的预测值与真实值之间存在显著的高度相似性（21696/22268）.

在样本方面，我们从GEO数据库中收集了237个肺癌样本作为新的测试样本，其中正常样本49个，肺腺癌（ADC）样本58个，肺鳞癌（SCC）样本130个。然后，我们将这些样本的表达谱作为经过训练的AutoEncoder的输入，并使用瓶颈层的输出对样本进行聚类。如图2b表明，经过训练的AutoEncoder映射的低维空间很好的保留了样本生物信息。所有的这些结果表明，我们训练的AutoEncoder可以很好地学习基因之间的非线性关系。

标准性基因的表示：

首先，我们分析了我们的标志性基因（称为D1000）与来自L1000的标志性基因之间的重叠程度，发现只有129个基因是共享的。此外，为了评估我们的方法推断出标志性基因的性能，我们使用他们作为输入，使用基于深度学习的方法D-GEX来推断目标基因的表达谱。然后，我们还使用每个共同目标基因（9163）的MAE和PCC来比较D1000和L1000。我们将从L1000和D1000推断出靶基因的MAE和PCC分别定义为MAEL1000、MAED1000、PCCL1000、PCCD1000。如图3a、3b所示，与MAEL1000值0.1129-1.0524相比，MAED1000值范围为0.0994-0.6681，配对t检验表明MAED1000显著低于MAEL1000。同理，如图3c、3b所示，与PCCL1000的0.0006-0.9875值相比，PCCD1000的值范围为0.4764-0.9905，配对t检验表明PCCD1000显著高于PCCL1000。此外，所有PCCD1000都通过了置换测试，但PCCL1000中有44个靶基因失败。这些结果表明，从我们的方法中推断出新的标志基因比旧的标志基因更准确、更稳健的预测目标基因。

标志性基因的跨平台泛化分析：

RNA-Seq使另一种高通量测序平台，已经逐渐成为基因表达谱分析的标准。接下来，为了探索使用从基于微阵列的GEO数据集推断出标志性基因从基于RNA-Seq的表达谱推断靶基因的能力，我们从GTEX数据库下载包含2921个样本的基于RNA-Seq的基因表达谱，并对预测的靶基因进行分析。结果表明，所有靶基因的平均MAE和PCC分别为0.4590和0.7790（图4），92.51%的靶基因通过了置换检验，表明标志性基因具有良好的跨平台泛化能力。

标志性基因的功能分析：

最后，为了分析我们对129158个样本数据的驱动方法所建议的标志性基因，他们是否富含到特定的已知生物类型，我们从基因本体论（GO）的角度研究了他们的分子功能。鉴于地标基因涵盖了有关基因组的大部分信息，我们推断，当将地标基因视为一组时，要么由很少的功能要么由许多功能进行主导。

为了测试这一推论，我们使用R Bioconductor包 clusterProfiler在943个标志性基因和来自Gene Ontology中编译的分子功能术语的1645个基因集的数据库之间应用超几何统计。如图5，我们观察到34个功能类别，其中大部分趋于基本和通用，例如“DNA binding transcription factor binding”、“GDP binding”、“enzyme inhibitor activity”和“protease binding”，并且仅包含一小部分地标基因（例如，“细胞粘附分子结合”包含943个地标基因的61个）。结果表明没有特定的功能类别支配标志性基因。

结论

分子生物学中心法则指出，遗传信息的流动是“DNA到RNA再到蛋白质”。当前的生物学研究，例如包括可变剪接和单核苷酸多态性在内的基因组研究，以及包括甲基化和组蛋白修饰在内的表观基因组研究，最终都与基因表达的调控有关。因此，基因表达模式几乎可以反应生命活动的方方面面，可以作为基因组特征来发现疾病、遗传扰动和药物作用之间的功能联系。

在这项研究中，我们提出了一种基于深度学习的方法来检测基因组中的有影响的基因，从而以较低的成本获得最大规模的表达谱。简而言之，这是一个特征选择的问题。我们设计的计算框架结合了AutoEnconder和DeepLIFT来评估基因组中每个基因的影响。我们方法的新颖之处在于（1）以无偏见的方式使用数据驱动的方法，而不是根据先前的生物学知识选择转录本；（2）特征通过计算框架过滤，该计算框架包括非线性特征提取方法AutoEnconder和特征评分算法DeepLIFT。结果表明，使用我们的标志性基因集可以比从聚类分析推断出的基因集更准确、更稳健的预测目标基因，体现了深度学习在非线性的计算优势。

总的来说，我们认为本文提出的方法有两个主要共贡献。首先，AutoEnconder结合DeepLIFT的计算框架可以通过捕捉输入样本维度之间的非线性关系对维度进行排序，为了解决特征选择问题提供了思路。然后，我们方法获得的基准基因可以用于以低成本和更准确的方式建立基因扰动的细胞效应的大规模概要，为后续发现小分子的作用机制奠定基础。分子，对疾病基因的遗传变异进行功能注释，并为临床实验提供信息。

方法

在这项研究中，我们的目标是从~22000个基因中提取~1000个有影响的基因，这是一个特征选择的问题。分类任务中常用的子集选择和随机森林等很多特征选择方法虽然可以有效滤除冗余特征，但是不能有限的捕捉特征之间的非线性关系。针对以上问题，我们设计了如下计算框架。

数据来源

在表1中，我们的分析使用了三个公开可用的数据集：基于微阵列的GEO数据集、基于RNA-Seq的GTEx数据集和肺癌亚型数据集。前两个是从Index of /public_data/D-GEX；下载获得。最后是从GEO数据库中获得。

首先，基于微阵列的GEO数据集用于训练AutoEncoder。该数据集包含129158个基因表达谱，每个包含22268个探针，对应于978个标志性基因和21290个靶基因。原始表达数据被归一化为4-5之间的范围。以消除技术变异。考虑到包含大量相似度搞的冗余样本数据集对应的统计代表性较低，采用K-means聚类程序去除重复的profiles。最后将剩余的111009给而样本随机分为90%训练集和10%测试集。

接下来，可以基于来自GTEx的RNA-Seq数据集评估跨平台性能，该数据集包含在RNA-Seq平台上以每千碱基读取数（RPKM）格式生成的各种组织样本的2921个基因表达谱。我们参考D-GEX中用于跨平台数据匹配和联合分位数归一化的预处理协议。22268个探针最终根据Gencode 注释于10463个基因匹配，包括943个标志性基因和9520个靶基因。

最后，使用肺癌亚型数据集验证AutoEncoder是否可以有效的学习生物信息。该数据集包含来自GSE4573和GSE10072微阵列数据集的237给而基因表达谱，包括49个正常样本、58个肺腺癌（ADC）样本和130个肺鳞状细胞癌（SCC）样本。

(仅翻译-如有侵权请马上联系，立刻删除)

Mining infuential genes based on deep learning（翻译）