长篇综述| 脑影像基因组学：融合研究与机器学习——回归分析|基因

　　最近NCCLab一起讨论了2020年发在Proceedings of the IEEE上的一篇综述《Brain Imaging Genomics: Integrated Analysis and Machine Learning》。该综述讨论了新的和传统的数据科学方法在脑影像基因组学研究中的应用。脑影像基因组学是新兴的数据科学领域，对脑影像和基因组学数据（通常与其他生物标志物，临床和环境数据结合）进行综合分析，以获得对脑表型、遗传和分子特征的新见解，以及它们对正常和紊乱的大脑功能和行为的影响。

　　脑影像基因组学具有巨大的潜力，可以为脑科学中的生物医学发现做出重大贡献。越来越多的统计和机器学习方法应用到脑成像基因组学研究中，因此我们在此文中拟整理该领域的文献，提供一个关于脑影像基因组学的统计机器学习方法的最新最全面综述，并介绍有关脑影像基因组学的实用讨论和各种生物医学应用的方法选择。

　　欢迎加入

　　全国脑成像学术讨论群

　　全国计算神经学术讨论群

　　添加小编微信

　　brainnews_11

　　-留言：加群+关键词-

　　注意：本推文重点介绍这篇综述的第五节（回归分析）部分，即Imaging Genomics Associations: Multivariate Regression，重点关注回归分析算法思路和模型框架。

　　综述目录

　　下面，我们将分别讨论五种方法在脑影像基因组学中的研究示例：

　　 1) 稀疏多元回归（Sparse Multiple Regression, SMR）

　　2) 稀疏多因变量多元回归（Sparse Multivariate Multiple Regression, SMMR）

　　3) 稀疏低秩回归（Sparse Reduced-Rank Regression, SRRR）

　　4) 贝叶斯回归（Bayesian Regression）

　　5) 神经网络模型（Neural Network Models）

　　名词解释

　　单核苷酸多态性 (single nucleotide polymorphsim, SNP)，主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传的变异中最常见的一种，占所有已知多态性的90%以上。SNP在人类基因组中广泛存在，平均每300个碱基对中就有1个，估计其总数可达300万个甚至更多。SNP是一种二态的标记，由单个碱基的转换或颠换所引起，也可由碱基的插入或缺失所致。SNP既可能在基因序列内，也可能在基因以外的非编码序列上。

　　连锁不平衡 (linkage disequilibrium, LD)，是指相邻基因座上等位基因的非随机相关，当位于某一基因座上的特定等位与同一条染色体另一基因座位上的某等位同时出现的概率高于或低于人群中的随机分布，就称这两个位点处于连锁不平衡状态。假定两个SNP1和2各有两个等位型（A, a; B, b, SNP等位应为A、C、G、T四种，这里用A、B表示便于描述），那么同一条染色体上将有四种可能的组合方式：A-B, A-b, a-B, a-b。假定等位A的频率为，B的频率为，那么在连锁不平衡条件下，等位组合A-B的频率，而是（表示两位点间的连锁不平衡程度）。正是由于连锁不平衡的存在，才可能将SNP原有的单个位点的差异拓展到某个区域或某个基因和生物学过程的研究层面。

　　数量性状 (quantitative trait, QT)，指个体间表现的差异只能用数量来区别，变异呈连续性的性状。它具有两个主要特征：变异呈连续性，变异易受环境条件影响。本文研究脑影像数量性状。

　　数据表示 Notation

　　遗传数据：（个被试，基因特征维数为）

　　影像数据：（个被试，影像特征维数为）

　　假设矩阵和的每一列被归一化为零均值、单位方差的分布。

　　大多数回归模型都可以使用以下正则化损失函数框架来描述：

　　其中表示在上的回归权重系数矩阵，是平衡损失函数和正则化项的惩罚系数。

　　在这些模型中通常包含一个稀疏正则化项，其原因是：1）根据生物医学先验知识，在数百万SNP位点和数十万的脑影像特征中，仅有少量的遗传标记与影像特征高度相关。因此，高维遗传位点和影像特征的稀疏特征选择在脑影像基因组学关联分析中具有合理的原因和解释性。2）加入稀疏性约束可减少模型的复杂度，从而降低过拟合的风险。

　　方法一、稀疏多元回归

　　(Sparse Multiple Regression, SMR)

　　SMR模型是多元单响应模型,矩阵变成一个向量。

　　 Silver (2012)等人提出pathways group lasso with adaptive weights (P-GLAW)模型，该算法基于group lasso模型：

　　其中定义了的群结构。利用pathway先验知识对SNPs进行分组，以便在pathway层面上进行特征选择，从而在降低回归分析误差的同时能够学习到更具有生物学解释意义的特征模式。

　　（结合生信知识解释）实际的基因结构中也存在层次结构关系，在pathway中，特定基因集合共同作用能够在一定程度上影响蛋白的合成以及功能的转化，而在同一基因下的某些SNP位点也具有一定的相关关系（如LD）。

　　Hao(2018)等人提出tree-guided sparse learning(TGSL) 模型，这一基于group lasso的模型具有树状结构引导稀疏的正则化表达式：

　　其中，表示一个预定义树形结构（）的节点，树共有层，每一层有个节点，第层的节点为，使用树结构对SNP进行分组，如图1所示，该模型在构建树状结构时，SNP位点作为叶子节点，LD block与基因集作为中间节点，pathway中的所有基因集合作为根节点。

　　（结合生信知识解释）SNP位点之间的空间关系：group lasso正则化项中的表示属于组中的第个位点的要优化学习出的权重，其目的是使所选择的位点具有聚类特性。基因的位点之间会产生连锁不平衡（Linkage Disequilibrium, LD）效应，即不同基因座位上连锁的SNP会非随机地出现在同一个LD block中。LD block为基于group lasso的特征选择提供了先验知识，使模型能同时选择在同一个LD block中的SNPs。当一个节点的权重为零时，其子节点的权重也全部为零，即该子树的全部特征与回归任务无关，即没有被选择。相比传统的Lasso方法，TGSL模型优化得到的SNP特征在预测大脑灰质体积上具有较小的误差，同时所识别的与MRI脑区相关的SNP位点具有层次结构聚类特性。

图1. 基于TGSL的模型框架

　　 M.Wang(2018)等人提出diagnosis-aligned multimodal(DAMM)方法，利用多模态影像数据QTs来回归单变量SNP数据，该方法建模如下：

　　其中， . 该模型包含两个正则项：

　　1）第一个正则化项是范数，作用是选择对大多数模态有影响的特征。

　　2）第二个正则化项是一种图Laplacian正则化项，它的作用是同一诊断组中的被试在投影空间中有具有相同的值（即映射后的影像特征成分与诊断信息一致）。第二项具体表达式如下：

　　如图2所示，利用稀疏表示模型，基于多模态脑影像（sMRI和fMRI）构建影像表型多模态超网络，提取大脑的连通性（connectivity）特征：从sMRI中提取网络体素节点特征，从fMRI中基于超图提取网络连接超边特征。现有的多模态方法可以通过在多模态数据之间嵌入互补信息来选择更有区分度的特征。

图2. 基于DAMM的模型框架

　　方法二、稀疏多因变量多元回归

　　（Sparse Multivariate Multiple Regression, SMMR）

　　 SMMR是多元多响应模型，该模型解决多变量基因输入多变量影像输出的问题，是一个矩阵。

　　 Wang(2012)等人提出Group-Sparse Multi-task Regression and Feature Selection (G-SMuRFS)算法，即组稀疏多任务回归和特征选择模型：

　　多任务回归使用范数来约束多个联合相关表型与基因变量产生关联。该模型中包含两个正则项（如图3所示）：

　　1）组范数正则项：在组层面进行特征选择，即考虑了SNP位点之间的连锁不平衡(LD)结构关系。利用正则化项在模型中嵌入这一先验信息，使得在同一个LD组中的SNP被同时检测到。

　　2）的范数正则项：在个体SNP层面进行特征选择，从而在所有内表型中联合选择SNPs。

　　两个正则项的具体公式在图3中给出。

　　实验结果表明：这些嵌入多变量基因结构的稀疏学习模型所选择的位点对于回归模型具有较小的误差，该模型能够检测到多个相关基因位点与多个相关脑区的关联。

图3. 基于G-SMuRFS的模型

　　 Wang(2012)等人利用纵向影像数据QT来预测SNP数据，并提出task-correlated longitudinal sparse regression(TCLSR)模型（即把每个时间点视作一个任务）：

　　TCLSR模型包含两个正则项：

　　1）迹范数(trace norm)正则化项：它可以近似地最小化回归系数矩阵的秩。

　　2）范数正则化项：用于耦合大多数时间点SNPs的影像特征选择，在最大数时间点中约束多个联合相关表型与基因变量产生关联。如图4所示，，TCLSR考虑了时间信息。

　　 2018年Wang等人对同一问题提出了新的模型，即temporal structure autolearning(TSAL)模型。TSAL模型将其中的改为Schatten p-norm正则项，可以辨识系数矩阵的低秩结构（图4中四个绿色框具有相似的特征）。将定义为范数，作用是选择与大多数QTs随时间相关的SNPs（图4的红色框）。如图4所示，TSAL考虑了时间信息。

　　值得注意的是，与2012年提出的TCLSR模型相比，TSAL模型中用Schatten p-norm近似最小化秩的结果比迹范数更好，而范数可以实现比范数更稀疏的解。

图4. 基于TSAL的模型

　　Zhou(2019)等人提出joint projection learning and sparse regression(JPLSR)模型来识别多基因变量多影像表型的关联。与一般的回归模型不同，JRLSR模型的表示如下：

　　其中是MRI特征矩阵，是SNP特征矩阵。

　　1）第一项是损失函数。

　　2）第二项将SNP数据和影像QT数据映射到同一个联合隐空间，有助于关联分析（因为SNP数据的维数远大于影像数据的维数，而且对疾病诊断标签的识别性较差，将它们映射到同一个label-guided联合隐空间有助于下一步的关联分析）。

　　3）第三项利用迹范数(trace norm)，结合了两个Laplacian正则化项（一个用于SNP数据，另一个用于影像数据），使映射到联合隐空间的SNP数据和影像数据与诊断信息一致（即类内样本在联合特征空间中彼此接近）。

　　4）第四项和第五项分别是选择相关影像特征和SNP特征的范数。对映射矩阵使用正交约束，以避免平凡解。

　　图5表示该模型的框架。

图5. 基于JPLSR的模型

　　方法三、稀疏低秩回归

　　（Sparse Reduced-Rank Regression, SRRR）

　　 SRRR是一种特殊的多元多响应模型，用于高维影像基因组数据的关联分析，其主要目标是最小化回归系数矩阵的秩。

　　图6解释了SMMR和SRRR的异同：它们都是多响应模型，在SRRR中回归系数矩阵被分解为一个稀疏影像表型系数矩阵和一个稀疏基因表型系数矩阵（和都是满秩矩阵，秩都为）。除非样本大小超过基因数据的维数或对回归系数矩阵施加约束，否则SMMR不能拟合。权重矩阵的分解可以减少关联分析中需要估计的参数，还可以分别对基因和影像变量施加稀疏化约束。

图6. SMMR和SRRR模型的区别

　　Vounou等人2010年提出了秩为1的稀疏低秩回归模型(和变成了向量和 ):

　　上式用范数对和进行约束实现对相关SNP和影像QT的特征选择。实验结果表明，SRRR模型在识别相关变量问题中具有更好的性能。

　　 2012年Vounou等人对上述模型稍微做了改进，首先应用线性判别分析(LDA)进行体素滤波来识别与疾病信息相关的影响QTs，然后从SNP数据中预测QT数据：

　　 2012年Silver等人把P-GLAWA模型和SRRR模型结合起来，提出下面的pathways SRRR (P-SRRR)模型：

　　其中定义了的群结构。利用pathway先验知识对SNPs进行分组，以便在pathway层面上进行特征选择，从而在降低回归分析误差的同时能够学习到更具有生物学解释意义的特征模式。图7是SNP到pathway映射过程的示意图。

图7. SNP到pathway映射过程的示意图

　　利用从基因pathways数据库中获取的信息，将已知基因相互作用的信息（绿色圆圈）映射到pathways。许多基因未映射到任何已知的pathways（未填充的圆圈）。此外，一些基因可能会映射到多个pathways。映射到某一pathway的基因在特定距离内依次映射到SNPs。橙色方块表示映射到多个pathways的SNPs。

　　 X. Zhu等人2016年提出structured SRRR (S-SRRR) 模型，在全基因组SNP数据X上回归全脑影像QT数据Y，具体如下：

　　其中，对矩阵和应用范数正则化。对的正交约束可以避免多重共线性问题（即自变量之间彼此相关），从而简化了目标函数。

　　 2017年他们利用图自表示方法构建一个稀疏矩阵，捕获SNP数据内部的部分相关性：

　　在此基础上，结合S-SRRR模型作者提出了graph-regularized S-SRRR (GRS-SRRR)模型：

　　意味着上式同时满足两个变量选择的约束项。这使得所选择的SNPs更具有说服力。

　　方法四、贝叶斯回归（Bayesian Regression）

　　在脑影像基因组学中已经提出了许多正则化的多元回归模型，除此之外，一些贝叶斯方法也能实现类似的目的。例如，受G-SMuRFS的启发，Greenlaw等人提出了贝叶斯群稀疏多任务回归（Bayesian group sparse multitask regression, BGSMTR）模型，用于影像基因组关联分析。G-SMuRFS只提供了回归系数的点估计，而BGSMTR允许完整的后验推理，例如获取回归系数的区间估计。该模型设计为Bayesian group lasso以适应SNP和基因层面的可变选择。

　　还有一些为低秩回归而设计的贝叶斯模型。H. Zhu等人提出了贝叶斯广义低秩回归（Bayesian generalized low-rank regression, GLRR）模型，用于分析高维的影像特征和协变量。与SRRR类似，GLRR使用低秩表示来近似高维权重矩阵。它还用一个动态因子模型构建了影像响应的高维协方差矩阵。该模型提出了贝叶斯局部假设检验来识别对QTs的显著SNP影响，同时控制多重比较，并采用一种有效的后验计算的Markov chain Monte Carlo (MCMC)算法。

　　 Lu等人将上述GLRR模型扩展到贝叶斯纵向低秩回归（longitudinal low-rank regression, L2R2）模型中。L2R2包括三个创新点：1）用低秩矩阵来近似回归权重矩阵和基因-年龄的相互作用；2）使用惩罚化的样条曲线来表征整体的时间效应；3）稀疏因子分析模型，结合随机效应，包含纵向影像QTs的时空相关性，并采用有效的MCMC算法进行估计后验。

　　方法五、神经网络模型（Neural Network Models）

　　尽管神经网络（NN）模型在脑影像基因组学上尚没有得到充分的利用，但它们最近已经开始引起关注。

　　Wang等人提出了一种基于FNAM的随机权重前馈神经网络的加性模型。该模型的灵感来自于具有随机权值(FNNRWs)的前馈神经网络。FNAM的优势有：1）建模SNPs和QTs之间的非线性关联；2）具有反向传播的神经网络的计算效率。FNAM对FNNRW的改进在于：FNAM可以在预测中独立地考虑每个特征的作用，因此一定程度上提供了模型的可解释性。