首页 > 行业资讯 > 中国科学院王军教授团队引入稀疏降秩回归和行稀疏的子空间辅助回归,进一步扩大多元回归方法在跨组学研究中的使用范围

中国科学院王军教授团队引入稀疏降秩回归和行稀疏的子空间辅助回归,进一步扩大多元回归方法在跨组学研究中的使用范围

时间:2022-06-16 来源: 浏览:

中国科学院王军教授团队引入稀疏降秩回归和行稀疏的子空间辅助回归,进一步扩大多元回归方法在跨组学研究中的使用范围

原创 胡小茜 等 Engineering
Engineering

engineering2015

《Engineering》是中国工程院院刊主刊,2015年创刊,中英文双语出版,全文开放获取,目标是建设世界一流工程科技综合性权威期刊,报道全球工程前沿,促进工程科技进步,服务社会、造福人类。

收录于合集

引言

近年来科技的进步和发展使得高维数据急剧增加,研究人员对合适且有效的多元回归方法的需求也随之增长。许多传统的多元分析方法如主成分分析等已广泛应用于投资分析、图像识别和群体遗传结构分析等研究领域。然而,这些常见的方法存在其局限性,即忽略了响应之间的相关性和变量选择效率低的问题。因此,中国科学院的王军等研究人员引入了降秩回归方法及其扩展形式——,这些方法有望满足上述需求,从而提高回归模型的可解释性。他们通过开展仿真研究来评估它们的效果,并将它们与其他几种变量选择方法进行比较。对于不同的应用场景,中国科学院的王军等研究人员也提供了基于预测能力和变量选择精度的选择建议。最后,为了证明这些方法在微生物组研究领域的实用价值,他们将所选择的方法应用于实际种群水平的微生物组数据,结果验证了这些方法的有效性。这些方法的扩展形式为未来的组学研究特别是多元回归研究提供了有价值的指导,并为微生物组学及其相关研究领域的新发现奠定了基础。

生物学和医学早已进入大数据时代,测序、蛋白质分析、代谢分析等分析方法和诊断技术的发展则加速了这一时代的到来。例如,相较于国际上对人类基因组计划多年的努力和工作,近10年来下一代测序技术可以对个体基因组和宏基因组进行测序,甚至在单个实验室也是如此。微生物组的研究也得益于测序技术加速发展,它揭示了微生物群落在人类健康和疾病等领域的重要性。这些发展产生了前所未有的海量高维数据,从而促进了人们对多元回归分析的研究兴趣。多元回归旨在对一系列响应和一系列特征之间的关系进行建模,而普通回归通常描述的是一对一的关系。响应变量(或因变量)是研究者希望能够解释的实验结果,预测变量(或自变量)是可能引起响应变化的受控输入。例如,在基因组学研究中,此类回归中的响应变量可能是人的性状,其特征可能是遗传基因或环境因素。因此,多元回归可以应用于人们日常生活的各个方面。例如,多元回归在经济学中被广泛应用于研究影响股票收益的因素。其在生物学领域也很常见。例如,将其应用于临床试验,以帮助研究者解释药物成分与农药效应之间的关系。近年来,在基因组学研究中,包括宏基因组学研究,以及与代谢组学、蛋白质组学等相结合的研究中,多元回归在理解重要性状的关联和潜在因果关系方面发挥了重要作用。

人们在运用多元方法应对具体挑战方面进行了各种尝试。主成分分析法(PCA)是最古老、最著名的基于特征向量的多变量分析技术之一。当变量个数较多时,它被广泛用于利用正交变换找到描述方差最大的变量的线性组合。通过将数据投影到低维空间可以显示其主导梯度,PCA可以揭示数据的内部结构。在实际应用中,主成分回归法(PCR)是一种利用PCA估计回归系数矩阵的线性回归模型。典范对应分析(CCA)是另一种常用的方法,它通过降维来解释两组变量之间的关系,旨在找到一个能够描述预测变量和响应变量之间最大相关性的线性组合。另一种常用于寻找两个矩阵之间关系的方法是偏最小二乘(PLS)回归法。通过将响应变量和预测变量投影到新的空间中构建线性回归模型,从而总结出协方差结构。虽然上述方法在研究中得到广泛的应用,但其存在三个主要的统计学问题。第一个问题是传统方法往往忽略了观测数据和响应变量之间可能存在的相互关系。第二个问题是,有些方法不允许变量选择,但这在预测变量数量较大的探索性实验中是必不可少的。第三,一些真实数据库往往变量总数大并且样本量小,导致出现不可靠的解决方案。基于这些考虑, 中国科学院的王军等研究人员分析了一类新的方法[降秩回归(RRR)及其扩展],这类方法通过考虑响应变量之间的关联来提高回归模型的可解释性

在仿真中,中国科学院的王军等研究人员对不同的案例应用SRRR(带有群lasso 惩罚和自适应加权群lasso惩罚)、SARRS[带有群lasso惩罚和群MCP(群极大极小凹惩罚)]、SPLS(稀疏偏最小二乘回归)、REmMap(识别主预测变量的正则化多元回归)、PCR(主成分回归法)、群lasso和随机森林,并使用CV(交叉验证)来调整每种方法的低秩参数。它们的总体表现如图1所示。

图1. 所有方法的总体评价,以热图的形式显示。 x 轴表示不同的案例, y 轴表示不同的方法。每个单元格的颜色代表相应的总体评分。总体评分越高,表现越好。glasso:群lasso惩罚;adglasso:自适应加权群lasso惩罚;gMCP:群MCP惩罚。

热图显示,所有方法在案例1中的性能都比在案例2中差,这与中国科学院的王军等研究人员的预测一致。此外,很明显,在所有案例中最为适用的 是SARRS(带有群MCP惩罚),当样本容量增多时,SRRR(带有自适应加权群lasso惩罚)和SPLS同样适用,且性能都很好。每种方法的效果都是通过上述标准来衡量的,案例1的结果如图2所示。

图2.  对案例1a、1b和1c中所有方法的效果评估,以雷达图形式显示。圆心为0。对于 R 2 、TIC(泰尔不平等系数)、TPR(敏感性)、SPC(特异性)和AUC(曲线下的面积),圆周为1。因此,如果一种方法在响应矩阵中的 R 2 、TPR、SPC和AUC较高,TIC和MSE(均方误差)较低,中国科学院的王军等研究人员认为该方法效果较好。NO.Var指标给出了每种方法选择的变量数目,其中圆心表示0,边表示预测变量的数量。

在案例1a中,样本容量非常小,预测变量数目大于样本容量;因此,大多数方法都没有很好的预测和变量选择效果。除PCR无法选择相关变量外,各方法的SPC约为0.75,TPR约为0.55,表明选择不足。然而,与传统方法(PCR、群lasso和随机森林)相比,本文讨论的新方法都具有更好的效果,特别是带有群MCP惩罚的SARRS方法。该方法的MSE(均方误差)和TIC 泰尔不平等系数 最低, R 2 、SPC(特异性)和AUC(曲线下的面积)最高。这一结果与方法论部分的论述一致,其中特别强调了当预测变量数目远远大于样本容量时,SARRS是最合适且最准确的方法。

在案例1b和1c中,预测变量数目更接近样本容量。中国科学院的王军等研究人员发现,由于 R 2 较高和TIC较低,所有模型对仿真数据的拟合效果都优于案例1a。从图中还可以看出SRRR在预测精度方面的优势,因为SPLS和REmMap相比SRRR和SARRS具有更大的MSE。此外,在变量选择方面,可以看到SARRS(带有群MCP惩罚)、SRRR(带有自适应加权群lasso惩罚)和SPLS的效果较好,其SPC(特异性)值要高得多,表明其在选择真正的相关变量和避免过度选择之间取得了平衡。在案例2中,他们研究了大样本容量的情况;如图3所示,很明显所有的方法都比案例1的效果更好。

图3.  对案例2a、2b和2c中所有方法的效果评估,以雷达图形式显示。圆心为0。对于 R 2 、TIC、TPR、SPC和AUC,圆周为1。因此,如果一种方法在响应矩阵中的 R 2 、TPR、SPC和AUC较高,TIC和MSE较低, 中国科学院的王军等研究人员 认为该方法效果较好。NO.Var指标给出了每种方法选择的变量数目,其中圆心表示0,边表示预测变量的数量。

中国科学院的王军等研究人员总共研究了9种方法-参数组合,其中包括7种方法;此外,对其中两种组合使用了两种不同惩罚。他们仿真了不同样本容量/维度的数据,并比较了在维度上存在/不存在较大差异的预测变量和响应变量。从案例1和案例2的对比结果可以看出大样本容量的重要性,这将大大提升所有方法的效果。特别地,与案例1相比,SPLS在案例2中具有更好的预测精度,表明其在样本量较大时更适用。在类似于案例1中小样本容量的情况下,最好的方法是带有群MCP惩罚的SARRS,该方法在预测和变量选择方面都有优异的性能。当样本量较大时,如案例2,SARRS(带有组MCP惩罚)、SRRR(带有自适应加权群lasso惩罚)和SPLS均表现良好;通过进一步观察发现,SRRR(带有自适应加权群lasso惩罚)的效果略好于其他两种方法。

研究人员在拟合模型时应谨慎选择合适的惩罚。例如,在SRRR方法中,当 n > p 时,自适应加权群lasso惩罚提高了预测精度和变量选择。当 n < p 时,与未加权组相比,自适应加权组的TPR较低,但SPC较高。这可以解释为,当研究人员在SRRR计算过程中引入权重时,之前被过滤掉的变量在其惩罚项中具有较大的权重,并且不再包含在模型中。因此,带有未加权惩罚的SRRR会选择更多的变量,导致SPC较高。

综上所述,中国科学院的王军等研究人员检验了几种多元回归方法的适用性,并检测了它们在不同的组学情景下的效果,而在现实中,这些情景可能在样本量和维度上存在巨大差异。基于此,他们能够推荐最佳方法。诚然,中国科学院的王军等研究人员的初步分析在现阶段无法进一步扩展,无法将不同指标(如物种)之间的系统信息纳入多组学数据中,因为这需要关于这些指标之间连通性和相似性的先验信息。他们还使用了一个著名的微生物组数据集,证明他们的选择方法可以在很大程度上概括由单变量分析获得的结果,并促进了在变量和组合特征选择方面的思考。这些发现将有助于在未来更大规模的组学研究中方法的选择,包括以微生物组为中心的研究。

关键词: 多元回归方法;降秩回归;稀疏性;降维;变量选择

扫二维码 | 查看原文

原文链接:http://www.engineering.org.cn/ch/10.1016/j.eng.2020.05.028

以上内容来自: Xiaoxi Hu, Yue Ma, Yakun Xu, Peiyao Zhao, Jun Wang. Expanding the Scope of Multivariate Regression Approaches in Cross-Omics Research [J]. Engineering, 2021, 7(12): 1725-1731.

《中国工程科学》杂志社欢迎您的加入!

Engineering编辑部招聘助理编辑(兼职/实习)

岗位描述

1. 协助编辑参与稿件管理。

2. 协助编辑进行中英文稿件的技术加工、翻译校对。

3. 协助编辑进行专题组稿前期的资料收集、整理。

4. 协助编辑进行期刊宣传,包括文章推送、元数据整理及作者信息整理等。

岗位要求

1. 较好的语言文字功底,对期刊出版感兴趣,具有较强团队合作精神,对待工作认真细致,责任心强。

2. 统招本科以上学历(或在校大三、大四本科生/硕士研究生),理、工、农、医专业背景。

3. 英语六级(或雅思、托福等国际认证考试成绩)。

4. 工作初期,每周到岗至少1天;工作熟悉后,可根据需要在家/学校办公,定期进行交接即可。工作至少需持续1年时间。

5. 兼职岗位有编辑工作经验者优先,实习生岗位有学术论文发表经验者优先。

待遇面议(可开具实习证明)

地址: 北京市朝阳区惠新东街4号富盛大厦1座 

工作时间: 周一~周五 早8:30~晚5:00

报名方式 有意者请将报名材料发至hr@engineering.org.cn,邮件标题请注明“兼职(或实习)+姓名+电话”,报名材料须按下列规定表格形式填写(可扫描二维码下载)。

联系人: 张老师,010-58582511 

版权:如无特殊注明,文章转载自网络,侵权请联系cnmhg168#163.com删除!文件均为网友上传,仅供研究和学习使用,务必24小时内删除。
相关推荐