科研进展

Nucleic Acids Research|曹志伟课题组建立转录组学数据跨平台整合方法Rank-In

发布时间:2021-08-13  

目前公共数据库积累的海量转录组数据主要来自microarrayRNA-seq两大技术平台,然而由于平台固有的系统差异难以校正,现有研究大多聚焦于array-arrayseq-seq内部的批次效应消除和数据整合,鲜有跨RNA-seqmicroarray平台的数据整合方法。

 

同济大学生命科学与技术学院曹志伟课题组长期从事基于组学大数据的精准医学和药物设计等研究。20217月,曹志伟课题组在Nucleic Acids Research杂志上发表文章“Rank-in: enabling integrative analysis across microarray and RNA-seq for cancer”,该论文建立了转录组学数据跨平台整合方法Rank-In,可对跨平台混合数据进行整合分析,同时提供在线分析(http://www.badd-cao.net/rank-in/index.html)。

  

  

该方法将表达谱原始表达值转换为每个谱内的相对排序,然后根据数据集的总体表达分布对排序加权。通过最小化microarrayRNA-seq之间的系统差异,Rank-In使得整合microarrayRNA-seq数据并进一步分析成为可能。该论文选取三类同时包含microarrayRNA-seq数据集全面检测Rank-In的性能和稳健性:1、来自SEQC的细胞系benchmark数据;2、来自TCGA胶质母细胞瘤临床样本;3、来自TCGAGEO数据库结肠癌及其配对癌旁组织数据。结果显示,无论数据集样本量大或小,样本配对或不配对以及样本平衡或不平衡,Rank-In均适用。

 

目前,该在线分析平台已收集来自GEO等公共数据库的15个平台,3578个正常样本,5317个肿瘤样本的转录组数据。用户可以探究内嵌数据集中的肿瘤数据,也可以上传分析自有数据。该平台提供校正后的表达谱矩阵、差异基因列表以及聚类结果图。Rank-In将有助于整合分析不同转录组技术、平台或批次的混合数据以及零散的临床样本,进行大规模生物信息学分析。

 

唐凯临副教授为该论文第一作者,曹志伟教授为通讯作者,本研究获国家重点研发计划和国家自然科学基金的支持。

 

原文链接:https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkab554/6313237

Copyright© 2011-2015 生命科学与技术学院, All rights reserved

地址:上海市四平路1239号 电话:021-65981041 传真:65981041