科研进展

Genome Biology | 刘琦团队开发基于细胞类型空间邻域嵌入的多切片空间域智能解析平台

发布时间:2024-03-21  

空间转录组测序技术的不断发展,对空间转录组数据的智能解析提出了重大挑战,其中对于空间域(Spatial domain)的识别尤为关键。空间域系指细胞在空间中形成的多细胞近邻结构(如肿瘤的三级淋巴结构,TLS,与特定的生物学功能密切相关。对空间域的深入解析对于理解生物体的发育过程、发现新的疾病标志物以及开发新的治疗方案等均有重要意义【1】。

2024319日,同济大学刘琦教授课题组(博士后段斌,博士生陈绍奇、程小桔为文章共同第一作者)在Genome Biology线上发表了题为“Multi-slice Spatial Transcriptome Domain Analysis with SpaDo”的论文,发布了基于细胞类型空间邻域隐空间嵌入的多样本切片空间域智能解析平台SpaDo2】。SpaDo同时适用于单细胞分辨率以及非单细胞分辨率的空间转录组数据,涵盖了针对空间域的三个功能分析模块:(1)单切片以及多切片空间域识别;(2)基于空间参考图谱的空间域注释;(3基于识别的空间域进行多切片聚类分析。

目前主流的空间域解析方法主要关注于空间域的识别,可分为三类:(1) 不考虑空间信息的聚类算法,例如常用的SeuratScanpy等,这些方法通常被用作空间域识别性能评估的基准线;(2) 基于统计模型的方法,如BayesSpace,该方法基于空间近邻细胞更有可能表现出相似的基因表达模式这一假设进行贝叶斯推断,一般只适用非单细胞分辨率的空间转录组数据;(3) 基于图神经网络的方法,例如SpaGCNSEDRSTAGATE等,该类方法基于细胞的基因表达信息,通过其近邻细胞重建的思想将细胞的基因表达信息和空间信息整合,获得每个细胞的表征。该类方法通常取得了较好的空间域识别效果目前,上述研究工作大多仅适用于特定细胞分辨率或者单个切片的空间域识别。随着空间转录组数据的爆发式增长,迫切需要能够开发普适、有效的适合不同分辨率(单细胞分辨率以及非单细胞分辨率)、以及不同切片数量(单切片和多切片)的空间域智能解析的计算工具。

面向上述挑战,本研究工作开发了SpaDo,一个面向多切片空间域智能解析的计算平台。多细胞协作是实现复杂生物学功能的必要前提研究者认为,具有相似功能的细胞应该在空间上具有某种相似模式的邻近分布,而单个细胞的功能则可由其所属的细胞类型来决定。因此,空间域的功能可以通过细胞类型在空间上的分布来进行刻画。基于这一朴素的思想SpaDo提出了一种简单但有效的整合基因表达信息和空间信息的隐空间嵌入策略SPACESPatially Adjacent Cell type Embeddings),通过考虑细胞类型的邻域空间嵌入,来进行空间域的智能解析,包括:(1)单切片以及多切片空间域识别;(2)基于空间参考图谱的空间域注释;(3)基于识别的空间域进行多切片聚类分析。

1. SpaDo算法框架

 

相对于目前流行的基于图神经网络思想来整合基因表达信息和空间信息的方法,SpaDo提出的SPACE嵌入策略具有以下优势:(1SPACE嵌入的特征单元是细胞类型,而细胞类型在多个切片之间能够一一对应,因此SPACE天然适用于对多个切片进行整合分析,无需额外的批次效应校正;(2)相较于复杂的图神经网络,SPACE基于空间近邻细胞类型组成,具有良好的可解释性,且计算复杂度低,适合于大规模多切片数据分析;(3SPACE具有更好的噪声鲁棒性。研究者发现,通过使用该简单朴素的嵌入策略,即可获得和复杂的图神经网络相当甚至更优空间域识别效果,其可能的原因如下1SPACE本质上采用了数据平滑策略,该策略虽然可能会弱化单个细胞空间信息,但对于整个空间域而言,关键的空间信息,即空间近邻细胞类型组成,始终得到充分地保留;(2)平滑计算本身具有强大的抗噪能力,有利于在空间域识别中消除空间转录组数据中的噪声;(3不同空间域的差别较为明显,无需精细尺度表征即可识别最近的两项研究均支持了研究者这一观点3】【4】。

本研究进一步展示了利用SpaDo进行肿瘤三级淋巴结(TLS)识别能力。同时除了具备空间域识别这一功能之外SpaDo可以基于空间参考图谱进行空间域注释Spatial assignment, 以及进行多切片聚类分析(如对多个肿瘤切片进行聚类和分型等),进一步拓展了空间组学的解析模式和应用场景

刘琦教授课题组长期从事AI驱动的组学智能解析和精准干预研究。本次工作是刘琦教授课题组空间组学解析领域的又一有益探索。

 

参考文献

1Zeng Z, et al. Statistical and machine learning methods for spatially resolved transcriptomics data analysis. Genome Biol 23, 83 (2022).

Duan B, et al. Multi-slice spatial transcriptome domain analysis with SpaDo. Genome Biol 25, 73 (2024).

3Lin S, et al. Spatially resolved gene expression is not necessary for identifying spatial domains. bioRxiv. 10.15.562443 (2023). https:// doi. org/ 10. 1101/ 2023. 10. 15. 562443.

Singhal V, et al. BANKSY unifies cell typing and tissue domain segmentation for scalable spatial omics data analysis. Nat Genet. 56(3):431–41 (2024). 

Copyright© 2011-2015 生命科学与技术学院, All rights reserved

地址:上海市四平路1239号 电话:021-65981041 传真:65981041

搜索
您想要找的