适应性免疫系统是人体防御机制中至关重要的一环,解析T淋巴细胞的功能对于疾病诊治具有重要启示。随着单细胞转录组及T细胞受体(TCR)配对测序技术的发展,研究者得以从多模态的视角深入解析T细胞对病原体和重大疾病(如肿瘤)的复杂应答机制。如何整合免疫细胞的多模态组学数据以对于免疫系统进行数字化解码,是该领域的重要科学问题。
针对单细胞转录组和TCR配对数据,已有的多模态分析方法提供了更为全面的T细胞和TCR克隆型视图。然而,当前研究尚未为免疫系统全景化解析提供系统和可扩展的分析框架。同时,单细胞转录组和TCR配对测序的数据低质性(low-resource-data)也为免疫细胞多模态整合带来了巨大的挑战。因此,领域内亟待开发普适、有效的计算模型,对多模态场景下的免疫组学数据进行有效整合和表征,以一种统一的视角来解决诸多免疫数字解码相关的下游任务。
近日,同济大学生命科学与技术学院生物信息学系、同济大学-上海自主智能无人系统科学中心刘琦教授课题组,严刚教授课题组在Cell Genomics上合作发表了题为:Unified cross-modality integration and analysis of T cell receptors and T cell transcriptomes by low-resource-aware representation learning的研究论文。该论文提出了一种前沿、普适、低质数据适配(Low-resource-aware)的多模态整合AI框架——UniTCR,旨在推动T细胞转录组和TCR的跨模态整合分析,以进行组学驱动的免疫系统数字化解码和定量化解析。
T细胞转录组和TCR配对测序通常存在测序样本稀缺、数据模态缺失、数据噪音大等低质数据特点,为其有效整合和解析带来巨大挑战。面向上述挑战,UniTCR通过创新性地设计了双模态对比学习模块(Contrastive learning module)和单模态信息保持模块(Modality preservation module)(图1),从而在低质数据场景下,巧妙地将TCR序列与基因表达谱嵌入至同一隐空间,同时保留各自的模态属性。其中,双模态对比学习模块通过将TCR序列和基因表达谱进行隐空间嵌入,生成融合了基因表达信息的TCR嵌入表征和融合了TCR信息的表达谱嵌入表征。而单模态信息保持模块则可以在训练的过程中保持各单一模态内部的模态属性,有效地防止了低质数据场景下的过拟合,提升了模型在数据低质场景下的泛化性能,从而可以实现低质数据场景下的TCR序列和基因表达谱的有效整合和表征,进而面向免疫数字解码的多个相关下游任务提出了一个统一、可拓展的AI解析策略。
图 1. UniTCR框架
该工作中,研究团队将UniTCR应用于四种典型的免疫数字解码场景:(1)单模态分析:在保持各模态内在属性的前提下,UniTCR分别将TCR序列信息整合至基因表达谱表征中,以及将基因表达谱信息整合至TCR序列表征中,从而生成新的嵌入表征。研究结果表明,相较于基于传统的单一模态的数据分析(例如基于T细胞转录组分析以及基于TCR序列的分析),UniTCR生成的嵌入表征可以用于识别更加精细尺度下的T细胞亚群和TCR克隆型,这些细胞亚群和克隆型均无法通过单一模态进行有效识别,从而进一步揭示了免疫细胞的功能异质性;(2)多模态分析:UniTCR提出了一种免疫系统模态间隙(Modality gap)的定量指标,用于评估免疫细胞基因表达与TCR序列两个模态的错配程度,并首次提出利用该计算指标识别处于特殊功能状态的免疫细胞,克服了传统实验识别耗时费力的瓶颈;(3)TCR-表位结合预测:通过利用UniTCR预训练得到的TCR编码器来构建TCR-表位结合预测模型,预测TCR与表位的特异性结合。结果显示,相较于传统的TCR-表位结合预测模型,UniTCR通过将表达谱信息融合至TCR表征中,可以显著提升TCR-表位特异性识别的性能;(4)TCR-表达谱跨模态生成:免疫组学的跨模态生成可以有效节省配对组学测序的成本,并为免疫系统的多模态解析提供了一种有效的方法学支撑。已有研究表明,相同TCR克隆型的细胞基因表达水平相似。基于这一假设,研究团队首先利用先验神经网络将TCR表征映射至T细胞表达谱表征上,再利用基因表达谱解码器对T细胞表达谱表征进行解码,从而实现了TCR序列到基因表达谱的跨模态生成,并在多种场景下验证了预测表达谱的准确性,为免疫组学的跨模态生成提供了一种创新性的方法学策略。
综上所述,UniTCR提出了一种低质跨模态场景下的免疫组学有效整合和表征的AI框架,以赋能诸多免疫数字解码相关的下游任务分析,为我们从多组学和多模态视角系统理解免疫系统的复杂性和异质性提供了一个统一的AI解析策略。
刘琦教授课题组长期致力于组学数据的AI智能解析和精准干预,进行数据驱动的精准医学研究和转化。该论文第一作者是同济大学高溢骋、董科竟博士,通讯作者是刘琦教授和严钢教授。本项目受到国家自然科学基金,上海市人工智能专项基金以及国家重点研发计划BT&IT专项资助。
Copyright© 2011-2015 生命科学与技术学院, All rights reserved
地址:上海市四平路1239号 电话:021-65981041 传真:65981041