科研进展

Briefings in Bioinformatics |王晨飞课题组开发单细胞CRISPR筛选数据综合分析流程SCREE

发布时间:2023-04-06  

CRISPR筛选(CRISPR-screen)技术基于测序手段量化靶向目标基因的sgRNA在筛选前后的变化,目前被广泛用于筛选与特定功能表型如细胞生长分化免疫耐受或耐药相关的候选基因虽然CRISPR筛选能在一定程度上研究基因功能但是这一技术仍然存在很大的局限性无法研究目标基因下游的调控机制近年来随着一系列高通量单细胞测序技术的出现与普及近期的研究将CRISPR筛选与单细胞转录组测序scRNA-seq[1, 2]或单细胞染色质可及性scATAC-seq[3]等技术相结合,用于进一步探究目标基因功能及基因间的相互调控关系。这些新技术的出现为理解基因型-表型关系提供了丰富的图谱,但也带来了重大的分析挑战。

2023330日,同济大学王晨飞课题组在Briefings in Bioinformatics杂志上在线发表文章SCREE: a comprehensive pipeline for single-cell multi-modal CRISPR screen data processing and analysis开发了基于单细胞CRISPR筛选数据的综合性分析流程SCREE。

SCREE (Single-cell CRISPR screens data analysEs and perturbation modEling) 主要分为两个部分数据预处理和下游分析。在数据预处理部分,SCREE使用双端测序的FASTQ文件作为输入,对sgRNAmRNA/DNA进行比对和定量。对于基于scRNA-seq数据,SCREE生成单细胞基因表达矩阵;对于基于scATAC-seq数据,用户可以选择基于具有固定长度的基因组区域bin或是基于读长富集峰peaks)输出单细胞矩阵。在下游分析部分,SCREE使用计数矩阵作为输入,执行一系列质量控制、可视化和分析步骤。这些步骤包括sgRNA信息可视化、单细胞质量控制、聚类和扰动富集可视化、扰动效率建模、基因调控得分估算、靶基因或增强子识别和潜在靶点的功能分析为了方便用户对一系列分析结果进行查看,SCREE所有结果都存放于具有良好层次结构路径中,并且可以HTML文件对数据的基本信息和分析结果进行可视化(图1)。

1 SCREE工作流程示意图


为了论证SCREE单细胞CRISPR筛选数据中应用的普适性,文章将其应用于针对基因区域进行扰动scRNA-seq类型数据Gene Perturbation)、过表达外源开放阅读框的scRNA-seq类型数据(Gene Overexpression)、针对增强子区域进行扰动的scRNA-seq类型数据Enhancer Perturbation和针对基因区域进行扰动的scATAC-seq数据(Perturb-ATAC)。在基因扰动数据中,SCREE对细胞进行聚类并在部分类群中识别出富集的扰动基因此外,扰动效率、基因调控得分和基于基因调控得分得到的扰动间相关性三者显示出高度的一致性2 A-D)。在过表达开放阅读框数据中与已有文献报道结果一致,SCREE同样能够得到LTBR基因在某一特定细胞类群中的富集并且能够根据基因调控得分富集出相应的通路2 E, F)。

2 SCREE在多套数据中的应用


在增强子扰动数据中,SCREE识别出每个扰动增强子周围的潜在受到其调控的基因并进一步利用基因调控得分对增强子和这些基因间的调控关系进行了可视化结合这些基因在扰动状态下的表达水平变化帮助识别潜在的增强子-基因对3 A, B)。应用于Perturb-ATAC数据,SCREE首先将原有的基于peaksbin的表达矩阵转变为基因活性矩阵以执行与基因扰动数据类似的相关分析其次针对每个扰动基因,SCREE从原有的peaksbin矩阵中得到与阴性对照组存在差异的区域从这些区域中识别出潜在的增强子区域并对该区域周围基因的基因活性和基因调控得分进行可视化以帮助得到潜在的基因-增强子-基因调控机制3 C, D)。

3 SCREE在多套数据中的应用


验证SCREE计算基因调控得分的高效性文章从现有公共数据中选取了包含不同细胞数目的数据集并对其中一套数据进行了多次复制以将细胞数目提升到百万级别与其他基于R语言的生物信息学方法进行比较[4]SCREE具有更高的计算效率并且能够在同等计算资源的情况下应用于细胞数据达到百万级别的数据集4)。


4 SCREE基因调控得分计算效率比较

总的来说,SCREE是一种包括了序列比对和定量数据质量控制、聚类、扰动富集可视化、扰动效率建模、基因调控得分计算、增强子识别和功能分析等功能在内的综合性分析流程可以灵活且高效地应用于多种类型的单细胞CRISPR筛选数据

同济大学生命科学与技术学院王晨飞教授、吴秋博士为该论文通讯作者,同济大学生命科学与技术学院博士研究生魏海霖文章的第一作者。该项工作得到了国家自然科学基金委及上海市科委等项目的重要支持。


参考文献:

1. Dixit A, Parnas O, Li B, Chen J, Fulco CP, Jerby-Arnon L, et al. Perturb-Seq: dissecting molecular circuits with scalable single-cell RNA profiling of pooled genetic screens. Cell. 2016;167(7):1853–1866.

2. Papalexi, E., Mimitou, E.P., Butler, A.W. et al. Characterizing the molecular regulation of inhibitory immune checkpoints with multimodal single-cell screens. Nat Genet 53, 322–331 (2021).

3. Pierce SE, Granja JM, Greenleaf WJ. High-throughput single-cell chromatin accessibility CRISPR screens enable unbiased identification of regulatory networks in cancer. Nat Commun. 2021 May 20;12(1):2969.

4. Yang L, Zhu Y, Yu H, Cheng X, Chen S, Chu Y, Huang H, Zhang J, Li W. scMAGeCK links genotypes with multiple phenotypes in single-cell CRISPR screens. Genome Biol. 2020 Jan 24;21(1):19.

Copyright© 2011-2015 生命科学与技术学院, All rights reserved

地址:上海市四平路1239号 电话:021-65981041 传真:65981041