基因之间的CRISPR:如何用增强子和表观基因组学进行实验

客人的博客

本文由嘉宾博主Aneesh Karve贡献,他是Qult Data的首席技术官。本文最初发表于被子基因组学的博客并经允许在此转载。

被子是一个基因组学的协作数据库。在这篇文章中,Quilt首席技术官Aneesh Karve展示了如何设计在基因组的任何地方都有效的实验。Aneesh的研究兴趣包括蛋白质组学、机器学习和大型生物可视化。

基因组的GPS

我们可以把人类基因组想象成一张有三个坐标的地图:染色体、起始点和终止点。例如(chr3 1 10)表明在第三条染色体的最开始有一段DNA,长度为10个碱基对。一个新兴的测序技术家族具有一种“基因组GPS”的功能,可以计算蛋白质、RNA和DNA等遗传元素的坐标(表1)。与现实世界中的GPS一样,单靠坐标并不是很有用。我们需要谷歌Maps之类的东西来帮助我们识别和可视化地址。这就是增强剂基因组的数学进来。它们帮助我们将原始的基因组坐标转化为有意义的实验。

表1:一个新兴的“基因组GPS”技术家族

技术 它的定位
ChIP-seq 蛋白质(稍后我们以组蛋白为例)
ChiRP-seq 核糖核酸
高c DNA (genome-to-genome交互)
DNase-seq DNA(可结合的区域)

谷歌地图:增强子和基因组数学

假设您希望使用谷歌地图查找你家附近的所有咖啡店,不包括星巴克。从书呆子的角度来看,你可能会这样表示你的搜索:

(我家+咖啡)-星巴克

看到符号是怎么用的了吗?的+运算符表示交集和- - - - - -运算符表示集差。这就是基因组数学如何帮助我们定位基因组中有趣的地址的直觉。现在让我们来看看我们如何定位被称为增强剂借助基因组数学的帮助。

基因组的数学

Ennhancers是DNA中具有“幽灵作用”的区域。通过DNA压缩的奇迹,增强剂可以增加数百万碱基对之外的基因的表达。(有关DNA压实及结构蛋白的详情这是可能的,请看附录DNA是一种三维分形).

增强剂生物学是一个复杂而动态的领域。我们将专注于一种可靠的找到增强子的方法,通过分离与修饰蛋白质结合的基因组区域组蛋白.我们可以用“蛋白质GPS”检测修饰组蛋白,ChIP-seq从表1。由于DNA的三维几何结构和修饰组蛋白的化学性质,一个具有单甲基化和乙酰化组蛋白而非三甲基化组蛋白的基因组区域作为增强剂发挥作用。因此,我们可以这样表示增强子:

(单甲基化+乙酰化)-三甲基化

在下一节中,我们将把上面的公式应用到一个真实的实验中。我们将从ChIP-seq数据开始项目编码,在胚胎干细胞中发现增强子,并得出有针对性的结论CRISPR屏幕这会破坏这些增强子。

一个真实的实验

假设你做了一个ChIP-seq实验(想象一下“蛋白质的GPS”)NANOG胚胎干细胞(ESCs)中必不可少的转录因子。你的ChIP-seq发现了超过13000个显著的结合峰NANOG在人类基因组中。但并不是所有这1.3万个区域都对维持ESCs很重要。所以w在这一万三千个地区中,哪一个是关键地区?一种假设是:增强子!这就引出了一个设计实验的三步方法来识别关键因素NANOG结合位点:

1.找到增强剂,NANOG结合位点

2.设计CRISPR筛选来锁定目标并扰乱NANOG增强剂

3.CRISPR从步骤2中取出增强子。看看哪些ESCs死亡或分化

第三步揭示NANOG相关基因对干细胞的存活至关重要。了解哪些基因影响细胞培养的存活是现代药物发现和治疗学的基础。在下一节中,我们将更多地介绍CRISPR的临床应用。

为了表示NANOG基因组数学第一步中的增强子,我们需要一点表观基因组学领域的简写:

  • H3- - - - - -之一NANOG是组蛋白相关蛋白
  • K4和K27 -氨基酸赖氨酸在H3中的位置
  • Me1, me3, ac- - - - - -分别表示单甲基化、三甲基化和乙酰化(这些是化学修饰,或官能团,发现在赖氨酸)

把所有这些放在一起,我们得到了第1步的表达式:

(H3K4me1 + H3K27ac) - H3K4me3

以下视频演示了任何人如何可以找到增强子与被子。

用CRISPR寻找并摧毁增强子

用基因组数学表达式武装NANOG增强者,我们准备好第二步了,设计aCRISPR屏幕来扰乱这些增强子。第三步,也是最后一步,是进行CRISPR筛选。我们首先用一种慢病毒载体它是一种与艾滋病毒属同一家族的减毒逆转录病毒。通过设计,我们慢病毒是由基因决定的将我们在第二步中确定的增强子CRISPR出来。其结果是干细胞的异质群体,通常保存在一个单独的烧瓶中。通过一些随机魔法和泊松统计,平均而言,每个子种群都有一个明显的增强因子被打乱。随着ESCs的死亡和分化,我们定期使用下一代测序来测量人群中引导rna (gRNAs)的相对比例。回想一下,指导rna是CRISPR的靶向机制。因此,如果gRNA随着时间的推移下降或消失,我们推断它所针对的增强子是我们干细胞的“功能支柱”。移除这个支柱和ESC死亡。

目的慢病毒来自Addgene

如果你有兴趣为增强子设计自己的CRISPR屏幕,请参阅附录。

结论:揭示了暗物质

精确地了解哪些基因组是干细胞、转移瘤细胞、阿尔茨海默病影响的神经元或[你感兴趣的细胞系]的支柱,是精准医学的基础。我们可以应用这些知识来创造靶向疾病疗法,对健康细胞的副作用最小,对不健康细胞的影响最大。

直到最近,人类基因组都充满了暗物质:增强子、lncrna、重复元素、阻滞剂、绝缘体等等。我们知道这一问题的存在,但研究其功能的传统方法一直非常困难。CRISPR,结合表1中的技术,为我们提供了强大的类似gps的技术来探索基因组中的暗物质。还有无数未知的地区有待探索。我希望这篇简短的指南可以帮助你做到这一点。

祝你好运,总是继续

附录

dna酶超敏感位点和基因间CRISPRs

您真正产生了DHS数据集从国安局的所有网站开始来自ENCODE项目的125种不同的人体细胞.DHS位点是基因组中调控区域最具包容性的标记,包括增强子、启动子、绝缘子等。然后,我对200多万个DHS位点进行了没有脱靶效应的有效gRNA序列鉴定。见下文为进一步的细节。

DNA是一个三维分形

DNA压实

人们通常认为DNA是由a、T、G和C核苷酸组成的呈双螺旋结构的线性聚合物。人是错误的。实际上,细胞DNA是一个复杂的三维染色质小球。染色质是卷曲的DNA和被称为组蛋白的结构蛋白的组合。染色质折叠成二级结构(环)和三级结构(珠),以实现精致的压缩-大约是每克700tb形成我们所熟知和喜爱的x形染色体。

为了理解压实,假设你有一根10米长的绳子。你把绳子拧成一个紧的球。现在弦的两端,不再是10米的距离,仅仅是毫米的距离。同样,细胞以一种将线性距离较远的区域拉近的方式压缩DNA。

脱靶效应的gRNA选择和滤波

我们首先生成了hg19基因组的多fasta文件Bedtools getFasta.对这些区域及其反向互补体进行spCas9 PAM位点(NGG)分析,然后根据两个主要标准进行过滤:不允许TTTTT(这是一个聚合酶终止子),以及所鉴定的23-mer gRNA不存在脱靶效应。用Bowtie2使用第一次描述的参数卡恩斯等。

bowtie2 -f -x HG19_GENOME -local -f -k 10 -非常敏感-local -L 9 -N 1 -U GRNA_23MERS -S GRNA_HITS.sam


非常感谢我们的客座博主Aneesh Karve!

Aneesh KarveAneesh Karve是被子数据。被子是一个协作数据库。Aneesh的研究兴趣涵盖机器学习、蛋白质组学和数学用户界面。

额外的资源

参考资料在Addgene博客188博金宝官网

在Addgene.org上的资源

主题:CRISPR其他CRISPR工具

留下你的评论

分享科学变得更容易了……订阅我们的博客

订阅
Baidu