细胞分化后基因选择性表达的原因
原创:黄必录
一种细胞变成各种功能不相同的细胞,称细胞分化。细胞的分化机制被列为十大未解之谜。
iPS细胞全能性证明,我们体内的各种不同细胞,基因组成没有发生任何变化,肝细胞、脑细胞和皮肤细胞中的基因组成是一模一样的。那为什么有着相同的基因组的各种不同功能细胞,会有不同的基因选择性地表达?
非组蛋白是一类核蛋白,能够开启或关闭不同的基因,不同分化类型的细胞有着不同的非组蛋白,因此,科学家就认为决定基因选择性表达的原因是非组蛋白。但是,蛋白质的寿命很短,无法解释为什么人的心和脑等长寿细胞的特异分化性状能够保留几十年;蛋白质也不会自我复制,这也无法解释细胞的特异分化性状可以传代的事实。如果认为决定细胞分化的蛋白质能通过自我反馈来稳定自己的含量,这同样无法解释两个不同功能的细胞的细胞核与细胞质融合后,细胞的性状只保留细胞核的一方。
科学家错误的把免疫球蛋白基因的重排现象认为是细胞分化后基因选择性表达的原因,因为即使已重排好的某个抗体基因,也需要相应的非组蛋白存在时才能表达的,这还是要依赖于非组蛋白基因的选择性表达,由于不同功能的细胞要有不同的非组蛋白,那么,各种不同的非组蛋白的基因是如何选择性地表达的?
DNA甲基化是5-甲基胞嘧啶(5-MC)修饰。这一般发生在CCGG 序列的内部C上,甲基化酶都是高度顺序专一性的。经过甲基化修饰的DNA能够调节基因表达。
DNA甲基化调控基因表达有三种应用,分别是细胞分化、细胞衰老和体内外环境响应。不同分化类型的细胞,之所以会选择性表达不同的基因,是因为有着不同的甲基化模式。而且与细胞分化类型属性有关的DNA甲基化是稳定的,例如,肝细胞从胎儿到老人都保持着肝细胞的基本属性;同样是肝细胞,但胎儿、成人和老人的肝细胞的基因表达谱却不同,例如,胎肝表达甲胎蛋白,成人表达白蛋白,老人表达衰老标志蛋白2,而且是可逆的,例如,成人和老人肝细胞癌变,又会再次表达甲胎蛋白;饮食、锻炼和疾病也会改变DNA甲基化,而且也是可逆的,例如,停止锻炼一段时间,甲基化模式会回复之前没锻炼的状态。
研究发现,坚持锻炼的肌肉有839个位点的甲基化水平改变了5%以上,有4076个基因存在差异性表达,许多发生改变的甲基化位点位于基因的增强子区域,这些基因主要涉及肌肉生成、肌肉结构、肌肉功能和生物能量学。而存在表达差异的基因与肌肉的生理机能和代谢有关,比如胰岛素调控。细胞能量有关的基因也得到了适当上调,比如线粒体酶(Lindholm ME, Marabita F, Gomez-Cabrero D, Rundqvist H, Ekström TJ, Tegnér J, Sundberg CJ. An integrative analysis reveals coordinated reprogramming of the epigenome and the transcriptome in human skeletal muscle after training. Epigenetics. 2014 Dec 2;9(12):1557-69.)。
那么,饮食、锻炼、疾病或影响细胞分化的因子等各种因素是如何使相关基因甲基化与去甲基化的?在20世纪90年代,我国童坦君院士在肽类生长因子信号传递方面提出了生长因子干预原癌基因转录因子及DNA甲基化的设想。他领导的研究组揭示表皮生长因子(EGF)具有降低某些原癌基因甲基化、促进染色质蛋白激酶的活性,使某些原癌基因特异结合蛋白增多等作用[童坦君、李刚,生物化学[M],北京大学医学出版社,2005(第一版),2009(第二版).]。因此,具体机制可能是这样的,当各种因素导致上游相关的总控制转录因子表达增强时,例如,锻炼促进了与肌肉增强相关的总控转录因子基因表达,而总控转录因子会开启更多的下游相关基因表达反义lncRNA,而该下游基因表达反义lncRNA时,就会使该位点的DNA被DNA去甲基化酶TET3识别,从而使该基因发生去甲基化;相反,抑制相关基因转录,该基因就会重新发生甲基化。具体机制如下:
长非编码RNA是一种反义RNA(antisense lncRNA),通常是由编码蛋白质的基因的反义链转录的,并与该基因的mRNA存在序列重叠。占70%的基因均有反义lncRNA。反义lncRNA的转录往往与其基因的正义链转录存在相关性。反义lncRNA的转录时,会使该位点的DNA被DNA去甲基化酶TET3识别,从而清除掉该位点的甲基化修饰。这里举2个例子说明:例1:在神经发育过程中,单个神经细胞响应不同的信号分子,会分化为具有不同功能的细胞,并最终形成复杂的神经回路。在此过程中,神经细胞需要区别自身与其他神经元,这就需要一个细胞表面独特的识别蛋白--哺乳动物的原钙黏附蛋白(Protocadherin,Pcdh),该蛋白的基因具有多个随机启动的可变外显子,可产生多个转录本(isoform)。研究发现每一个Pcdhα可变外显子的反义链,都存在一个保守的反义lncRNA。利用CRISPR dCas9-VPR系统激活反义lncRNA的表达,会促进相应可变外显子的转录。那么反义lncRNA是如何促进响应正义转录本的转录的呢?研究者发现,反义lncRNA的转录,会造成该位点DNA去甲基化的发生,从而使远端增强子靠近该外显子的启动子,促进它的表达。如图2所示,Pcdhα基因座位均带有抑制表达的DNA甲基化修饰,而当反义lncRNA表达时,该外显子附近的DNA被DNA去甲基化酶TET3识别,去除了甲基化修饰,cohesin蛋白重塑了染色体的结构,HS5-1增强子与该基因座位的启动子结合,启动相应Pcdhα变体的表达(原文链接:
https://doi.org/10.1016/j.cell.2019.03.008);例2:有一个被命名为lnc-Ob1的反义IncRNA被证明能促进骨髓间充质干细胞分化为成骨细胞(参考文献:Zhuang, W.Z. et al. Upregulation of lncRNA MEG3 promotes osteogenic differentiation of mesenchymal stem cells from multiple myeloma patients by targeting BMP4 transcription. Stem Cells 33, 1985-1997 (2015).)。Inc-Ob1会抑制成骨调节转录因子(Osterix)的基因的启动子上的H3K27me3甲基化,从而显著上调Osterix表达,促进成骨细胞分化成熟。在成骨细胞的细胞核内,Inc-Ob1能够与Suz12结合,削弱了H3K27甲基化酶复合体在Osterix启动子上的募集程度,从而增强Osterix的表达。
不同分化性状的细胞有着不同的甲基化模式。那么不同的甲基化模式能否复制和传代?幸运的是,已经发现,在细胞增殖时,有一种称维持性甲基化酶,通过以“甲基化维持”的方式将新的甲基化模式(代码)传递到每个子细胞的DNA上(复制)。 因此,DNA甲基化修饰是基因选择性表达的原因之一。
但是,DNA甲基化水平也是可变的,这是否说明DNA甲基化修饰不是细胞分化后基因选择性表达的决定因素?目前还不清楚。即使DNA甲基化水平是可变的,为了保持细胞分化性状的稳定,也不能把甲基完全清除掉。例如,反复用能抑制DNA甲基化的5-杂氮-脱氧胞嘧啶(5-aza-dC)来降低小鼠永生细胞系C3H10T1∕2的DNA甲基化水平时不可能降到零(最低到0.45%)(Flatau等人,1984)。
果蝇和双翅目昆虫中的DNA很少或没有发生甲基化。常用来研究衰老的秀丽隐杆线虫(Caenorhabditis elegans)也没有甲基化。发表在2012年10月18日在国际著名期刊《基因组生物学》上的论文,吉林大学和华大基因研人员合作对11种线虫的DNA甲基化进行了研究,只发现旋毛形线虫是唯一具有甲基化现象的种属。因此,它们细胞分化后基因的选择性表达的原因只能是改变了DNA,比如靠改变基因调节区中某些DNA序列的重复次数或插入转座子等元件或扩增基因。
由于DNA甲基化水平是可变的,因此,不能排除一种生物的细胞分化后的基因选择性表达机制是先改变了DNA本身,以此为基础再调控DNA甲基化模式,进而调控更多的基因表达。
综上所述总结细胞分化后基因选择性表达的原因有:(1)改变了DNA本身;(2)DNA甲基修饰;(3)先改变了DNA本身,以此为基础再调控DNA甲基化模式。我已找到了证据,例如,2013年,《科学》杂志报道,通过单细胞测序发现,一个人的不同的神经元DNA序列不一样(Mosaic Copy Number Variation in Human NeuronsMichael J. McConnell et al.Science 342, 632 (2013));美国桑福德—伯纳姆·普利比斯医学发现研究所研究人员2018年8月24日在美国《国家科学院院刊》上发表论文称,发现在小鼠大脑发育阶段,脑细胞中存在着数千个所谓的“基因组拷贝数变异”(CNVs)。正是脑细胞中DNA的这些变化,才会导致阿尔茨海默氏症和自闭症;根据DNA甲基化模式的不同,小鼠的额皮质中存在16种不同的神经元,而人类额皮质中的神经元更具多样性,总共有21种。该研究于2017年8月10日发表在《Science》上。(4)2020年3月10日,清华大学沈晓骅团队在Cell Reports杂志上发表文章Genomic Repeats Categorize Genes with Distinct Functions for Orchestrated Regulation,发现了重复序列在基因组上的并非随机分布。SINE,L1和low-complexity重复序列将其相关宿主基因划分为三个主要的功能类别:富含SINE的基因更可能编码与RNA加工、核仁和翻译相关的管家蛋白;富含L1的基因倾向于产生在终末分化细胞中具有特殊功能的蛋白质;Low-complexity重复序列富集基因倾向于编码发育和组织特异性转录因子。这些功能类别特异的基因在不同的发育阶段中差异表达。SINE富集的基因在受精后的合子基因组激活(ZGA)期间被激活并且在ESC中以高水平表达。富含L1的基因则在早期胚胎发育和ESC中处于转录沉默的状态。Low-complexity重复序列富集基因则在胚胎发育开始处于沉默状态,然而在ESC分化中开始变得活跃。他们发现重复序列可以为其宿主基因提供大量的转录因子结合位点,从而参与调控基因的时序性表达。SINE重复序列富集参与活性转录的蛋白因子的结合位点;L1重复序列优先被异染色质蛋白和表观遗传阻遏物靶定。Low-complexity重复序列富集PRC2转录抑制复合物的组分(原文链接:
https://doi.org/10.1016/j.celrep.2020.02.048)。
至此,细胞分化后基因选择性表达的原因我认为已经找到,这是个完美的理论,无可挑剔。
当然,光有细胞分化也无法进行个体发育,因为个体发育过程是一种单向的线性的时间顺序过程,因此,细胞还要有一个计时的时钟装置来启动细胞分化和指导个体发育(https://zhuanlan.zhihu.com/p/55230964
https://zhuanlan.zhihu.com/p/53388486