遗传疾病与药物靶点

遗传性疾病构成一大类人类疾病。目前,已明确了解人类大约有4,000种疾病与基因改变有关。这些基因的改变伴速着大约5,000–10,000种蛋白质的改变。例如杭廷顿氏舞蹈病(Huntington disease),多发性神经纤维瘤(Neurofibromatosis),杜兴肌营养不良(Duchenne muscular dystrophy),以及癌症, 都与基因改变有关。其中有些致病相关基因已被识别,另外一些正在研究中。

1.囊性纤维化常染色体隐性遗传,白人中基因携带者占3%,突变基因 CFTR 缺失会导致上皮钠通道(epithelial sodium channel, ENaC )的异常兴奋,引起病人肺部淤积过多的钠离子,美国Vertex制药宣布,欧盟委员会已批准Kalydeco(通用名:ivacaftor)用于6岁及以上年龄群携带囊性纤维化跨膜电导调节因子(CFTR)基因上至少单拷贝G551D突变的囊性纤维化(CF)患者。Kalydeco是首个靶向该病根本病因的药物。
2.甲型及乙型血友病(hemophilia A and B)是最热门的领域之一,已成为昂贵生物技术药物的最大市场之一。这种遗传性疾病导致血液无法正常凝结,可能导致患者流血过多而亡。罕见病专业厂商马林生物科技公司(Biomarin)的首席执行官比埃奈默 (Jean-Jacques Bienaime)说:”甲型血友病的基因疗法可能成为我们销售额最高的产品。”该公司预计今年的收入至少为6.5亿美元。比埃奈默称该公司估算在其营销药物的地区有5万名正在服用血友病药物的甲型血友病患者;这将是他的目标市场。维度治疗公司(Dimension Therapeutics)正与马林生物科技公司竞争;火花治疗公司、维度治疗公司和血友病专业厂商巴克斯特国际公司(Baxter International)正竞相攻克乙型血友病。
3.某些成人和儿童的失明是由RPE65基因缺陷引起的,费城儿童医院的海伊(Kathy High)明显无害的腺伴随病毒 (adeno-associated virus,AAV)的治疗方法在这些人身上取得了惊人的效果。在一项试验中,12例患者(其中5个是儿童)的视力有显著改善。孩子们能从盲人教室转移到非盲人教室了。一项可能让这种疗法通过审批的后期研究正在进行之中。
4.CRISPR/Cas9的技术也许能应用于遗传疾病的基因疗法。为了将这个梦想变成现实,旗舰风险投资公司(Flagship Ventures)、北极星投资公司(Polaris Partners)和三岩风险投资公司共同出资4300万美元,于去年11月创建了爱迪塔斯医药公司(Editas Medicine)。
5.神经递质(5-HT)通过化学门控通道介导快速兴奋响应。以前识别的5-HT3A受体基因产生功能受体,但是比在活体内有小得多的电导。一个同源体被识别,在一个PAC克隆中第11号染色体长臂上。同源体显示在纹状体、尾状核、海马中表达,全长cDNA随后得到。这个编码胺受体地基因,被命名为5-HT3B。当与5-HT3A组合成异二聚体中,它显示负责大电导神经胺通道。假定胺途径在精神疾病和精神分裂症的中心作用,一个主要的新的治疗靶的发现是相当有兴趣的。
6.半胱氨酰基白三烯的收缩和炎症作用,先前认为是过敏反应的慢反映物质(SRS-A),通过特定的受体介导。第二个类似的受体,CysLT2,使用老鼠EST和人类基因组序列的重组得到识别。这导致了与先前识别的唯一的其它受体有38%氨基酸一致性的基因的克隆。这个新的受体,显示高的亲和力和几个白三烯的结合,映射在与过敏性哮喘有关的第13号染色体区域上。这个基因在气道平滑肌和心脏中表达。作为白三烯途径中抗哮喘药物开发中一个重要的靶,新受体的发现有明显的重要的作用。
7.Alzheimer疾病在老年斑中有丰富的β-淀粉样物沉积。β-淀粉样物由前体蛋白(APP)蛋白水解生成。有一个酶是β位 APP裂开酶,是跨膜天东氨酸蛋白酶。公共的人类基因组草图序列计算机搜索最近识别了BACE的一个新的同源序列,编码一个蛋白,命名为BACE2,它与BACE有52%的氨基酸序列一致性。包含两个激活蛋白酶位点和象APP一样,映射到第21条染色体的必须Down综合症区域。 它提出了问题,BACE2和APP过多的拷贝是否有功于加速Down综合症病人的脑部β-淀粉样物沉积。

“芜杂数据找要点”的主成分分析

在多元统计分析中,主成分分析(英语:Principal components analysis,PCA)是一种分析、简化数据集的技术

—————–

主成分分析经常用于减少数据集的维数,同时保持数据集中的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。由于主成分分析依赖所给数据,所以数据的准确性对分析结果影响很大。

—————–

主成分分析由卡尔·皮尔逊于1901年发明,用于分析数据及建立数理模型。其方法主要是通过对协方差矩阵进行特征分解,以得出数据的主成分(即特征向量)与它们的权值(即特征值)。PCA是最简单的以特征量分析多元统计分布的方法。

—————–

其结果可以理解为对原数据中的方差做出解释:哪一个方向上的数据值对方差的影响最大?换而言之,PCA提供了一种降低数据维度的有效办法;如果分析者在原数据中除掉最小的特征值所对应的成分,那么所得的低维度数据必定是最优化的(也即,这样降低维度必定是失去讯息最少的方法)。

——————

主成分分析在分析复杂数据时尤为有用,比如人脸识别。PCA是最简单的以特征量分析多元统计分布的方法。通常情况下,这种运算可以被看作是揭露数据的内部结构,从而更好的解释数据的变量的方法。如果一个多元数据集能够在一个高维数据空间坐标系中被显现出来,那么PCA就能够提供一幅比较低维度的图像,这幅图像即为在讯息最多的点上原对象的一个‘投影’。这样就可以利用少量的主成分使得数据的维度降低了。

——————

PCA跟因子分析密切相关,并且已经有很多混合这两种分析的统计包。而真实要素分析则是假定底层结构,求得微小差异矩阵的特征向量。

Nature:人类疾病与遗传变异研究指南

测序人类全基因组比以往任何时候变得更快速、更便宜,使得比较患者与无特定疾病人群基因组一类的研究激增。临床医生和从事某种疾病遗传贡献研究的研究人员往往会遇到一些似乎与疾病相关的变异,但却发现另外一些携带相同突变的人群并不罹患这种疾病或影响程度较轻。

 

医生要怎样找到真正引起疾病的遗传变化?发表在周四《自然》(Nature)杂志上的一篇开放获取论文为从事罕见遗传变异效应研究的研究人员提出了一些 指导准则。这些建议的焦点集中于几个关键的领域,例如研究设计,基因水平和变异水平上的意义、数据库以及对于诊断的意义。

 

论文共同作者、埃默里大学 Marcus 自闭症中心副主任、儿科副教授 Chris Gunter 博士是 2012 领先基因组研究人员研讨会的组织者之一。这一由美国国家人类基因组研究所发起的研讨会促成了这篇文章。

 

“我们中有几个人注意到,一些研究发布了有关特异序列与疾病之间关系的错误结论,我们非常担心这将转化为不恰当的临床决策。”

 

Gunter 说,医生有可能基于一些错误的结果来制定测试或治疗,而它们并没有真正得到一种遗传变异与疾病之间的关联支持。这篇文章可能有助于避免这样的不恰当决策。

 

由 27 名研究人员组成的这一研究小组提出了两个步骤来确定一种遗传变异引起了疾病:对来自于所有资源、支持该变异在特定疾病或状况下起作用的证据进行评估后,再 进行详细的统计分析。此外,他们强调要优先考虑科研技术和基础设施开发,包括鼓励研究人员共享遗传和临床数据。

 

文章中引用了一个与自闭症相关的实例。研究人员在比较有无自闭症个体的基因组时在 TTN 基因中发现了 4 个独立的变异。 TTN 基因编码了已知最大的一种肌蛋白(titin);相比其他基因的变异, TTN 基因变异有可能只是在它的边界内。不进行适当的统计学校正,研究人员有可能会得出错误的结论,认为在自闭症研究中值得进一步地调查 TTN 。

 

作者们指出,许多的 DNA 变异“有可能显示一个潜在令人信服的故事:这一变异有可能是如何影响性状的,但很少突变真正具有因果效应。因此,利用诸如这篇Nature文章中这样的基于证据的指导准则至关重要。

 

“我们相信对于其他领域想从事人类基因组研究、需要一个确定起点来调查遗传效应的科学家和临床医生们,这些指导准则将尤为有用,” Gunter 说。

Nucleic Acids Research:研究选择性剪切的新工具

95%的人类基因都会经历选择性剪切,平均每个基因可生成8-10mRNA变体。这一过程中的缺陷会引发多种疾病,包括癌症、囊性纤维化、早老症、脊髓性肌萎缩等等。一些科学家甚至认为,60%的人类疾病都是因为点突变改变了基因的剪切位点。

“目前看来,大约有四百种疾病与影响剪切位点的突变有关,”Sherbrooke大学的Benoit Chabot说。为此,他领导研究团队开发了一个研究选择性剪切的新工具。

在此之前,对选择性剪切形成的变体进行功能性分析并不容易,因为RNA干扰等传统技术往往不能给出一个明确的答案。举例来说,敲除一个剪切变体会使蛋白合成的总量减少,而这本身就会造成表型的改变。(延伸阅读:Cell子刊:选择性剪切影响癌细胞代谢

日前,Chabot及其同事在Nucleic Acids Research杂志上发表文章,描述了一个引导选择性剪切的新方案,既能使剪切位点沉默也能令其增强。

2003年,Chabot的研究团队首次向人们展示了一种双功能核苷酸。这些RNA能够与目标剪切位点附近的一个区域互补,同时还带有一个自由活动的尾部结构,可以“套住”特定的蛋白。他们将通过捕获蛋白沉默剪切位点的方法,称为TOSStargeted oligonucleotide silencer of splicing);将通过捕获蛋白增强剪切位点的方法,称为TOESargeted oligonucleotide enhancer of splicing)。

研究显示,这一方案可以一个个地改变多种基因的剪切,只不过整个过程比较慢,效率也不高。因此,TOSSTOES的应用受到了较大的局限。现在,研究人员为了推广这一技术,对五十多个选择性剪切事件进行了测试。

另外,他们还在之前的基础上开发了一个TOSSTOES的设计工具。该工具可以帮助人们决定与目标剪切位点结合的寡核苷酸序列,其设计成功率超过了80%

“使用这个工具,基本上和设计siRNA的步骤一样。当人们想要引导选择性剪切时,可以先将目的基因的序列输入电脑,然后系统就回给出最佳的设计方案,”Chabot说。“我们提供的就是这样一种新生物信息学工具。”

Chabot希望,这一在线工具可以帮助人们深入研究疾病相关的基因,以便有朝一日将双功能寡核苷酸用于临床治疗。

“合适的双功能寡核苷酸,可以帮助患者矫正剪切缺陷。例如,可以定期服用药片”他说。“或者通过新技术将这些寡核苷酸引入细胞,使其以一种可诱导的方式表达。”

文章总结道,双功能寡核苷酸可以重新引导多种基因的选择性剪切,是进行相关研究的实用工具。

原文摘要:

Redirecting splicingwith bifunctional oligonucleotides

Ectopic modulators ofalternative splicing are important tools to study the function of splicevariants and for correcting mis-splicing events that cause human diseases. Suchmodulators can be bifunctional oligonucleotides made of an antisense portionthat determines target specificity, and a non-hybridizing tail that recruitsproteins or RNA/protein complexes that affect splice site selection (TOSS andTOES, respectively, for targeted oligonucleotide silencer of splicing andtargeted oligonucleotide enhancer of splicing). The use of TOSS and TOES hasbeen restricted to a handful of targets. To generalize the applicability anddemonstrate the robustness of TOSS, we have tested this approach on more than50 alternative splicing events. Moreover, we have developed an algorithm thatcan design active TOSS with a success rate of 80%. To produce bifunctionaloligonucleotides capable of stimulating splicing, we built on the observationthat binding sites for TDP-43 can stimulate splicing and improve U1 snRNPbinding when inserted downstream from 5 splicesites. A TOES designed to recruit TDP-43 improved exon 7 inclusion in SMN2.Overall, our study shows that bifunctional oligonucleotides can redirectsplicing on a variety of genes, justifying their inclusion in the moleculararsenal that aims to alter the production of splice variants.

测序界的期盼:牛津纳米孔测序仪 已进入测试阶段

 

即插即用型的测序仪。科研人员们很快就可以用到这种便携式的DNA测序仪了。

 

美 国佛罗里达州的Marco岛(Marco Island, Florida)是基因组测序者们的圣地,十几年来,这里每年都会举行一次基因组测序盛会,全世界的基因组测序仪制造商们都会在会上拿出他们最先进的技术 和产品,其中有很多都是革命性的创新技术。最近最吸引人的就是英国牛津纳米孔技术公司(Oxford Nanopore Technologies)在两年前发布的技术,他们能够进行实时测序,而且拥有非常长的读长,这项技术只需要让待测DNA分子通过一个纳米级的孔道就行 了(Science, 4 May 2012, p. 534),在此之前很多人都认为这是不可能完成的任务。牛津纳米孔技术公司表示他们会尽快推出原型机,让广大科研工作者都享受到技术进步带来的便利。

 

经 过了两年多的沉寂,他们最终给出了答卷。虽然该公司并没有派人参加这次的大会,但是据一位与该公司有合作的科研人员介绍,他们已经用这种新技术对 一种细菌进行了基因组测序,而他本人也使用测序结果组装出了细菌的完整基因组序列。并且牛津纳米孔技术公司也在积极兑现承诺,通知科研人员们对他们的新设 备进行测试。不过并不是所有人都认可该公司的这第二步棋,因为他们得到的测序数据的质量并不高,单单靠这些数据是不可能获得完整基因组序列的。

 

与 此同时,传统的测序仪也在飞速地发展,希望进一步降低测序服务的成本。比如全世界最大的测序仪制造商Illumina公司就在今年1月登上了头 条,因为他们宣称将推出一台新产品,能够将个人基因组测序的成本降低到1000美元这个具有重要意义的分界线,因为很多人都认为如果个人基因组测序的费用 能够降低到这个水平,将使测序成为一项临床常规检测手段(Science, 17 March 2006, p. 1544)。

 

Illumina 公司推出的这台新设备与其它新一代测序仪(next-gen sequencers)一样,采用的也都是合成测序策略,即在新DNA链合成的时候检测出被添加上的碱基。这些碱基必须加上化学标签(修饰物),以方便辨 认。采用这种技术测得的片段读长都很短,需要进行后续拼接。而牛津纳米孔技术公司采用的测序策略则完全不同,他们使用的是实时测序方法,让一根DNA长链 穿过纳米级别的孔径来完成测序。当DNA链上的碱基通过纳米孔时,它们会阻断纳米孔中的离子流,而每一种碱基引起的变化都不相同,因此就可以判断出碱基的 序列。从理论上来说,这种技术的测序读长可以达到数千bp,不会产生延迟,也不需要进行事后的序列拼接。这项技术提出距今已经过去了接近20年,最终于 2012年成为了现实。当时牛津纳米孔技术公司提交了一份病毒基因组序列,据称就是使用纳米孔技术测得的。

 

但为什么后来就没动静了呢?

基因组测序成本经过了多年的下降,目前已经达到了一个平台期,不过也有可能会继续跳水,如图中虚线所示,只要Illumina公司宣传的1000美元个人基因组测序目标能够实现。(M:百万美元 K:一千美元)

 

据 牛津纳米孔技术公司介绍,这两年来他们一直在寻找一种新型的基质膜来为纳米孔提供支撑,因为最开始使用的基质膜不适宜进行大规模制造。他们也调整 了产品开发策略,放弃了最开始计划的大型测序仪开发计划,转而投向开发小型手持式、一次性测序设备,因为他们感觉这块市场需求更大。

 

美 国马萨诸塞州博大研究所(Broad Institute in Cambridge, Massachusetts)的David Jaffe在今年也透露一些新进展。他们课题组对大肠杆菌(Escherichia coli)这种常见的细菌和Scardovia wiggsiae(这是一种与牙齿腐烂相关的细菌)细菌进行了基因组测序,由他们提供DNA样品,牛津纳米孔技术公司完成了测序工作。这两种细菌的基因组 长度分别为460万bp和155万bp。该工作表明牛津纳米孔技术公司的测序技术已经从两年前的病毒基因组水平提升到了细菌基因组水平。

 

但 是Jaffe的内幕消息也证实牛津纳米孔技术公司还有很长的一段路需要走。该公司提供的数据证明纳米孔测序技术的确拥有相当大的读长优势,几乎可 以对一段DNA样品进行完整测序,一次最多能够得到10kb的序列。不过虽然有如此完美的数据,但是系统误差却让Jaffe等人无法将这些大片段拼接成完 整的基因组序列,而这也是纳米孔测序技术的终极目标。不过Jaffe等人发现,可以使用这些纳米孔测序数据对常见的Illumina测序仪获得的基因组序 列进行优化。美国马里兰州美国国立人类基因组研究院(National Human Genome Research Institute in Bethesda, Maryland)的Jeffery Schloss表示,虽然这种技术还处于初级阶段,但是在某些方面已经表现出了很强的应用优势。不过其他人却没有这么乐观,比如加拿大蒙特利尔麦基尔大学 (McGill University in Montreal, Canada)的基因组学家Ken Dewar就指出,如果纳米孔技术只能够对现有技术起到修补作用,那么开发一台手持式的纳米孔测序仪有什么意义呢?

 

牛 津纳米孔技术公司目前正在邀请科研人员们自己来验证纳米孔测序技术的实力。就在Jaffe透露消息的当天,该公司就向全世界发出了电子邮件,邀请 数百位申请者来体验他们的便携式测序仪MinION,只需要缴纳1000美元押金即可。首先这些试用者需要先用牛津纳米孔技术公司提供的DNA样品进行预 试验,熟悉仪器操作等流程,然后就可以对任意的DNA进行测序。

 

美 国加州大学圣克鲁兹分校(University of California, Santa Cruz)的David Deamer是纳米孔测序技术的先驱,他可早就等不及了,他指出,大家可以有很多样品拿来试用。我们可要好好地‘虐’一下这台仪器。比如有人会用来对食品 进行快速检测,看看是否存在有害微生物污染,也有人会想看看MinION能否测出古老的DNA。Deamer还想看看这台仪器是不是能够一次读出16kb 的序列。

 

就在牛津纳米孔技术公司大肆推介这种低成本的手持式测 序仪的同时,Illumina公司也没有坐以待毙,他们决定反其道而行,推出了一款专门供超大 型测序中心使用的最高级的测序仪。就在上个月,Illumina公司推出了价值数百万美元的HiSeq X,这台测序仪在一年的时间内能够测得1800个人的基因组序列,据该公司介绍,这将使个人基因组测序成本下探到1000美元以下,而且耗费的人工、仪器 折旧和试剂成本都将大幅度降低。据Illumina公司的市场部高级经理Joel Fellis介绍:“我们看到大规模测序的需求在逐年上升。比如英国就计划到2017年时为全英国10万人进行个人基因组测序。”

 

不 过事情可没有这么简单。任何有计划购买HiSeq X的客户必须一次订购10台以上的设备,而且必须承诺只能将这些设备用于个人基因组测序。美国加州大学圣克鲁兹分校的生物工程师Zak Wescoe表示,这已经超出了绝大部分科研人员能够承受的费用。而且这些设备只有满负荷运转时才能够将个人基因组测序的成本压低到1000美元的水平。 美国华盛顿大学基因组研究院(The Genome Institute at Washington University in St. Louis)的副主席Elaine Mardis也认为,可没有太多地方每年都能够提供1.8万人的个人基因组测序需求,也没有这么大的数据分析能力,所以Mardis这样评价道:“我不知 道有谁会买这些测序仪。”

 

Deanna Church是美国加利福尼亚州门罗公园Personalis公司(Personalis in Menlo Park, California)的基因组学家,他对技术进步带来的成本降低非常欢迎。他说道:“在这块市场中将出现好几个竞争者,总有一些技术会最终胜出。”

 

Broad研究所获得CRISPR/Cas9首个专利权

正在生物体内发挥功能的 CRISPR/Cas9 系统

 

   4月15日,麻省理工学院-哈佛大学博德研究所(Broad Institute of MIT and Harvard)宣布,美国专利局批准了由他们所申请的基于 CRISPR/Cas9 系统的基因编辑技术专利。这是目前世界第一例获得专利保护的基于 CRISPR/Cas9 系统的基因编辑技术。

 

   所谓基因编辑技术,是指对 DNA 核苷酸序列进行删除和插入等操作,换句话说,基因编辑技术使得人们可以依靠自己的意愿改写 DNA 这本由脱氧核苷酸写而成的生命之书。然而长期以来,对 DNA 的编辑只能通过物理和化学诱变、同源重组等方式来对 DNA 进行编辑。然而这些方法要么编辑位置随机,要么需要花费大量人力物力进行操作。因此,能够方便而精确的对 DNA 和核苷酸序列进行编辑,是科研工作者们长期以来的梦想。 CRISPR/Cas9 系统的诞生和成熟标志这这一梦想逐渐变为现实。此外不仅仅在科研界,在诸如医疗、农业、畜牧业等研究中,这一技术也显现除了巨大的应用前景。因此,这一技 术获得专利,是该技术走向应用的里程碑式事件。

 

  从细菌免疫系统到 DNA 编辑工具

 

   CRISPR/Cas9 系统并非天生就是为人类使用而产生的。它的本质其实是细菌中一种对付诸如病毒等外来 DNA 的防御系统。在一些细菌基因组中存在一系列成簇排列的 DNA 序列,被称作“规律间隔成簇短回文重复序列”(Clustered Regularly Interspaced Short Palindromic Repeats,CRISPR)。这些重复序列的间隔序列,被发现和很多能够侵入细菌的噬菌体 DNA 序列相同。进一步研究发现,这些序列在被转录成为 RNA 后,能够和细菌产生的一类称为 Cas 的蛋白质形成复合体,来对 Cas 蛋白起到导向作用,因此这段 RNA 也被称为导向 RNA (guide RNA , gRNA )。当复合体检测到入侵的 DNA 和 gRNA 序列一致时, Cas 蛋白就能够切割入侵的 DNA ,达到防御的目的。

 

  注:严格来说,在细菌体内 gRNA 由两部分组成:一部分为活化 Cas 蛋白所需的tra crRNA ,另一部分为来自于间隔区、识别入侵 DNA 的 crRNA 。在人工构建的 CRISPR/Cas9 系统载体中,这两段 RNA 可融合为一条。

 

   CRISPR- Cas 系统这种序列特异性的 DNA 切割机制很快引起了人们的兴趣。由于这一系统能够切割 DNA ,并且其序列特异性由 crRNA 的序列所决定,因此它成为了 DNA 编辑的理想工具。细菌中的CRISPR- Cas 系统极为多样,而一个来自产脓链球菌(Streptococcus pyogenes)的由 Cas9 蛋白参与的系统被人们研究的最为透彻。因此人们对它进行了改造,将编码 Cas9 蛋白的序列及其附属元件共同制造成为一个单一的载体。同时为了能够让这些组分进入真核细胞的细胞核,还加入了入核信号元件。这样一来,只要科研人员只需针 对需要编辑的 DNA 序列合成一段 DNA 序列,插入这个载体的特定部位。在转入宿主细胞后,产生的人工构建的 gRNA 就能指导 Cas9 蛋白切割宿主细胞特定的 DNA 序列,从而起到基因编辑的作用。

 

  DNA 编辑的广泛前景

 

  CRISPR/Cas9 系统,被称为第三代基因编辑技术。相比于它的两位前辈ZFN系统和TALEN系统,它有着一些无可比拟的优点:

 

   首先, CRISPR/Cas9 系统的可用位置更多。理论上基因组中每8个碱基就能找到一个可以用 CRISPR/Cas9 进行编辑的位置,可以说这一技术能对任一基因进行操作,而TALEN和ZFN系统则在数百甚至上千个碱基中才能找到一个可用位点,这大大限制了使用范围。

 

   其次, CRISPR/Cas9 系统更具有可拓展性,例如可以通过对 Cas9 蛋白的修饰,让它不切断 DNA 双链,而只是切开单链,这样可以大大降低切开双链后带来的非同源末端连接造成的染色体变异风险。此外还可以将 Cas9 蛋白连接其他功能蛋白,来在特定 DNA 序列上研究这些蛋白对细胞的影响。

 

  第三,更为重要的是, CRISPR/Cas9 系统的使用极为方便,只需要简单的几步就能完成,几乎任何实验室都可以开展工作,而不需要向 ZFN 和 TALEN 那样借助商业公司的协助完成。

 

  由于以上特点, CRISPR/Cas9 被评为 2013 年生物学 10 大突破之一。值得说明的是, CRISPR/Cas9 系统在真核细胞中很多重要的研究,都是由华人学者张峰主持完成的。

 

   由于来源于细菌的 CRISPR/Cas9 系统在真核细胞内也能很好的工作,这显示出了其巨大的应用潜力。例如在基础科学研究领域, CRISPR/Cas9 系统最多的是被用来定点敲除一些基因,从而便于研究这些基因的生物学功能。同时 CRISPR/Cas9 系统的商业化应用潜力也不容小视。例如在生物治疗领域,结合诱导多能干细胞(iPS)技术,人们可以将通过基因编辑修复的iPS细胞重新发育为正常组织和 器官来供病人使用。而在家畜育种等工作中,对一些关键性状基因的编辑能够大大加快良种的育种速度。

 

   正是由于 CRISPR/Cas9 的诸多优秀特点和广泛的应用前景,因此它成为了专利申请的热门方面。尽管已经有多份应用CRISPR序列或 Cas 蛋白的技术专利,但这次 Broad 研究所获得批准的是第一份将一整套 CRISPR/Cas9 系统载体和操作方法包括在内的专利。这意味着今后使用这一技术进行基因编辑操作都将涉及这份专利所保护的内容。那么,专利的批准是否会妨碍这一技术的使用 呢?目前来看,基础研究受到影响的可能性不大,因为 Broad 研究院的主任埃里克·兰德(Eric Lander)在专利宣布的新闻稿中表示:“考虑到 Broad 研究所的使命是为了加速我们对于疾病的理解和治疗,因此我们承诺授权给全球的研究团队使用这种技术的权利。”但是,在更有利可图的商业化应用领域,这一专 利的出现是否会对使用该技术的企业造成影响还有待观察,毕竟 Broad 研究所在上述表态之外还有一句:“享有这一专利的限制权”。

 

P-values, False Discovery Rate (FDR) and q-values

What are p-values?

The object of differential 2D expression analysis is to find those spots which show expression difference between groups, thereby signifying that they may be involved in some biological process of interest to the researcher. Due to chance, there will always be some difference in expression between groups. However, it is the size of this difference in comparison to the variance (i.e. the range over which expression values fall) that will tell us if this expression difference is significant or not. Thus, if the difference is large but the variance is also large, then the difference may not be significant. On the other hand, a small difference coupled with a very small variance could be significant. We use the one way Anova test (equivalent t-test for two groups) to formalise this calculation. The tests return a p-value that takes into account the mean difference and the variance and also the sample size. The p-value is a measure of how likely you are to get this spot data if no real difference existed. Therefore, a small p-value indicates that there is a small chance of getting this data if no real difference existed and therefore you decide that the difference in group expression data is significant. By small we usually mean 0.05.

What are q-values, and why are they important?

False positives

A positive is a significant result, i.e. the p-value is less than your cut off value, normally 0.05. A false positive is when you get a significant difference when, in reality, none exists. As I mentioned above, the p-value is the chance that this data could occur given no difference actually exists. So, choosing a cut off of 0.05 means there is a 5% chance that we make the wrong decision.

The multiple testing problem

When we set a p-value threshold of, for example, 0.05, we are saying that there is a 5% chance that the result is a false positive. In other words, although we have found a statistically significant result, in reality, there is no difference in the group means. While 5% is acceptable for one test, if we do lots of tests on the data, then this 5% can result in a large number of false positives. For example, if there are 200 spots on a gel and we apply an ANOVA or t-test to each, then we would expect to get 10 false positives by chance alone. This is known as the multiple testing problem.

Multiple testing and the False Discovery Rate

While there are a number of approaches to overcoming the problems due to multiple testing, they all attempt to assign an adjusted p-value to each test, or similarly, reduce the p-value threshold. Many traditional techniques such as the Bonferroni correction are too conservative in the sense that while they reduce the number of false positives, they also reduce the number of true discoveries. The False Discovery Rate approach is a more recent development. This approach also determines adjusted p-values for each test. However, it controls the number of false discoveries in those tests that result in a discovery (i.e. a significant result). Because of this, it is less conservative that the Bonferroni approach and has greater ability (i.e. power) to find truly significant results.

Another way to look at the difference is that a p-value of 0.05 implies that 5% of all tests will result in false positives. An FDR adjusted p-value (or q-value) of 0.05 implies that 5% of significant tests will result in false positives. The latter is clearly a far smaller quantity.

q-values

q-values are the name given to the adjusted p-values found using an optimised FDR approach. The FDR approach is optimised by using characteristics of the p-value distribution to produce a list of q-values. In what follows I will tie up some ideas and hopefully this will help clarify some of the ideas about p and q values.

It is usual to test many hundreds or thousands of spot variables in a proteomics experiment. Each of these tests will produce a p-value. The p-values take on a value between 0 and 1 and we can create a histogram to get an idea of how the p-values are distributed between 0 and 1. Some typical p-value distributions are shown below. On the x-axis we have histogram bars representing p-values. Each has a width of 0.05 and so in the first bar (red or green) we have those p-values that are between 0 and 0.05. Similarly, the last bar represents those p-values between 0.95 and 1.0, and so on. The height of each bar gives an indication of how many values are in the bar. This is called a density distribution because the area of all the bars always adds up to 1. Although the two distributions appear quite different, you will notice that they flatten off towards the right of the histogram. The red (or green) bar represents the significant values, if you set a p-value threshold of 0.05.

P-value cut off

If there are no significant changes in the experiment, you will expect to see a distribution more like that on the left above while an experiment with significant changes will look more like that on the right. So, even if there are no significant changes in the experiment, we still expect, by chance, to get p-values < 0.05. These are false positives, and shown in red. Even in an experiment with significant changes (in green), we are still unsure if a p-value < 0.05 represents a true discovery or a false positive. Now, the q-value approach tries to find the height where the p-value distribution flattens out and incorporates this height value into the calculation of FDR adjusted p-values. We can see this in the histogram below. This approach helps to establish just how many of the significant values are actually false positives (the red portion of the green bar).

P-value cut off graph

Now, the q-values are simply a set of values that will lie between 0 and 1. Also, if you order the p-values used to calculate the q-values, then the q-values will also be ordered. This can be seen in the following screen shot from Progenesis SameSpots. Notice that q-values can be repeated.

Q-value table screenshot

To interpret the q-values, you need to look at the ordered list of q-values. There are 839 spots in this experiment. If we take spot 52 as an example, we see that it has a p-value of 0.01 and a q-value of 0.0141. Recall that a p-value of 0.01 implies a 1% chance of false positives, and so with 839 spots, we expect between 8 or 9 false positives, on average, i.e. 839*0.01 = 8.39. In this experiment, there are 52 spots with a value of 0.01 or less, and so 8 or 9 of these will be false positives. On the other hand, the q-value is a little greater at 0.0141, which means we should expect 1.41% of all the spots with q-value less than this to be false positives. This is a much better situation. We know that 52 spots have a q-value less than 0.0141 and so we should expect 52*0.0141 = 0.7332 false positives, i.e. less than one false positive. Just to reiterate, false positives according to p-values take all 839 values into account when determining how many false positives we should expect to see while q-values take into account only those tests with q-values less the threshold we choose. Of course, it is not always the case that q-values will result in less false positives, but what we can say is that they give a far more accurate indication of the level of false positives for a given cut-off value.

When doing lots of tests, as in a proteomics experiment, it is more intuitive to interpret p and q values by looking at the entire list of values in this way rather that looking at each one independently. In this way, a threshold of 0.05 has meaning across the entire experiment. When deciding on a cut-off or threshold value, you should do this from the point of view of how many false positives will this result in, rather than just randomly picking a p- or q-value of 0.05 and saying that everything with a value less than this is significant.

ChIPBase超级好用的表观遗传数据库

要研究好lncRNA,miRNA ChIP-Seq数据等等的关联。ChIPBase是个非常好的数据库。它是中大大牛的实验室QuLab做的。里面收集几乎主流的高通量测序数据。看看下图的图示就知道有什么了。

最现实的一个把握:如果您知道转录因子,您想看看它们调控的下游靶基因。这个在UCSC基因组浏览器是不好找的。但是在这里就很容易达成,因为它做了对应。

看看这个好数据库的介绍吧:

microRNAs (miRNAs) and long non-coding RNAs (lncRNAs) and represent two classes of important non-coding RNAs in eukaryotes. Although these non-coding RNAs have been implicated in organismal development and in various human diseases, surprisingly little is known about their transcriptional regulation. Recent advances in chromatin immunoprecipitation with next-generation DNA sequencing (ChIP-Seq) have provided methods of detecting transcription factor binding sites (TFBSs) with unprecedented sensitivity. In this study, we describe ChIPBase (http://deepbase.sysu.edu.cn/chipbase/), a novel database that we have developed to facilitate the comprehensive annotation and discovery of transcription factor binding maps and transcriptional regulatory relationships of miRNAs and lncRNAs from ChIP-Seq data.

 

The current release of ChIPBase includes high-throughput sequencing data that were generated by 543 ChIP-Seq experiments in diverse tissues and cell lines from six organisms. By analysing millions of TFBSs, we identified tens of thousands of TF-lncRNA and TF-miRNA regulatory relationships. Furthermore, we constructed TF->miRNA->mRNAs regulatory networks by integrating CLIP-Seq data and ChIP-Seq data. In addition, we constructed expression profiles of human lncRNAs and mRNAs from RNA-Seq data from 22 normal tissues.

miRNA也会是是“内分泌因子”

今天要谈的文章是《fmbt2 10th intron-hosted miR-466(a/e)-3p are important epigenetic regulators of Nfat5 signaling, osmoregulation and urine concentration in mice》。虽说是发表在小杂志BBA上的。

但是这篇文章的完整性和Fig的装配和制作完全值得我们学习。

——–

早再2008年,中大的某位教授就和我提过,他用miRNA的探针做类式FISH的技术去做细胞切片,来检查miRNA的空间分布的时候,发现是miRNA大多是分布在组织液中,而非细胞中

我们问他,miRNAs会不会成为类式内分泌因子那样的情况。他严谨地回答道,中山二院有个教授在做“血循环miRNAs”,一切要等miRNA这个东西很多人都玩起来,理论才会逐步丰富。

——–

好些年过去了,我一直感觉miRNA在系统调控这块,运动的方式是“基因的水平转移”,调控的方式是“内分泌调控”。

但是声明,这样讲是非常不严谨的。只是给朋友们提供某个研究的思路。

———

看看这篇文章的亮点:

1. miR-466(a/e)-3p以及一大组它们的C2MC近亲miRNAs对渗透胁迫非常敏感;

2. 下丘脑分泌的后叶加压素arginine vasopressin可在肾脏细胞中有效地负调控miR-200b-3p、miR-717、miR-466(a/e)-3p等渗透敏感miRNAs的表达并借此参与Nfat5信号转导和细胞渗透应激调控;

3. miR-466a-3p在转基因小鼠中的长时间过表达诱发了Nfat5信号转导的异常调控、水盐离子稳态失调、肾脏损伤以及类似于人类尿崩症的表现型。

 

这些结果充分确立了渗透敏感miRNAs在肾脏应激调控中的关键作用。由于细胞应激反应有很多的共性,上述渗透敏感miRNAs可望在其他类型的细胞应激和稳态调控中有重要的贡献。

———-

这篇文章提及的是isomiRNAs,但是细胞生理的功能的论证已经很清楚了。但是isomiRNA从哪里来的?miRNA背负调控后,是出游离出机体还是其他方式?这些我们都可以向某个方向想象。