科学家展示了将基因组与健康组织 疾病联系起来的途径
我们的基因组有助于确定我们是谁 - 编码整个身体组织和功能的复杂性的个体之间的无数变化。自15年前科学家首次解读人类基因组草案以来,很多问题都在徘徊,其中两个问题已在普林斯顿大学计算机科学家共同领导的一项重大新研究中得到解决:尽管有复杂性,数十亿比特的遗传信息及其在人与人之间的差异,为健康的身体如何发挥作用制定机制模型?此外,这个模型可以用来了解某些疾病是如何出现的吗?
10月11日,科学家们最接近答应“是”。一个由基因型 - 组织表达(GTEx)联盟组成的国际研究人员联合会发表了关于遗传变异如何影响44种人体组织类型基因调控的研究结果。在“自然”杂志上报道,这些数据有助于建立对维持人体组织遗传角色多样性的基线理解。研究人员表示,这项工作表明,事实上,多组织,多个体数据可用于鉴定基因调控的机制,并有助于研究复杂疾病的遗传基础。
导致这些发现的研究是更好地理解基因调控和表达的更大努力的一部分,由GTEx Consortium执行,GTEx联盟是由美国国立卫生研究院资助的小组,其成员包括来自2010年成立的约80所机构的研究人员。
“最终目标是了解多种组织类型中的基因表达和基因调控,”普林斯顿大学计算机科学系助理教授芭芭拉·恩格尔哈特说,他是该论文的四个相应作者之一,也是一个GTEx首席调查员。“这对于理解调节异常可能导致疾病至关重要。”
例如,科学家们才刚刚开始揭示我们22,000个基因中的遗传变异 - 以及基因组中的“非编码”区域 - 如何帮助塑造复杂的特征,从一个人的身高到他或她是否患有自闭症。此外,科学家们试图了解多种基因与环境之间的相互作用。遗传变异如何导致精神分裂症和帕金森病等疾病,同样的未知因素也是如此。
首先要区分这些复杂性需要表征健康组织的功能,这反过来又需要组织样本。为了获得这些样本,GTEx研究人员要求家人同意在捐献者死后立即收集多达50种不同组织的小块。样本范围从各种器官和血液,并包括十个脑子区域。这项工作代表了449个捐助者的数据。
“这些类型的组织难以从健康的活体捐献者中获得,”Engelhardt说。“我们非常感谢捐赠者,我们将这些样本作为一种资源。我们现在可以通过观察导致疾病风险较高的基因型对疾病特异性基因表达水平的影响来解释观察到的基因型与疾病之间的关系。组织,包括大脑。“
虽然该研究仍在进行中,但这项最新研究代表了迄今为止最大的分析,包括7,000多种组织样本。Engelhardt的小组负责绘制不同染色体上遗传变异和基因表达水平之间的关联,这种联系被称为“反式表达数量性状基因座(trans-eQTLS)”。相比之下,cis-eQTLs(占影响基因表达的大多数遗传变异)调节位于同一染色体附近的基因。Engelhardt说,特别是Trans-eQTL因其生物学和统计学上的复杂性而特别难以鉴定,但它们可能比cis-eQTL更全面地解释复杂性状。
Engelhardt和她的小组在该研究中的作用包括绘制和解释他们在组织样本中发现的trans-eQTL。在清除由于可能使研究结果混淆的技术伪影而导致的方差样本后,他们针对基因组中的每个突变进行了3.5万亿次统计检验,与44种组织中每种基因的表达基因相比。他们使用额外的统计技术来纠正数据中的误报,这使他们得到了数百个trans-eQTL。在该研究中,他们还证实,顺式eQTL形式的附近遗传变异影响了样本中约50%基因的表达。然而,这项工作表明,如果将来添加更多样品,这个数字将攀升至接近100%。
“GTEx联盟产生的广泛目录使我们更接近解码基因组的监管规范,”芝加哥大学的遗传学家Yoav Gilad说,他没有参与这项研究,但他是一名科学评论员。 。“遗传变异对基因表达的影响逐渐变得更加清晰。”
在该研究中揭示的一个特别感兴趣的trans-eQTL变异是已知会增加甲状腺癌风险的突变。它位于甲状腺特异性转录因子旁边,这是一种调节甲状腺中基因表达率的蛋白质。在研究之前,甲状腺特异性转录因子(称为FOXE1)对基因转录水平的广泛影响尚未得到很好的表征。研究人员能够通过比较GTEx中的健康甲状腺组织与癌症基因组图谱编制的500个甲状腺肿瘤样本,并支持FOXE1对细胞状态的广泛影响来复制这一发现。
根据这些发现,“我们可以开始考虑如何针对特定基因制定治疗甲状腺癌的方法,”Engelhardt说。“许多甲状腺疾病会受到改变甲状腺特异性转录因子表达水平的影响,因此我们希望在未来的工作中更仔细地研究FOXE1。”
虽然这项研究为理解eQTL如何影响基因调控和表达提供了强有力的开端,但Engelhardt指出,她和她的同事仍然没有足够的样本来深入了解trans-eQTL。GTEx联盟目前正在开展一项分析,其中包括的样本数量几乎是当前研究的三倍。此外,他们希望尽快将项目扩展到新的,代表性不足的人群,并以现有的努力为基础。
“这个数据集的价值在于理解和解释全基因组研究的结果,”Engelhardt说。“它在了解遗传性疾病方面已经非常有效,并且希望作为一种资源,它可以通过更多的样本和更好的分析来持续改进。”