|
HapMap是人类基因组中常见遗传多态位点的目录,它描述了这些变异的形式、在DNA上存在的位置、在同一群体内部和不同人群间的分布状况。HapMap计划并不是利用HapMap中的信息来建立特定的遗传变异与某一疾病之间的联系,而是为其他研究者提供相关信息使之能够将遗传多态位点和特定疾病风险联系起来,从而为预防、诊断和治疗疾病提供新的方法。
 |
|
图1:当比较两个随机个体的7号染色体上的一段DNA序列时,在2200个核甘酸中出现两个单核甘酸多态位点(SNPs)。
|
我们细胞中的DNA是由四种基本化学“构件”——腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)和鸟嘌呤(G)所组成的长链。人类细胞中的23对染色体就是由多于60亿个这种化学单位排列而成。(见“http://www.dnaftb.org/dnaftb/上的遗传学基本知识”)。这些遗传序列包含的信息可以影响我们的身体性状、罹患疾病的可能性以及身体对遇到的外界物质的反应。
不同人的遗传序列极为相似。若比较两个人的染色体,他们的DNA序列上可以连续数百个核甘酸都是相同的。然而,平均约每1200个碱基就会有一个核甘酸的不同(图1)。在一个位点上某人是A,另一个人却有可能是G;或者某人在特定的位点上多出或者缺失一些碱基或DNA片段。染色体上每一个不同的“拼写”被称作一个等位位点(allele),一个人染色体上的所有等位位点的集合就是基因型。
不同个体的碱基的差别是目前最常见的遗传多态现象,这些遗传上的差别称为单核苷酸多态性或SNPs(发音为“snips”)。国际人类基因组单体型图计划通过识别在人类基因组中常见的大约一千万个SNPs的大多数,来确定人类的大部分遗传多样性的分子基础。
对遗传学家来说,SNPs也是进行基因定位的分子标记。比如说基因上一个拼写的改变会增加罹患高血压的风险,但是研究者们并不知道这个基因在染色体上的位置。他们可以比较高血压患者和正常人的SNPs。如果某一个SNP在高血压患者中很常见,就可以把这个SNP作为标记来定位和识别与这一疾病相关的基因。
然而,检测人类染色体上所有的一千万个常见SNPs的费用极其昂贵。HapMap的构建将使得遗传学家可以利用SNPs及其它遗传上的变异在染色体上的组成特点。一些相互邻近的多态位点趋向于在一起共同遗传。例如,对于所有那些在某一位点是A而不是G的人来说,该位点周围染色体区域上的SNPs状况很可能是一致的。这些变异连锁的区域就是单体型(图2)。
在人类染色体的很多区域中,只发现了少数的几种单体型 [见“单体型的起源”]。在一个特定人群中,55%的人可能拥有同一种单体型,30%的人可能拥有另一种单体型,8%的人可能拥有第三种单体型,而其余的人可能拥有若干种稀有的单体型。HapMap计划将鉴定来自世界不同地区的四个群体的常见单体型,以及特异识别这些单体型的标签SNPs。通过检测个体的标签SNPs(该过程称为基因分型),研究者就可以鉴定一个人的单体型的集合。估计包含了大多数遗传变异的模式信息的标签SNPs的数量大约是30万至60万,远远少于一千万个常见SNPs。
一旦从HapMap中获得标签SNPs的信息,研究者将能利用它们来定位与重要医学特征相关的基因。假设研究者想要找到与高血压相关的遗传变异,他并不需要确定一个人的所有SNPs的类型,而只须对少得多的标签SNPs进行基因分型就可以得到一个人的单体型的集合。研究者可以集中研究可能与疾病相关的特定候选基因,也可以纵观整个基因组来找到与疾病相关联的染色体区域。如果高血压患者都倾向于具有一个特别的单体型,与该疾病相关的变异位点很可能就在这个单体型内部或邻近区域。
|