人类基因组计划的任务是哪几种图谱 急!!!
一、人类基因组计划的任务是哪几种图谱 急!!!
1、遗传图谱(genetic map)
又称连锁图谱(linkage map),它是以具有遗传多态性(在一个遗传位点上具有一个以上的等位基因,在群体中的出现频率皆高于1%)的遗传标记为“路标”,以遗传学距离(在减数分裂事件中两个位点之间进行交换、重组的百分率,1%的重组率称为1cM)为图距的基因组图。遗传图谱的建立为基因识别和完成基因定位创造了条件。意义:6000多个遗传标记已经能够把人的基因组分成6000多个区域,使得连锁分析法可以找到某一致病的或表现型的基因与某一标记邻近(紧密连锁)的证据,这样可把这一基因定位于这一已知区域,再对基因进行分离和研究。对于疾病而言,找基因和分析基因是个关键。
第1代标记
经典的遗传标记,例如ABO血型位点标记,HLA位点标记。70年中后期,限制性片段长度多态性(RFLP),位点数目大与105,用限制性内切酶特异性切割DNA链,由于DNA的一个“点”上的变异所造成的能切与不能切两种状况,可产生不同长度的片段(等位片段),可用凝胶电泳显示多态性,从片段多态性的信息与疾病表型间的关系进行连锁分析,找到致病基因。如Huntington症。但每次酶切2-3个片段,信息量有限。
第2代标记
1985年,小卫星中心(minisatellite core)、可变串联重复VNTR(variable number of tandem repeats)可提供不同长度的片段,其重复单位长度为6至12个核苷酸,1989年微卫星标记(microsatellite marker)系统被发现和建立,重复单位长度为2~6个核苷酸,又称简短串联重复(STR)。
第3代标记
1996年MIT的Lander ES又提出了SNP(single nucleotide polymorphysm)的遗传标记系统。对每一核苷酸突变率为10-9,双等位型标记,在人类基因组中可达到300万个,平均约每1250个碱基对就会有一个。3~4个相邻的标记构成的单倍型(haplotype)就可有8~16种。
2、物理图谱(physical map)
物理图谱是指有关构成基因组的全部基因的排列和间距的信息,它是通过对构成基因组的DNA分子进行测定而绘制的。绘制物理图谱的目的是把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列出来。DNA物理图谱是指DNA链的限制性酶切片段的排列顺序,即酶切片段在DNA链上的定位。因限制性内切酶在DNA链上的切口是以特异序列为基础的,核苷酸序列不同的DNA,经酶切后就会产生不同长度的DNA片段,由此而构成独特的酶切图谱。因此,DNA物理图谱是DNA分子结构的特征之一。DNA是很大的分子,由限制酶产生的用于测序反应的DNA片段只是其中的极小部分,这些片段在DNA链中所处的位置关系是应该首先解决的问题,故DNA物理图谱是顺序测定的基础,也可理解为指导DNA测序的蓝图。广义地说,DNA测序从物理图谱制作开始,它是测序工作的第一步。制作DNA物理图谱的方法有多种,这里选择一种常用的简便方法——标记片段的部分酶解法,来说明图谱制作原理。
用部分酶解法测定DNA物理图谱包括二个基本步骤:
(1)完全降解
选择合适的限制性内切酶将待测DNA链(已经标记放射性同位素)完全降解,降解产物经凝胶电泳分离后进行自显影,获得的图谱即为组成该DNA链的酶切片段的数目和大小。
(2)部分降解
以末端标记使待测DNA的一条链带上示踪同位素,然后用上述相同酶部分降解该DNA链,即通过控制反应条件使DNA链上该酶的切口随机断裂,而避免所有切口断裂的完全降解发生。部分酶解产物同样进行电泳分离及自显影。比较上述二步的自显影图谱,根据片段大小及彼此间的差异即可排出酶切片段在DNA链上的位置。下面是测定某组蛋白基因DNA物理图谱的详细说明。
完整的物理图谱应包括人类基因组的不同载体DNA克隆片段重叠群图,大片段限制性内切酶切点图,DNA片段或一特异DNA序列(STS)的路标图,以及基因组中广泛存在的特征型序列(如CpG序列、Alu序列,isochore)等的标记图,人类基因组的细胞遗传学图(即染色体的区、带、亚带,或以染色体长度的百分率定标记),最终在分子水平上与序列图的统一。
基本原理是把庞大的无从下手的DNA先“敲碎”,再拼接。以Mb、kb、bp作为图距,以DNA探针的STS(sequence tags site)序列为路标。1998年完成了具有52,000个序列标签位点(STS),并覆盖人类基因组大部分区域的连续克隆系的物理图谱。构建物理图的一个主要内容是把含有STS对应序列的DNA的克隆片段连接成相互重叠的“片段重叠群(contig)”。用“酵母人工染色体(YAC)作为载体的载有人DNA片段的文库已包含了构建总体覆盖率为100%、具有高度代表性的片段重叠群”,近几年来又发展了可靠性更高的BAC、PAC库或cosmid库等。
3、序列图谱
随着遗传图谱和物理图谱的完成,测序就成为重中之重的工作。DNA序列分析技术是一个包括制备DNA片段化及碱基分析、DNA信息翻译的多阶段的过程。通过测序得到基因组的序列图谱。
大规模测序基本策略
逐个克隆法
对连续克隆系中排定的BAC克隆逐个进行亚克隆测序并进行组装(公共领域测序计划)。
全基因组鸟枪法
在一定作图信息基础上,绕过大片段连续克隆系的构建而直接将基因组分解成小片段随机测序,利用超级计算机进行组装(美国Celera公司)。
基因图谱
4、基因图谱
基因图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。在人类基因组中鉴别出占具2%~5%长度的全部基因的位置、结构与功能,最主要的方法是通过基因的表达产物mRNA反追到染色体的位置。
原理
所有生物性状和疾病都是由结构或功能蛋白质决定的,而已知的所有蛋白质都是由mRNA编码的,这样可以把mRNA通过反转录酶合成cDNA或称作EST的部分的cDNA片段,也可根据mRNA的信息人工合成cDNA或cDNA片段,然后,再用这种稳定的cDNA或EST作为“探针”进行分子杂交,鉴别出与转录有关的基因。用PolyA互补的寡聚T或克隆载体的相关序列作为引物对mRNA双端尾侧的几百个bp进行测序得到EST(表达序列标签)。2000年6月,EMBL中EST数量已有4,229,786。[4]
基因图谱的意义
在于它能有效地反应在正常或受控条件中表达的全基因的时空图。通过这张图可以了解某一基因在不同时间不同组织、不同水平的表达;也可以了解一种组织中不同时间、不同基因中不同水平的表达,还可以了解某一特定时间、不同组织中的不同基因不同水平的表达。
人类基因组是一个国际合作项目:表征人类基因组,选择的模式生物的DNA测序和作图,发展基因组研究的新技术,完善人类基因组研究涉及的伦理、法律和社会问题,培训能利用HGP发展起来的这些技术和资源进行生物学研究的科学家,促进人类健康。
二、人类基因组图谱的解析
参加绘制人类基因组图谱的美、英、日、法、德、中6国科学家2月12日公布了更加准确、清晰、完整的人类基因组图谱。这是在去年完成“工作框架图”的基础上,经过整理、分类和排列后得到的。明天,国际权威科学刊物《自然》将以60多页的篇幅刊登题为《人类基因组的初步测定和分析》的学术论文,对图谱绘制中的许多发现和数据进行介绍。这是人类首次全面介绍人类基因组工作框架图的“基本信息”。据悉,《自然》杂志网站已提前发布论文。同一期杂志还将发表多篇相关论文,涉及人类基因组图谱的绘制方法、染色体端粒图谱、Y染色体图谱、生殖细胞形成过程中染色体交换基因序列的方式、人体单核苷多态性数据等,公众可以在互联网上免费取阅有关原始数据。
基因研究起源于孟德尔遗传规律的发现
20世纪初孟德尔遗传规律的重新发现,激发了人类探索遗传信息的价值及内涵的兴趣。在过去的一百年中,这些探索极大地推动了生物学的发展。科学家将这些进步分为四个阶段:
第一阶段是遗传的细胞基础——染色体的发现。第二阶段是遗传的分子基础——DNA双螺旋结构的提出。第三阶段是遗传的信息基础的提出。科学家发现了细胞读取基因中信息的机制,借助重组DNA技术,可以同样读取基因中的信息。第四阶段是测定一个基因乃至整个基因组。这一努力已取得丰硕的成果。到目前为止已经测定了599种病毒与类病毒,205种自然存在的质粒,185种细胞器,31种真细胞,7种古细菌,一种真菌,两种动物与一种植物。二十世纪八十年代早期,对人类基因组计划就形成了两个重要共识:全面认识基因组可以极大地加速生物医学研究,可以使研究人员全面地、没有偏差地解决问题。1990年美国能源部与国立卫生院启动这一计划,英国、法国、日本也建立基因组中心开展研究。九十年代后期,人类基因组计划加速,德国和中国相继加入这一计划。中国是1999年9月加入这一国际协作组,负责测定人类基因组全部序列的1%,成为参与这一计划的惟一发展中国家。人类基因竟然与老鼠蝇虫有许多相似之处
科研人员曾经预测人类约有14万个基因,但新的研究却将人类基因总数锁定在2.6383万到3.9114万个之间。也就是说,人类蛋白编码基因总数只是线虫和果蝇基因数目的两倍,只是基因更复杂些。人类蛋白质有61%与果蝇同源,43%与线虫同源,46%与酵母同源。人类17号染色体上的全部基因几乎都可以在小鼠11号染色体上找到。数百个基因可能是由细菌在脊椎动物进化的某个环节水平转移而来的。在人类基因组上大约1/4的区域是长长的、没有基因的片段。基因密度在第17、第19和第22号染色体上最高,在X染色体、第4、第18号和Y染色体上相对贫瘠。另有35.3%的基因组包含重复的序列,第19号染色体57%是重复的。染色体中心粒旁与端粒附近区域存在大量的近期片断性重复。男性减数分裂的突变率是女性的两倍,染色体的远端及短臂重组率较高。研究还发现,地球上人与人之间99.99%的基因密码是相同的。来自不同人种的人比来自同一人种的人在基因上更为相似。在整个基因组序列中,人与人之间的变异仅为万分之一。过去10年来,科学家们已绘制出40余种物种的基因组图谱。人类基因组是第一个精确测定的脊椎动物的基因组,也是目前为止测定的最大基因组。比以前测定的任何一种生物的基因组都大25倍以上,是以前测定所有基因组总和的8倍。这是人类自身的基因组信息。
绘制生物医学研究的元素周期表
基因只占人类DNA的很小一部分,但却代表着人类基因组的主要生物学功能。绘制人类基因组图谱最终的目标是编译出全部人类基因及其编码的蛋白清单,使之成为生物医学研究的元素周期表。基因可以分为编码RNA的基因以及蛋白编码基因,工作框架图是确定人类基因组中心蛋白编码基因。人类基因组计划为医学进步带来空前机遇,对医学将产生不可估量的、深远的影响,将导致疾病的分子机制的阐明,进而根据这些机制,设计出诊断与治疗的方法。人类基因组图谱最重要的应用之一,就是将许多生物化学功能未知的疾病基因定位。人体23对染色体由约30亿个碱基对组成,包含数万个基因。找出30亿个碱基对在DNA链上的准确位置,进而识别分析出各种基因及其功能,将使人类最终征服癌症、心脏病、阿尔茨海默氏症等多种顽疾。目前科学家通过克隆的方法,至少定位了30种疾病基因,利用基因组的数据,一些常见的染色体缺失综合症的机制将得以揭示。随着下一步对人体各种致病基因展开全面大搜索,以及对各种基因功能及基因之间相互作用了解的加深,科学家们将在分子水平上深入了解疾病的根本发病机理,将为各种疾病的诊断、防治和新药的开发提供有力武器。了解全部人类的基因与蛋白还可为寻找合适的药物靶点提供便利。此外,人类基因组计划的推进,将会促进生命科学与信息科学、材料科学等相结合,带动一批新兴高技术产业的发展。
树起探索生命奥秘的新里程碑
人类基因组工作框架图是一个动态的产品,数据每天都在更新,终极目标是绘制完成图。国际协作组将人类基因组计划分为两个阶段,第一阶段是在2000年6月完成的“工作框架图”;第二阶段目前正在进行,即在2001年绘制出人类基因组的完成图。这一任务进展迅速,人类基因组大约有32亿碱基,已经有10亿碱基的序列达到了完成图标准。尽管要绘制完成图还有很多工作要做,但这些信息已经可以使人们对人类基因组有一个总体的认识。人类基因组图谱初步分析结果是人类探索生命奥秘这一伟大工程的新里程碑,为本世纪人们全面了解这些信息的奥秘奠定了基础。中国科学院院士、我国“863”计划生物技术领域首席科学家强伯勤教授认为,这“说明生命科学已经发展到了更深的阶段,它将推动基因组测序工作、功能基因的研究和基因技术的应用,从而推动整个生物技术的发展,也将对科技发展、经济发展以及整个社会产生深远影响。”据预测,在未来10至20年里,科学家还将解读大量生物的遗传密码,与此同时,还要完善全部人类基因与蛋白质的清单,对调控区域进行大规模的研究与分析等,基因组研究重点将进入确定基因结构与功能等应用研究阶段,生命科学因此将迎来新的大发展。
三、人类基因组图谱的介绍
由美国国立人类基因组研究所(nhgri)和能源部(doe)领导的ihgsc不久前宣布,人类基因组测序工作已圆满完成,其发表在2004年10月21日nature(2004,431:931)上的分析
报告对2001年2月发表的初步分析报告进行了补充。这篇最新分析报告不但为世人展现了一张精度大于99%、误差小于10万分之一的精确版人类基因组图谱,而且还进一步纠正了蛋白编码基因的数量,仅为2万~2.5万个,而非原先估计的3万~3.5万个。新基因组图谱准确率达99.999%
旨在破译人类基因组常染色质遗传密码的人类基因组计划(hgp)自1990年启动至2003年结束,历时共13年,该计划由ihgsc来完成。ihgsc是由法国、德国、日本、中国、英国和美国等6个国家20个研究所的科学家组成的开放性国际协作组织,全球2800余名科学家参加了ihgsc的工作。
2001年2月,ihgsc宣布,人类基因组草图已经完成。以今天的眼光来看,草图显然存在很多重要的不足,例如,仅测出了约90%的常染色质基因组序列,而且序列之间存在147821个未检测出的空缺等等。
在2001-2003年之间,ihgsc的不懈努力终于将此草图转化为今天这张既高度精确又相当完整的人类基因组图。此外,在这段时间内,还陆续发表了关于第2、6、7、9、10、13、14、19、20、21、22号染色体和y染色体的详细评注和分析,其余12条染色体的资料不久也将发表。
现在的基因组序列(buiid35)共包含28.5亿个核苷酸,它近乎完整,涵盖了99%以上的常染色质基因组序列;准确率为99.999%,也就是说误差率只有1个碱基/10万个碱基对,比最初制订的目标精确了10倍。
序列的连续性亦获得了显著改善,常染色质基因组序列中仅存在341个空缺。现在,平均每一段连续序列含有3850万个碱基对,约比2001年版草图的81500个碱基对长475倍。这些没有中断的已知序列可以在很大程度上帮助科学家寻找目标基因及其邻近的调节目标基因活性的序列,并显著减少他们寻找疾病相关性短而少见的序列的工作量和费用。在剩余的341个空缺中,很多与片段的重复(segmentalduplications)相关,需要采用新的方法才能将其填满。
ihgsc所完成的测序工作不仅完整而且精确,足以进行一些对敏感性要求较高的科学分析,例如基因数目的研究,疾病相关性重复片段的研究,以及进化过程中基因“生”或“死”
的研究。该基因组序列的资料已于2003年4月被载入免费公用数据库。“完成”并非意味着现在的人类基因组图就是完美无缺的。虽然与2001版草图相比,空缺已经从近15万个减少至341个,但是人类基因组序列的这些顽固空缺已很难用现有的技术来填补。填补这些空隙需要做进一步的研究,并需要采用新的技术。
美国马萨诸塞州麻省理工学院和哈佛大学broad研究所所长lander说:“已完成的人类基因组序列在准确率、完整性和连续性方面远远超过了我们的预期目标。它反映出全球数百名科学家为了一个共同目标——为21世纪的生物医学奠定扎实的基础——而进行大协作的奉献精神。”
仅有2万~2.5万个蛋白编码基因
ihgsc最新分析所得出的最出人意料的结果就是,人类基因组只含有2万~2.5万个蛋白编码基因。
nhgri所长collins说:“仅仅在10年以前,大多数科学家还认为,人类基因组大约含有10万个蛋白编码基因。3年前,当我们对人类基因组序列草图进行分析时,我们估计人类约有3万~3.5万个蛋白编码基因,这在当时已经使很多人感到震惊。而刚刚结束的分析结果发现人类的蛋白编码基因数比预计的还要少得多,这使我们对人类基因组的真实情况有了更准确的了解。全世界的科学家都可以从免费公用数据库中获得该高度精确的人类基因组序列,这就使他们有可能对人类遗传学及其影响人类健康和疾病的机制进行更精确的研究。”
人类基因组分析的主要目的之一就是确定人类的全部基因。基因是编码特定蛋白质的一段dna序列,是遗传的基本功能单位。目前的研究结果显示,人类基因组有19599个已经获得确定的蛋白编码基因,另外还有2188段可能为蛋白编码基因的dna序列。
英国wellcometrustanger研究所rogers说:“由于2001年版人类基因组草图不够完善,因此导致了一些早期基因模型是错误的。基因鉴定仍是一项艰巨的任务。除了其他生物的基因组序列、更好的计算机化模型和其他手段的改进外,人类基因组测序工作的完成必将为基因鉴定工作提供极大的帮助。”
人类基因重复片段高达5.3%
科学家们认为,已完成的人类基因组序列不但确定了更为确切的人类基因数量,而且与2001版基因组序列草图相比,质量也有显著的提高,并且使人们对某些现象有了征(胸腺发育不良)。美国圣路易斯市华盛顿大学基因组测序中心前主任、西雅图市华盛顿大学基因组系主任waterston说:“以前只有基因组序列草图的时候,要对重复片段进行研究几乎是不可能的。通过全世界科学家坚持不懈的努力,现在我们已经可以对人类基因组中这一重要而快速进化的部分进行研究了。”
重复片段覆盖了5.3%的人类基因组,显著多于大鼠的基因组(约为3%)或小鼠的基因组(在1%~2%之间)。重复片段为人们开启了一个了解人类基因组是如何进化的以及人类基因组目前正在经历什么样的变化的窗口。人类基因组如此高的重复片段百分比表明,在最近4000万年内,人类的遗传物质经历了快速的功能变革和结构改变。这大概就是人类具有独特的特征,从而有别于其非人类灵长类动物祖先的原因。
ihgsc在分析中发现,重复片段在不同的人类染色体之间的分布差异很大。y染色体就是一个最极端的例子,其重复片段占总长度的25%以上。有些重复片段往往群集于每
条染色体的中部(着丝粒)或末端(端粒)附近。科学家们推测,基因组可能将着丝粒和端粒处的重复片段用作一个进化实验室,来生成具有新功能的基因。揭示基因的“生”与“死”
已完成的人类基因组序列准确度很高,这使科学家有可能了解在人类进化过程中基因的“生”和“死”。科学家在人类基因组中发现了1000多个新基因,这些基因是大约7500万年前人类与啮齿类动物向不同方向进化以后产生的。这些基因多数是最近通过基因重复产生的,与免疫、嗅觉和生殖功能有关,例如,人类基因组中最近重复的两个基因家族分别编码两组蛋白质,妊娠特异性β1糖蛋白和绒毛膜促性腺激素β蛋白,这两组蛋白质可能与人类独特的较长的妊娠期相关。
此外,科学家们还利用已完成的人类基因组序列发现并鉴定了33个几乎没什么变化的基因,但是由于它们在近期发生了1个或1个以上突变而导致了其功能丧失(或称为“死亡”)。科学家通过将这些基因与大鼠和小鼠基因组中的对应基因(鼠类中这些对应基因的功能仍保持)进行对照比较后,确定了这些无功能基因(又称为假基因)在人类基因组的确切位置。有趣的是,科学家们还发现,上述33个假基因中的10个似乎与编码嗅觉感受器的蛋白相关,这就有助于解释为什么人类的功能性嗅觉感受器较少,从而导致了人类的嗅觉比啮齿类动物差。axel和buck不久前就因在嗅觉分子生物学方面所做出的杰出贡献而获得了2004年诺贝尔生理学或医学奖。
然后,科学家将这33个假基因和黑猩猩的基因组序列草图进行了对照比较,以确定这些基因在大约500万年前类人猿进化为人类前是否还是有功能的。分析结果显示,33个假基因中的27个在人类中和在黑猩猩中均无功能,但有5个假基因虽在人类中无功能,但在黑猩猩中还是有功能的。美国休斯顿baylor医学院人类基因组测序中心主任gibbs说:“对这些人类基因组中的假基因以及黑猩猩基因组中仍有功能的对应基因的确定,为将来的研究项目打下了坚实的基础。”gibbs等目前正在进行另一种非人类灵长类动物——恒河猴基因组的测序工作。
四、人类基因图是哪几个国
人类基因组图谱共有6个国家参与:
2001年2月12日,由美、英、法、德、日和中国6国的科学家共同参与的国际人类基因组公布了人类基因组图谱及初步分析结果。
这个被誉为生命科学“登月计划”的研究项目取得重大进展,为人类揭开自身奥秘奠定了坚实的基础。
2003年4月15日,在DNA双螺旋结构模型发表50周年前夕,六国科学家联合宣布:人类基因组序列图完成。