450 likes | 630 Views
第八章 基因组与比较基因组学. 1. 人类基因组计划 2. DNA 的鸟枪法序列分析技术 3. 比较基因组学和功能基因组学的研究. 什么是基因组. 基因组学这一名词是美国人 T·H·Rodehck 在 1986 年 7 月造出来的,与一个新的杂志- genomics 一道问世。基因组学完全改变只能研究单个基因的状况,它着眼于研究并解析生物体整个基因组的所有遗传信息。 基因组是生物体内遗传信息的集合,是某个特定物种细胞内全部 DNA 分子的总和(细胞内细胞器的 DNA 属于该细胞器的基因组)。.
E N D
第八章 基因组与比较基因组学 1. 人类基因组计划 2. DNA的鸟枪法序列分析技术 3. 比较基因组学和功能基因组学的研究
什么是基因组 • 基因组学这一名词是美国人T·H·Rodehck在1986年7月造出来的,与一个新的杂志- genomics一道问世。基因组学完全改变只能研究单个基因的状况,它着眼于研究并解析生物体整个基因组的所有遗传信息。基因组是生物体内遗传信息的集合,是某个特定物种细胞内全部DNA分子的总和(细胞内细胞器的DNA属于该细胞器的基因组)。
1、原核生物基因组:原核生物DNA分布在整个细胞之中,有时相对集中在类核体上。类核体上的DNA是一条共价、闭合双链分子,类核体通常也称为染色体。1、原核生物基因组:原核生物DNA分布在整个细胞之中,有时相对集中在类核体上。类核体上的DNA是一条共价、闭合双链分子,类核体通常也称为染色体。 • 原核生物中一般只有一条染色体。原核细胞都是单倍的。 这条染色体的DNA就是原核细胞的基因组。
2、真核生物基因组 • 一个物种的单倍体的各条染色体中的全部DNA为该物种的基因组(genome)。例如,人有23对染色体,配子--单倍体是23条染色体,这23条染色体中的全部DNA就是人体基因组。 • 真核生物基因组的主要成分被核膜所包裹,与细胞质分开。
人类基因组计划 • 2003年4月14日,国际人类基因组宣布:人类基因组序列图--“完成图”提前绘制成功。 • 人类基因组包括24条染色体,约30亿对核苷酸,编码5万~6万个基因,人类基因组中携带了有关人类个体生长发育、生老病死的全部遗传信息。 • 从整体上看,不同人类个体的基因是相同的, “人类只有一个基因组” 。 • 不同的人可能拥有不同的等位基因,这一点决定了人们个体上的差异。
与人类登月计划相比,HGP的资金投入少,但它对人类生活的影响都可能更深远。随着这个计划的完成,DNA分子中储藏约有关人类生存和繁衍的全部遗传信息将被破译,它将帮助我们理解人类如何作为健康人发挥正常生理功能,还将最终揭示严重危害人类健康疾病的机理。与人类登月计划相比,HGP的资金投入少,但它对人类生活的影响都可能更深远。随着这个计划的完成,DNA分子中储藏约有关人类生存和繁衍的全部遗传信息将被破译,它将帮助我们理解人类如何作为健康人发挥正常生理功能,还将最终揭示严重危害人类健康疾病的机理。
物理图 • 思考题:1、在长为30亿对bp的人类基因组测序过程中怎样入手?2、测序是几百到几千对bp一段一段进行的,没有一定的标记是否会产生混乱? • 物理图可以从带有标签的一段一段的DNA连接成为大段的DNA,最终可以完成整个序列图。
人类基因组的物理图是指以已知核苷酸序列的DNA片段(序列标签位点,sequence-tagged site, STS)为“路标”,以碱基对(bp,kb,Mb)作为基本测量单位(图距)的基因组图。 • STS是基因组中任何单拷贝的长度在100~500bp之间的DNA序列,与核酸内切酶识别序列相关联。 • 得到5套以上包含相关染色体或整个基因组的DNA片段是建立STS物理图的先决条件。然后,可以通过拼接而得STS物理图。
两个STS标签在基因组上靠得近,它们就会一直同时出现在DNA大片段上;两个STS标签在基因组上相距较远,它们同时出现在一个DNA大片段上的几率就会小得多。两个STS标签在基因组上靠得近,它们就会一直同时出现在DNA大片段上;两个STS标签在基因组上相距较远,它们同时出现在一个DNA大片段上的几率就会小得多。 • 物理图的主要内容是建立相互重叠连接的"相连DNA片段群“ • 只要有一定数量的STS标签,所有DNA大片段在该染色体或基因组中的位置都能被确定。
遗传图 • 遗传图(连锁图)→DNA标志在染色体上的相对位置(遗传距离),遗传距离以DNA片段在染色体交换过程中的分离频率厘摩(cM)来表示。cM值越大,两者之间距离越远。 • 通过遗传图分析,可以了解各个基因或DNA片段之间的相对距离。
连锁分析是通过分析同一遗传位点在不同个体中等位基因的不同(多态性)来研究同一染色体上两个位点之间的相互关系。连锁分析是通过分析同一遗传位点在不同个体中等位基因的不同(多态性)来研究同一染色体上两个位点之间的相互关系。 • 在产生配子的减数分裂过程中,亲代同“号”的父源或母源染色体既能相互配对也可能发生片段互换。 • 父母源染色体等位基因互换导致子代出现DNA“重组”的频率与这两个位点之间的距离呈正相关。用两个位点之间的交换或重组频率来表示其“遗传学距离”,即交换频率越高遗传学距离越远。
交换频率不会大于50%,因为当重组率等于50%(即遗传学距离等于50cM)时,即发生随机交换,则两个位点之间完全不连锁。交换频率不会大于50%,因为当重组率等于50%(即遗传学距离等于50cM)时,即发生随机交换,则两个位点之间完全不连锁。
DNA遗传标记 • 1、RFLP( restriction fragment length polymorphism,限制性片段长度多态性)。 • DNA序列上的微小变化,可能引起限制性内切酶切点的丢失或产生,导致酶切片段长度的变化。
2、对分散于基因组中的单个碱基的差异进行标记。这种差异包括单个碱基的缺失和插入,但更常见的是单个核苷酸的替换,只p单核甘酸的多态性(single enucleotide polymorphism,SNP)。 • 由于该标记中的所有“遗传多态性”都来自单个核苷酸的差异,SNP有可能在密度上达到人类基因组“多态”位点数目的极限。
如果每一千个碱基(估计400bp有一个SNP位点)中有一个多态性,那么,人类基因组中就会拥有300万个SNP位点!如果每一千个碱基(估计400bp有一个SNP位点)中有一个多态性,那么,人类基因组中就会拥有300万个SNP位点! • 由于遗传中的选择压力,也由于基因组中蛋白质编码的序列仅占10%以下,绝大多数SNP位于非编码区。 • SNP不再以DNA片段的长度变化作为检测手段,而直接以序列变异作为标记。
转录图 • 生物的性状,包括疾病,都是由功能蛋白质决定的,而所有已知蛋白质都是由RNA聚合酶Ⅱ指导的带有多聚腺苷酸“尾巴”的mRNA按照遗传密码三联子的规律产生的。 • 分离纯化mRNA(或cDNA),抓住了基因组的主要成分(可转录部分)。
人类的基因转录图(cDNA图),即表达序列标签图(EST,expressed sequence tag)是人类基因组图的雏型。 • 整个人类基因组中,有1%-5%的序列编码了蛋白质,最多可能有(5~7)万个蛋白质编码基因。 • 得到了一段cDNA或一个EST,就能被用于筛选全长的转录本,并将该基因准确地定位于基因组上。
大规模生产EST的程序: 分离特定组织在某一发展阶段的总mRNA,合成cDNA并进行序列分析。 • cDNA序列具有转录本的特异性,代表了不同基因的信息。可以将DNA序列和cDNA序列进行比对,找出对应于cDNA的基因。 • 收集各种细胞或组织的基因表达谱进行两两或多重比较,能较全面地了解哪些基因是特异性表达的。在某一细胞或组织中特异性表达的基因可能与该组织或细胞类型的生理功能有关。
获得各类组织或细胞的基因表达谱,从而给出人体200余种基本组织或不同细胞组成的人体基因图(bodymap)。获得各类组织或细胞的基因表达谱,从而给出人体200余种基本组织或不同细胞组成的人体基因图(bodymap)。 • 转录图(基因表达谱)研究所提供的信息,使人们有可能系统地全面地从mRNA水平了解特定细胞、组织或器官的基因表达模式并解释其生理属性,深入认识细胞生长、发育、分化、衰老和疾病发生的机制。
人类基因组的序列图 • 人类基因组的核苷酸序列图(human genome sequence)是分子水平上最高层次的、最详尽的物理图。测定总长约lm、由30亿个核苷酸组成的全序列。 • 人类所拥有的基因位点都是相同的,不同种族、不同个体的基因差异(人类基因组的多样性)以及“正常”与“疾病”基因的差异,只是同一位点上的等位基因的差异。
人类基因组与其他动物基因组在染色体水平上有“共线”(即同源)现象。人类第21号染色体HSA21位点与小鼠第16号染色体MMUl6,MMUl7和MMUl0连锁图的比较,两者之间存在着广泛的同源性。人类基因组与其他动物基因组在染色体水平上有“共线”(即同源)现象。人类第21号染色体HSA21位点与小鼠第16号染色体MMUl6,MMUl7和MMUl0连锁图的比较,两者之间存在着广泛的同源性。 • 人类基因组计划所提供的人类核酸序列图,蕴藏了决定我们生、老、病、死的所有遗传信息,将成为人类认识自我、改造自我-使人类健康长寿的知识源泉,为21世纪现代生物学和医学奠定了基础。
DNA的鸟枪法序列分析技术 • 1 基因组DNA大片段文库的构建 • 构建基因文库是测序前必须的预备工作。用细菌的F质粒及其调控基因构建了细菌染色体克隆载体-BAC(bacterial chromosome),其克隆能力在125- 150kb左右。以BAC为基础的克隆载体转化效率高,而且以环状结构存在于细菌体内,易于分辨和分离纯化。
2 鸟枪法基因组序列分析技术 • DNA序列分析技术一次测序反应的长度不能超过lkb,不能直接用BAC等大片段作为序列分析的模板,采用全基因组鸟枪法测序技术-随机挑选插入基因组DNA的质粒做测序反应,然后用计算机程序进行序列拼接。
比较基因组学及功能基因组学研究 • 与数据库中已知序列比较,基因组的序列可分为3类: 1、确知其生理功能的; 2、有相匹配的蛋白质序列,但并不知道其功能的; 3、找不到任何相匹配的蛋白质序列的新基因。 • 比较基因组学(comparative genomics)的威力--根据对一种生物相关基因的认识来理解、诠释和克隆分离另一种生物的基因。
1 通过基因组数据进行全局性分析 • 到2001年为止已经基本完成DNA序列分析的各种真核生物基因组数据的比较发现,低等真核生物如酵母、线虫以及高等植物拟南芥,基因组比较小,基因密度比较高,百万碱基对中含有200个或更多的基因。
50kb片段比较 • (a)人β-T细胞受体位点只有一个基因(编码胰蛋白酶原)和52个重复序列,功能基因的序列占总序列不到3%。 • (b)在酵母第Ⅳ号染色体中有26个编码基因,2个tRNA基因,5个重复序列,功能基因序列占总序列的66·4%,重复序列占13·5%(在所有16条酵母染色体中,重复序列只有3·4%,有239个内含子)。该序列不带内含子。
(c) 在大肠杆菌基因组中可能有43个基因(占全序列的85·9%)。许多基因之间没有空间。原核生物→基因中没有内含子、基因组中没有重复序列。在整个大肠杆菌4639kb序列中共发现4397个编码基因。大肠杆菌K-12基因组和基因及其编码的蛋白质已经研究得比较清楚。参阅(表10-5)。
人类基因组研究还发现,人类基因的平均长度为27kb左右,含有8·8个长约145bp的外显子,内含子的长度大大超过外显子,达到3365bp左右。人类基因的3'非翻译区(UTR)的平均长度为770bp,其5'非翻译区的平均长度为300bp,开放读码框的平均长度只有1340bp,编码447个氨基酸。人类基因组研究还发现,人类基因的平均长度为27kb左右,含有8·8个长约145bp的外显子,内含子的长度大大超过外显子,达到3365bp左右。人类基因的3'非翻译区(UTR)的平均长度为770bp,其5'非翻译区的平均长度为300bp,开放读码框的平均长度只有1340bp,编码447个氨基酸。
2 通过基因组数据进行比较基因组学研究 • 尿殖道支原体是最小的基因组( 0·58Mb ),可依此确定能自我复制的细胞必需的一套最少的核心基因。流感嗜血杆菌的基因组为1.83Mb。流感嗜血杆菌基因大小平均900bp,尿殖道文原体的基因为1040bp。流感嗜血杆菌中平均1042bp有1个基因,尿殖道支原体中平均1235bp有1个基因。二者的差别在于基因数量上,流感嗜血杆菌有1743个ORF,尿殖道支原体有470个ORF。
通过流感嗜血杆菌能量代谢类群的ORF分析,了解到它缺乏三竣酸循环(TCA)中必需的3个酶,即柠檬酸合成酶基因、异柠檬酸脱氢酶基因和顺乌头酸酶基因。由此推断流感嗜血杆菌TCA缺失,不能合成谷氨酸,因为谷氨酸的供体是TCA的中间产生物α-酮戊二酸。通过流感嗜血杆菌能量代谢类群的ORF分析,了解到它缺乏三竣酸循环(TCA)中必需的3个酶,即柠檬酸合成酶基因、异柠檬酸脱氢酶基因和顺乌头酸酶基因。由此推断流感嗜血杆菌TCA缺失,不能合成谷氨酸,因为谷氨酸的供体是TCA的中间产生物α-酮戊二酸。
3 功能基因组学研究 • 功能基因组学→在基因组水平上阐明DNA序列的功能。许多基因和基因组的功能元件只有整个DNA序列已知才能得以发现。可用序列分析和比较的方式来判断不同基因的功能,也可通过各种定点破坏结构基因(gene knock-out)或在基因组内定位表达目的基因(geneknock-in)的方法来研究新基因的功能。 • 全长cDNA克隆对基因的发现及功能分析有用。
蛋白质组学是功能基因组学的一个重要的方面,蛋白质组学是研究某一生物体的器官或组织在某一时期全部蛋白质。双向电泳是基本的研究手段。蛋白质组学是功能基因组学的一个重要的方面,蛋白质组学是研究某一生物体的器官或组织在某一时期全部蛋白质。双向电泳是基本的研究手段。
除了编码蛋白质结构的DNA序列外,还有大量的DNA序列行使了其他功能,如控制基因表达、RNA剪接、染色质结构域形成、染色体结构的维持、重组和复制等,要重视非蛋白质编码序列的研究,包括相关文库的生产、比较测序和计算机分析等。应支持开发新的实验和计算方法来研究蛋白质表达、蛋白质-配基反应及蛋白质修饰的整体空间和时间模式,不断为功能基因组学提供新的实验模式。除了编码蛋白质结构的DNA序列外,还有大量的DNA序列行使了其他功能,如控制基因表达、RNA剪接、染色质结构域形成、染色体结构的维持、重组和复制等,要重视非蛋白质编码序列的研究,包括相关文库的生产、比较测序和计算机分析等。应支持开发新的实验和计算方法来研究蛋白质表达、蛋白质-配基反应及蛋白质修饰的整体空间和时间模式,不断为功能基因组学提供新的实验模式。
思考题 • 1、简述人类基因组计划的意义。 • 2、叙述大肠杆菌基因组和真核生物基因组的区别。 • 3、什么是蛋白质组学?