大规模表达序列标签 (EST) 测定及分析

大规模表达序列标签(EST)测定及分析 中山大学生科院

主要内容 • 什么是EST? • EST的应用 • EST序列测定及分析过程 • 实例：家猪脑组织EST分析

ESTs的来源 上世纪80年代，对cDNA序列进行大规模测序的想法就曾提出，但对此一直存在争论，有人认为这种方法能发现成千上万的新基因；而反对者则认为cDNA序列缺少重要的基因调控区域的信息。90年代初Graig Venter提出了EST的概念，并测定了609条人脑组织的EST，宣布了cDNA大规模测序的时代的开始 (Adams et al., 1991)。

● 93年前ESTs数据收录于GenBank， EBI和DDBJ。 ●1993年NCBI(National Center of Biotechnology Information)建立了一个专门的EST数据库dbEST来保存和收集所有的EST数据。

什么是 ESTs ？ ESTs（Expressed Sequence tags）是从已建好的cDNA库中随机取出一个克隆，从5’末端或3’末端对插入的cDNA片段进行一轮单向自动测序，所获得的约60-500bp的一段cDNA序列。

ESTs与基因识别 • ESTs已经被广泛的应用于基因识别，因为ESTs的数目比GenBank中其它的核苷酸序列多，研究人员更容易在EST库中搜寻到新的基因(Boguski et al., 1994). • ● 在同一物种中搜寻基因家族的新成员(paralogs)。 • ● 在不同物种间搜寻功能相同的基因(orthologs)。 • ● 已知基因的不同剪切模式的搜寻。【注：不过很难确定一个新的序列是由于交替剪切产生的或是由于cDNA文库中污染了基因组DNA序列(Wolfsberg et al., 1997)】

ESTs与基因图谱的绘制 • EST可以借助于序列标签位点(sequence-tagged sites)用于基因图谱的构建. STS本身是从人类基因组中随机选择出来的长度在200-300bp左右的经PCR检测的基因组中唯一的一段序列。来自mRNA的3’非翻译区的ESTs更适合做为STSs，用于基因图谱的绘制。其优点主要包括： • ● 由于没有内含子的存在，因此在cDNA及基因组模板中其PCR产物的大小相同； • ● 与编码区具有很强的保守性不同，3’UTRs序列的保守性较差，因此很容易将单个基因与编码序列关系非常紧密的相似基因家族成员分开。（James Sikela等，1991年） • GeneMap 96‘ 定位了16,000个基于基因的STS(Schuler et al., 1996)；GeneMap 98’ 定位了30,000个基于基因的STS(Deloukas et al., 1998)，而且基因图谱随着STS的定位正在不断的更新中。

ESTs与基因预测 由于EST来源于cDNA，因此每一条EST均代表了文库建立时所采样品特定发育时期和生理状态下的一个基因的部分序列。使用合适的比对参数，大于90％的已经注释的基因都能在EST库中检测到(Bailey et al., 1998)。ESTs可以做为其它基因预测算法的补充，因为它们对预测基因的交替剪切和3‘ 非翻译区很有效。

ESTs与SNPs • 来自不同个体的冗余的ESTs可用于发现基因组中转录区域存在的SNPs。最近的许多研究都证明对ESTs数据的分析可以发现基因相关的SNPs (Buetow et al., 1999;Garg et al., 1999; Marth et al., 1999; Picoult-Newberg et al., 1999) 。 • 应注意区别真正的SNPs和由于测序错误( ESTs为单向测序得来，错误率可达2％)而引起的本身不存在的SNPs。解决这一问题可以通过： • ● 提高ESTs分析的准确性。 • ● 对所发现的SNPs进行实验验证。

利用ESTs大规模分析基因表达水平 • 因为EST序列是从某以特定的组织的cDNA文库中随机测序而得到，所以可以用利用未经标准化和差减杂交的cDNA文库EST分析特定组织的基因表达谱。标准化的cDNA文库和经过差减杂交的cDNA文库则不能反应基因表达的水平。 • ◆CGAP • 为研究癌症的分子机理，美国国家癌症研究所NCI的癌症基因组解析计划(Cancer Genome Anatomy Project , CGAP)构建了很多正常的或是癌症前期的和癌症后期的组织的cDNA文库，并进行了大规模的EST测序，其中大部分的文库未经标准化或差减杂交处理。 • CGAP网站提供了多种工具用以分析不同文库间基因表达的差异, 如： • ●Digital Gene Expression Displayer (DGED) • ●cDNA xProfiler • ◆ 基因表达系列分析(Serial Analysis of Gene Expression, SAGE) • 基因表达系列分析是一种用于定量，高通量基因表达分析的实验方法(Velculescu et al., 1995)。SAGE的原理就是分离每个转录本的特定位置的较短的单一的序列标签（约9-14个碱基对），这些短的序列被连接、克隆和测序，特定的序列标签的出现次数就反应了对应的基因的表达丰度。 • ◆DNA微阵列或基因芯片的研究 • 高密度寡核苷酸cDNA 芯片或cDNA微阵列是一种新的大规模检测基因表达的技术，具有高通量分析的优点。在许多情况下，cDNA芯片的探针来源于3'EST (Duggan et al., 1999)，所以EST序列的分析有助于芯片探针的设计。

实验步骤较长要求较高 反转录酶切连接测序单条测序＝＝对30－40条EST测序分析由于采样量大大提高，可对低表达基因进行分析：基因表达量分析、寻找新基因等等 Serial analysis of gene expression (SAGE) 技术流程

原位合成 …. …. Clone 反转录利用EST，SAGE分析结果制作芯片（研究已发现的基因）反转录（可选） …………. …………. …………. Gene Chip 连接，转化标记 • Rice genome-wide DNA chip (60,000+预测基因) • 果蝇基因芯片 • … 杂交读取光密度 0.1 0.06 0.05 0.04 … 0 0 0.07 0.01 … 表达量矩阵 EST分析聚类分析（非同源功能注释） … G1,G3,G5 G2,G4 G6,G9 基因芯片或微阵列技术流程

几种大规模分析基因表达水平的方法的比较

ESTs数据的不足 ◆ ESTs很短，没有给出完整的表达序列； ◆ 低丰度表达基因不易获得。 ◆由于只是一轮测序结果，出错率达2%-5%； ◆有时有载体序列和核外mRNA来源的cDNA污染或是基因组 DNA的污染； ◆有时出现镶嵌克隆； ◆序列的冗余，导致所需要处理的数据量很大。

体内：翻译 体外研究：反转录转化效率问题（基因芯片）连接，转化大数据量分析理念已经形成文库构建技术已经成熟测序采样问题（SAGE）测序成本已经大大降低 EST技术流程

一、cDNA文库构建 ◆非标准化的cDNA文库的构建。（可用于基因表达量的分析） ◆经标准化或扣除杂交处理的cDNA文库。（富集表达丰度较低的基因） ◆OligoT cDNA文库。 ◆ 随机引物cDNA文库。

cDNA文库的构建及其均一化扣除杂交处理 For subtraction of cDNA libraries the procedure is similar to normalization, except that the PCR products arise from a different library (whose genes are to be subtracted from the original library) Reference: Bonaldo, M.F., et.al, 1996. Normalization and subtraction: Two approaches to facilitate gene discovery. Genome Res. 6: 791-806.

扣除杂交技术的发展 ◆ 扣除杂交技术最早应用是在20世纪80年代初，当时的目的是为了构建非洲爪蟾的胚囊cDNA文库【Science (Wash DC) 222, 135–139】和制备差异表达基因的特异探针【PNAS. 81, 2194–2198】。差异表达的基因通过检测样本cDNA(tester)和过量的对照样本mRNA (driver)的相互杂交而得到。在检测样本cDNA (tester)和对照样本mRNA (driver)同时表达的基因会形成mRNA/cDNA 杂交分子，而检测样本特异表达的基因则保持单链状态。单链分子和双链分子通过羟磷灰石层析而分离，分离得到的单链分子是检测样本特异表达的基因。差异表达的cDNA可以直接被克隆或通过cDNA文库筛选而得到。 ◆ 这个方法后来又得到改进，包括用生物素标记【Nucl. Acids14, 10027–10044】和oligo(dT)30-latex标记cDNA，以增加单双链分子的分离效率。后来，通过PCR选择性cDNA扩增技术被应用到扣除杂交中，以克服以往扣除杂交中需要大量起始mRNA的缺点，并可以同时提高基因克隆地效率【Nucl. Acids Res. 19, 7097-7104】。 ◆ 扣除技术的进一步成熟是在1996年，Gurskaya 等(1996) 和Diatchenko 等(1996) 同时发表了关于扣除杂交的改进方法，其主要的技术方法类似，这个技术叫抑制性扣除杂交技术（Suppression Subtractive Hybridization，SSH）【Anal. Biochem. 240, 90–97; PNAS. 93, 6025-6230】。

SSH的原理与基本过程 原理：SSH的基本原理是以抑制PCR为基础的DNA扣除杂交方法。所谓抑制PCR，是利用链内退火优于链间退火，比链间退火更稳定，从而使非目的系列片段两端反向重复系列在退火时产生类似于“锅柄”的结构，无法与引物配对，选择性地抑制了非目的基因片段的扩增。同时，该方法运用了杂交二级动力学原理，即丰度高的单链cDNA在退火时产生同源杂交的速度要快于丰度低的单链cDNA，从而使原来在丰度上有差别的单链cDNA相对含量达到基本一致。基本过程：分别抽提代测样本(tester）和对照样本（driver)的mRNA，反转录成cDNA，用RsaI或HaeIII酶切，以产生大小适当的平头末端cDNA片段，将tester cDNA分成均等的两份，各自接上两种接头，与过量的driver cDNA变性后退火杂交，第一次杂交后有4种产物：a是单链tester cDNA，b是自身退火的tester cDNA双链，c是tester 和diver的异源双链，d是driver cDNA。第一次杂交的目的是实现tester单链 cDNA均一化(normalization),即使原来有丰度差别的单链cDNA的相对含量达到基本一致，由于tester cDNA中与driver cDNA序列相似的片段大都和driver形成异源双链分子c，使tester cDNA中的差异表达基因的目标cDNA得到大量富集，第一次杂交后，合并两份杂交产物，再加上新的变性driver单链，再次退火杂交，此时，只有第一次杂交后经均等化和扣除的单链tester cDNA和driver cDNA一起形成各种双链分子，这次杂交进一步富集了差异表达基因的cDNA，产生了一种新的双链分子e，它的两个5’端有两个不同的接头，正由于这两上不同的接头，使其在以后的PCR中被有效地扩增。

抑制性差减杂交技术（SSH）原理图（Diatchenko等，1996）抑制性差减杂交技术（SSH）原理图（Diatchenko等，1996）

随机挑取克隆进行5’或3’端测序 序列前处理聚类和拼接基因注释及功能分类后续分析二、序列测定及数据分析

测序方向的选择 根据不同的实验目的选择不同的测序方向： ◆ 5’端 5’上游非翻译区校短且含有较多的调控信息。一般在寻找新基因或研究基因差异表达时用5’端EST较好，大部分EST计划都是选用5’端进行测序的，而且从5’端测序有利于将EST拼接成较长的基因序列。 ◆ 3’端 3’端mRNA有一20－200bp的plyA结构，同时靠近plyA又有特异性的非编码区，所以从3’端测得EST含有编码的信息较少．但研究也表明，10％的mRNA3’端有重复序列，这可以作为SSR标记；非编码区有品种的特异性，可以作为STS标记． ◆ 两端测序获得更全面的信息。

序列前处理 (pre-processing) • 1.去除低质量的序列（Phred） • 2.应用BLAST、RepeatMasker或Crossmatch遮蔽数据组中不属于表达的基因的赝象序列(artifactual sequences)。 • ●载体序列(ftp://ncbi.nlm.nih.gov/repository/vector) • ●重复序列(RepBase，http://www.girinst.org) • ● 污染序列(如核糖体RNA、细菌或其它物种的基因组DNA等) • 3.去除其中的镶嵌克隆。 • 4.最后去除长度小于100bp的序列。

镶嵌克隆的识别 ► Back-to-back poly(A)+ tails. ►Linker-to-linker in middle of the sequence. ►Blastn/Blastx search.

ESTs的聚类和拼接 • 聚类的目的就是将来自同一个基因或同一个转录本的具有重叠部分(over－lapping)的ESTs整合至单一的簇(cluster)中。 • 聚类作用： • 产生较长的一致性序列(consensus sequence) ，用于注释。 • 降低数据的冗余，纠正错误数据。 • 可以用于检测选择性剪切。 • ESTs聚类的数据库主要有三个： • UniGene (http://www.ncbi.nlm.nih.gov/UniGene) • TIGR Gene Indices (http://www.tigr.org/tdb/tgi/) • STACK (http://www.sanbi.ac.za/Dbases.html)

不严格的和严格的聚类 (loose and stringent clustering) • ◆ loose clustering • ● 产生的一致性序列比较长 • ● 表达基因ESTs数据的覆盖率高 • ● 含有同一基因不同的转录形式，如各种选择性剪接体 • ● 每一类中可能包含旁系同源基因(paralogous expressed gene)的转录本 • ● 序列的保真度低 • ◆ stringent clustering • ● 产生的一致性序列比较短 • ● 表达基因ESTs数据的覆盖率低 • ● 因此所含有的同一基因的不同转录形式少 • ● 序列保真度高 (EST clustering tutorial, httP://www.sanbi.ac.za)

有参照的和无参照的聚类 (Supervised and unsupervised clustering) ◆ Supervised clustering 根据已知的参考序列(如全长mRNA、已拼接好的一致性序列) 聚类。 ◆Unsupervised clustering 没有根据参考序列进行分类。 (EST clustering tutorial, httP://www.sanbi.ac.za)

聚类的算法 ◆ 基于BLAST和FASTA的脚本(BLASTN and FASTA—based scripts) BLASTN和FASTA算法的本身目的在于寻找序列间的局部相似性或同源性，这与聚类的目的不同，即通过两个序列是否具有一致性的重叠或连续的比对来判断二者是否能归成一类。结合BLAST和FASTA查找的结果，采用解释性语言(如Perl)编写的脚本，具备了3方面的功能，即运行查找过程、解析(Parsing)查找的结果和按照用户定义的标准判断两个序列是否为一类。 ◆ 基于字的聚类(Word—based clustering) 基于字的聚类省略了所有的比对过程，其核心在于识别并计算序列间有多少长度为n的字(word)能够匹配，而且并未采用有关克隆的来源及注释信息，代表性的算法是d2_cluster。该算法为一种凝聚性(agglomerative)的聚类算法(即每一类从单一的序列开始，通过一系列的合并形成最后的类)，它可以被描述为最小联接聚类(minimal linkage clustering)。即，假设两条序列A和B，如果二者存在一定水平的相似，那么将A、B归于一类；即便二者并没有任何相似性，若存在序列C，而且C同时与A、B都有足够的相似性，那么也将A、B归于一类。类和类之间的联接标准是识别两个序列在一定大小窗口中相同的碱基数。

常用的拼接软件 ◆ Phrap (http://www.genome.washington.edu/UWGC/analysistools/Phrap.cfm) ◆ CAP3(Xiaoqiu Huang，huang@mtu.edu) ◆ d2_cluster (http://www.sanbi.ac.za/)

Cluster的连接 利用cDNA克隆的信息和5’,3’端Reads的信息，不同的Cluster可以连接在一起。

UniGene ◆ Unigene 结合有指导的和无指导的方法，而且在聚类过程中使用了不同水平的严格度，聚类的算法为megablast,数据库不产生一致性序列。

TIGR Gene Index ◆ TIGR Gene Index用的是有严格的和有指导的聚类方法,聚类的算法为类似于BLAST和FASTA的FLAST，该法得到的一致性序列较短，交替剪切得到的不同的基因属于不同的索引。

STACK ◆STACK 用不严格的和无指导的聚类方法，聚类的算法为d2_cluster,产生较长的一致性序列，同一索引中含有不同的剪切方法得到的基因。

Clean Short and Tight TIGR-THC UniGene STACK Long and Loose

基因注释及功能分类 注释： ◆ 序列联配 Blastn， Blastx ◆ 蛋白质功能域搜索(二结构比对) Pfam Interpro

基因功能分类 ◆ 手工分类大部分以Adams 95年的文章中的采用分类体系为标准。【Adams. MD, et al. Initial assessment of human gene diversity and expression patterns based upon 83 million nucleotides of cDNA sequence. Nature. 1995 377(6547 Suppl):3-174 】 ◆ 计算机批量处理利用标准基因词汇体系Gene Ontology，进行近似的分类。 (http://www.geneontology.org/)

GO的组织结构：定向无环图（ directed acyclic graphs [DAGs]）

各大数据库中基因或基因产物与GO术语的对照

其它分类系统与GO的对照表

后续分析 ◆ 比较基因组学分析 ◆ 基因表达谱分析 ◆ 新基因研究 ◆ 基因可变剪切分析 ◆ 实验验证 ►MicroArray ► GeneChip ► RTPCR ► Northen bloting

实例介绍 家猪脑组织EST分析

文库信息

分析过程 文库与序列质量检验聚类和重叠群分析 ORF的寻找功能分类和注释表达谱分析交替剪接分析

序列质量处理 序列长度和质量处理 • 序列长度：无统一标准，一般认为100bp以上的 EST即可代表足够表达基因信息 ——污染序列去除，包括载体序列、细菌基因组序列(Crossmatch) ——重复序列的屏蔽（RepeatMasker) ——低质量区去除（Q20） ——扔掉100bp以下的序列

序列长度和质量分布

聚类和重叠群（Contig)分析 High-quality ESTs 46011, Avg. full length: 388.5 , Avg. quality: 35.9 per base

Contig 大小分布 Based on phrap assembly

BLAST search result (based on phrap assembly，e=1e-10)

BLAST Search against human genome sequence(e=1e-5)

大规模表达序列标签 (EST) 测定及分析

大规模表达序列标签 (EST) 测定及分析

Presentation Transcript