你的位置:皇冠会员登录手机版下载 > 新闻动态 >
发布日期:2024-11-04 15:12 点击次数:118
图片
参考序列(Reference Sequence, RefSeq)数据库是公开可用的核苷酸序列(DNA、RNA)及其蛋白产物的集合,于2000年由美国国家生物技术信息中心(National Center for Biotechnology Information, NCBI)[隶属于美国国立卫生研究院(National Institutes of Health, NIH),于1988年建立]开发,并负责维护该资源。RefSeq数据库是一个分类学上多样化的、非冗余的(non-redundant)、注释丰富、统一的序列集合。RefSeq可用于基因组学研究、基因表达分析、功能注释和各种其他研究应用。RefSeq数据库包含各种生物体的参考序列,包括但不限于细菌、古细菌、植物、动物、真菌和病毒。RefSeq是由提交给国际核酸序列数据库联盟(International Nucleotide Sequence Database Collaboration, INSDC)的序列数据构成。INSDC是国际生物数据库领域的重要合作组织,于2005年成立,由三家成员单位组成,分别是美国国家生物技术信息中心(NCBI)、欧洲分子生物实验室欧洲生物信息学研究所(European Molecular Biology Laboratory-European Bioinformatics Institute, EMBL-EBI)、日本国立遗传研究所DNA数据库(DNA Data Bank of Japan, DDBJ)。图片
RefSeq包含了基因组、转录本、蛋白质的参考序列。RefSeq数据库采用严格的管理方法,以保证基因序列的准确性。RefSeq为每个序列提供全面的注释,包括基因位置、外显子/内含子区域、择性剪接变异、翻译后修饰和功能域的相关详细信息。RefSeq数据库合并了来自不同来源的数据,例如经验观察、计算预测、学术引用,为参考序列提供可靠的注释。RefSeq数据库会定期更新,以整合新的基因组、转录组和蛋白质组信息,从而保证学者们可以使用最新的参考序列。该数据库有助于与其他NCBI 资源(包括GenBank和PubMed)进行交叉引用,从而使用户能够深入研究补充信息和相关数据。图片
研究人员可以通过NCBI 网站访问 RefSeq,能够进行针对性的序列搜索、基因组注释并获取相关数据。RefSeq数据库为用户提供易于使用的搜索界面,能够根据关键字、登录号(accession number)、生物名称或其他标识符进行搜索。RefSeq标识符包含登录号和版本号(version number), 两者用“.”隔开。RefSeq的命名规则是以两个字母为开头,后面跟“_”,然后是纯数字(integer identifier, gi)。第一个字母图片
NCBI为人类、小鼠、大鼠、蜜蜂、鸡、黑猩猩等基因组序列数据提供注释。该流程是自动化的,数据会定期刷新。在许多情况下,RefSeq是通过对全基因组序列的计算预测生成的,并且没有针对该特定生物体的实验证据。在这些情况下,以'X'或'Y'为开头,产生的序列为“model RefSeq”。而经过实验验证的序列以'N'为开头,产生的序列为“Known RefSeq”,“N” 也是“non-redundant”的助记符。NCBI RefSeq一直在更新,这些命名代表的是一种状态,经常会碰到某个“XM_”记录被“NM_”代替,或者“NM_”记录由于缺少证据而从NCBI RefSeq删除。第二个字母第二个字母分子类型含义CGenomic完整的(complete)基因组分子序列GGenomic不完整的基因组区域(incomplete genomic region)MmRNAmRNA, 成熟的转录本序列(protein-coding transcripts)PProtein蛋白产物,氨基酸序列RRNA非编码的转录子序列(non-protein-coding transcripts)T,W,ZGene未完全注释的测序序列前面两个字母组合图片
图片
图片
ACCESSIONMOLECULENOTEAC_Genomic可供选择的注释的基因组序列,主要用来标记病毒和原核生物。AP_ProteinAC_标记序列对应的蛋白产物。NC_Genomic完整的基因组分子序列,标记的类别包括基因组、染色体、细胞器、质粒。NG_Genomic不完整的基因组区域,比较有代表性有不转录的假基因或者那些很难自行化注释的基因组簇。NM_mRNA转录产物序列;成熟mRNA转录本序列。NP_Protein蛋白产物;主要是全长转录氨基酸序列,但也有一些只有部分蛋白质的部分氨基酸序列。NR_RNA非编码的转录子序列,包括结构RNAs,假基因转子等。NT_GenomicBAC或者鸟枪测序法的还未完全注释的测序序列。NW_GenomicBAC或者鸟枪测序法的还未完全注释的测序序列。NZ_Genomic收集的各种利用鸟枪法测序的测序计划,ABCD代表的是计划的名称。XM_mRNA转录产物;mRNA来自基因组注释,序列相当于基因组重叠群。XP_Protein蛋白产物;序列相当于基因组重叠群。XR_RNA转录产物;非编码区来自基因组注释,序列相当于基因组重叠群。YP_Protein蛋白产物。不涉及到转录,主要用来标记细菌、病毒和线粒体。ZP_Protein蛋白产物,主要是用电脑自动注释。NS_Genomic未知生物分子基因组序列。图片
图片
Nucleic Acids Research, 2016, Vol. 44, Database issue D735数字例如 “NR_123456.1”,编号小点后的数字代表的是版本信息。1为第一版的编号,2第二版编号。 本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报。