亚星游戏

国度基因组科学数据中心

一、中心成立及定位

国度基因组科学数据中心(National Genomics Data Center,简称NGDC)于2019年6月经科技部、财政部通知颁布,由亚星游戏(国度生物信息中心)作为依附单元,结合亚星游戏生物物理钻研所和亚星游戏上海营养与健全钻研所共同建设。中心面向我国人丁健全和社会可持续发展的重大战术需要,成立性命与健全大数据汇交存储、安全治理、盛开共享与整合挖掘钻研系统,研发大数据前沿交叉与转化利用的新步骤和新技术,建设支持我国性命科学发展、国际当先的基因组科学数据中心。

亚星游戏·yaxin222(中国官网)_亚星注册登录

中心定位与指标

二、中心运行机造与组成

中心主任:赵文化正高级工程师

中心副主任:章张钻研员、宋述慧钻研员

工作团队:组学原始数据归档库、基因组数据库、基因组变异数据库、基因表白数据库、表观基因组数据库、非编码RNA数据库、精准医学知识库、生物信息工具库和系统运维部等。

亚星游戏·yaxin222(中国官网)_亚星注册登录

中心集体照

三、年度重要科研进展

1.?多组学数据资源系统持续拓展和更新

国度基因组科学数据中心持续拓展和更新多组学数据资源系统。2023年重点加强多组学数据整合、知识融合、新库开发,以及主题数据库升级。其中,新开发了多个数据库,蕴含原生生物(P10K)、细菌(NTM-DB, MPA)、植物(PPGR, SoyOmics, PlantPan)和疾病/性状关联(CROST, HervD Atlas, HALL, MACdb, BioKA, RePoS, PGG.SV, NAFLDkb)等数据资源。截至2023年12月底,已支持各类科技项目17,000多个,汇交数据量达40PB,有关数据已在572种国内表期刊的3,000多篇文章颁发,为国度基因组科学数据的汇交共享、安全治理和挖掘利用提供了重要支持。数据库建设整体情况以“Database resources of the National Genomics Data Center, China National Center for Bioinformation in 2024”为题在Nucleic Acids Research?在线颁发。

亚星游戏·yaxin222(中国官网)_亚星注册登录

国度基因组科学数据中心多组学数据资源系统

2.?GSA数据库入选全球主题生物数据资源

2023年12月11日,国度基因组科学数据中心建设的组学原始数据归档库(Genome Sequence Archive, GSA)成功入选由国际生物数据同盟(Global Biodata Coalition, GBC)提议的全球主题生物数据资源(Global Core Biodata Resource, GCBR)。GCBR现收录52个国际数据库,GSA是我国目前唯一入选的数据库。作为性命组学原始测序数据汇交、存储、治理和共享的公益性数据库,GSA旨在推动全球性命组学数据的共享与利用。这次入选GCBR有利于推进我国性命科学组学数据的统一治理与盛开共享,推动与国际社会的深度互换合作,并加快我国在大数据时期的性命科学钻研过程。

亚星游戏·yaxin222(中国官网)_亚星注册登录

GSA入选GCBR

3.?全球生物数据库目录Database Commons入选2022年度“中国生物信息学十猛进展”

生物数据库作为全球各类性命科学钻研的基础支持,极大推进了大数据向知识的转化,并推动了多多钻研领域的重要创新。NGDC自2015年起建设全球生物数据库目录Database Commons,结合国内表多家科研机构,持续发展数据堆集和职能美满。截至2023年底,已审编收录76个国度/地域2,142家机构颁布的6,380个数据库。同时,创新设计了z-index用于评估数据库的科学影响,并凭据数据库文章引用和z-index对生物数据库及其从属机构和国度进行排名。Database Commons提供了全球生物数据库的系列统计数据和趋向,为更好地相识数据库发展态势及其对性命健全科学的影响提供全球视角。该成就以“Database Commons: a catalog of worldwide biological databases”为题在?Genomics Proteomics Bioinformatics?在线颁发,并入选2022年度“中国生物信息学十猛进展”。

亚星游戏·yaxin222(中国官网)_亚星注册登录

Database Commons入选2022年度“中国生物信息学十猛进展”

4.颁布基因序列数据库GenBase

基因的序列和注解信息(蕴含DNA、RNA和蛋白序列信息)是支持基因职能钻研的主题基础数据之一。为保险我国基因序列数据的主权和安全,满足我国科研人员在基因序列数据汇交、治理和共享过程中的现实需要,NGDC开发了基因序列数据库GenBase,于2023年3月正式上线,为用户提供基因序列数据汇交共享和查问下载服务。GenBase对标美国国度生物信息中心NCBI的GenBank数据库,安身中国,服务全球,可接管来自全球科研人员的数据提交,并且通过数据互换机造实现与GenBank的无缝共享。

亚星游戏·yaxin222(中国官网)_亚星注册登录

GenBase网站页面

5.2019新冠病毒信息库(RCoV19)持续升级更新

2023年RCoV19进一步升级,开发了全自动化的数据智能审编模型和数据共享页面,成立了基因组急剧变异解析流程、单倍型网络演化构建算法以及基于机械进建的高风险株系预警模型,开发了新冠病毒传布演化实时监测平台、高风险变异株预警可视化系统和交互式突变谱急剧比对职能?,实现了新冠病毒基因组序劣注变异和演化支系的可视化动态监测,高风险变异株的及早预警,以及重要序列或谱系的变异特点法规分析,成为集新冠病毒基因组数据自动整合、变异监测、风险预警和突变效应知识于一体的全链条综合性平台。截至2023年12月25日,RCoV19已收录新冠病毒序列超1,700万条,为全球182个国度/地域400多万名访客提供数据服务,累计数据下载达190多亿条。该成就以“RCoV19: a one-stop hub for SARS-CoV-2 genome data integration, variant monitoring, and risk pre-warning”为题在Genomics Proteomics Bioinformatics 在线颁发。

亚星游戏·yaxin222(中国官网)_亚星注册登录

RCoV19一站式平台

6.开发人类癌症代谢物关联知识库MACdb

随着代谢组学钻研的发展,针对分歧癌症类型、基因组异常、药物反映评估的代谢物关联关系已被宽泛报路。MACdb是一个基于人为审编的知识库,用于收录代谢产品与癌症之间的关联关系。目前已整合基于269个癌症特点的40,710个关联关系,涵盖17类高发病率或高殒命率的癌症,是当前涵盖癌症类型最全的癌症—代谢物关联知识库。MACdb提供直观的浏览职能及多维度关联检索,通过知识图谱实现对癌症、特点和代谢产品间整体情况的展示。此表,NameToCid和Enrichment工具可用于尺度化代谢物及富集代谢产品与各类癌症类型和特点的关联。该成就以“MACdb: a curated knowledgebase for metabolic associations across human cancers”为题于2023年7月在Molecular Cancer Research正式颁发,并被选为该刊当期封面故事。

亚星游戏·yaxin222(中国官网)_亚星注册登录

MACdb知识库入选MCR期刊封面故事

7.开发人类内源性逆转录病毒有关疾病知识库HervD Atlas

人内源性逆转录病毒(HERVs)是远古时期表源性逆转录病毒习染宿主生殖细胞或胚胎干细胞并整合到人类基因组上的前病毒序列,近年钻研批注其在正常生理和病理发展等重要性命过程中阐扬重要作用。为此,NGDC与本所陈非团队合作开发了人类内源性逆转录病毒有关疾病知识库HervD Atlas,整合250多篇HERVs有关疾病钻研文件数据,通过人为审编获得60,726条高质量的HERVs与疾病关联条款,涵盖21,790种HERVs,149种疾病和610个受影响基因。该数据库系统整合HERVs、疾病和基因的关联信息,构建了交互式知识图谱,为关联知识整合及揣度提供了界面敦睦的可视化平台。该成就以“HervD Atlas: a curated knowledgebase of associations between human endogenous retroviruses and diseases”为题在Nucleic Acids Research?在线颁发。
?

亚星游戏·yaxin222(中国官网)_亚星注册登录

HervD Atlas概览

8.颁布生物标志物知识库BioKA

生物标志物(Biomarker)不仅是诊断分析发展、确定新药研发靶标的基础,也是造就新种类的基础,在个性化医疗、药物研发、临床护理和分子育种等多个领域阐扬重要作用。为此,NGDC开发了生物标志物知识库BioKA,从4,747篇文件中人为审编与整合了人和30个动物物种总共951个疾病/性状有关的16,296个生物标志物,并提供了经过尺度化后的308个种类以及相应的生物标志物信息。BioKA不仅丰硕了人类标志物信息,也添补了已有的生物标志物数据资源在动物疾病和动物分子育种方面的空缺。该成就以“BioKA: a curated and integrated biomarker knowledgebase for animals”为题在Nucleic Acids Research 在线颁发。

9.开发空间转录组综合伙源存储库CROST

随着空间转录组测序技术的发展,空间转录组数据的激增急需一个用户敦睦的数据库系统,以便于轻松接见数据,并进行可视化和个性化分析。为此,NGDC与本所方向东团队合作开发了空间转录组综合伙源存储库CROST,利用尺度化处置流程整合了182个高质量的空间转录组数据集,涵盖8个分歧物种、35种组织类型和56种疾病的1,033个子数据集。针对单个样本提供了全面的生物信息分析,蕴含空间变异基因(SVG)分析、细胞类型注解、空间有关性、空间共定位、通讯分析和职能注解等。CROST通过集成空间转录组、经典转录组、表观基因组和基因组的数据全面阐了然肿瘤有关SVG,是用户(尤其是临床医生)急剧评估特定癌症类型中基因表白水平、甲基化水平、拷贝数变异以及预后的贵重工具。该成就以“CROST: a comprehensive repository of spatial transcriptomics”为题在Nucleic Acids Research在线颁发。
?

亚星游戏·yaxin222(中国官网)_亚星注册登录

CROST概览

10.颁布盛开生物医学影像存档库OBIA

生物医学影像数据中蕴含大量的隐衷信息,若何构建生物医学影像数据治理平台,既保险数据隐衷信息的安全,又能推进全球数据的共享,是当前生物医学影像数据使用中急需解决的问题。为此,NGDC与中国人民解放军总医院第七医学中心合作开发了盛开生物医学影像存档库OBIA,向国内表科研人员提供医学影像数据递交、归档、颁布与共享的公共服务。为保险影像数据中隐衷信息的安全,OBIA造订了统一的去鉴别和质量节造流程,并设置了盛开接见和受控接见两种分歧类型的数据接见战术。目前OBIA收录的影像数据蕴含子宫内膜癌、卵巢癌和宫颈癌三大妇科肿瘤,来自4,136项钻研的937个个别,蕴含24,701个系列和1,938,309幅影像,涵盖了9种模态和30个解剖部位。该成就以“OBIA: an open biomedical imaging archive”为题在 Genomics Proteomics Bioinformatics 在线颁发。

11.开发大豆多维组学数据库SoyOmics

高通量测序技术的发展促使大豆组学钻研不休深刻。实现大豆多维组学数据的整合分析,将为大豆遗传育种提供有力支持。为此,NGDC与亚星游戏遗传发育所田志喜团队合作开发了大豆多维组学数据库SoyOmics。该库目前收录了27个大豆品系的重新组装基因组数据,并对相应基因组信息进行了全面的基因组注解,从基因组、变异组、转录组、表型组等分歧层面整合了大豆有关数据集,实现了分歧档次组学数据的交互查问和结合比力分析,为大豆遗传学及育种钻研提供基础数据支持和全新的观察视角。该成就以“SoyOmics: a deeply integrated database on soybean multi-omics”为题在Molecular Plant?在线颁发。

12.颁布热带作物组学数据库TCOD

测序技术的飞速发展推动了热带作物钻研领域里程碑式的发展,堆集了海量的多组学数据,然而,大量的数据分散在分歧的数据中心或网站,给数据利用带来了不便,亟需开发一个综合数据整合与共享平台。为此,NGDC与海南大学王文泉团队等合作开发了热带作物组学数据库TCOD(Tropical Crop Omics Database)。目前TCOD已整合15种热带作物的基因组、变异组、转录组和种类数据,以基由于桥梁关联多种组学数据,为用户提供便捷的数据浏览、检索和下载等服务。TCOD不仅提供了物种间的同源基因关系用于跨物种职能索求,还提供了一系列在线工具用于数据挖掘,为热带作物选择育种和性状改进钻研提供支持。该成就以“TCOD: an integrated resource for tropical crops”为题于2023年10月在Nucleic Acids Research 在线颁发。

亚星游戏·yaxin222(中国官网)_亚星注册登录

?TCOD数据库概览

13.开发多年生木本植物基因组与调控信息库PPGR

多年生木本植物是林业作物中重要的植物类群,其性命周期长,基因组大且杂合度高,拥有怪异的生理代谢蹊径和胁迫抵抗个性。全面整合多年生木本植物组学数据资源,成立系统的遗传调控网络,对于说明该植物类群的关键生物学过程和独个性状拥有重要意思。为此,NGDC与北京林业大学谢剑波团队合作开发了多年生木本植物基因组与调控信息库PPGR。该信息库是首个专一于多年生木本植物的在线资源平台,目前已整合60种重要多年生木本植物的基因组数据,利用尺度化流程分析了9,016个植物转录组样本,鉴定了107,344个转录因子、10,263个抗病基因以及53,829个水平转移基因,系统构建了多维基因调控网络,将为林木基因组学和基因调控钻研领域科研突破和发现提供壮大的数据支持和信息保险。该成就以“PPGR: a comprehensive perennial plant genomes and regulation database”为题在Nucleic Acids Research在线颁发。

14.开发植物图像及有关性状盛开归档库OPIA

随着高通量植物表型采集技术在植物表型组学钻研中的宽泛利用,产生了大量的图像和基于图像的性状数据,这些数据是种质筛选、植物病虫害鉴定、农艺性状挖掘蹬爪用的重要资源。为此,NGDC与亚星游戏遗传发育所胡伟娟团队合作开发了植物图像及有关性状盛开归档库OPIA,为国内表科研人员提供植物图像及有关性状数据递交与共享的公共服务。OPIA选取尺度化人为审编流程整合了56个高质量的植物图像数据集,涵盖11个物种、6种组织类型,总计566,225张图像、2,417,186个注解事俘。通过对来自分歧传感器类型的图像样本及相应标签数据的使用,有利于推进钻研人员进一步提高智能预测步骤的精度,揭示植物成长的动态法规,进而推动全球植物表型组学领域的创新和发展。该成就以“OPIA: an open archive of plant images and related phenotypic traits”为题在Nucleic Acids Research在线颁发。

亚星游戏·yaxin222(中国官网)_亚星注册登录

OPIA职能概览

四、获奖与荣誉

国度基因组科学数据中心荣获2023年北京市向阳区“最美科技创新团队”

全球生物数据库目录Database Commons入选2022年度“中国生物信息学十猛进展”

鲍一明钻研员荣获“全国归侨侨眷先进幼我”

赵文化正高级工程师荣获“亚星游戏优良党务工作者”

马利娜副钻研员荣获2023年度亚星游戏青促会优良会员

陈梅丽高级工程师入选2023年度亚星游戏技术支持人才

2023年度钻研生国度奖学金:宗文婷、麦嘉琳

2023年度亚星游戏朱李月华优良博士生奖:李昭


附件下载:
【网站地图】