基因组数据库注释及分析开发程式调研

Author Tanmer Tanmer
Tanmer · 2024-10-18发布 · 984 次浏览

了解基因组数据库的建立方法,开源基因组数据程式调研,基因注释方法,分析比对方法调研。

英文名字解释: 
 biology, bio  生物学;
gene 基因:是指控制生物性状的遗传信息,通常由DNA序列来承载。基因也可视作基本遗传单位,亦即一段具有功能性的DNA或RNA序列; Genome 基因组。
RNA:核糖核酸(缩写为RNA,即Ribonucleic Acid),存在于生物细胞以及部分病毒、类病毒中的遗传信息载体。 RNA由核糖核苷酸经磷酸二酯键缩合而成长链状分子。
DNA:  脱氧核糖核酸(英语:deoxyribonucleic acid,缩写:DNA)又称去氧核糖核酸,是一种生物大分子,可组成遗传指令,引导生物发育与生命机能运作。主要功能是信息储存,可比喻为“蓝图”或“配方”。DNA是一种长链聚合物,组成单位称为核苷酸,而糖类与磷酸借由酯键相连,组成其长链骨架。
了解基因组数据库的建立方法,开源基因组数据程式调研,基因注释方法,分析比对方法调研。

基因组测序

Illumina: 全世界的生物学家都将加利福尼亚 Illumina 公司创造的 DNA 测序仪广泛用于基因组学应用,包括全基因组测序。该公司在 AWS 上构建其 BaseSpace 工具,以支持研究人员直接向云中上传用于分析的大量数据集并使用 Amazon Glacier 长期存储实验结果。查看Ruby SDK: https://github.com/basespace/basespace-ruby-sdk
PacBio: PacBio Sequel系统可用于高确信度地表征异构体多样性,分析人类转录组的全面复杂性,发现新的基因、异构体和基因融合事件,研究动植物的转录本多样性,以改进基因组注释和基因发掘 https://www.pacb.com/cn/applications/rna-sequencing/
参考:植物生物学基因组数据库汇总:http://www.sohu.com/a/164341318_732029

基因组注释

       基因组注释主要包括四个研究方向:重复序列的识别;非编码RNA的预测;基因结构预测和基因功能注释。我们将分别对这四个领域进行阐述。
注释之前首先得构建基因模型,有三种策略:同源预测(homology-based prediction), 从头注释(di novo prediction)和基于转录组预测(transcriptome-based prediction),然后才是功能注释,蛋白功能域注释,基因本体论注释,通路注释。

处理

下图提供了注释过程的概述。基因组序列被掩盖(灰色),并且转录物(蓝色),蛋白质(绿色)和RNA-Seq读数(橙色)与基因组对齐。如果可用于注释的生物体,则策划的RefSeq基因组序列也是对齐的(粉红色)。然后进行基于转录和蛋白质比对的基因模型预测(棕色)。在RefSeq和预测模型中选择最好的模型,命名和加入(紫色)。最后,注释产品被格式化并部署到公共资源(黄色)。
一个整合植物基因组学工具和资源的网站: <http://www.plantgdb.org/>
给出了一套完整的注释流程以及每一步的输入和输出情况:<http://bioservices.usd.edu/gsap.html>
线粒体基因组分析工具: http://www.zilhua.com/1173.html
       长序列注释软件:LoReAn(Long Read Annotation)软件,是一种利用短和长读取cDNA测序,蛋白质证据和从头预测的自动化注释流水pipeline,以生成准确的基因组注释。基于对两种真菌和两种植物基因组的注释,证明LoReAn通过整合从PacBio或MinION测序平台产生的单分子cDNA测序数据,并正确预测基因结构并捕获其他注释pipeline漏掉的基因,更加优于目前流行的注释工具。
完整的植物比较基因组学和数据库合集: http://www.lifeomics.com/?p=24759
常用的基因组注释软件:
常用的比对可视化工具:
线粒体圈图绘制工具:

GBrowse

       GBrowse是个开源的基因组浏览器;是一个图形化展示基因组数据;与Ensemble、UCSC Genome Browser、mapviewer等同属一类,但其目的是开源工具本身,注重工具的易用性,可配置性,文档等,如果你也想展示自己的数据,GBrowse是最好的选择。包括数据的制备、多种数据库的支持、灵活而强大的配置语法、可以定制的插件库、完善的文档教程等等;
wiki: http://gmod.org/wiki/Gbrowse
       接触过基因组学的同学想必都知道UCSC Genome Browser,在那里可以像看书一样浏览数十种物种的基因组,包括编码序列,调控序列,ChIP-chip数据,芯片数据,EST序列,保守序列等等; 可以指定要看的位置,比如Human chrX:151,073,054-151,383,976,随意放大缩小,展开或收起数据。
       但是如果你想要浏览的物种不在UCSC Genome Browser,你应该试试GBrowse!GBrowse是个开源的基因组浏览器框架,你只需要导入特定格式的数据,就可以在GBrowse的图形界面里浏览你的基因组了。GBrowse的界面到底什么样子?可以看看FlyBaseWormBase.

BioRuby

       BioRuby提供了一套完整的免费开发工具和生物信息学和分子生物学图书馆,用于Ruby编程语言。BiouRube具有用于序列分析、通路分析、蛋白质建模和系统发育分析的组件;它支持许多广泛使用的数据格式,并提供方便地访问数据库、外部程序和公共Web服务,包括BLAST、KEGG、GenBank、MEDLINE和GO。
       BioRuby附带教程、文档和交互环境,可以在shell中使用,也可以在Web浏览器中使用。

Ruby UCSC API

       Ruby UCSC API是一个使用Ruby编程语言访问UCSC基因组数据库的程序库。API是作为一个BioRuby插件设计的,构建在ActiveRecord 3框架上进行对象-关系映射,使得不需要编写SQL语句。当前版本API支持UCSC基因组数据库中的所有生物,包括人类、哺乳动物、脊椎动物、后口动物、昆虫、线虫和酵母。当查询基因组区域时,API使用二叉树索引(若可行)。API也支持使用本地下载的*.2bit文件进行基因组序列查询,它们没有存储在官方MySQL数据库中。API纯粹用Ruby编程语言实现,可以通过RubyGem获得。
 

GenBank

       GenBank®是NIH基因序列数据库,注释公开的所有公开的DNA序列。

Ruby on Gen 资源

一篇基于Ruby的基因组大规模数据分析统计: http://journal.embnet.org/index.php/embnetjournal/article/view/753/1113

来自Mazhaorong的邮件回复:

1. 基因组数据库就是NCBI和EBI呀
 
2.   业界最流行的软件流程是啥我不清楚,不过你可以看看NCBI的:
还有就是你可以看看各种 genome paper 的 Methods 章节。
随便举个例子:比如草莓:https://www.nature.com/articles/ng.740
 
顺便推荐个权威生物信息学社区: https://www.biostars.org
 

一些结论:

Predicting correct organelle rRNA gene structures is indeed a remaining frontier, due to their enormous variability and accelerated rate of evolution
预测正确细胞器rRNA基因结构确实是一个艰巨而前沿的任务,由于它们的巨大的变异性和加速的进化速度导致未来的变化不可预期。
 
 
提交反馈

博客 博客

专注数字内容治理,助力数字体验升级

Baklib|为什么企业需要API驱动战略

Baklib|为什么企业需要API驱动战略

现代交易涉及35个系统组件,API成为连接关键。企业采用API驱动战略可降低开发成本、缩短上市时间、优化数字体验。本文解析API定义、商业价值及实施路径,助力企业赢在API经济时代。

Author api-driven-strategy-business
By Lisa
发布:2026-05-09
2026 年每个团队都需了解的 AI 文档的发展趋势

2026 年每个团队都需了解的 AI 文档的发展趋势

2026年AI文档将从静态转向自适应系统,包括MCP实时同步、多智能体协作、多模态内容、行业专用模型和集中治理。团队需防范AI幻觉、保持人工审核、管控文化差异,打好基础后再逐步引入新能力。

Author ai-documentation-trends-2026
By Lisa
发布:2026-05-08
AI时代,信任架构管理的复杂性

AI时代,信任架构管理的复杂性

AI时代,信任成为企业核心竞争力。真正的挑战不是技术老旧,而是系统复杂。AI会放大现有问题,信任必须从设计阶段融入架构。通过Baklib帮助企业打通数据、体验与治理,构建可信数字环境。

Author trust-architecture-ai-complexity
By Lisa
发布:2026-04-27
公共部门数字化转型的10个关键能力

公共部门数字化转型的10个关键能力

本文基于公共部门面临的数字化挑战,提出10项关键平台能力,涵盖多站点管理、低代码、自助服务、个性化、云端部署等,帮助政府提升服务效率与用户体验。

Author public-sector-digital-transformation-10-keys
By Lisa
发布:2026-04-20
DXP与最佳组合:赋能IT团队

DXP与最佳组合:赋能IT团队

数字体验平台(DXP)和“最佳组合”方法可帮助IT团队高效构建解决方案。DXP集成多种技术,支持多通道交付、分析和个性化,提升灵活性和效率。采用DXP并搭配最佳组合策略,企业无需替换现有系统即可实现未来创新。

Author dxp-best-of-breed-it-teams
By Lisa
发布:2026-04-18
Baklib|DXP对数字化转型至关重要的9个理由

Baklib|DXP对数字化转型至关重要的9个理由

本文从全渠道管理、消除信息孤岛、统一品牌形象、提升用户体验、个性化服务、自动化流程、易于采用、灵活扩展、远程办公安全等9个方面,阐述Baklib这类DXP如何助力企业成功实现数字化转型。

Author 9-reasons-why-dxps-are-essential-for-digital-transformation
By Lisa
发布:2026-04-09
自助服务门户:4大策略提升客户体验

自助服务门户:4大策略提升客户体验

81%的客户在联系人工客服前会先尝试自助解决问题。有效的自助服务门户不仅能降低成本,还可创造收入、统一支持中心、构建用户社区并推动主动响应。企业应基于组织目标与客户需求,制定清晰的自助服务策略。

Author 4-ways-you-can-improve-cx-with-digital-self-service
By Lisa
发布:2026-04-01
词元经济到来,AI 主导世界

词元经济到来,AI 主导世界

在数字化的浩瀚星空中,我们正见证着一场前所未有的范式转移。如果说互联网时代的核心是“连接”,那么人工智能(AI)时代的核心则是“理解”与“重构”。

Author ciyuan
By 巴克励步
发布:2026-03-27