基因组数据库注释及分析开发程式调研

Author Tanmer Tanmer
Tanmer · 2024-10-18发布 · 406 次浏览

了解基因组数据库的建立方法,开源基因组数据程式调研,基因注释方法,分析比对方法调研。

英文名字解释: 

 biology, bio  生物学;

gene 基因:是指控制生物性状的遗传信息,通常由DNA序列来承载。基因也可视作基本遗传单位,亦即一段具有功能性的DNA或RNA序列; Genome 基因组。

RNA:核糖核酸(缩写为RNA,即Ribonucleic Acid),存在于生物细胞以及部分病毒、类病毒中的遗传信息载体。 RNA由核糖核苷酸经磷酸二酯键缩合而成长链状分子。

DNA:  脱氧核糖核酸(英语:deoxyribonucleic acid,缩写:DNA)又称去氧核糖核酸,是一种生物大分子,可组成遗传指令,引导生物发育与生命机能运作。主要功能是信息储存,可比喻为“蓝图”或“配方”。DNA是一种长链聚合物,组成单位称为核苷酸,而糖类与磷酸借由酯键相连,组成其长链骨架。

了解基因组数据库的建立方法,开源基因组数据程式调研,基因注释方法,分析比对方法调研。

基因组测序

Illumina: 全世界的生物学家都将加利福尼亚 Illumina 公司创造的 DNA 测序仪广泛用于基因组学应用,包括全基因组测序。该公司在 AWS 上构建其 BaseSpace 工具,以支持研究人员直接向云中上传用于分析的大量数据集并使用 Amazon Glacier 长期存储实验结果。查看Ruby SDK: https://github.com/basespace/basespace-ruby-sdk

PacBio: PacBio Sequel系统可用于高确信度地表征异构体多样性,分析人类转录组的全面复杂性,发现新的基因、异构体和基因融合事件,研究动植物的转录本多样性,以改进基因组注释和基因发掘 https://www.pacb.com/cn/applications/rna-sequencing/

参考:植物生物学基因组数据库汇总:http://www.sohu.com/a/164341318_732029

基因组注释

见: 百科解释

       基因组注释主要包括四个研究方向:重复序列的识别;非编码RNA的预测;基因结构预测和基因功能注释。我们将分别对这四个领域进行阐述。
注释之前首先得构建基因模型,有三种策略:同源预测(homology-based prediction), 从头注释(di novo prediction)和基于转录组预测(transcriptome-based prediction),然后才是功能注释,蛋白功能域注释,基因本体论注释,通路注释。

处理

下图提供了注释过程的概述。基因组序列被掩盖(灰色),并且转录物(蓝色),蛋白质(绿色)和RNA-Seq读数(橙色)与基因组对齐。如果可用于注释的生物体,则策划的RefSeq基因组序列也是对齐的(粉红色)。然后进行基于转录和蛋白质比对的基因模型预测(棕色)。在RefSeq和预测模型中选择最好的模型,命名和加入(紫色)。最后,注释产品被格式化并部署到公共资源(黄色)。

一个整合植物基因组学工具和资源的网站: <http://www.plantgdb.org/>
给出了一套完整的注释流程以及每一步的输入和输出情况:<http://bioservices.usd.edu/gsap.html>

线粒体基因组分析工具: http://www.zilhua.com/1173.html

       长序列注释软件:LoReAn(Long Read Annotation)软件,是一种利用短和长读取cDNA测序,蛋白质证据和从头预测的自动化注释流水pipeline,以生成准确的基因组注释。基于对两种真菌和两种植物基因组的注释,证明LoReAn通过整合从PacBio或MinION测序平台产生的单分子cDNA测序数据,并正确预测基因结构并捕获其他注释pipeline漏掉的基因,更加优于目前流行的注释工具。

完整的植物比较基因组学和数据库合集: http://www.lifeomics.com/?p=24759

常用的基因组注释软件:

常用的比对可视化工具:

http://tools.bat.infspire.org/circoletto/

线粒体圈图绘制工具:

http://ogdraw.mpimp-golm.mpg.de/

GBrowse

       GBrowse是个开源的基因组浏览器;是一个图形化展示基因组数据;与Ensemble、UCSC Genome Browser、mapviewer等同属一类,但其目的是开源工具本身,注重工具的易用性,可配置性,文档等,如果你也想展示自己的数据,GBrowse是最好的选择。包括数据的制备、多种数据库的支持、灵活而强大的配置语法、可以定制的插件库、完善的文档教程等等;
wiki: http://gmod.org/wiki/Gbrowse

       接触过基因组学的同学想必都知道UCSC Genome Browser,在那里可以像看书一样浏览数十种物种的基因组,包括编码序列,调控序列,ChIP-chip数据,芯片数据,EST序列,保守序列等等; 可以指定要看的位置,比如Human chrX:151,073,054-151,383,976,随意放大缩小,展开或收起数据。

       但是如果你想要浏览的物种不在UCSC Genome Browser,你应该试试GBrowse!GBrowse是个开源的基因组浏览器框架,你只需要导入特定格式的数据,就可以在GBrowse的图形界面里浏览你的基因组了。GBrowse的界面到底什么样子?可以看看FlyBaseWormBase.

BioRuby

http://bioruby.org/

       BioRuby提供了一套完整的免费开发工具和生物信息学和分子生物学图书馆,用于Ruby编程语言。BiouRube具有用于序列分析、通路分析、蛋白质建模和系统发育分析的组件;它支持许多广泛使用的数据格式,并提供方便地访问数据库、外部程序和公共Web服务,包括BLAST、KEGG、GenBank、MEDLINE和GO。

       BioRuby附带教程、文档和交互环境,可以在shell中使用,也可以在Web浏览器中使用。

Ruby UCSC API

https://github.com/misshie/bioruby-ucsc-api/

       Ruby UCSC API是一个使用Ruby编程语言访问UCSC基因组数据库的程序库。API是作为一个BioRuby插件设计的,构建在ActiveRecord 3框架上进行对象-关系映射,使得不需要编写SQL语句。当前版本API支持UCSC基因组数据库中的所有生物,包括人类、哺乳动物、脊椎动物、后口动物、昆虫、线虫和酵母。当查询基因组区域时,API使用二叉树索引(若可行)。API也支持使用本地下载的*.2bit文件进行基因组序列查询,它们没有存储在官方MySQL数据库中。API纯粹用Ruby编程语言实现,可以通过RubyGem获得。
 

GenBank

https://www.ncbi.nlm.nih.gov/genbank/

       GenBank®是NIH基因序列数据库,注释公开的所有公开的DNA序列。

Ruby on Gen 资源

一篇基于Ruby的基因组大规模数据分析统计: http://journal.embnet.org/index.php/embnetjournal/article/view/753/1113

来自Mazhaorong的邮件回复:

1. 基因组数据库就是NCBI和EBI呀

https://www.ncbi.nlm.nih.gov/genome

https://www.ebi.ac.uk/genomes/

 

2.   业界最流行的软件流程是啥我不清楚,不过你可以看看NCBI的:

https://www.ncbi.nlm.nih.gov/genome/annotation_euk/process/

还有就是你可以看看各种 genome paper 的 Methods 章节。

随便举个例子:比如草莓:https://www.nature.com/articles/ng.740

 

顺便推荐个权威生物信息学社区: https://www.biostars.org

 

一些结论:

Predicting correct organelle rRNA gene structures is indeed a remaining frontier, due to their enormous variability and accelerated rate of evolution

预测正确细胞器rRNA基因结构确实是一个艰巨而前沿的任务,由于它们的巨大的变异性和加速的进化速度导致未来的变化不可预期。

 

 

提交反馈

博客 博客

专注数字内容治理,助力数字体验升级

搜索功能在IA信息架构中的重要指标和地位

搜索功能在IA信息架构中的重要指标和地位

本文探讨了企业搜索问题背后的深层原因,指出搜索“失效”往往源于内容策略、信息建模和用户体验的缺失,而不仅仅是搜索引擎本身的问题。通过引入 Baklib 全文检索 智能搜索,企业可优化知识管理体系,提升搜索相关性、及时性和针对性,从而真...

Author 8f1d
By Lisa
发布:2025-03-25
Baklib在软件科技行业的应用

Baklib在软件科技行业的应用

通过Baklib强大的文档管理、知识共享、客户支持和品牌内容展示功能,帮助软件科技企业提升内容体验和用户体验

Author application
By aQian
发布:2025-03-24
大数据时代的数字内容挑战:从创业到企业的内容治理之路

大数据时代的数字内容挑战:从创业到企业的内容治理之路

在数字化时代,内容治理成为企业与创业者面临的核心挑战。Baklib数字内容体验云平台提供模块化管理、高效分发与智能优化方案,助力教育、知识管理与产品文档领域的内容升级。通过数据驱动的优化策略,Baklib让内容管理更高效、可持续,助力...

Author dfab
By Lisa
发布:2025-03-17
分类法与信息架构实施指南:确保成功

分类法与信息架构实施指南:确保成功

本指南探讨了在信息架构实施过程中常见的挑战及应对策略,包括技术实现、搜索功能、用户体验、治理与安全以及工作流程管理。通过利用Baklib等智能知识管理工具,企业可以优化实施过程,提升管理效率,确保信息架构的可扩展性和用户体验。

Author 3126
By Lisa
发布:2025-03-12
人工智能的未来:从数据、算法、算力到知识的融合

人工智能的未来:从数据、算法、算力到知识的融合

人工智能的发展正在从纯粹的数据驱动走向数据与知识的融合。周志华教授提出的“反绎学习”为这一转变提供了理论框架和实践方法。随着AI技术进入新的阶段,知识的重要性将愈发凸显,未来的AI系统将不仅仅是“数据的奴隶”,而是能够充分利用人类智慧...

Author data-to-knowledge
By Baklib
发布:2025-03-05
跨越鸿沟与 AI 助力:Baklib 引领企业成功之路

跨越鸿沟与 AI 助力:Baklib 引领企业成功之路

杰弗里·摩尔在《跨越鸿沟》中指出,技术产品若未能在主流市场获得吸引力,便可能消亡。而为了成功推广创新产品,企业需专注于特定客户群体,并小心在早期采用者与早期多数者之间进行过渡。此外,人工智能的引入在各行业展现出显著的投资回报和效率提升...

Author d465
By Baklib
发布:2025-03-04
数字内容管理新突破:Baklib助力企业优化信息架构

数字内容管理新突破:Baklib助力企业优化信息架构

本文探讨信息架构(IA)对企业运营的基础性作用,强调其在营销、客户体验和数据治理等领域的影响。通过Baklib数字内容体验云平台,企业可以构建高效的知识管理系统,提升信息组织和内容展示,推动数字化转型与业务增长。

Author adf4
By Lisa
发布:2025-02-27
使用知识中台作为跨组织工作的文档存储的五个好处

使用知识中台作为跨组织工作的文档存储的五个好处

对任何组织来说,保持文档井然有序和可访问性是一项关键任务。在本地网络驱动器上存储文档的传统方法可能耗时且难以管理,并限制了谁可以访问。那么,当您想在多个组织之间轻松共享文档时,会发生什么?

Author 3e3f
By Lisa
发布:2025-02-27
通过打造信息架构,提供全渠道一致性的客户体验

通过打造信息架构,提供全渠道一致性的客户体验

随着业务数字化转型的推进,企业面临的全渠道挑战变得愈加复杂。如何在多种平台、设备和渠道之间提供一致且个性化的体验?Baklib通过优化信息架构,帮助企业应对这些挑战,确保能够高效地管理和交付一致的内容体验。

Author 9dec
By Lisa
发布:2025-02-27