英文名字解释:
biology, bio 生物学;
gene 基因:是指控制生物性状的遗传信息,通常由DNA序列来承载。基因也可视作基本遗传单位,亦即一段具有功能性的DNA或RNA序列; Genome 基因组。
RNA:核糖核酸(缩写为RNA,即Ribonucleic Acid),存在于生物细胞以及部分病毒、类病毒中的遗传信息载体。 RNA由核糖核苷酸经磷酸二酯键缩合而成长链状分子。
DNA: 脱氧核糖核酸(英语:deoxyribonucleic acid,缩写:DNA)又称去氧核糖核酸,是一种生物大分子,可组成遗传指令,引导生物发育与生命机能运作。主要功能是信息储存,可比喻为“蓝图”或“配方”。DNA是一种长链聚合物,组成单位称为核苷酸,而糖类与磷酸借由酯键相连,组成其长链骨架。
了解基因组数据库的建立方法,开源基因组数据程式调研,基因注释方法,分析比对方法调研。

基因组测序
基因组注释
基因组注释主要包括四个研究方向:重复序列的识别;非编码RNA的预测;基因结构预测和基因功能注释。我们将分别对这四个领域进行阐述。
注释之前首先得构建基因模型,有三种策略:同源预测(homology-based prediction), 从头注释(di novo prediction)和基于转录组预测(transcriptome-based prediction),然后才是功能注释,蛋白功能域注释,基因本体论注释,通路注释。
处理
下图提供了注释过程的概述。基因组序列被掩盖(灰色),并且转录物(蓝色),蛋白质(绿色)和RNA-Seq读数(橙色)与基因组对齐。如果可用于注释的生物体,则策划的RefSeq基因组序列也是对齐的(粉红色)。然后进行基于转录和蛋白质比对的基因模型预测(棕色)。在RefSeq和预测模型中选择最好的模型,命名和加入(紫色)。最后,注释产品被格式化并部署到公共资源(黄色)。

长序列注释软件:LoReAn(Long Read Annotation)软件,是一种利用短和长读取cDNA测序,蛋白质证据和从头预测的自动化注释流水pipeline,以生成准确的基因组注释。基于对两种真菌和两种植物基因组的注释,证明LoReAn通过整合从PacBio或MinION测序平台产生的单分子cDNA测序数据,并正确预测基因结构并捕获其他注释pipeline漏掉的基因,更加优于目前流行的注释工具。
常用的基因组注释软件:
常用的比对可视化工具:
线粒体圈图绘制工具:
GBrowse
GBrowse是个开源的基因组浏览器;是一个图形化展示基因组数据;与Ensemble、UCSC Genome Browser、mapviewer等同属一类,但其目的是开源工具本身,注重工具的易用性,可配置性,文档等,如果你也想展示自己的数据,GBrowse是最好的选择。包括数据的制备、多种数据库的支持、灵活而强大的配置语法、可以定制的插件库、完善的文档教程等等;
wiki:
http://gmod.org/wiki/Gbrowse
BioRuby
BioRuby提供了一套完整的免费开发工具和生物信息学和分子生物学图书馆,用于Ruby编程语言。BiouRube具有用于序列分析、通路分析、蛋白质建模和系统发育分析的组件;它支持许多广泛使用的数据格式,并提供方便地访问数据库、外部程序和公共Web服务,包括BLAST、KEGG、GenBank、MEDLINE和GO。
BioRuby附带教程、文档和交互环境,可以在shell中使用,也可以在Web浏览器中使用。
Ruby UCSC API
Ruby UCSC API是一个使用Ruby编程语言访问UCSC基因组数据库的程序库。API是作为一个BioRuby插件设计的,构建在ActiveRecord 3框架上进行对象-关系映射,使得不需要编写SQL语句。当前版本API支持UCSC基因组数据库中的所有生物,包括人类、哺乳动物、脊椎动物、后口动物、昆虫、线虫和酵母。当查询基因组区域时,API使用二叉树索引(若可行)。API也支持使用本地下载的*.2bit文件进行基因组序列查询,它们没有存储在官方MySQL数据库中。API纯粹用Ruby编程语言实现,可以通过RubyGem获得。
GenBank
GenBank®是NIH基因序列数据库,注释公开的所有公开的DNA序列。
Ruby on Gen 资源
来自Mazhaorong的邮件回复:
1. 基因组数据库就是NCBI和EBI呀
2. 业界最流行的软件流程是啥我不清楚,不过你可以看看NCBI的:
还有就是你可以看看各种 genome paper 的 Methods 章节。
一些结论:
Predicting correct organelle rRNA gene structures is indeed a remaining frontier, due to their enormous variability and accelerated rate of evolution
预测正确细胞器rRNA基因结构确实是一个艰巨而前沿的任务,由于它们的巨大的变异性和加速的进化速度导致未来的变化不可预期。