生物信息学札记(第2版)
樊龙江
浙江大学生物信息学研究所/ IBM生物计算实验室
浙江大学作物科学研究所
2005年4月
本材料可通过Bioinplant 实验室网址获得:
http://ibi.zju.edu.cn/bioinplant/
前言
第一版
*这份材料是我学习和讲授《生物信息学》课程时的备课笔记,材料大多是根据当时收集的一些外文资料翻译编辑而成。学生在学习过程中经常要求我给他们提供一些中文的讲义或材料,这促使我把我的这份笔记整理并放到网上,供大家参考。要提醒使用者的是,这份材料仅是根据我对生物信息学的一些浮浅的认识整理而成,其中的错误和偏颇只能请读者自鉴了。
2001年6月
第二版
自1999年开始接触生物信息学以来,一晃已近六年,而本札记也近四岁了。2001和2002年中国科学院理论物理所的郝柏林院士在浙江大学首次开设生物信息学研究生课程,我作为他的助教系统地学习了生物信息学;同时,借着我国水稻基因组测序计划的机遇,在他的带领下从2001年开始从事水稻基因组分析,从此自己便完全投入到这一崭新、引人入胜的领域中来。
不断有来信向我索要本札记的电子版文件,同时在不少网站上看到推荐该札记的内容。生物信息学、基因组学等发展很快,现在再回头审看该札记,有些部分已惨不忍读,这促使我下决心更新它。但因时间和学识问题,还是有不少部分自己不甚满意,就只有待日后再努力了。我的硕士生温晓协助收集了部分资料。欢迎告诉我札记中的BUG,我的信箱fanlj@zju.edu.cn 或bioinplant@zju.edu.cn。
简要目录
返回Bioinplant
Lab 主页
第一章 生物信息学通论
第二章 分子数据库
第三章 序列分析与比较
第四章 基因组测序与分析
第五章 分子进化
第六章 蛋白质结构与功能预测
附录:生物信息学主要英文术语及释义
分子生物学主要数据库序列分析软件目录
与核苷酸和蛋白质序列相关的特征关键词表
大规模基因组测序物种及其进展(NCBI,
第一章 生物信息学通论
第一节
生物信息与生物信息学
一、迅速膨胀的生物信息
二、生物信息学的概念
第二节
生物信息学发展简史
第三节
基因组时代:生物信息学的应用与展望
第二章 分子数据库
第一节
初级数据库
一、DNA数据库
二、基因组数据库
三、蛋白质序列数据库
四、蛋白质结构数据库
第二节
初级序列数据的注释
第三节
数据库信息检索系统
第四节
数据库的冗余与偏误
第五节
向数据库发送序列数据及其它
第三章 序列分析与比较
第一节
序列组成和单一序列分析
一、碱基组成
二、碱基相邻频率
三、同向重复序列分析
四、DNA序列的几何学分析——Z曲线
第二节
序列联配
一、Needleman-Wunsch算法
二、Smith-Waterman算法
三、序列相似性统计特征
1、二进制值或标准比值(Bit Score);2、P值(P-value);3、BLAST和FASTA的数据库搜索策略;4、空位列线(gapped alignment)的统计问题;5、边际效应(edge effect);6、替换矩阵的选择;7、空位罚值(gap penalties)
四、替换矩阵
1、替换矩阵的一般原理;2、PAM氨基酸替换矩阵;3、BLOSUM氨基酸替换矩阵;4、DNA替换矩阵
五、多序列联配
一、数据之海与一叶轻舟
二、BLAST:核酸数据库搜索
1、BLAST实战操作(1);2、BLAST的检索报告;3、BLAST选项;4、BLAST实战操作(2)
三、BLAST:蛋白质数据库搜索
四、FASTA:另一种搜索策略
1、FASTA选项;2、FASTA实战操作及其检索报告
第四节
寡核苷酸设计
一、寡核苷酸设计
1、引物设计;2、用于检测相关基因的简并探针
第四章 基因组测序与分析
第一节
DNA测序与序列片段的拼接
一、DNA测序的一般方法
1、DNA测序的基本原理;2、双脱氧测序法(Sanger法);3、化学测序法(Maxam-Gilbert法);4、荧光自动测序仪
二、DNA片段测序策略
1、从遗传图谱、物理图谱到基因组序列图谱;2、鸟枪测序法(shotgun sequencing);3、引物步查法(primer walking);4、限制性酶切-亚克隆法(restriction endonuclease digestion and
subcloning)
三、基因组测序策略
四、序列片段的拼接方法
五、EST测序
第二节
基因组注释:基因区域的预测
一、从序列中寻找基因
1、基因及基因区域预测;2、发现基因的一般过程;3、解读序列(making sense of the sequence)
二、最长ORF法等:基于编码区特性
三、序列相似性比较法
四、隐马尔可夫模型(HMM)
五、神经网络
六、RNA二级结构预测
第三节
基因组分析
一、基因组分析:生物信息学发展的“史记”
二、比较基因组学
第四节 水稻基因组分析
第五章 分子进化
第一节
系统树及其它
一、系统树
二、遗传模型和序列距离
三、分子进化与系统发育分析软件
第二节
距离矩阵法
一、平均连接聚类法(UPGMA法)
二、Fitch-Margoliash算法
三、邻接法
第三节
简约法
第四节
似然法
一、DNA序列的似然模型
二、两条序列的系统树
三、多条序列的系统树
四、对系统树Bootstrap抽样
第六章 蛋白质结构与功能预测
第一节
蛋白质功能预测
一、根据序列预测功能的一般过程
二、通过比对数据库相似序列确定功能
三、序列特性:疏水性、螺旋等
四、通过比对模序数据库等确定功能
第二节
蛋白质结构预测
一、蛋白质结构及其数据库
二、二级结构预测
三、三级结构预测
第三节 计算机药物辅助设计
附录:
生物信息学常用词汇与代码
主要分子生物信息数据库
生物信息学主要分析软件
大规模基因组测序物种及其进展(NCBI,
1.
全部或部分基因组已测序完成的物种(微生物224个,其中古细菌21个,细菌203个;原核生物染色体、叶绿体和线粒体完整序列863条)
2.
正在基因组测序的微生物(315个,其中古细菌14个,细菌301个)
3.
通过全基因组鸟枪法(WGS)策略测序的物种及其数据库记录号(225个)
4.
植物基因组大规模测序情况(其中基因组测序完成或正在测序的物种5个,已完成遗传图构建物种11个,EST大规模测序物种75个)