生物信息学札记(第3版)
樊龙江
浙江大学作物科学研究所
浙江大学生物信息学研究所
浙江大学 IBM生物计算实验室
浙江大学沃森基因组科学研究院
2010年1月
本材料可通过下列网址获得:
http://ibi.zju.edu.cn/bioinplant/
前言
第一版
这份材料是我学习和讲授《生物信息学》课程时的备课笔记,材料大多是根据当时收集的一些外文资料翻译编辑而成。学生在学习过程中经常要求我给他们提供一些中文的讲义或材料,这促使我把我的这份笔记整理并放到网上,供大家参考。要提醒使用者的是,这份材料仅是根据我对生物信息学的一些浮浅的认识整理而成,其中的错误和偏颇只能请读者自鉴了。
2001年6月
第二版
自1999年开始接触生物信息学以来,一晃已近六年,而本札记也近四岁了。2001和2002年中国科学院理论物理所的郝柏林院士在浙江大学首次开设生物信息学研究生课程,我作为他的助教系统地学习了生物信息学;同时,借着我国水稻基因组测序计划的机遇,在他的带领下从2001年开始从事水稻基因组分析,从此自己便完全投入到这一崭新、引人入胜的领域中来。
不断有来信向我索要本札记的电子版文件,同时在不少网站上看到推荐该札记的内容。生物信息学、基因组学等发展很快,现在再回头审看该札记,有些部分已惨不忍读,这促使我下决心更新它。但因时间和学识问题,还是有不少部分自己不甚满意,就只有待日后再努力了。我的硕士生温晓协助收集了部分资料。欢迎告诉我札记中的BUG,我的信箱fanlj@zju.edu.cn 或bioinplant@zju.edu.cn。
2010年1月
第一章 生物信息学通论
第二章 分子数据库
第三章 序列分析与比较
第四章 基因组测序与分析
第五章 分子进化
第六章 蛋白质结构与功能预测
第七章 内源非编码小RNA分析
第八章 遗传多态性及正向选择检测
附录:
与核苷酸和蛋白质序列相关的特征关键词表
核苷酸和氨基酸代码
主要分子生物信息数据库
生物信息学主要分析软件
第一章 生物信息学通论
第一节
生物信息与生物信息学
一、迅速膨胀的生物信息
二、生物信息学的概念
第二节
生物信息学发展简史
第三节
基因组时代:生物信息学的应用与展望
第二章 分子数据库
第一节
初级数据库
一、DNA数据库
二、基因组数据库
三、蛋白质序列数据库
四、蛋白质结构数据库
第二节
初级序列数据的注释
第三节
数据库信息检索系统
第四节
数据库的冗余与偏误
第五节
向数据库发送序列数据及其它
第三章 序列分析与比较
第一节
序列组成和单一序列分析
一、碱基组成
二、碱基相邻频率
三、同向重复序列分析
四、DNA序列的几何学分析——Z曲线
第二节
序列联配
一、Needleman-Wunsch算法
二、Smith-Waterman算法
三、序列相似性统计特征
1、二进制值或标准比值(Bit Score);2、P值(P-value);3、BLAST和FASTA的数据库搜索策略;4、空位列线(gapped alignment)的统计问题;5、边际效应(edge effect);6、替换矩阵的选择;7、空位罚值(gap penalties)
四、替换矩阵
1、替换矩阵的一般原理;2、PAM氨基酸替换矩阵;3、BLOSUM氨基酸替换矩阵;4、DNA替换矩阵
五、多序列联配
一、数据之海与一叶轻舟
二、BLAST:核酸数据库搜索
1、BLAST实战操作(1);2、BLAST的检索报告;3、BLAST选项;4、BLAST实战操作(2)
三、BLAST:蛋白质数据库搜索
四、FASTA:另一种搜索策略
1、FASTA选项;2、FASTA实战操作及其检索报告
第四节
寡核苷酸设计
一、寡核苷酸设计
1、引物设计;2、用于检测相关基因的简并探针
第四章 基因组测序与分析
第一节
DNA测序与序列片段的拼接
一、DNA测序的一般方法
1、DNA测序的基本原理;2、双脱氧测序法(Sanger法);3、化学测序法(Maxam-Gilbert法);4、荧光自动测序仪
二、DNA片段测序策略
1、从遗传图谱、物理图谱到基因组序列图谱;2、鸟枪测序法(shotgun sequencing);3、引物步查法(primer walking);4、限制性酶切-亚克隆法(restriction endonuclease digestion and
subcloning)
三、基因组测序策略
四、序列片段的拼接方法
五、EST测序
第二节
基因组注释:基因区域的预测
一、从序列中寻找基因
1、基因及基因区域预测;2、发现基因的一般过程;3、解读序列(making sense of the sequence)
二、最长ORF法等:基于编码区特性
三、序列相似性比较法
四、隐马尔可夫模型(HMM)
五、神经网络
六、RNA二级结构预测
第三节
基因组分析
一、基因组分析:生物信息学发展的“史记”
二、比较基因组学
第四节 基因组分析举例:水稻基因组分析
一、 现代的二倍体,古老的多倍体
二、 最小的核基因组:基因组在扩增还是在缩小?
四、 水稻高GC含量基因的进化机制
五、 水稻小RNA可能是驯化和育种选择的靶基因
第五章 分子进化
第一节
系统树及其它
一、系统树
二、遗传模型和序列距离
三、分子进化与系统发育分析软件
第二节
距离矩阵法
一、平均连接聚类法(UPGMA法)
二、Fitch-Margoliash算法
三、邻接法
第三节
简约法
第四节
似然法
一、DNA序列的似然模型
二、两条序列的系统树
三、多条序列的系统树
四、对系统树Bootstrap抽样
第六章 蛋白质结构与功能预测
第一节
蛋白质功能预测
一、根据序列预测功能的一般过程
二、通过比对数据库相似序列确定功能
三、序列特性:疏水性、螺旋等
四、通过比对模序数据库等确定功能
第二节
蛋白质结构预测
一、蛋白质结构及其数据库
二、二级结构预测
三、三级结构预测
第三节 计算机药物辅助设计
第七章
内源非编码小RNA分析
第一节
miRNA的主要特征及计算识别
一、
miRNA的主要特征
二、
miRNA的计算识别
三、
miRNA靶基因预测
第二节
ta-siRNAs等的计算识别
一、
ta-siRNAs的主要特征
二、 ta-siRNAs的计算识别
三、 起源于NATs的siRNA
第三节 小RNA进化分析
一、 小RNA进化研究概况
二、 水稻小RNA的进化分析
三、 水稻miRNA位点遗传多样性与驯化选择研究
第四节 小RNA相关数据库
一、 miRBase数据库
二、 siRNA数据库
三、 CSRDB和ASRP
四、 Gene Expression Omnibus (GEO)
第八章
遗传多态性及正向选择检测
第一节
群体遗传多态性估算
一、
影响群体遗传多样性的因素
二、
等位基因频率
三、
DNA多态性
第二节
正向选择的统计检验
一、
自然选择的分类
二、
中性检验
三、 全基因组扫描及假阳性
四、
研究案例
附录:
生物信息学常用词汇与代码
主要分子生物信息数据库
参见《Nucleic Acids Research》(网址)每年一月出版的数据库专刊(其中2010年列表)
生物信息学主要分析软件