生物信息学札记(第4版)
樊龙江
浙江大学作物科学研究所
浙江大学生物信息学研究所
浙江大学IBM生物计算实验室
2017年9月
本材料已由浙江大学出版社出版:《生物信息学》,樊龙江主编,2017
部分内容可通过下列网址获得:
http://ibi.zju.edu.cn/bioinplant/
札记前言
第一版
这份材料是我学习和讲授《生物信息学》课程时的备课笔记,材料大多是根据当时收集的一些外文资料翻译编辑而成。学生在学习过程中经常要求我给他们提供一些中文的讲义或材料,这促使我把我的这份笔记整理并放到网上,供大家参考。要提醒使用者的是,这份材料仅是根据我对生物信息学的一些浮浅的认识整理而成,其中的错误和偏颇只能请读者自鉴了。
2001年6月
第二版
自1999年开始接触生物信息学以来,一晃已近六年,而本札记也近四岁了。2001和2002年中国科学院理论物理所的郝柏林院士在浙江大学首次开设生物信息学研究生课程,我作为他的助教系统地学习了生物信息学;同时,借着我国水稻基因组测序计划的机遇,在他的带领下从2001年开始从事水稻基因组分析,从此自己便完全投入到这一崭新、引人入胜的领域中来。
不断有来信向我索要本札记的电子版文件,同时在不少网站上看到推荐该札记的内容。生物信息学、基因组学等发展很快,现在再回头审看该札记,有些部分已惨不忍读,这促使我下决心更新它。但因时间和学识问题,还是有不少部分自己不甚满意,就只有待日后再努力了。欢迎告诉我札记中的BUG,我的信箱fanlj@zju.edu.cn 或bioinplant@zju.edu.cn。
2005年3月30日
第三版
近年来高通量测序技术产生的序列数据大量出现(如小RNA和大规模群体SNP数据),本次更新根据这一进展增加了两章内容,分别是第七章有关小RNA的分析和第八章遗传多态性及正向选择检测。两章内容由我的博士生王煜为主编写,李泽峰和刘云参与了文献整理。另外还更新了第四章有关水稻基因组分析一节。
2010年1月
第四版
2014年浙江大学开展本科生教材建设工作,我当时作为系主任要带头,就承诺编写我主讲的《生物信息学》教材。编写教材的确不是一件容易的事,经过几番挣扎和多方努力,总算完成了编写,算是了却了一桩心思。该教材内容比较完整,也跟踪了生物信息学领域的最新进展。我就权且把该教材内容作为札记的第四版,也算给该札记一个完美的结尾。
2017年9月
《生物信息学》
序言
1959年9月我国自行研制的的104真空管电子计算机通过国家鉴定。它每秒钟可以执行1万条浮点运算指令。2016年6月在世界超级计算机500强名单中位居首位的我国无锡超算中心的神威太湖之光计算机,其峰值运算速度达到每秒9亿亿次(93104.6Tflops)。57年间,运算速度提高了9万亿倍。信息技术的如此发展速度是人类在所有其它科学技术领域不能比拟的,它注定要改变社会生产和生活的一切方面。生物学和医学的研究也不例外。
1953年DNA双螺旋结构的发现,把生物学推进到分子水平。生命活动的核心过程由核酸和蛋白质两大类高分子,以及它们与其它分子的相互作用决定。DNA和蛋白质符号序列的测定,特别是永无止境的基因组测序,导致生物大数据的迅猛增长。生物信息学应运而生。
1999年我提出建立国家级的生物医学信息中心的建议。建立“中心”的努力虽然由于科学管理体制问题而长期搁浅,我国生物信息学的研究和教学在广大同行推动下仍然不断进步。2001年初我和张淑誉在杭州参加华大基因的籼稻基因组测序任务。相当一部分测序工作在西湖边上曲园凤荷附近的杭州华大完成。西湖“西进”之后,现在那里只剩下金庸茶馆的一座亭子。
那时华大基因杨焕明教授等学者与浙江大学相关院系商议,着手建立生物信息学的研究生点。我自始至终参与了筹划过程,并且承诺为2001—2003年的三届研究生讲授“生物信息学引论”大课。浙大请当时已经是副教授的农学院樊龙江博士做我的“助教”。这是一位极其称职的“助教”。他每课必在,认真地批改学生作业,同时还参加了水稻基因组的研究。
2004年以后,朱军教授和樊龙江等继续生物信息学的讲授和研究。我高兴地看到,十几年来浙江大学的生物信息学无论在学生培养,还是科学研究方面都作出了明显成绩。现在樊龙江聚团队之力,主编了《生物信息学》一书,更是值得祝贺的好事。不过我自己只有同一两位合作者共同写书的经历,对于现在比较时兴的团队著述没有经验,也不大放心。好在樊龙江告诉我,他在统一全书文字和体例方面,下了很大功夫。我想,读者们是会对此有所评价的。
郝柏林
复旦大学理论生命科学研究中心
2017年7月26日
前言
自开始接触生物信息学以来,一晃已近二十年了。我是在攻读博士期间开始注意并学习生物信息学的。我的博士生导师胡秉民为应用数学专业教授,主要从事生态系统模型模拟研究。虽然已具备一定数量统计和数量遗传学基础,但当时对于生物信息学,我还是非常陌生的,通过自学才开始一点点了解这门新兴学科。2001-2003年间,中国科学院理论物理所郝柏林院士在浙江大学首次开设“生物信息学”研究生课程,我作为他的助教,系统地学习了生物信息学;同时,在他的带领下从事水稻基因组分析。自那时起,浙江大学生物信息学学科和相应研究机构也逐步建立起来。2004年郝院士离开杭州加入复旦大学,生物信息学研究生课程就由我和朱军教授承担下来。现在该课程作为浙江大学全校性研究生公共课程,已成为一门重点建设课程,每年选课人数都在150人左右。
上个世纪末,我国生物信息学还处于起步阶段,学习资料很少。学生时常索要学习材料,于是我整理了备课笔记,取名《生物信息学札记》,于2001年6月挂到实验室主页上供学生参考。随着生物信息学发展,分别于2005年3月和2010年1月更新札记两次。由于网络传播的作用,许多生物信息学初学者都读过该札记,在国内形成一定的影响。本书是在该札记框架基础上,补充大量新材料编写而成。
生物信息学学科内容涵盖广且发展很快。基于国内外生物信息学相关教材,以及自身对生物信息学的粗浅理解,我把生物信息学大致分为四部分(篇)内容:第一部分即基础篇,为生物信息学的基础知识。这部分内容总体变化不大(与10-15年前比较),它是生物信息学的核心知识,生物信息学教学最重要部分,为应为必讲内容;第二部分高通量测序数据分析篇,最近十年才出现的生物信息学新内容。2005年高通量测序技术突破后,针对该技术产生的序列数据,出现大量生物信息学新算法和新工具;第三部分生物信息学外延与交叉,重点介绍与生物信息学密切相关的其他生物学学科。生物信息学引入了这些学科的部分核心技术(或反过来被引入),如数量遗传学、群体遗传学和新兴学科合成生物学;第四部分为生物信息学资源与实践篇。生物信息学数据库和软件工具对生物学学科至关重要,所以这部分也是生物信息学重要组成部分。同时,该篇中以实践为目的的生物信息学教学资源是课堂教学的一个很好补充。
我重点编写了本书第一部分基础篇。我的学生参与撰写了有关章节,同时也邀请了相应领域研究者参与部分章节撰写(徐海明:数量遗传学;阮松林:蛋白质组学),最后由我统稿。我们尽可能完整地列出参考书目,标注材料来源,但一定还会有所遗漏。本书受浙江大学本科专业核心课程教材建设专项经费资助出版。
每次拿起书稿总是能发现一些错误或不准确的地方,但由于出版计划一再拖延,只好交稿付印了。如果你发现书中问题,望赐教指正(fanlj@zju.edu.cn),以便我们再版时更正。
樊龙江
2017年8月
《生物信息学》简要目录及PDF下载(二校稿,以出版为准)
绪论 |
| |
| 第一篇:生物信息学基础 |
|
第1-1章 | 生物信息类型及其产生途径 | |
第1-2章 | 分子数据库和常见记录格式 | |
第1-3章 | 两条序列联配及其算法 | |
第1-4章 | 多条序列联配及功能域分析 | |
第1-5章 | 基因预测与功能注释 | |
第1-6章 | 系统发生树构建 |
|
第1-7章 | 蛋白质结构预测与药物设计 |
|
第1-8章 | 生物信息学计算机基础 |
|
| 第二篇:高通量测序数据分析 |
|
第2-1章 | 基因组拼接与分析 | |
第2-2章 | 基因组变异与分析 |
|
第2-3章 | 转录组分析 |
|
第2-4章 | 非编码RNA分析 | |
第2-5章 | 甲基化与组蛋白修饰 |
|
第2-6章 | 宏基因组分析 |
|
第2-7章 | 蛋白质组分析 |
|
| 第三篇:生物信息学外延与交叉 |
|
第3-1章 | 系统生物学 |
|
第3-2章 | 群体遗传学 |
|
第3-3章 | 数量遗传学 |
|
第3-4章 | 合成生物学 |
|
| 第四篇:生物信息学资源与实践 |
|
第4-1章 | 生物信息学常用代码和关键词 |
|
第4-2章 | 生物信息学常用英语术语及释义 |
|
第4-3章 | 生物信息学主要数据库与工具 | |
第4-4章 | 生物信息学实验 | |
参考文献 |
|
|
详细目录
序 | 郝柏林院士 |
|
前言 |
|
|
|
|
|
绪论 |
|
|
生物信息与生物信息学 |
| |
第二节 | 生物信息学简史与展望 |
|
第三节 | 本书的组织和使用 |
|
|
|
|
| 第一篇:生物信息学基础 |
|
第1-1章 | 生物信息类型及其产生途径 |
|
| ||
第二节 | DNA测序技术 |
|
| 1、第一代测序技术 2、第二代测序技术 3、第三代测序技术 |
|
第三节 | 高通量测序技术的应用 |
|
| 1、DNA/RNA相关测序 2、蛋白质-DNA/RNA互作 3、甲基化/宏基因组 |
|
第四节 | 蛋白质序列及其结构测定 |
|
| 1、蛋白质序列与蛋白质互作测定 2、蛋白质结构测定 |
|
第1-2章 | 分子数据库和常见记录格式 |
|
分子序列数据库概述 |
| |
| 一、分子数据库概念 二、数据库记录格式 三、数据库冗余、序列递交和检索 |
|
第二节 | 核苷酸及其相关数据库 |
|
| 一、DNA/RNA序列数据库 二、基因组数据库 三、非编码RNA数据库 |
|
第三节 | 蛋白质及其相关数据库 |
|
第四节 | 代谢途径等专业数据库 |
|
| 1、代谢途径数据库 2、代谢组学等数据库 |
|
第1-3章 | 两条序列联配及其算法 |
|
序列联配基本概念 |
| |
第二节 | 计分矩阵 |
|
| 1、计分矩阵的一般原理 2、氨基酸替换矩阵 四、位置特异性计分矩阵(PSSM) |
|
第三节 | 两条序列联配算法 |
|
| 一、Needleman-Wunsch算法 二、Smith-Waterman算法 |
|
第四节 | BLAST算法及数据库搜索 |
|
| 1、BLAST算法 2、利用BLAST进行数据库序列搜索 三、序列相似性的统计推断 |
|
第1-4章 | 多条序列联配及功能域分析 |
|
第一节 | 多序列联配概念及其算法 |
|
| 1、多序列联配概念 2、多序列全局联配算法 三、多序列局部联配算法 |
|
第二节 | 蛋白质序列功能域分析与模型 |
|
| 1、功能域概念 二、功能域模型 |
|
第三节 | 熵及矩阵信息量 |
|
| 1、不确定性与信息量 二、信息熵的应用 |
|
第1-5章 | 基因预测与功能注释 |
|
基因组序列构成与基因预测 |
| |
| 一、基因组序列的基本构成 二、基因预测及其基本方法 三、基因注释流程 |
|
第二节 | 从头预测——隐马尔可夫模型(HMM)方法 |
|
| 1、马尔可夫和隐马尔可夫模型 二、隐马尔可夫模型问题及其算法 三、HMM基因预测模型及其应用 |
|
第三节 | 贝叶斯统计及其基因预测应用 |
|
| 1、贝叶斯统计与生物信息学 2、利用贝叶斯统计进行基因预测 |
|
基因功能注释 |
| |
| 一、利用序列和结构域数据库进行注释 |
|
| 二、利用功能分类和代谢途径信息进行注释 |
|
第五节 | 基因序列构成分析 |
|
| 一、碱基构成与分布 二、DNA行走与Z曲线 三、同向重复序列分析 四、蛋白质序列跨膜等特征分析 |
|
第1-6章 | 系统发生树构建 |
|
系统发生树与遗传模型 |
| |
| 一、系统发生树概述 二、遗传模型 |
|
第二节 | 距离法 |
|
| 1、非加权平均连接聚类法(UPGMA法) 二、Fitch-Margoliash算法 三、邻接法 |
|
第三节 | 简约法 |
|
似然法 |
| |
| 一、DNA序列的似然模型 二、两条序列系统发生树 三、三条及多条序列系统发生树 |
|
第五节 | 基因组组分矢量方法 |
|
| 1、组分矢量方法(CVTree算法) 2、基因组关联“距离”与系统发生树构建 |
|
第1-7章 | 蛋白质结构预测与药物设计 |
|
第一节 | 蛋白质结构概述 |
|
| 1、蛋白质结构及其预测 2、蛋白质结构数据库 3、蛋白质结构主要预测工具 |
|
第二节 | 蛋白质二级结构预测 |
|
| 1、二级结构预测方法 2、结构预测实例 |
|
第三节 | 蛋白质三级结构预测 |
|
| 一、同源建模法 二、折叠识别法 |
|
第四节 | 计算机辅助药物设计 |
|
| 1、间接药物设计 二、直接药物设计 |
|
第1-8章 | 生物信息学计算机基础 |
|
使用Unix/Linux操作平台 |
| |
| 一、Unix/Linux操作系统及其结构 二、Linux Shell常用命令 |
|
第二节 | 掌握一门计算机编程语言 |
|
| 1、计算机编程语言 2、Python语言简介 3、R语言 4、MySQL语言 |
|
第三节 | 并行与自动化 |
|
| 一、并行式计算 二、并行化模型及其实例 |
|
第四节 | 其他 |
|
| 一、算法 |
|
| 二、可视化与画图 |
|
|
|
|
| 第二篇:高通量测序数据分析 |
|
第2-1章 | 基因组拼接与分析 |
|
基因组序列拼接概念 |
| |
| 1、基因组短序列拼接问题 2、基因组从头拼接主要方法 3、利用遗传图谱等进行基因组组装 |
|
第二节 | 图论及基于德布鲁因图拼接算法 |
|
| 1、图论 2、基于德布鲁因图的拼接算法 |
|
第三节 | 第三代测序数据拼接方法 |
|
第四节 | 基于字符串(K-mer)的基因组调查与分析 |
|
| 1、基因组大小估计 2、基因组复杂度估计 3、基因组“肖像”及缺失字符串分析 |
|
第2-2章 | 基因组变异与分析 |
|
第一节 | 基因组变异类型与检测方法 |
|
| 1、基因组变异类型 2、基因组变异检测方法 |
|
第二节 | 基因组重测序及其应用 |
|
| 1、基因组重测序应用领域 2、基因组重测序数据分析 |
|
第2-3章 | 转录组分析 |
|
第一节 | 转录组测序与拼接 |
|
| 1、转录组及其技术平台 2、转录组序列拼接 |
|
第二节 | 基因表达分析 |
|
| 1、差异表达基因的鉴定 2、差异表达基因富集分析 |
|
第三节 | 可变剪切和基因融合分析 |
|
| 1、基因可变剪切 2、融合基因 |
|
第2-4章 | 非编码RNA分析 |
|
非编码RNA简介 |
| |
| 1、非编码RNA类型与功能 2、非编码RNA进化 3、样品采集及其测序方法 4、非编码RNA主要数据库 |
|
第二节 | 小RNA计算识别与靶基因预测 |
|
1、miRNA主要特征及计算识别 2、siRNA主要特征及计算识别 3、miRNA和siRNA靶基因预测 |
| |
第三节 | 长非编码RNA鉴定与功能分析 |
|
| 1、线性lncRNA鉴定 2、环化RNA鉴定 3、lncRNA功能预测 |
|
第2-5章 | 甲基化与组蛋白修饰 |
|
表观遗传机制 |
| |
第二节 | 甲基化测序与分析 |
|
| 1、甲基化测序原理 2、生物信息学分析方法 |
|
第三节 | 组蛋白修饰测定与分析 |
|
| 1、组蛋白的样品制备 2、组蛋白修饰分析方法 |
|
第2-6章 | 宏基因组分析 |
|
第一节 | 宏基因组及其分析方法 |
|
| 1、宏基因组概述 2、宏基因组学技术应用 |
|
第二节 | 16S rDNA序列分析 |
|
| 1、技术方法与分析流程 2、物种多样性分析 3、物种丰富度估计 4、群落结构分析 |
|
第三节 | 全基因组序列数据分析 |
|
| 1、分析流程与内容 2、基因预测及功能注释 |
|
第2-7章 | 蛋白质组分析 |
|
蛋白质组学概述 |
| |
| 1、蛋白质组及其分析 2、高通量分离和鉴定技术 |
|
第二节 | 双向电泳图像与质谱组合分析 |
|
| 1、胶图获取与分析 2、利用指纹图谱鉴定蛋白质 |
|
第三节 | 质谱数据采集与分析 |
|
| 1、质谱数据采集策略 2、肽段数据库搜索与质量控制 |
|
第四节 | 定量蛋白质组分析 |
|
| 1、同位素标记定量分析 2、非同位素标记定量分析 |
|
|
|
|
| 第三篇:生物信息学外延与交叉 |
|
第3-1章 | 系统生物学 |
|
系统生物学概述 |
| |
第二节 | 网络与生物网络 |
|
| 1、无标度和阶层网络 2、生物网络模块及其算法工具 |
|
第三节 | 基因调控网络 |
|
| 1、布尔网络模型 2、贝叶斯网络模型 |
|
第3-2章 | 群体遗传学 |
|
第一节 | 群体遗传多态性与结构 |
|
| 1、遗传多态性及其估计 2、群体结构 |
|
第二节 | 正向选择的统计检验 |
|
| 1、自然选择与中性检验 2、基于种内多态性的检验方法 3、基于种内多态和种间分歧度的检测方法 |
|
第三节 | 群体进化的溯祖测验 |
|
| 一、溯祖理论 二、溯祖测验应用 |
|
第四节 | 统计测验分析问题与策略 |
|
第3-3章 | 数量遗传学 |
|
第一节 | 数量性状遗传基本概念 |
|
第二节 | 连锁分析 |
|
| 1、连锁分析原理 2、试验群体的连锁分析 3、常用连锁分析软件 |
|
第三节 | 关联分析 |
|
| 1、关联分析基本原理 2、常用关联分析软件 |
|
第3-4章 | 合成生物学 |
|
第一节 | 什么是合成生物学? |
|
| 1、合成生物学定义和研究内容 2、合成生物学引发的争议 |
|
第二节 | 从“基因线路”开始:模块化工程化 |
|
| 1、基因线路的基本概念 2、几个经典基因线路设计 |
|
第三节 | 从最小基因组开始:基因组人工合成 |
|
| 1、基因组的人工合成和重构 2、噬菌体基因组人工合成与重构 3、细菌基因组人工合成与重构 |
|
|
|
|
| 第四篇:生物信息学资源与实践 |
|
第4-1章 | 生物信息学常用代码和关键词 |
|
核苷酸和氨基酸代码 |
| |
第二节 | 遗传密码 |
|
第三节 | 核苷酸和蛋白质序列记录特征关键词 |
|
第4-2章 | 生物信息学常用英语术语及释义 |
|
第4-3章 | 生物信息学主要数据库与工具 |
|
第一节 | 重要门户网站和分子数据库 |
|
第二节 | 主要在线分析工具 |
|
第三节 | 主要开放分析软件 |
|
第4-4章 | 生物信息学实验 |
|
生物序列数据库记录格式与检索 |
| |
实验2 | 数据库搜索与未知序列功能预测 |
|
实验3 | 抗性基因多序列联配及其功能域预测 |
|
实验4 | 蛋白质编码基因预测与功能注释 |
|
非编码miRNA二级结构及其靶基因预测 |
| |
实验6 | 基因组浏览器GBrowser及其应用 |
|
实验7 | 系统发生树构建 |
|
实验8 | 蛋白质结构与功能预测 |
|
|
|
|
参考文献 |
|
|