整合生物信息学

浏览数：次发布时间：2022-10-22 09:05:04

自人类基因组计划实施以来，生物信息学得到了长足的发展和应用。从序列分析、结构预测、功能分析到应用，生物信息学成为了生命科学发展必不可少的学科。目前，除了继续从事序列分析、数据库建设、数据库整合和数据挖掘、结构分析与功能预测、大规模功能表达谱的分析、代谢网络建模分析、程序开发以及商业化等领域的研究外，整合生物信息学的理念被开始重视。

一、整合生物信息学的研究领域

尽管目前一般意义上的生物信息学还局限在分子生物学层次，但广义上的生物信息学是可以研究生物学的任何方面的。生命现象是在信息控制下不同层次上的物质、能量与信息的交换，不同层次是指核酸、蛋白质、细胞、器官、个体、群体和生态系统等。这些层次的系统生物学研究将成为后基因组时代的生物信息学研究和应用的对象。随着在完整基因组、功能基因组、生物大分子相互作用及基因调控网络等方面大量数据的积累和基本研究规律的深入，生命科学正处在用统一的理论框架和先进的实验方法来探讨数据间的复杂关系，向定量生命科学发展的重要阶段。采用物理、数学、化学、力学、生物等学科的方法从多层次、多水平、多途径开展交叉综合研究，在分子水平上揭示生物信息及其传递的机理与过程，描述和解释生命活动规律，已成生命科学中的前沿科学问题（摘自：国家“十一五”生命科学发展规划），为整合生物信息学的发展提供了数据资源和技术支撑。

当前，由各种Omics组学技术，如基因组学（DNA测序），转录组学（基因表达系列分析、基因芯片），蛋白质组学（质谱、二维凝胶电泳、蛋白质芯片、X光衍射、核磁共振），代谢组学（核磁共振、X光衍射、毛细管电泳）等技术，积累了大量的实验数据。约有800多个公共数据库系统和许多分析工具可利用通过互联网来解决各种各样的生物任务。生物数据的计算分析基本上依赖于计算机科学的方法和概念，最终由生物学家来系统解决具体的生物问题。我们面临的挑战是如何从这些组学数据中，利用已有的生物信息学的技术手段，在新的系统层次、多水平、多途径来了解生命过程。整合生物信息学便承担了这一任务。

图1简单描述了生物信息学、系统生物学与信息学、生物学以及基因组计划各个研究领域的相关性。可以看出基因组计划将生物学与信息学前所未有地结合到了一起，而生物信息学的兴起是与人类基因组的测序计划分不开的，生物信息学自始至终提供了所需的技术与方法，系统生物学强调了生物信息学的生物反应模型和机理研究，也是多学科高度交叉，促使理论生物学、生物信息学、计算生物学与生物学走得更近，也使我们研究基因型到表型的过程机理更加接近。虚线范围代表整合生物信息学的研究领域，它包括了基因组计划的序列、结构、功能、应用的整合，也涵盖了生物信息学、系统生物学技术与方法的有机整合。

整合生物信息学的最大特点就是整合，不仅整合了生物信息学的研究方法和技术，也是在更大的层次上整合生命科学、计算机科学、数学、物理学、化学、医学，以及工程学等各学科。其生物数据整合从微观到宏观，应用领域整合涉及工、农、林、渔、牧、医、药。本文将就整合生物信息学的生物数据整合、学科技术整合及其他方面进行初步的介绍和探讨。

二、生物数据挖掘与整合

生物系统的不同性质的组分数据，从基因到细胞、到组织、到个体的各个层次。大量组分数据的收集来自实验室（湿数据）和公共数据资源（干数据）。但这些数据存在很多不利于处理分析的因素，如数据的类型差异，数据库中存在大量数据冗余以及数据错误；存储信息的数据结构也存在很大的差异，包括文本文件、关系数据库、面向对象数据库等；缺乏统一的数据描述标准，信息查询方面大相径庭；许多数据信息是描述性的信息，而不是结构化的信息标示。如何快速地在这些大量的包括错误数据的数据量中获取正确数据模式和关系是数据挖掘与整合的主要任务。

数据挖掘是知识发现的一个过程，其他各个环节，如数据库的选择和取样，数据的预处理和去冗余，错误和冲突，数据形式的转换，挖掘数据的评估和评估的可视化等。数据挖掘的过程主要是从数据中提取模式，即模式识别。如DNA序列的特征核苷碱基，蛋白质的功能域及相应蛋白质的三维结构的自动化分类等。从信息处理的角度来说，模式识别可以被看作是根据一分类标准对外来数据进行筛选的数据简化过程。其主要步骤是：特征选择，度量，处理，特征提取，分类和标识。现有的数据挖掘技术常用的有：聚类、概念描述、连接分析、关联分析、偏差检测和预测模型等。生物信息学中用得比较多的数据挖掘的技术方法有：机器学习，文本挖掘，网络挖掘等。

机器学习通常用于数据挖掘中有关模式匹配和模式发现。机器学习包含了一系列用于统计、生物模拟、适应控制理论、心理学和人工智能的方法。应用于生物信息学中的机器学习技术有归纳逻辑程序，遗传算法，神经网络，统计方法，贝叶斯方法，决策树和隐马尔可夫模型等。值得一提的是，大多数数据挖掘产品使用的算法都是在计算机科学或统计数学杂志上发表过的成熟算法，所不同的是算法的实现和对性能的优化。当然也有一些人采用的是自己研发的未公开的算法，效果可能也不错。

大量的生物学数据是以结构化的形式存在于数据库中的，例如基因序列、基因微阵列实验数据和分子三维结构数据等，而大量的生物学数据更是以非结构化的形式被记载在各种文本中，其中大量文献以电子出版物形式存在，如PubMed Central中收集了大量的生物医学文献摘要。

文本挖掘就是利用数据挖掘技术在大量的文本集合中发现隐含的知识的过程。其任务包括在大量文本中进行信息抽取、语词识别、发现知识间的关联等，以及利用文本挖掘技术提高数据分析的效率。近年来，文本挖掘技术在生物学领域中的应用多是通过挖掘文本发现生物学规律，例如基因、蛋白及其相互作用，进而对大型生物学数据库进行自动注释。但是要自动地从大量非结构性的文本中提取知识，并非易事。目前较为有效的方法是利用自然语言处理技术NLP，该技术包括一系列计算方法，从简单的关键词提取到语义学分析。最简单的NLP系统工作通过确定的关键词来解析和识别文档。标注后的文档内容将被拷贝到本地数据库以备分析。复杂些的NLP系统则利用统计方法来识别不仅仅相关的关键词，以及它们在文本中的分布情况，从而可以进行上下文的推断。其结果是获得相关文档簇，可以推断特定文本内容的特定主题。最先进的NLP系统是可以进行语义分析的，主要是通过分析句子中的字、词和句段及其相关性来断定其含义。

生物信息学离不开Internet网络，大量的生物学数据都储存到了网络的各个角落。网络挖掘指使用数据挖掘技术在网络数据中发现潜在的、有用的模式或信息。网络挖掘研究覆盖了多个研究领域，包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。根据对网络数据的感兴趣程度不同，网络挖掘一般还可以分为三类：网络内容挖掘、网络结构挖掘、网络用法挖掘。网络内容挖掘指从网络内容/数据/文档中发现有用信息，网络内容挖掘的对象包括文本、图像、音频、视频、多媒体和其他各种类型的数据。网络结构挖掘的对象是网络本身的超连接，即对网络文档的结构进行挖掘，发现他们之间连接情况的有用信息（文档之间的包含、引用或者从属关系）。在网络结构挖掘领域最著名的算法是HITS算法和PageRank算法（如Google搜索引擎）。网络用法挖掘通过挖掘相关的网络日志记录，来发现用户访问网络页面的模式，通过分析日志记录中的规律。通常来讲，经典的数据挖掘算法都可以直接用到网络用法挖掘上来，但为了提高挖掘质量，研究人员在扩展算法上进行了努力，包括复合关联规则算法、改进的序列发现算法等。

网络数据挖掘比单个数据仓库的挖掘要复杂得多，是一项复杂的技术，一个难以解决的问题。而XML的出现为解决网络数据挖掘的难题带来了机会。由于XML能够使不同来源的结构化的数据很容易地结合在一起，因而使搜索多个异质数据库成为可能，从而为解决网络数据挖掘难题带来了希望。随着XML作为在网络上交换数据的一种标准方式，目前主要的生物信息学数据库都已经提供了支持XML的技术，面向网络的数据挖掘将会变得非常轻松。如使用XQuery 标准查询工具，完全可以将 Internet看作是一个大型的分布式XML数据库进行数据浏览获取、结构化操作等。

此外，数据挖掘还要考虑到的问题有：实时数据挖掘、人为因素的参与、硬件设施的支持、数据库的误差问题等。

一般的数据（库）整合的方法有：联合数据库系统（如ISYS和DiscoveryLink）, 多数据库系统（如TAMBIS）和数据仓库（如SRS和Entrez）。这些方法因为在整合的程度，实体化，查询语言，应用程序接口标准及其支持的数据输出格式等方面存在各自的特性而各有优缺点。同时，指数增长的生物数据和日益进步的信息技术给数据库的整合也带来了新的思路和解决方案。如传统的数据库主要是提供长期的实验数据存储和简便的数据访问，重在数据管理，而系统生物学的数据库则同时对这些实验数据进行分析，提供预测信息模型。数据库的整合也将更趋向数据资源广、异质程度高、多种数据格式、多途径验证（如本体学Ontology的功能对照）、多种挖掘技术、高度智能化等。

三、生命科学与生物信息学技术的整合

生物信息学的研究当前还主要集中在分子水平，如基因组学/蛋白质组学的分析，在亚细胞、细胞、生物组织、器官、生物体及生态上的研究才刚刚开始。从事这些新领域的研究，理解从基因型到表型的生命机理，整合生物信息学将起到关键性的作用。整合生物信息学将从系统的层次多角度地利用已有的生物、信息技术来研究生命现象。另外，由其发展出的新方法、新技术，其应用潜力也是巨大的。图2显示了生命科学与生物信息学技术的整合关系。

目前生命科学技术如基因测序、QTL定位、基因芯片、蛋白质芯片、凝胶电泳、蛋白双杂交、核磁共振、质谱等实验技术，可以从多方面，多角度来分析研究某一生命现象，从而针对单一的实验可能就产生大量的不同层次的生物数据。对于每个技术的数据分析，都有了大量的生物信息学技术，如序列分析、motif寻找、基因预测、基因注解、RNA分析、基因芯片的数据分析、基因表达分析、基因调控网络分析、蛋白质表达分析、蛋白质结构预测和分子模拟、比较基因组学研究、分子进化和系统发育分析、生物学系统建模、群体遗传学分析等。整合生物信息学就是以整合的理论方法，通过整合生物数据，整合信息技术来推动生命科学干实验室与湿实验室的组合研究。其实践应用涉及到生物数据库的整合、功能基因的发现、单核苷酸多态性/单体型的了解、代谢疾病的机理研究、药物设计与对接、软件工具以及其他应用。

在整合过程中，还应该注意以下几方面内容：整合数据和文本数据挖掘方法，数据仓库的设计管理，生物数据库的错误与矛盾，生物本体学及其质量控制，整合模型和模拟框架，生物技术的计算设施，生物信息学技术流程优化管理，以及工程应用所涉及的范围。

四、学科、人才的整合

整合生物信息学也是学科、教育、人才的整合。对于综合性高等院校，计算机科学/信息学、生物学等学科为生物信息学的发展提供了学科基础和保障。如何充分利用高校雄厚的学科资源，合理搭建生物信息学专业结构，培养一流的生物信息学人才，是我们的任务和目标。

计算机科学/信息学是利用传统的计算机科学，数学，物理学等计算、数学方法，如数据库、数据发掘、人工智能、算法、图形计算、软件工程、平行计算、网络技术进行数据分析处理，模拟预测等。生物信息学的快速发展给计算机科学也带来了巨大的挑战和机遇，如高通量的数据处理、储存、检索、查询，高效率的算法研究，人工智能的全新应用，复杂系统的有效模拟和预测。整合生物信息学的课程设计可以提供以下课程：Windows/Unix/Linux操作系统、C++/Perl/Java程序设计、数据库技术、网络技术、网络编程、SQL、XML相关技术、数据挖掘，机器学习、可视化技术、软件工程、计算机与网络安全、计算机硬件、嵌入式系统、控制论、计算智能，微积几何、概率论、数理统计、线性代数、离散数学、组合数学、计算方法、随机过程、常微分方程、模拟和仿真、非线性分析等等。

生物学是研究生命现象、过程及其规律的科学，主要包括植物学等十几个一级分支学科。整合生物信息学的课程设计可以提供以下课程：普通生物学、生物化学、分子生物学、细胞生物学、遗传学、分子生物学、发育生物学、病毒学、免疫学、流行病学、保护生物学、生态学、进化生物学、神经生物学、基础医学、生物物理学、细胞工程、基因工程、分子动力学、生物仪器分析及技术、植物学、动物学、微生物学及其他生物科学、生物技术专业的技能课程。

作为独立学科的生物信息学，其基本的新算法，新技术，新模型，新应用的研究是根本。课程涉及到生物信息学基础、生物学数据库、生物序列与基因组分析、生物统计学、生物芯片数据分析、蛋白质组学分析、系统生物学、生物数据挖掘与知识发现、计算生物学、药物设计、生物网络分析等。另外，整合生物信息学的工程应用，也需要了解以下学科，如生物工程、生物技术、医学影像、信号处理、生化反应控制、生物医学工程、数学模型、试验设计、农业系统与生产等。

此外，整合生物信息学的人才培养具有很大的国际竞争压力，培养优秀的专业人才，必须使其具备优良的生物信息科学素养，具有国际视野，知识能力、科研创新潜力俱佳的现代化一流人才。所以要始终紧跟最新的学术动态和发展方向，整合学科优势和强化师资力量，促进国际交流。

五、总结及展望

二十一世纪是生命科学的世纪，也是生物信息学快速不断整合发展的时代，整合生物学的研究和应用将对人类正确认识生命规律并合理利用产生巨大的作用。比如进行虚拟细胞的研究，整合生物信息学提供了从基因序列，蛋白结构到代谢功能各方面的生物数据，也提供了从序列分析，蛋白质拓扑到系统生物学建模等方面的信息技术，从多层次、多水平、多途径进行科学研究。

整合生物信息学是基于现有生物信息学的计算技术框架对生命科学领域的新一轮更系统全面的研究。它依赖于生物学，计算机学，生物信息学/系统生物学的研究成果（包括新数据、新理论、新技术和新方法等），但同时也给这些学科提供了更广阔的研究和应用空间，并推动整个人类科学的进程。

我国的生物信息学教育在近几年已经有了长足的进步和发展。未来整合生物信息学人才的培养还需要加强各学科有效交叉，尤其是计算机科学，要更紧密地与生命科学结合起来，共同发展，让我们的生命科学、计算机科学和生物信息学的教育和科研走得更高更前沿。

作者简介：

陈铭，德国Bielefeld大学生物信息学博士，浙江大学生命科学学院副教授，生物信息学系副主任（主持工作），研究方向：生物信息学，系统生物学。

“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文”

推荐访问:信息学整合生物

栏目最新：

上一篇：简述《离散数学》在信息时代的作用
下一篇：离散数学在计算机学科中的应用及重要性研究