【轉貼】生物信息學介紹

生物信息學的現狀與展望(The Current Status and The Prospect of Bioinformatics)

中國科學院院士 張春霆
(天津大學生命科學與工程研究院 天津300072)
摘 要: 本文闡述了生物信息學產生的背景,生物學數據庫,生物信息學的主要研究內容,與生物信息學關系密切的數學和計算機科學技術領域,生物信息學產業等內容,展望了其未來並提出了若幹在我國發展生物信息學的建議。著重指出,理解大量生物學數據所包括的生物學意義已成為後基因組時代極其重要的課題。生物信息學的作用將日益重要。有理由認為,今日生物學數據的巨大積累將導致重大生物學規律的發現。生物信息學的發展在國內、外基本上都處在起步階段。因此,這是我國生物學趕超世界先進水平的一個百年一遇的極好機會。
關鍵詞:人類基因組計劃 生物信息學

生物信息學產生的背景


有人說,基於序列的生物學時代已經到來,盡管對"序列生物學"這一提法可能有所爭議,但是今日像潮水般湧現的序列信息卻是無可爭辯的事實。自從1990年美國啟動人類基因組計劃以來,人與模式生物基因組的測序工作進展極為迅速。迄今已完成了約40多種生物的全基因組測序工作,人基因組約3x109堿基對的測序工作也接近完成。至2000年6月26日,被譽為生命"阿波羅計劃"的人類基因組計劃,經過美、英、日、法、德和中國科學家的艱苦努力,終於完成了工作草圖,這是人類科學世上又一個裏程碑式的事件。它預示著完成人類基因組計劃已經指日可待。截止目前為止,僅登錄在美國GenBank數據庫中的DNA序列總量已超過70億堿基對。在人類基因組計劃進行過程中所積累起來的技術和經驗,使得其它生物基因組的測序工作可以完成得更快捷。可以預計,今後DNA序列數據的增長將更為驚人。生物學數據的積累並不僅僅表現在DNA序列方面,與其同步的還有蛋白質的一級結構,即氨基酸序列的增長。此外,迄今為止,已有一萬多種蛋白質的空間結構以不同的分辨率被測定。基於cDNA序列測序所建立起來的EST數據庫其紀錄已達數百萬條。在這些數據基礎上派生、整理出來的數據庫已達500餘個。這一切構成了一個生物學數據的海洋。可以打一個比方來說明這些數據的規模。有人估計,人類(包括已經去世的和仍然在世的)所說過的話的信息總量約為5唉字節(1唉字節等於1018字節)。而如今生物學數據信息總量已接近甚至超過此數量級。這種科學數據的急速和海量積累,在人類的科學研究曆史中是空前的。
數據並不等於信息和知識,但卻是信息和知識的源泉,關鍵在於如何從中挖掘它們。與正在以指數方式增長的生物學數據相比,人類相關知識的增長(粗略地用每年發表的生物、醫學論文數來代表)卻十分緩慢。一方面是巨量的數據;另一方面是我們在醫學、藥物、農業和環保等方面對新知識的渴求,這些新知識將幫助人們改善其生存環境和提高生活質量。這就構成了一個極大的矛盾。這個矛盾就催生了一門新興的交叉科學,這就是生物信息學。美國人類基因組計劃實施五年後的總結報告中,對生物信息學作了以下定義:生物信息學是一門交叉科學,它包含了生物信息的獲取、處理、存儲、分發、分析和解釋等在內的所有方面,它綜合運用數學、計算機科學和生物學的各種工具,來闡明和理解大量數據所包含的生物學意義。生物信息學這一名詞的出現僅僅是幾年前的事情,但是計算生物學這一名詞的出現要早的多。鑒於這兩門學科之間並沒有或難以界定嚴格的分界線,在這裏統稱為生物信息學。 

生物學數據庫


《Nucleic Acids Research》雜誌連續七年在其每年的第一期中詳細介紹最新版本的各種數據庫。在2000年1月1日出版的28捲第一期中詳細地介紹了115種通用和專用數據庫,包括其詳盡描述和訪問網址。迄今為止,生物學數據庫總數已達500個以上。在DNA序列方面有GenBank、EMBL和DDBJ等。在蛋白質一級結構方面有SWISS-PROT、PIR和MIPS等。在蛋白質和其它生物大分子的結構方面有PDB等。在蛋白質結構分類方面有SCOP和CATH等。應該指出,幾乎所有這些數據庫對學術研究部門或人員來說都是免費的,可以免費下載或提供免費服務。但是鑒於相當多的數據庫的經營者們面臨著財務緊缺的境地,這種免費的侷面還能維持多久就不得而知了。有的數據庫,如SWISS-PROT,已開始向商業用戶每年收取數千至數萬美元不等的使用費。其它數據庫暫時還是免費的,但不知是否永遠免費。如果一些重要的數據庫對學術研究部門開始收費,這對於我國生物信息學的發展是非常不利的。中國是一個基因信息資源大國,我們應當抓緊建設我國自有的數據庫,在世界上做出我們自己的貢獻,在平等的基礎上與國外共享生物信息資源。 

生物信息學的主要研究內容


生物信息學主要包括以下幾個主要研究領域,但是限於篇幅,這裏僅列出其名稱並只做簡單介紹。 

1. 序列比對(Alignment)。


基本問題是比較兩個或兩個以上符號序列的相似性或不相似性。序列比對是生物信息學的基礎,非常重要。兩個序列的比對有較成熟的動態規劃算法,以及在此基礎上編寫的比對軟件包--BALST和FASTA,可以免費下載使用。這些軟件在數據庫查詢和搜索中有重要的應用。有時兩個序列總體並不很相似,但某些侷部片斷相似性很高。Smith-Waterman算法是解決侷部比對的好算法,缺點是速度較慢。兩個以上序列的多重序列比對目前還缺乏快速而又十分有效的算法。

2. 結構比對。


基本問題是比較兩個或兩個以上蛋白質分子空間結構的相似性或不相似性。已有一些算法。

3. 蛋白質結構預測,包括2級和3級結構預測,是最重要的課題之一。


從方法上來看有演繹法和歸納法兩種途徑。前者主要是從一些基本原理或假設出發來預測和研究蛋白質的結構和折疊過程。分子力學和分子動力學屬這一範疇。後者主要是從觀察和總結已知結構的蛋白質結構規律出發來預測未知蛋白質的結構。同源模建和指認(Threading)方法屬於這一範疇。雖然經過30餘年的努力,蛋白結構預測研究現狀遠遠不能滿足實際需要。

4. 計算機輔助基因識別(僅指蛋白質編碼基因)。


基本問題是給定基因組序列後,正確識別基因的範圍和在基因組序列中的精確位置.這是最重要的課題之一,而且越來越重要。經過20餘年的努力,提出了數十種算法,有十種左右重要的算法和相應軟件上網提供免費服務。原核生物計算機輔助基因識別相對容易些,結果好一些。從具有較多內含子的真核生物基因組序列中正確識別出起始密碼子、剪切位點和終止密碼子,是個相當困難的問題,研究現狀不能令人滿意,仍有大量的工作要做。 

5. 非編碼區分析和DNA語言研究,是最重要的課題之一。


在人類基因組中,編碼部分進展總序列的3~5%,其它通常稱為"垃圾"DNA,其實一點也不是垃圾,只是我們暫時還不知道其重要的功能。分析非編碼區DNA序列需要大膽的想象和嶄新的研究思路和方法。DNA序列作為一種遺傳語言,不僅體現在編碼序列之中,而且隱含在非編碼序列之中。

6. 分子進化和比較基因組學,是最重要的課題之一。


早期的工作主要是利用不同物種中同一種基因序列的異同來研究生物的進化,構建進化樹。既可以用DNA序列也可以用其編碼的氨基酸序列來做,甚至於可通過相關蛋白質的結構比對來研究分子進化。以上研究已經積累了大量的工作。近年來由於較多模式生物基因組測序任務的完成,為從整個基因組的角度來研究分子進化提供了條件。可以設想,比較兩個或多個完整基因組這一工作需要新的思路和方法,當然也渴望得到更豐碩的成果。這方面可做的工作是很多的。

7. 序列重疊群(Contigs)裝配。


一般來說,根據現行的測序技術,每次反應只能測出500 或更多一些堿基對的序列,這就有一個把大量的較短的序列全體構成了重疊群(Contigs)。逐步把它們拼接起來形成序列更長的重疊群,直至得到完整序列的過程稱為重疊群裝配。拼接EST數據以發現全長新基因也有類似的問題。已經證明,這是一個NP-完備性算法問題。

8. 遺傳密碼的起源。


遺傳密碼為什麼是現在這樣的?這一直是一個謎。一種最簡單的理論認為,密碼子與氨基酸之間的關系是生物進化曆史上一次偶然的事件而造成的,並被固定在現代生物最後的共同祖先裏,一直延續至今。不同於這種"凍結"理論,有人曾分別提出過選擇優化、化學和曆史等三種學說來解釋遺傳密碼。隨著各種生物基因組測序任務的完成,為研究遺傳密碼的起源和檢驗上述理論的真偽提供了新的素材。

9. 基於結構的藥物設計。


人類基因組計劃的目的之一在於闡明人的約10萬種蛋白質的結構、功能、相互作用以及與各種人類疾病之間的關系,尋求各種治療和預防方法,包括藥物治療。基於生物大分子結構的藥物設計是生物信息學中的極為重要的研究領域。為了抑製某些酶或蛋白質的活性,在已知其3級結構的基礎上,可以利用分子對接算法,在計算機上設計抑製劑分子,作為候選藥物。這種發現新藥物的方法有強大的生命力,也有著巨大的經濟效益。

10. 其他。


如基因表達浦分析,代謝網絡分析;基因芯片設計和蛋白質組學數據分析等,逐漸成為生物信息學中新興的重要研究領域。這裏不再贅述。

與生物信息學關系密切的數學領域


限於篇幅,僅列出它們的名稱。統計學,包括多元統計學,是生物信息學的數學基礎之一;概率論與隨機過程理論,如近年來興起的隱馬爾科夫鏈模型(HMM),在生物信息學中有重要應用;運籌學,如動態規劃法是序列比對的基本工具,最優化理論與算法,在蛋白質空間結構預測和分子對接研究中有重要應用,拓撲學,這裏指幾何拓撲,在DNA超螺旋研究中是重要工具,在多肽鏈折疊研究中也有應用;函數論,如傅裏葉變換和小波變換等都是生物信息學中的常規工具;信息論,在分子進化、蛋白質結構預測、序列比對中有重要應用,而人工神經網絡方法則用途極為廣泛;計算數學,如常微分方程數值解法是分子動力學的基本工具;群論,在研究遺傳密碼和DNA序列的對稱性方面有重要應用;組合數學,在分子進化和基因組序列研究中十分有用。原則上講,各種數學理論或多或少或直接或間接都應該在生物學研究中有各種各樣的應用,其中包括生物信息學,這種情況正像過去的一、兩個世紀,數學應用於物理學一樣。而且,生物信息學的發展,又為數學的發展提供了一個新的機遇,可能會產生一些新的分支科學。

與生物信息學密切相關的計算機科學技術


首先是網絡技術和數據庫(特別是關系型數據庫)管理技術,包括極為重要的實驗室數據信息管理系統(LIMS)。其它諸如數據整合和可視化、數據挖掘(Data Mining)、基於Unix操作系統的各種軟件包以及人工智能,和一些重要算法的複雜性研究。

生物信息學工業


生物信息學不僅具有重大的科學意義,而且具有巨大的經濟效益。它既屬於基礎研究,以探索生物學自然學自然規律為己任;又屬於應用研究,它的許多研究成果可以較快或立即產業化,成為價值很高的產品。生物信息學的這一特點在現有的許多學科中幾乎是獨一無二的。
這裏僅舉一個例子來說明生物信息學工業的潛力。據報導,只有50名員工的德國Lion生物信息學公司,將通過掃描公共數據庫中的序列來發現500個可能的藥物作用靶點,以一億美元的價格預售給德國Bayer公司。又據報導,生物信息學產業的市場在1998年已經達到10億美元,而到2002年估計可增長到2000億美元以上。這是一筆巨大的財富,任何政府的科技決策人都不能對此視而不見。NIH已向美國國會建議投資160億美元在美國建立5~20個將生物學與計算結合起來的中心。法國議會科技決策評估辦公室,最近評估了基因工程、生物信息學和組合化學等學科的應用前景及法國的對策。美國出現了大批的基於生物信息學的公司,實施了許多生物信息學研究計劃,主要與藥物設計,基因工程藥物,生物芯片,代謝工程與化學工程密切相關。生物信息學工業是知識經濟的一個典型,潛力巨大。

展望與建議


物學是生物信息學的核心和靈魂,數學與計算機技術則是它的基本工具。這一點必須著重指出。預測生物信息學的未來主要就是要預測他對生物學的發展將帶來什麼樣的根本性的突破。這種預測是十分困難的,甚至幾乎不可能。但是人類科學研究史表明,科學數據的大量積累將導致重大的科學規律的發現。例如:對數百顆天體運行數據的分析導致了開普勒三大定律和萬有引力定律的發現;數十種元素和上萬種化合物數據的積累導致了元素週期表的發現;氫原子光譜學數據的積累促成了量子理論的提出,為量子力學的建立奠定了基礎。曆史的經驗值得注意,有理由認為,今日生物學數據的巨大積累也將導致重大生物學規律的發現。生物信息學的發展在國內、外基本上都處在起步階段,所擁有的條件也大體相同,即使我國有關條件差一些,但差別也不大。因此,這是我國生物學趕超國際先進水平的一個百年一遇的極好機會。機不可失,時不再來,鑒於生物信息學在我國生物信息學和經濟發展中的重要意義和其發展的緊迫性,因此,由國家出面組織全國的力量,搞個類似"兩彈一星"那樣的,但是,規模要小的多,花錢也少的多的生物信息學發展計劃,不是不可以考慮的。要充分發揮中央與地方,生物學科研究人員等方方面面的積極性。生物信息學研究投資少,見效快,可充分發揮我國智力資源豐富的長處,是特別適合我國國情的一項研究領域。要在大學裏建立生物信息學專業,設立碩士點和博士點,培養專門人才。可以組織一大批數學、物理、化學和計算機科技工作者,在自願的基礎上,學習有關的生物學知識,開展多方面的生物信息學研究。經過十幾年或更長的時間的努力,逐漸使我國成為生物信息學研究強國,是完全有可能的。(2000年)

留言

這個網誌中的熱門文章

生物专业的软件介绍

如何自學生物資訊學