成為頂級生物信息學家的五個等級(轉貼自薛宇/科學網博客)
如何成為頂級的生物信息學家?看你的研究。業內人士Shirley將生物信息學研究(注意,不是生物信息學者本人)的水平劃分成五個層次。此外,Shirley不區分生物資訊學(Bioinformatics)和計算機生物學(Computational biology),因此這兩個概念不做區分。在這裡咱再重復一遍,生物資訊學和計算機生物學的區別,就是西紅柿炒蛋和蛋炒西紅柿的區別。
0級 (Level 0)
為建模、而建模(modeling for modeling’s sake)。簡稱:渣級。
Shirley在博客裡提到說“如果你記得功夫熊貓”,問題是我沒記得這個,腦子裡想的是《憨豆的黃金周》裡那段nothing, nothing, nothing… 原博舉的例子是,之前有人問:現在數據這麼多,能建模的東西一大把,那我們該幹點啥呢?Shirley就問:你想解決啥問題?答:建模的問題。這就像我坐電梯看見認識的研究生,說小伙最近忙啥呢?答:做水稻呢。繼續問:具體研究的啥?不高興了,詫異:研究水稻啊!然後給我解釋了半天中國要研究水稻的必要性。我…兄弟我每天吃米飯還固定要研究水稻三遍呢。原文解釋,這個回答是OK的,如果科學家僅僅將自己當成數學家、統計學家、計算機科學家、物理學家,或者像我這樣用嘴巴研究水稻的吃貨,因為在這些學者各自的領域裡,確實有許多好的理論建模問題。但如果這些學者是認真對待生物資訊學的研究,這個回答不OK。許多0級生物資訊學家們從來不讀或者不發表生物學期刊上的論文,也不參加生物學的會議,因此這個級別屬於“未入門級”。根據人以類聚,物以群分的原則,0級生物資訊學家們通常只閱讀自己或者其他0級生物資訊學家的論文,並且,並且引用也是自引或者被同級別的學者引用。因此這類研究就是浪費資源。
1級(Level 1)
給數據、能分析。簡稱:菜鳥級。
這類研究一般是分析自己或者合作者實驗室裡未發表的數據,並試圖獲得新的生物學發現。相比與0級,這已經有很大的進步,並且是訓練生物資訊學者最好的途徑之一。可以練習將已有的生物資訊學技術來做出真正生物學發現的技巧,學習更多的生物資訊技術和生物學知識,可以啟發、衍生出2級和3級的好課題。評價1級科研的功底和水平要看數據有多複雜, 是否需要生物資訊人員寫一些程序和算法(而不是只用他人的工具),生物資訊分析在整個研究中的有重要性 (最重要的假設發現是不是由生物資訊分析出來的,文章中生物資訊圖表的個數),實驗與計算的結合程度 (實驗與計算環環相扣,而不是高通量實驗數據獲得完跟個生物資訊分析就拉倒),以及研究中生物學的發現是不是真的有意思,等等。因此兄弟我的看法是,1級雖然是“入門級”,但非常非常重要,所有生信專業研究生的必經之路,非生物資訊領域的學者或學生,能達到1級中已可算是高手,進階到1級上那就是鳳毛麟角了。
2級(Level 2)
想新招、玩數據。簡稱:肉鳥級。
具有2級水准的生信研究有:1) 設計方法解決生物醫學相關大數據分析中普適、定量的問題。比如咱生物資訊課本裡經典的用於雙序列比對的Smith-Waterman算法等等;2) 設計算法來分析新的高通量技術所獲得的數據,例如華大基因設計的用於二代測序短讀段 (read) 映射到基因組上的SOAP系列工具,這就是典型的2級工作;3) 從各種公共數據中通過整合建立數據庫或數據資源。這個太多了,生信領域各種專業、精心注釋的數據庫,都屬於2級的研究。2級比1級高的地方,在於1級隻能幫助一個實驗室或者固定的、極有限的合作者,而2級的工作則可以幫助數百甚至數千的生物學家。2級的工作不必須發表在頂級的期刊上,時間會証明一切,比如分子進化領域的經典軟體MEGA,每年幾千的引用跟玩兒一樣。這些方法並不見得必須要非常新,利用已有的統計或者計算方法來解決新的生物學問題已經足夠保證其新穎性,但必須盡可能保證用戶的友好性。開發者一般在發表之後還需要做非常非常多的工作,比如維護、升級,即使不在發表後續的論文。評價2級的生物資訊研究工作不能數影響因子,但做的好卻比較容易被領域認可(例如,華大基因發表NCS對咱搞生物資訊的來說未必認可,但人家的SOAP系列做的肯定是專業水準的)。此外,2級的研究要做的好,生物資訊學者一般需要專注於自己特定的方向,從而能夠較好地了解領域內相關的、新的計算方法和實驗技術。總體來說,國內生物資訊專業的博士畢業,一般起碼要做出2級下水平的工作,總得有點兒新玩意兒,不然想畢業幾乎是不可能的。而對於非生物資訊領域的學者,從1級進階到2級幾乎是不可能的,咱生物資訊人的飯碗,不是想砸就能砸的了的。所以對於業餘票友們來說,與其花精力試圖進階2級,還不如找專業學者合作更劃算。
3級(Level 3)
玩數據、作發現。簡稱:頂級。
3級的生物資訊研究一般是整合公共的高通量數據,利用相當精致的方法來做出生物學發現。因此這樣的工作一般是從數據開始,實驗驗證結束。這就需要生物資訊學家具有非常扎實的生物學知識,並且能夠自己提出有意思的生物學問題。生物信息學家可以領導一個生物學的項目,並且實驗學的合作者能夠相信預測的正確性以及意義,並樂意開展實驗驗証。這個級別的研究一般都需要實驗驗証,不然頂級的期刊不收。對這類工作的評價,主要是看生物學的問題是否有意思,數據整合和分析是否有足夠的技巧和合理性,並且也可以根據雜志發表期刊的檔次(影響因子)來判斷。例如我在《環形RNA分子:論開掛在生命科學研究中的重要性》提到的工作,這是典型的3級研究。從2級進階到3級很困難,兄弟我目前正在努力中。
X級(Level X)
玩科學、講政治。簡稱:神級。
在這個級別,生物資訊學家要在巨型項目產生的海量數據的整合和模擬中發揮關鍵作用。做這個級別工作的生物資訊學家一般具有良好的1級和2級的研究記錄,並且在團隊研究中要具有非凡的領導才能。這些工作一般都發表在頂級的期刊,並且引用極好,在研究過程中要注意協調方方面面。盡管有時生信對於這些論文的發表是重要的,但往往數據本身可能比方法更重要。例如期刊判斷論文要依據其數據量的大小以及潛在的引用,而不是生物資訊。此外,這類工作更多的是反映第一作者老板們的領導力以及在領域裡的地位,而不是第一作者的技術能力和創造力。所以X級論文的第一作者們往往並不會得到足夠的認可。因此,這些工作中的一作在獨立研究之後,往往是必須建立科學的聲譽,並且與之前X級工作無關。學者參加一些X級的生物資訊研究無可厚非,因為這些項目的成員一般在各自領域都是頂級學者。但如果學者只開展或者只發表X級的工作,那就表明該學者在政治方面的關注已經超過科學了。兄弟我舉例:典型的X級生物資訊研究工作如艾瑞克?蘭德 (Eric Lander) 領銜的人類基因組草圖的公布《Initialsequencing and analysis of the human genome》。艾瑞克是第一作者也是共同通訊作者,因為這篇論文主要是他寫的,所以數據也自然主要是他分析的。這篇論文影響深遠,最重要的就是基本確定了基因組學這類超級項目的研究範式以及論文的書寫格式,例如這類論文一般不帶後續的實驗驗證,所以也是有爭議。這也就是為什麼國內老是講華大在灌水的原因,第一,華大顯然是在灌水;第二,這個灌水模式是老外發明的﹔第三,那你很容易就能明白,其實老外灌的更狠;第四,你老外自己定的游戲規則,你還玩不過華大,那你得懂“願賭服輸”這個道理。
Shirley總結,對於生物信息學者來說,一般從1級的研究開始,學習基本的生信技術;等到計算和生物學知識掌握差不多之後,可以嘗試想2級和3級進階,並且有可能也參與X級的研究。如果條件允許的話,一般有成就的生物資訊學家的研究會從1級做到X級,不會專注某一個級別(所以搞生物資訊研究不能挑食)。也有許多生資學者包括Shirley本人也在開始做實驗並且產生實驗數據,這樣實驗的內容要拿去跟實驗學家的工作去比,而計算部分則可按照上述五個類別來評價。因此,當您再讀基因組和生信的論文,可以帶著“這是什麼水平的生物資訊工作”這個問題來閱讀。嘗試客觀的評價生信工作,而不是數論文發表期刊的影響因子。
注:本篇博文的觀點不代表本人觀點,但兄弟我對這些觀點表示無比的贊同。從1級到2級,對於生信專業的研究生和教師們來說不難,但2級到3級卻極其困難,對於和我年齡相當的同行朋友來說,要跨越這一步幾乎是難比登天。以及邁這個坎的,恭喜;如我般還在苦苦修煉的,也不必心急,武功練到境界了,破關也就是水到渠成的事情。
————————————————————————————
假設你打算從事生物資訊行業或長期地使用生物資訊學工具而不是因為寫文章之類臨時抱佛腳,個麼個人認為可以分三個階段入手。
第一階段是基礎知識學習,找一本覆蓋面廣但是又不是很難啃的教材先對生物資訊所涉及各個方面有所了解,比如人衛版李霞主編那本《生物信息學》,當然我只是隨便舉例,這本書很多章節的內容就是直接翻譯的網站文檔……
第二階段是一個逐步深入的過程,這個過程中要學會工具的使用。比如編程是學Perl還是Python,現在R也得學了。算法方面最基本的那幾個比如Smith-Waterman、Needleman-Wunsch、Dynamic Programming等要了解清楚,結合一些工具比如blast來學習。一些數據庫網站也是需要了解清楚的比如NCBI之類的就不用說了,比如很多人都用DAVID來進行生物模式識別分析了當碰到來與你討論的人時你也要有所了解才行,合理地尋找和利用資源。多看e文書和文檔吧,多動手寫,一定要動手寫。
第三階段是進行研究,就你個人的興趣或者你的工作需要選定一個/些領域來研究,進一步學習更多東西,這就學無止境了,HMM啦Bayes啦ANN啦……比如我就對高通量測序和腫瘤遺傳學感興趣那麼我就來研究這個。
擱幾百年前,咱這就是個手藝人,把手藝弄好就是要熟能生巧博採百家才行。
————————————————————————————
本身是生物信息專業,所以根據自己情況來回答你的問題。
生物資訊專業的學生一般來自三個方向,生物專業,計算機專業和數學專業,那麼三個專業的學生對應的方向就是數據分析(一般是測序數據分析),軟體開發和數據庫建立,數學建模和統計分析。
當然不排除交叉學習的情況。
我本身本科是生物專業,主要做測序數據分析和生物問題探討。在Linux下工作,專業知識學習了perl、shell、R。R一般用來畫圖。現在在學python。
會顯示你的姓名
————————————————————————————
寫個實實在在的軟件,做一兩個項目。期間根據興趣不斷學習算法數據結構,編程語言,統計,機器學習,生物醫學和遺傳學。
0級 (Level 0)
為建模、而建模(modeling for modeling’s sake)。簡稱:渣級。
Shirley在博客裡提到說“如果你記得功夫熊貓”,問題是我沒記得這個,腦子裡想的是《憨豆的黃金周》裡那段nothing, nothing, nothing… 原博舉的例子是,之前有人問:現在數據這麼多,能建模的東西一大把,那我們該幹點啥呢?Shirley就問:你想解決啥問題?答:建模的問題。這就像我坐電梯看見認識的研究生,說小伙最近忙啥呢?答:做水稻呢。繼續問:具體研究的啥?不高興了,詫異:研究水稻啊!然後給我解釋了半天中國要研究水稻的必要性。我…兄弟我每天吃米飯還固定要研究水稻三遍呢。原文解釋,這個回答是OK的,如果科學家僅僅將自己當成數學家、統計學家、計算機科學家、物理學家,或者像我這樣用嘴巴研究水稻的吃貨,因為在這些學者各自的領域裡,確實有許多好的理論建模問題。但如果這些學者是認真對待生物資訊學的研究,這個回答不OK。許多0級生物資訊學家們從來不讀或者不發表生物學期刊上的論文,也不參加生物學的會議,因此這個級別屬於“未入門級”。根據人以類聚,物以群分的原則,0級生物資訊學家們通常只閱讀自己或者其他0級生物資訊學家的論文,並且,並且引用也是自引或者被同級別的學者引用。因此這類研究就是浪費資源。
1級(Level 1)
給數據、能分析。簡稱:菜鳥級。
這類研究一般是分析自己或者合作者實驗室裡未發表的數據,並試圖獲得新的生物學發現。相比與0級,這已經有很大的進步,並且是訓練生物資訊學者最好的途徑之一。可以練習將已有的生物資訊學技術來做出真正生物學發現的技巧,學習更多的生物資訊技術和生物學知識,可以啟發、衍生出2級和3級的好課題。評價1級科研的功底和水平要看數據有多複雜, 是否需要生物資訊人員寫一些程序和算法(而不是只用他人的工具),生物資訊分析在整個研究中的有重要性 (最重要的假設發現是不是由生物資訊分析出來的,文章中生物資訊圖表的個數),實驗與計算的結合程度 (實驗與計算環環相扣,而不是高通量實驗數據獲得完跟個生物資訊分析就拉倒),以及研究中生物學的發現是不是真的有意思,等等。因此兄弟我的看法是,1級雖然是“入門級”,但非常非常重要,所有生信專業研究生的必經之路,非生物資訊領域的學者或學生,能達到1級中已可算是高手,進階到1級上那就是鳳毛麟角了。
2級(Level 2)
想新招、玩數據。簡稱:肉鳥級。
具有2級水准的生信研究有:1) 設計方法解決生物醫學相關大數據分析中普適、定量的問題。比如咱生物資訊課本裡經典的用於雙序列比對的Smith-Waterman算法等等;2) 設計算法來分析新的高通量技術所獲得的數據,例如華大基因設計的用於二代測序短讀段 (read) 映射到基因組上的SOAP系列工具,這就是典型的2級工作;3) 從各種公共數據中通過整合建立數據庫或數據資源。這個太多了,生信領域各種專業、精心注釋的數據庫,都屬於2級的研究。2級比1級高的地方,在於1級隻能幫助一個實驗室或者固定的、極有限的合作者,而2級的工作則可以幫助數百甚至數千的生物學家。2級的工作不必須發表在頂級的期刊上,時間會証明一切,比如分子進化領域的經典軟體MEGA,每年幾千的引用跟玩兒一樣。這些方法並不見得必須要非常新,利用已有的統計或者計算方法來解決新的生物學問題已經足夠保證其新穎性,但必須盡可能保證用戶的友好性。開發者一般在發表之後還需要做非常非常多的工作,比如維護、升級,即使不在發表後續的論文。評價2級的生物資訊研究工作不能數影響因子,但做的好卻比較容易被領域認可(例如,華大基因發表NCS對咱搞生物資訊的來說未必認可,但人家的SOAP系列做的肯定是專業水準的)。此外,2級的研究要做的好,生物資訊學者一般需要專注於自己特定的方向,從而能夠較好地了解領域內相關的、新的計算方法和實驗技術。總體來說,國內生物資訊專業的博士畢業,一般起碼要做出2級下水平的工作,總得有點兒新玩意兒,不然想畢業幾乎是不可能的。而對於非生物資訊領域的學者,從1級進階到2級幾乎是不可能的,咱生物資訊人的飯碗,不是想砸就能砸的了的。所以對於業餘票友們來說,與其花精力試圖進階2級,還不如找專業學者合作更劃算。
3級(Level 3)
玩數據、作發現。簡稱:頂級。
3級的生物資訊研究一般是整合公共的高通量數據,利用相當精致的方法來做出生物學發現。因此這樣的工作一般是從數據開始,實驗驗證結束。這就需要生物資訊學家具有非常扎實的生物學知識,並且能夠自己提出有意思的生物學問題。生物信息學家可以領導一個生物學的項目,並且實驗學的合作者能夠相信預測的正確性以及意義,並樂意開展實驗驗証。這個級別的研究一般都需要實驗驗証,不然頂級的期刊不收。對這類工作的評價,主要是看生物學的問題是否有意思,數據整合和分析是否有足夠的技巧和合理性,並且也可以根據雜志發表期刊的檔次(影響因子)來判斷。例如我在《環形RNA分子:論開掛在生命科學研究中的重要性》提到的工作,這是典型的3級研究。從2級進階到3級很困難,兄弟我目前正在努力中。
X級(Level X)
玩科學、講政治。簡稱:神級。
在這個級別,生物資訊學家要在巨型項目產生的海量數據的整合和模擬中發揮關鍵作用。做這個級別工作的生物資訊學家一般具有良好的1級和2級的研究記錄,並且在團隊研究中要具有非凡的領導才能。這些工作一般都發表在頂級的期刊,並且引用極好,在研究過程中要注意協調方方面面。盡管有時生信對於這些論文的發表是重要的,但往往數據本身可能比方法更重要。例如期刊判斷論文要依據其數據量的大小以及潛在的引用,而不是生物資訊。此外,這類工作更多的是反映第一作者老板們的領導力以及在領域裡的地位,而不是第一作者的技術能力和創造力。所以X級論文的第一作者們往往並不會得到足夠的認可。因此,這些工作中的一作在獨立研究之後,往往是必須建立科學的聲譽,並且與之前X級工作無關。學者參加一些X級的生物資訊研究無可厚非,因為這些項目的成員一般在各自領域都是頂級學者。但如果學者只開展或者只發表X級的工作,那就表明該學者在政治方面的關注已經超過科學了。兄弟我舉例:典型的X級生物資訊研究工作如艾瑞克?蘭德 (Eric Lander) 領銜的人類基因組草圖的公布《Initialsequencing and analysis of the human genome》。艾瑞克是第一作者也是共同通訊作者,因為這篇論文主要是他寫的,所以數據也自然主要是他分析的。這篇論文影響深遠,最重要的就是基本確定了基因組學這類超級項目的研究範式以及論文的書寫格式,例如這類論文一般不帶後續的實驗驗證,所以也是有爭議。這也就是為什麼國內老是講華大在灌水的原因,第一,華大顯然是在灌水;第二,這個灌水模式是老外發明的﹔第三,那你很容易就能明白,其實老外灌的更狠;第四,你老外自己定的游戲規則,你還玩不過華大,那你得懂“願賭服輸”這個道理。
Shirley總結,對於生物信息學者來說,一般從1級的研究開始,學習基本的生信技術;等到計算和生物學知識掌握差不多之後,可以嘗試想2級和3級進階,並且有可能也參與X級的研究。如果條件允許的話,一般有成就的生物資訊學家的研究會從1級做到X級,不會專注某一個級別(所以搞生物資訊研究不能挑食)。也有許多生資學者包括Shirley本人也在開始做實驗並且產生實驗數據,這樣實驗的內容要拿去跟實驗學家的工作去比,而計算部分則可按照上述五個類別來評價。因此,當您再讀基因組和生信的論文,可以帶著“這是什麼水平的生物資訊工作”這個問題來閱讀。嘗試客觀的評價生信工作,而不是數論文發表期刊的影響因子。
注:本篇博文的觀點不代表本人觀點,但兄弟我對這些觀點表示無比的贊同。從1級到2級,對於生信專業的研究生和教師們來說不難,但2級到3級卻極其困難,對於和我年齡相當的同行朋友來說,要跨越這一步幾乎是難比登天。以及邁這個坎的,恭喜;如我般還在苦苦修煉的,也不必心急,武功練到境界了,破關也就是水到渠成的事情。
————————————————————————————
假設你打算從事生物資訊行業或長期地使用生物資訊學工具而不是因為寫文章之類臨時抱佛腳,個麼個人認為可以分三個階段入手。
第一階段是基礎知識學習,找一本覆蓋面廣但是又不是很難啃的教材先對生物資訊所涉及各個方面有所了解,比如人衛版李霞主編那本《生物信息學》,當然我只是隨便舉例,這本書很多章節的內容就是直接翻譯的網站文檔……
第二階段是一個逐步深入的過程,這個過程中要學會工具的使用。比如編程是學Perl還是Python,現在R也得學了。算法方面最基本的那幾個比如Smith-Waterman、Needleman-Wunsch、Dynamic Programming等要了解清楚,結合一些工具比如blast來學習。一些數據庫網站也是需要了解清楚的比如NCBI之類的就不用說了,比如很多人都用DAVID來進行生物模式識別分析了當碰到來與你討論的人時你也要有所了解才行,合理地尋找和利用資源。多看e文書和文檔吧,多動手寫,一定要動手寫。
第三階段是進行研究,就你個人的興趣或者你的工作需要選定一個/些領域來研究,進一步學習更多東西,這就學無止境了,HMM啦Bayes啦ANN啦……比如我就對高通量測序和腫瘤遺傳學感興趣那麼我就來研究這個。
擱幾百年前,咱這就是個手藝人,把手藝弄好就是要熟能生巧博採百家才行。
————————————————————————————
本身是生物信息專業,所以根據自己情況來回答你的問題。
生物資訊專業的學生一般來自三個方向,生物專業,計算機專業和數學專業,那麼三個專業的學生對應的方向就是數據分析(一般是測序數據分析),軟體開發和數據庫建立,數學建模和統計分析。
當然不排除交叉學習的情況。
我本身本科是生物專業,主要做測序數據分析和生物問題探討。在Linux下工作,專業知識學習了perl、shell、R。R一般用來畫圖。現在在學python。
會顯示你的姓名
————————————————————————————
寫個實實在在的軟件,做一兩個項目。期間根據興趣不斷學習算法數據結構,編程語言,統計,機器學習,生物醫學和遺傳學。
很棒
回覆刪除