Bioinformatics

对国内外的生物信息学实验室,我做一个粗糙但很实用的分类:
一是开发、设计生物信息学方法、技术,构建生物信息学数据库;
二是利用别人的方法、技术和数据库、辅之以简单的程序设计,来研究自己关心的生物学问题。
三是二者结合,既做一些方法技术和数据库,也做一些纯生物学问题研究。第一类实验室的导师一般具有数学等非生物学背景。第二类实验室的导师一般具有生物学背景。
第三类实验室的导师可能具有生物学背景、也可能来自于数学、信息学等学科。第三类实验室一般都是从事生物信息学时间较长,无论生物学、数学、还是计算机科学方面知识积累都很丰富,所以一般也都很成功。第三类典型的例子是NCBI的Koonin实验室。

0级 (Level 0):为建模、而建模(modeling for modeling’s sake)。简称:渣级。Shirley在博客里提到说“如果你记得功夫熊猫”,问题是我没记得这个,脑子里想的是《憨豆的黄金周》里那段nothing, nothing, nothing… 原博举的例子是,之前有人问:现在数据这么多,能建模的东西一大把,那我们该干点啥呢?Shirley就问:你想解决啥问题?答:建模的问题。这就像我坐电梯看见认识的研究生,说小伙最近忙啥呢?答:做水稻呢。继续问:具体研究的啥?不高兴了,诧异:研究水稻啊!然后给我解释了半天中国要研究水稻的必要性。我…兄弟我每天吃米饭还固定要研究水稻三遍呢。原文解释,这个回答是OK的,如果科学家仅仅将自己当成数学家、统计学家、计算机科学家、物理学家,或者像我这样用嘴巴研究水稻的吃货,因为在这些学者各自的领域里,确实有许多好的理论建模问题。但如果这些学者是认真对待生物信息学的研究,这个回答不OK。许多0级生物信息学家们从来不读或者不发表生物学期刊上的论文,也不参加生物学的会议,因此这个级别属于“未入门级”。根据人以类聚,物以群分的原则,0级生物信息学家们通常只阅读自己或者其他0级生物信息学家的论文,并且,并且引用也是自引或者被同级别的学者引用。因此这类研究就是浪费资源。

1级(Level 1):给数据、能分析。简称:菜鸟级。这类研究一般是分析自己或者合作者实验室里未发表的数据,并试图获得新的生物学发现。相比与0级,这已经有很大的进步,并且是训练生物信息学者最好的途径之一。可以练习将已有的生物信息学技术来做出真正生物学发现的技巧,学习更多的生信技术和生物学知识,可以启发、衍生出2级和3级的好课题。评价1级科研的功底和水平要看数据有多复杂, 是否需要生信人员写一些程序和算法(而不是只用他人的工具),生信分析在整个研究中的有重要性 (最重要的假设发现是不是由生物信息分析出来的,文章中生信图表的个数),实验与计算的结合程度 (实验与计算 环环相扣,而不是高通量实验数据获得完跟个生信分析就拉倒),以及研究中生物学的发现是不是真的有意思,等等。因此兄弟我的看法是,1级虽然是“入门级”,但非常非常重要,所有生信专业研究生的必经之路,非生信领域的学者或学生,能达到1级中已可算是高手,进阶到1级上那就是凤毛麟角了。

2级(Level 2):想新招、玩数据。简称:肉鸟级。具有2级水准的生信研究有:1) 设计方法解决生物医学相关大数据分析中普适、定量的问题。比如咱生信课本里经典的用于双序列比对的Smith-Waterman算法等等;2) 设计算法来分析新的高通量技术所获得的数据,例如华大基因设计的用于二代测序短读段 (read) 映射到基因组上的SOAP系列工具,这就是典型的2级工作;3) 从各种公共数据中通过整合建立数据库或数据资源。这个太多了,生信领域各种专业、精心注释的数据库,都属于2级的研究。2级比1级高的地方,在于1级只能帮助一个实验室或者固定的、极有限的合作者,而2级的工作则可以帮助数百甚至数千的生物学家。2级的工作不必须发表在顶级的期刊上,时间会证明一切,比如分子进化领域的经典软件MEGA,每年几千的引用跟玩儿一样。这些方法并不见得必须要非常新,利用已有的统计或者计算方法来解决新的生物学问题已经足够保证其新颖性,但必须尽可能保证用户的友好性。开发者一般在发表之后还需要做非常非常多的工作,比如维护、升级,即使不在发表后续的论文。评价2级的生信研究工作不能数影响因子,但做的好却比较容易被领域认可(例如,华大基因发表NCS对咱搞生信的来说未必认可,但人家的SOAP系列做的肯定是专业水准的)。此外,2级的研究要做的好,生物信息学者一般需要专注于自己特定的方向,从而能够较好地了解领域内相关的、新的计算方法和实验技术。总体来说,国内生信专业的博士毕业,一般起码要做出2级下水平的工作,总得有点儿新玩意儿,不然想毕业几乎是不可能的。而对于非生信领域的学者,从1级进阶到2级几乎是不可能的,咱生信人的饭碗,不是想砸就能砸的了的。所以对于业余票友们来说,与其花精力试图进阶2级,还不如找专业学者合作更划算。

3级(Level 3):玩数据、作发现。简称:顶级。3级的生信研究一般是整合公共的高通量数据,利用相当精致的方法来做出生物学发现。因此这样的工作一般是从数据开始,实验验证结束。这就需要生物信息学家具有非常扎实的生物学知识,并且能够自己提出有意思的生物学问题。生物信息学家可以领导一个生物学的项目,并且实验学的合作者能够相信预测的正确性以及意义,并乐意开展实验验证。这个级别的研究一般都需要实验验证,不然顶级的期刊不收。对这类工作的评价,主要是看生物学的问题是否有意思,数据整合和分析是否有足够的技巧和合理性,并且也可以根据杂志发表期刊的档次(影响因子)来判断。例如我在《环形RNA分子:论开挂在生命科学研究中的重要性》提到的工作,这是典型的3级研究。从2级进阶到3级很困难,兄弟我目前正在努力中。

X级(Level X):玩科学、讲政治。简称:神级。在这个级别,生物信息学家要在巨型项目产生的海量数据的整合和模拟中发挥关键作用。做这个级别工作的生物信息学家一般具有良好的1级和2级的研究记录,并且在团队研究中要具有非凡的领导才能。这些工作一般都发表在顶级的期刊,并且引用极好,在研究过程中要注意协调方方面面。尽管有时生信对于这些论文的发表是重要的,但往往数据本身可能比方法更重要。例如期刊判断论文要依据其数据量的大小以及潜在的引用,而不是生信。此外,这类工作更多的是反映第一作者老板们的领导力以及在领域里的地位,而不是第一作者的技术能力和创造力。所以X级论文的第一作者们往往并不会得到足够的认可。因此,这些工作中的一作在独立研究之后,往往是必须建立科学的声誉,并且与之前X级工作无关。学者参加一些X级的生信研究无可厚非,因为这些项目的成员一般在各自领域都是顶级学者。但如果学者只开展或者只发表X级的工作,那就表明该学者在政治方面的关注已经超过科学了。兄弟我举例:典型的X级生信研究工作如艾瑞克•兰德 (Eric Lander) 领衔的人类基因组草图的公布《Initialsequencing and analysis of the human genome》。艾瑞克是第一作者也是共同通讯作者,因为这篇论文主要是他写的,所以数据也自然主要是他分析的。这篇论文影响深远,最重要的就是基本确定了基因组学这类超级项目的研究范式以及论文的书写格式,例如这类论文一般不带后续的实验验证,所以也是有争议。这也就是为什么国内老是讲华大在灌水的原因,第一,华大显然是在灌水;第二,这个灌水模式是老外发明的;第三,那你很容易就能明白,其实老外灌的更狠;第四,你老外自己定的游戏规则,你还玩不过华大,那你得懂“愿赌服输”这个道理。

Shirley总结,对于生物信息学者来说,一般从1级的研究开始,学习基本的生信技术;等到计算和生物学知识掌握差不多之后,可以尝试想2级和3级进阶,并且有可能也参与X级的研究。如果条件允许的话,一般有成就的生物信息学家的研究会从1级做到X级,不会专注某一个级别(所以搞生信研究不能挑食)。也有许多生信学者包括Shirley本人也在开始做实验并且产生实验数据,这样实验的内容要拿去跟实验学家的工作去比,而计算部分则可按照上述五个类别来评价。因此,当您再读基因组和生信的论文,可以带着“这是什么水平的生信工作”这个问题来阅读。尝试客观的评价生信工作,而不是数论文发表期刊的影响因子。

本文作者: TMs
本文链接: https://blog.tms.im/2016/05/27/bioinformatics.html
版权声明: 本作品采用 CC BY-NC-SA 3.0 CN 进行许可。转载请注明出处!
知识共享许可协议