科研:坑的识别与绕过
Research: How to Spot and Avoid the Pitfalls
Highlights
- 在此分享一些我在生物信息学道路上觉得深受启发的别家观点,以及自己经历过的血泪教训
- 预警!内含大量吐槽
从生物到信息
有必要交代一下我的背景。我没有接受过系统的教育,无论是生物、信息,还是生物信息。所以本文的内容均是个人的野路子体会。我本科前两年在学校的生化类试验班,主要课程是化学,后两年才分到生物技术专业。然而在人家开始恶补专业课的时候,我从学校溜出来,到华大基因实习,开始了生信之旅。这就导致本科毕业时,班上大多数同学都不知道我这个人的存在。
专业化与创新性的矛盾
当时是2010年,生信领域刚刚兴起,网络上几乎没有任何一点关于生信的学习资源,只能靠师兄的口传心授,或自己看文献瞎猜。大家采用的分析方法也很天真,比如差异表达就是看 fold change,连 T test 都用不着,因为没钱测重复。然而就是在这种简单粗暴的策略下,生信各大方向得以迅速成立,领域格局初具雏形,后来者只能干添砖加瓦的活儿。说实在,新领域发展就该简单粗暴,否则你甩出个玄妙晦涩的统计模型,鬼才看得懂,根本没人敢用。如果你发现自己干活儿时总要顾虑别人是怎么做的、担心自己选用的方法不是最好的那种,那么说明你选的课题已经高度专业化,没有创新空间了。“专业化”和“创新性”是互斥的!想清楚你要做哪一种研究!
生物信息工作的档次
哈佛的刘小乐写过一篇博文:Levels of Bioinformatics Research。翻译过来大意就是,生信的研究工作分为以下几档。学生应该从一档开始,向二三档努力。成熟的学者应该根据手头资源的多少,把握实验室里一二三档工作所占的比例,并适当参与 X 档。
- 零档:不知道要回答什么问题,为了建模而建模。典型想法:“我们有XXX数据,可以搞个什么项目呢?”这类工作纯属浪费社会资源
- 一档:分析自产的未发表数据,寻找生物学新发现。这类项目非常适合用来训练初学者。如何评价这类工作的水平?数据量大小、数据类型复杂度、算法原创度、生信分析占了多少图、假说是否来自于生信分析、生物学新发现是否真实且重要、干湿实验是否在各阶段均有紧密结合(而非产生数据后,用生信分析给出描述性的结果,且没有后续实验验证)
- 二档:1)开发方法,以解决生物医学海量数据研究中的量化问题;2)开发算法,以分析新技术产生的数据;3)搭建数据库。这些工作比一档更高一层,因为它们不再局限于帮助一个实验室,而是造福了千千万万研究者。这些算法或资源通常解决了重要而前沿的生物学问题或技术问题,但它们不必发表在 Cell, Nature, Science 这种杂志上,只能在一段时间后,通过被应用的广泛程度来确定地位。它们的方法可能不是原创的(从别的领域借来),但必须有效、好用。因此,作者可能需要花大量时间在后期维护上。要把这类工作做好,生信学者要保持在生物学领域的信息获取和敏锐直觉,以判断什么才是重要的、亟待解决的问题
- 三档:整合公共数据,设计巧妙的实验,得到有趣的生物学发现。这类工作通常始于计算,结束于实验验证。这要求生信学者有扎实的生物学基础,能够提出好问题,领导湿实验人员,让他们愿意相信干实验结果,虽然有时候他们就是不接受
- X 档:大型合作项目。然而在这类工作中,人们更关注数据而非分析,分析人员的贡献通常被忽视,且如果发表的文章全是这种大项目而没有独立课题,那么人们会怀疑你是政治家而非科学家。但是也有好处,那就是你能在这种项目中结识顶尖科学家
我深以为然。
怎么找课题
不少学生都经历过自己找课题的时期。其间不仅没有任何人的帮助,导师甚至起到了阻碍作用。这些导师通常不是有意阻碍,只是因为他们自己也不知道怎么找课题,更别说教别人怎么找课题了。外行强行指导的唯一效果就是阻碍。
这个现象的根源在于:导师当年的导师不负责,没有教其找课题,而导师没有意识到自己接受了不合格的教育,却以此为借口,强迫自己的学生接受这种低质量的教育,令他们相信“找课题是无法言传的玄学,不是我不懂,是你学不会,你应该感到羞耻”,从而触发恶性循环。
你问我怎么知道的?因为我发现大多数导师喜欢对博士生说,“我当年的(博后)老板什么都不管,我后来也成功了”。请问博士生和博后的需求一样吗?你咋不期望小学生能够自学微积分呢?另外,什么叫“管”?低频而高效地指导和整天占用学生时间瞎扯,哪个叫“管”?确保学生充满内在动力和确保学生盲目忙碌,哪个叫“管”?蒲慕明那封“博士生应该每周至少工作80小时,累了再看文献”的信被中国所有迷信权威的导师当成了金科玉律。这不是典型的治标不治本、劳动密集型产业模式吗?拿我来说。我要是很想写一个程序,通宵达旦是常事,简直上瘾,还用你逼?我们需要提点,而非监工。
我也经历过找课题。过程很痛苦,但收获很大。从那时起,我获得了一项重要技能:有理有据地质疑权威,无论是身边的权威还是发表在期刊上的权威,无论是针对学术问题还是人生问题。此外,我开始用自己的理解重构世界,思考生命形式的本质,并依此判断一项工作有无意义,完全不受权威的影响。你问我怎么解锁这些技能?
一开始,我直接谷歌搜索“如何找课题”(中英文),得到的结果其实回答的是另一个问题:“如何评价某个课题的好坏”,即“兼具原创性、重要性、可行性的课题就是好课题”,或者“好的研究工作要么发现了新现象,要么开发了新方法,要么提出了新概念”。哈?然后咧?没说去哪里找到这么好的课题啊?唯一沾得上边的是,“先挑一个东西开始做,做着做着自然就会想到一些问题了”。废话!
也有计算机科学的 Geek 们开发了“课题生成器”。但是其原理只不过是生成一些词语的随机组合,为苦恼的学生们提供灵感罢了。我倒是很想开发一个基于语义的真正的课题生成器,不过这是后话。
求人不如求己,看来只好祭出杀手锏:思维更上一层。我合上电脑,远离外界信息,开始在空旷的房间内徘徊,思考“学生个人成长”、“实验室可持续发展”和“研究领域兴衰规律”与“好课题”的关系,试图设计出一个找课题的“算法”。
首先,要求刚入学的学生想出个全新的课题并立即开展是不现实的。当然天才完全可以做到,但基于天才的教育就是失败。如果完全放手坐等学生自行成长,不但对学生来说是种不负责任的态度,也使得实验室产出低下。所以刚开始应该从现有的实验室工作里分出一个短平快的小课题,让学生练练手。无论结果如何,第一年以内结束,争取发个会议海报,锻炼到全方位的能力,同时增强信心。
然后,有几条路可以选:
- 导师指定课题:实验室所研究的大问题下的子问题,或继师兄师姐的后续工作。因为实验室长期跟踪领域前沿信息,能保证“原创性”;实验室申请基金经过了同行评审,能保证“重要性”;实验室平台建设已成熟,能保证“可行性”。总之风险很小,且不需要独立思考,只需要执行力。但是完全依赖于导师的水平。碰上导师没洞见却又控制欲超强,我只能表示同情了
- 如果学生兴趣广泛、思维活跃、有其他领域的特长,那么可以从独特的角度提出本领域的新问题,或创造性地解决老问题。这条路走的是“创新”,竞争不激烈,投入最小,产出最大。这也是为什么现在大家都热衷于进行交叉领域研究的原因。但是这需要独立思考,所以有的人注定做不成这类工作
- 利用时间差占领地盘。了解别人刚发表甚至未发表的研究结果,随时准备结合自己的方向掺和一脚。这样能够保证“原创性”,且产出极高,但是“重要性”就不好说了,而且需要极其谨慎地考察别人工作的可靠度。如果你在一个顶尖研究所做研究,周围一直有顶尖工作在进行,别人愿意和你讨论未发表的结果,或者你消息灵通,那么你的时间差优势就很显著。因为期刊上刚发表的工作通常已经进行了好几年,更别提早就发表的文章了。如果你追不上“热点”,那么古老且冷门的文章反而更有可能是个金矿,因为总有一些由于技术或知识所限,当时无法解决、现在很好对付的问题。况且,太多人研究同一个问题,美名其曰是“竞争”,从人类的发展来看其实是“浪费”,和中国淘宝的“价格战”没有本质区别
- 如果你发现有某类问题,由于技术所限一直没有被很好地回答,那么可以自己开发一个技术方法并发表之。用一个新方法解决一个顽固问题并获得一个新发现,就是开创领域式的工作。但是,如果你无法持续开发新方法、无法把实验室打造成孵化器,那么未来就只能走技术驱动型的研究套路(“你的问题能用上这门技术吗?如果能,我们就合作”)
- 在入学时就带着明确的问题。动力满满,毫不纠结。例如,因为亲人患病,所以立志要解决这个病的治疗难题;因为从小就好奇天上有什么,所以立志要上天看看。这是理想情况,也是做科研的唯一正道,其他的都只是混口饭或玩一玩
最后,也是最重要的一点,你的导师要有独立思考的能力,否则你即使找到了课题,也没有资源开展研究。如何判断一个人是否独立思考:1)对于种种问题都有自己的一套理论框架和价值判断;2)有足够的知识、技能,在问题的多个层面进行思考并得出结论;3)水平不够时敢于承认,明确地告诉学生“我不是这方面的专家,需要请教别人,稍后给你回复”,不会为了保存自己的面子而瞎指挥,误导学生,浪费学生的时间,甚至对学生进行人身攻击。
怎么查找文献
课题确定了,下一步就是开题文献调研。查找文献最怕的就是“查不全”,浪费时间在重复别人的工作上,而且也是对前人的不尊重。结合学校图书馆的讲座和个人经验,我总结出查找文献的几个步骤:
- 阅读综述,了解课题的大背景,越泛越好
- 浏览关于这个课题的各个时期、各个流派的文献,搜集课题关键词的同义词。因为查全的关键在于完整的检索式,而人们可能会用不同的词来描述同一个东西,特别是在研究的早期阶段
- 构建检索式,在数据库中进行搜索。检索式根据 AND,OR,括号和通配等符号来精确定义搜索范围,具体规则各数据库有不同。生物学领域比较好用的数据库有 Google Scholar、PubMed、Scopus,甚至直接使用搜索引擎也是可以的。我还有些压箱底的小技巧:有时候搜索图片比搜索网页能得到更精确的结果,且一眼就能看出搜索结果是不是自己想要的。多发挥想象力,有的新闻、博客,甚至 Fackbook 和 Twitter 里也有关于实验室工作的报道以及文章链接
- 不要忘了看专利和学位论文!特别对于工科学生。因为这两类文献的数据库通常和期刊数据库是分开的,却含有十分重要的信息。清华图书馆的“水木搜索”可以同时检索期刊、专利、学位论文
- 对于重要的文章,可以上下追溯。看它引用了什么文章,什么文章引用了它
- 对于重要的作者,也可以上下追溯。看他的学术背景、以前的老板、以前的工作、现在的研究重点、外界对其的评论,进而了解文章背后的故事、领域的进展,甚至推测出他找课题的策略和实验设计的策略
- 阅读文献的同时,仍然要注意搜集同义词,更新检索式
- 对于一个假说,正反双方的证据都要看
开题后,就进行研究了。如何跟踪领域进展?有以下几种方法:
- 有的数据库提供订阅功能,根据你的检索式,一旦发现有新文章,就会邮件提醒你。如 PubMed 和 Scopus
- 订阅本领域最重要的期刊的邮件提醒(Alert)。你甚至能在期刊出版成纸本之前就读到它,看看目录中有没有相关工作。比如我订的有 Science,Nature,Neuron,Journal of Neuroscience。订阅忌多忌重复,否则你根本不会点开看
- 和研究相同方向的几个人建立期刊阅读俱乐部(Journal Club),互通有无,减小盲区
文献那么多,怎么管理?我用过 EndNote,Mendeley,甚至啥也不用、只靠文件夹分类,效果都不好。后来终于发现了 ReadCube 这枚神器,于是一直用到现在。
怎么阅读文献
读 Paper 的苦恼大致有俩:看不懂!记不住!
看不懂。
原因 | 解决方法 |
---|---|
背景不熟 | 先看综述 |
生词太多 | 一个领域的生词来去就那几个,多看就熟了 |
看完觉得好像也没说啥有用的 | 这篇文献和你研究的问题不相关,别看了 |
就是看不懂! | 有的作者写东西晦涩难懂,特别是几十年前的人。我也没办法 |
记不住。这里分享一个我从美国的学习工作坊得到的小窍门:每看完一段,就用一两句话概括段意,写在旁边,就像小学整天练的那样。最好习惯看电子版,因为它比纸质版更容易查找。不要嫌慢,这样过一遍,其实比总是回头重新看要更省时间。因为,
- 概括段意能强迫自己集中注意力,理解作者意思
- 一旦忘了这里写的啥,只需看看这一两句话就能想起来
如果你有这样的感觉:文献好多!要学的东西好多!这辈子都看不完!那么有两种可能:1)你的课题被研究滥了;2)你的目标不够具体,看啥都觉得相关,一口气下载几百篇,每篇看完后却没收获。
怎么学英语
我以前自认为是语言天才,因为直到高中我都没背过单词:姐就是记得住!然而后来遇到 GRE 红宝书的时候我服了:把单词孤立起来死记硬背实在不是我的强项。即使记住了,我也不会用。后来大学时上了一门“英美报刊选读”,里面的生词又抽象又多,于是我为自己开发了一套记单词的方法,迄今为止效果最好,比新东方那个 21 天征服红宝书科学多了。
这套方法的原理是,我们的大脑不能记住孤立的单词,单词必须依赖上下文而存在。有了上下文,就能精确地体会单词的意思,写作时也能自然而然地回忆起该用什么单词。其实就和语音识别的 N-gram 算法一样。具体操作是:
- 通读全文,理解大意
- 划出生词
- 在一张纸的正面,抄写下生词所在的半句话。比如生词是 blush,则记下 when dating algorithms can watch you blush
- 在纸背面的相应位置,写下中文翻译。比如“当约会算法能看出你脸红时”
- 每当有空时,拿出纸,以中英互译的形式进行复习
至于口语,无他。多看英美剧和网络公开课,多在真实场景下观察老外。最重要的是脸皮要厚。我的粤语就是这么学来的。很多时候沟通不畅是价值观和文化习惯的问题,和语言没关系。一遍说不明白的,就换个方式说两遍、三遍,别放弃。