第18章 钱余的计划(2)63(1 / 2)

听完钱余的问题,博士生率先开了口。不过他并没有提太多建议,反而有些抱怨。

“我认为,这一计划自然是要找现成的突变体,或者……由我们自己‘诱发’斑马鱼突变咯。”

“只可惜我们研究的斑马鱼——现有的‘突变体库’实在太少。”

“我女朋友在高校研究肿瘤细胞,她从网上那些可用的数据库里筛选,基本上能够‘一抓一个准’,可令我眼红啦!”

博士生说着说着,忽然感觉自己是“输在了起跑线上”。

钱余也不禁笑着点了点头,算是同意了他的说法。

确实,说起大型的“库藏”资源受益者,最令钱余羡慕的,当属陈幸和郭子昱。

这小两口都研究癌症,而公共医疗数据库收集的资源,大多包括癌症患者的基因组数据——癌症患者通常会出现某些肿瘤相关基因的突变,当这些基因呈现表达异常的时候,人类体内便可能出现肿瘤细胞,继而形成癌症。

这些患者对于其他“无瘤”的健康人来说,就称得上是“突变体”了。

钱余接着评价道:“不过呀,数据资源虽然有,但是要完成数据处理,科研人员也必须经历一番周折。”

于是,钱余向学生们解释了何为“一番周折”。

多年以前,郭子昱刚考上研究生。

当时他的硕士导师,手头上积累的临床数据不足,又没有多余的经费请公司做生物芯片。因此导师希望能从公共数据库中,获取可用的数据资源,从而挖掘潜在的“肺癌耐药相关因子”——于是,刚入学不久的郭子昱,分到了这项重要的任务。

在全球范围内,可供免费获取的医学公共数据库的确不少。

当年肿瘤医生用得最多的,是美国国家癌症研究所开发的“癌症基因组图谱”数据库,又称“TCGA(TheCancerGenomeAtlas)”。

该数据库涵盖了33种肿瘤类型,收录并上传了多方研究者提供的癌症临床数据,包括肿瘤组织、正常组织、癌旁对照组的各项图谱——基因组、转录组、表观基因组、蛋白质组数据,以及患者的肿瘤病理、癌症分期、生存情况等。

从网上获取原始数据并下载,倒也难不倒郭子昱,令他头疼的,主要是后期数据的处理问题。

TCGA提供的数据集,样本量非常大。每一个样本,均以字母和数字的组合来命名,以便于相互区分并归类。因此,数据使用者需要有一定的计算机编程基础,例如掌握R语言、Python、Perl或Linux操作系统等。同时,使用者必须具备扎实的统计学理论知识,才能利用这些语言编辑器,从庞大的数据中获取自己想要的“精髓”部分。

郭子昱虽然有统计学的底子,本科也修过《生物信息学》,但他的信息学基础相对薄弱——如今让郭子昱这只“菜鸟”直接上升到应用层面,他自然是吃不消的。

“我每天看着这一行接一行的R语言代码就‘头大’。”当时郭子昱向陈幸诉苦,“还不如让我值一周的大夜班呢!”

陈幸建议道:“问问你的师兄师姐呀,他们应该也做过类似的数据处理吧。”

“做倒是做过,不过啊——他们用的那些代码,基本都是从网上‘复制粘贴、生搬硬套’的,没有多少是属于‘自己的东西’。”

网上的相关代码“满天飞”,可谓五花八门——虽然大多也能“殊途同归”,将各类数据进行归类处理。但这些代码毕竟是“提供者”自己写的,需要“使用者”逐字逐句看懂。有时一旦更改了某个看似无关紧要的代码,便可能出现“系统报错”,或者得出“南辕北辙”的处理结果。

还有不少生物相关行业,开始专程开班授课,教授广大科研人员如何利用R语言,对各大数据库的数据进行分析处理。

当时陈幸进实验室也才半年,尽管她自己的信息学基础扎实,但她也从未接触过如此庞大的数据处理。于是,陈幸求助于实验室的各位“前辈”。

“TCGA提供的代码有些繁琐,而这网上的呀,终归不是自己写的,用着总是有些不放心的。”

“我们手头上都有现成的代码,你到电脑上拷贝一份就行——不过呢,你最好还是自己写一套,这样以后用着也安心不是?”

师兄师姐们都很热心,陈幸就顺势拷贝了一份代码,交给了郭子昱。

但郭子昱最终还是听从了“前辈们”的建议——他咬了咬牙,充值了某个生物培训机构的“VIP终身会员”,下决心从头学起,一步一个脚印。

陈幸也陪着他,两人一路扶持——从基础R语言学习,到利用代码下载并处理数据,直至从数据库中,发现潜在的癌症相关因子——最终,郭子昱总算是“过五关、斩六将”,解决了自己科研生涯的“第一道难题”……

钱余看着眼前的博士生,见他依旧一脸难过,真不忍心再继续打击他。

“研究肿瘤等疾病的科研人员,确实很有优势——他们可以从现有的资源库中筛选课题。”

“除了TCGA,还有源自欧洲的Oncomine癌症基因芯片数据库,国际癌症基因组数据库ICGC等等。”

“再结合NCBI开发的高通量基因表达数据库GEO,以及基于上述数据库开发的各类网站、软件——譬如,cBioPortal癌症基因组数据探索,UCSCXena基因组浏览器,miRCancer癌症小RNA数据库,TIMER肿瘤免疫浸润数据库,Kaplan-Meier生存曲线绘图仪,GEPIA数据库可视化网站……可谓数不胜数。”

返回