可能是最好用的TCGA数据库GEPIA

听生信群里大神闲聊,说他自己的师弟做了个TCGA可视化工具,我就点开链接看了一下,不点开就算了,一点开不得了,
就像我手上的锤子手机,千万别用,用了就无法回头。

TCGA相关的数据库有很多,
但我最关心的功能只有三个,差异表达,生存分析,相关性分析,这也是我筛选课题的一个方向

  • 能够差异表达是前提
  • 如果这时候还跟生存相关,那就锦上添花了,
  • 通过相关性分析找出他的朋友们,所谓物以类聚,看看这个人的朋友基本上就知道他是什么样子的人,

有一个恐怖的传说一直让我后背冒汗心里起火:你的工资是跟你密切交往的6个朋友的平均值,朋友居然重要到这个层面。

好了,不鬼扯,我们简单介绍一下这个数据库GEPIA(Gene Expression Profilling Interactive Analysis),翻译一下应该是
基因表达谱数据动态分析。
http://gepia.cancer-pku.cn/index.html
mark
这个数据库是北京大学开发的,没有发文章,没有发文章。

This tool is developed by Zefang Tang, Chenwei Li and Boxi Kang of Zhang Lab, Peking University.

我要学学宝剑叔叔右哉,先拟定一个让你痛心的场景,蓝后一步一步帮你解决, 这可能有助于我们直接解决问题。
假设,

你现在已经研二了,之前放浪形骸,行散神也散,现在木有课题,木有鱼丸,明年要毕业了,蓝后没有管你
也没有男女朋友,没有大师兄,没有沙师弟,你该怎么办呢?

我们可以这样,先找出某个特定癌症中跟生存最相关的一串基因,再来慢慢筛选,正好GEPIA有这个功能。
先点击一下Survival Analysis,依次点击
mark
用下面的方法也是一样的。还要简单一点。
mark
点击list会出现下面的结果,可以查询,可以翻页,可以一个个复制粘贴用以前讲的方法做GO分析,KEGG分析,互作分析。
mark
这里我们直接选择VADC1来看看,首先我们检查一下这个基因分生存分析图究竟是什么样子,点击它
mark
这时候相当于进入了单基因入口,这里面给出了这个基因概括,说是线粒体膜的主要组成成分,也跟铁的转运相关,我觉得都是热门方向
如果这个领域你hold不住,就返回去再换一个基因点进来,最右边图我觉得很直观,绿色代表VDAC1在正常组织的表达,红色代表在肿瘤组织中的表达
可能这张图看不出啥特殊,我举个例子,
mark
A基因几乎只在乳腺表达,而且在乳腺癌中明显高表达
B基因在全身广泛表达,但是表达风度不高,而在乳腺癌中表达显著提高

好了页面往下拉就可以看到这个基因在多个癌症癌和癌旁的表达情况,我们可以看出他在乳腺癌中是高表达的
但是在其他许多癌症中也明显差异表达,这张表不会让你漏掉其他癌症,如果恰巧实验室有人在做那个癌症,你就可以跟他合伙搞一搞嘛。
因为你没有人管,没有大师兄,没有沙师弟,你还有什么选择?
mark
此外,你是可以选择呈现方式的,按照如下步骤操作可以得到漂亮的癌和癌旁的表达图
mark
点击plot之后是这个样子的,可以下载,可以直接放在文章里面
mark
返回一开始的界面,往下面翻一翻就会看到和这个基因表达类似的基因
mark
哎呦歪,里面HNRNPAB就是核内不均一核糖核蛋白家族成员,他可是要调控RNA的可变剪切的,许多LNCRNA作pulldown后就会拉下这个家族的成员
相关的文章从SCIENCE,CELL到ONCOTARGETS都有。

但是我们差点忘了进来是干什么的,我们是来看生存分析的。依次操作。
mark
点击plot就会得到下面的图
mark
这个图真的是漂亮,一点都不含糊,好了这时候课题基本上就有苗头了

VDAC1以暂时不知道的原因升高导致乳腺癌的发生,而乳腺癌患者高表达VADAC1的患者低生存,

而临床医生做科研不外乎诊和疗

  • 从诊治的角度来说,这个基因表达水平对诊断乳腺癌有没有帮助?
  • 从治疗的角度来说,既然高表达低生存,那么有没有可能设计抗体来治疗乳腺癌呢?

当然那个是转化医学,在这之前就是基础医学
从研究的角度来看:

  • 这个基因高表达的原因是什么?表观遗传相关么,突变么,转录激活么,翻译修饰么,搞清楚就已经不容易了。
    我们试一试表观遗传有没有影响,在UCSC数据库中打开VDAC1,我的妈呀,他的启动子区域这么汹涌澎湃的H3K27ac修饰,说明他的表达量本身就很高,不大可能是个坏分子,要么就是他在癌中突变了,要么就是他启动子在癌症中被过度激活了,我只是说可能
    那么就会有个子课题产生:

    H3K27ac组蛋白乙酰化修饰促使VDAC1基因启动子激活从而升高其表达

mark

  • 另外一个问题,这个基因在乳腺癌中的功能是什么?
    可以尝试用生物信息学找到共表达的基因,之前已经列出来了,再去预测他可能有什么功能,
    也可以直接构建慢病毒shRNA敲减后看看他的表型,
    可是这不是你想要的,我们需要的是短平快,怎么办呢?查文献,
    恰好我刚知道那个写过Hallmars of Cancer这篇文章老爷爷Weinberg在nature发表了一篇文章,时间是2017年3月30日,他们找到了乳腺癌中一个新的抑癌基因
    叫做LACTB,他能够调控脂质代谢抑制乳腺癌,LACTB是一个线粒体相关的蛋白,VDAC1也是一个线粒体相关的蛋白,他们之间可能有联系么?
    mark
    他们的联系可能多种多样,我们尝试用现成的工具看一下,相关性分析
    mark
    点击plot试一下
    mark
    居然他们还有相关性,欢天喜地庆丰收,毕业在望。可是他们他们应该表达呈负相关才合理呀,
    这么来把这些结果整合到一起呢?VDAC1和LACTB相关,抑制癌症的产生,蓝后不知怎么的他的启动子就过度活化了
    然后他就促发了癌症?
    我觉得自己都说服不了,我们还是换一种思路吧,用string数据库来看一看
    mark
    VDAC1居然跟BAX,BCL2L1相关,表明其可能跟细胞的凋亡相关

好了最终的课题就是
H3K27ac修饰使VDAC1的启动子过度乙酰化促进其表达从而抑制细胞凋亡促进乳腺癌的发展。
我觉得这时候真的可以搞一搞了,什么,你没有shRNA?
不是说了跟别人合作么,你怎么又搞忘了。
蓝后检索一下VDAC1和乳腺癌的文章,发现少之又少,开始吧。
这个过程中好像文献阅读并不重要,但是不要忘了LACTB是Weinberg文章里面的
LACTB在乳腺癌中的表达和调控还没有研究呢,上面那个课题要是实在弄不好,就换这一个吧。
Note: 表观遗传那一块我是不严谨的,应该选乳腺的数据看看修饰,ENCODE数据库就支持。
蓝后,我觉得科研结果的呈现最基本的要求就是

##自洽
四个字就是自圆其说,不要前后矛盾,你自己构建了一个体系,一定要让自己信服。
自己都不相信的东西还想让别人相信,你把我当什么了。

------ 本文结束------