cBio Cancer Genomics Portal提供了研究分析癌症基因数据的可视化工具,cBioPortal可以帮助癌症组织和细胞学研究得到的分子学数据认识和理解遗传、表观遗传、基因表达和蛋白质组学。通过自定义数据的交互界面要以主研究人员探求研究基因改变和临床之间的联系。cBioPortal提供了图形化的结果,使复杂的癌症基因组学资料更易理解和接受,而不需要特殊的生物信息学知识。
大样本癌症基因组计划,如如癌症基因图谱(Cancer Genome Atlas, TCGA, http://cancergenome.nih.gov/)和国际癌症基因组联盟(The International Cancer Genome Consortium, ICGC),得到了大量的有关癌症基因组的资料,但是这些资料对于研究人员来说,如何整合、探索和分析,是一个比较困难的事情,尤其是对于那些电脑水平欠佳的人来说,更是一件头疼的事情。cBio Cancer Genomics Portal(http://cbioportal.org/)的出现就是为了减少这种难度的。
cBioPortal方便了研究人员探求多维癌症基因组数据,它要以可视化分析基因、样本和数据类型。我们可以对癌症研究中的样本的基因改变进行可视化,比较基因改变频率,或者综合分析单一样本中基因组改变。cBioPortal还可以研究生物学途径,生存率等等。
cBioPortal整合的基因数据类型包括体细胞突变,DNA拷贝数改变,mRNA和microRNA表达,DNA甲基化,蛋白丰度以及磷蛋白丰度。迄今为止,cBioPortal包含了10已发表的肿瘤研究结果和20多个TCGA的结果。每个肿瘤样本和数据可以从网站上下载。cBioPortal把这些复杂的数据从基因水平上进行了整合和简化,每个样本可以查询特定的生物学特性,如基因突变,纯合子缺失,基因扩增,mRNA和miRNA的增加或减少,蛋白质的增加或减少等。这让研究人员可以查询每个基因和样本的基因改变,验证一些假设。
cBioPortal的数据来源和分析选项来源于多个网站,如TCGA data portal (https://tcga-data.nci.nih.gov/tcga/), the ICGC data portal(http://dcc.icgc.org/), the Broad Institute's Genome Data Analysis Center (GDAC) Firehose (http://gdac.broadinstitute.org), the IGV, the University of California, Santa Cruz (UCSC) Cancer Genomics Browser (30), IntOGen (31), Regulome Explorer (http://explorer.cancerregulome.org), 以及oncomine (Reserach Edition) 等。
cBioPortal提供的分析选项有癌症基因组数据,基因水平改变的引起的相关生物功能变化,综合分析基因组数据和临床资料,患者数据等。
cBioPortal并不直接存储这些原始数据,原始数据来源于其它网站,如TCGA, ICGC, and Gene expression Omnibus (GEO) (http://www.ncbi.nlm.nih.gov/geo/)等。
- 如果想使用cBioPortal,一台可以上网的电脑必不要少,当然现在最好还能翻墙,因为cBioPortal部分地区打不开。另外浏览器必须支持Javascript,这个到是不会有太大问题。
但是注意:官方建议使用Google Chrome, Firefox 3.0以上, Safari, Internet Explorer 9.0以上版本。还在用XP?!换了吧,XP最高是Internet Explorer 8.0,
- Adobe Flash player
注意:这个浏览器插件主要是为了可视化分析结果用的,一般浏览器都应该有,如果没有可以在此下载安装http://get.adobe.com/flashplayer/。但是这个要求好像在2013年中就取消了,也就是说没有这人插件同样可以使用cBioPortal。
- Java Runtime Environment
注意:这个主要是为了加载Integrative Genomics Viewer (IGV)用的,可以在此下载安装http://www.java.com/getjava/.
- Adobe PDF Reader
这人就不必说了,都有。可以使用一般的Adober Reader http://get.adobe.com/reader/, 但是我更建议使用PDFXCview,原因要以参阅升级为Windows 8.1,顺便说说我常用的那些软件。
- Vector graphic editor
注意:这个东东是为了可视化和编辑从cBioPortal下载的SVG文件的,可以使用Adobe Illustrator (http://www.adobe.com/products/illustrator.html) 或者Inkscape (http://inkscape.org/).
cBioPortal的癌症基因数据可以通过浏览器浏览和查询,网址为http://cbioportal.org。我们可以查询一个癌症的研究或者多个症状研究结果,如果是单个癌症样本,还可看到相关的基因组改变。
如果想查询一个癌症研究结果,我们可以探索和可视化所选定基因的基因组改变,包括这些基因之间改变之间的相关性,同一基因不同数据之间的关系。
我们可以选择25余种癌症的研究结果。当选择基因组资料时,一般默认选择突变和CNAs。如果有相应mRNA和miRNA表达或者相应的蛋白和磷酸化蛋白数据,也可以选择,如果没有这两项就不可选。蛋白和磷酸化蛋白基于反向蛋白芯片浅析浅析(reverse phase protein array, RPPA)实验结果。mRNA和miRNA数据和蛋白和磷酸化蛋白数据,标准分数(Z scores)通过实验值预先计算,我们可以设定或者默认设置(平均数的2倍标准差)。mRNA表达的Z scores由每个样本通过比较mRNA的基因表达和在代表典型基因表达的参考样本中的分布而决定。如果邻近组织的表达数据可用的话,邻近组织的表达数据就是参考样本的数据,反之,可以使用所癌症研究中的有疑问的基因的两倍的所有肿瘤的表达值。
当研究所分析的样本,默认情况下是匹配所选择的基因组资料。例如,仅查询突变交时会选择测序的数据。但是,我们可以改变这些选项。我们还通过可以「User-Defined Case List」或者基于「Build Case Set」自己自定义一个输入特定的样本。
当输入基因进行分析时,我们可以手动输入HUGO基因符号,Entrez Gene ID,以及基因别我或者预设置的基因组。如果变异基因列表可用的话,例如MutSig的基因变异或者GISTIC的CNAs,我们可以从这些基因列表中选择基因,也可以通过这些列表建立基因,或者手动输入基因。
一般可以通过4步法来进行查询和研究。
1. Select Cancer Study,选择想要研究癌症,可以通过下拉箭头进行选择,如「Gliobastoma (TCGA, Nature 2008)」。
2. Select Genomic Profiles,选择基因组配置。默认设置选择「Mutations」,「Copy Number data. Select one of the profiles below」并选择「Putative copy-number alterations (RAE, 203 cases)」。
注意:「Mutations」和「Copy Number data. Select one of the profiles below」一般是默认选中的。「mRNA expression data. Select one of the profiles below」是默认不选中的,默认的Z Score倍数可以根据用户自己设定。当微阵列和RNA-Seq数据可用时,优先选中RNA-Seq。
3. Select Patient/Case Set,选择患者数可以使用下拉箭头进行选择,也可以使用「Build Case Set」进行选择。如选择「“Tumors with sequence and CNA data (91)」
注意:如果用户自定义列表,该步须通过下拉列表进行选择,然后才可以输入样本ID,并用空格键进行分隔。
4. Enter Gene Set,输入基因集合。可以手动输入或者通过限定的列表进行选择。
注意:在「Advanced: onco Query Language (OQL)」中可以可以使用Onco查询语法(onco Query Language,OQL)限定查询。OQL可以用于单个癌症和多个癌症的查询。一当文工团OQL查询,相应的结果也就限定了我们可以指定4个数据类型,CNAs,突变,mRNA或miRNA表达改变,以及蛋白或磷酸化蛋白丰度改变。CNA和突变一般是不连续设置,而mRNA,miRNA和蛋白丰度是连续性设置。表达值转换成Z Scores,以利于比较和限定变异倍数。
5. Download Data,下载数据。通过「Submit」可以查询并导出数据。可以另存为txt文档,这个文档可以用Excel文件打开。
基于查询标准,cBioPortal把每个基因分成有变异和无变异,这种分法可用于分析和可视化结果。以下举例说明。
OncoPrint是一个一组肿瘤样本中多个基因的简基因组改变明扼要的图形化结果。行代表基因,列代表样本。不同的符合和颜色编码用于区别基因组的变异,如突变,CNAs
(扩增和纯合子缺失),以及基因表达或蛋白丰度的改变。如果把鼠标放置在图形上还要以看到额外的信息,如ID号(每个样本代表一个患者样本或者细胞系),可以与患者的查看页面连接,同样还可以显示氨基酸的改变。默认情况下样本根据变异进行排序。我们可以存储原始样本文件。我们还可以从图形化结果上移除未变异的样本。多个样本的基因变异,OncoPrints可以帮助确认一些趋势,如基因之间的排斥性和共生性。
OncoPrints另外还包含一些基因查询信息,这些查询信息可以Sanger Cancer Gene Census上得到,并且和NCBI的Gene数据库相联系。
我们以视网膜母细胞瘤的基因CDKN2A(编码编码细胞周期素依赖性激酶抑制剂p16) CDK4(编码细胞周期素依赖性激酶4)和多形性成胶质细胞瘤中的RB1作为样本。
1. Select Cancer Study选择「Gioblastoma (TCGA, Natrue 2008)」
2. Select Genomic Profiles选择「Mutations」,「Copy Number data. Select one of the profiles below」和「Putative copy-number alterations (RAE, 203 cases)」
3. Select Patient/Case Set选择「Tumors with suqencing and CNA data (91)」
4. Enter Gene Set中输入「CDKN2A CDK4 RB1」
然后「Submit」,可以得到如下OncoPrint图
从这个图上可以看到,65个样本(71%)三个基因有至少有1个变异,其是每个基因的变异情况也在图上进行了标示。CDKN24多数的变异是homozygous deletions,并且有3个突变mutations。CDK4是单纯的amplifications。RB1包含1个homozygous deletions和3个突变mutations。
有以下几点需要说明:
1. 当设置好查询条件后,提交查询,OncoPrint结果是自动生成的。
2. 如果基因过多,超出一个视屏,可以使用上下滚动条进行完形查看
3. cBioPortal为了使OncoPrint更国简练,因此显示可能不能满足部分人的需要,但是可以通过「Customize」选项进行结果显示的细微调节。一般要以有3个选项可以调节,「Zoom」调节OncoPrint的宽度,「Remove Unaltered Cases」把未变异的基因去除,「Remove Whitespace」去除中间空白区域。
4. 可以把结果下载为PDF,SVG或Txt格式进行保存。
5. 把鼠标放置在变异基因上,可以看到更多的信息。
6. 可以通过上方的「Modify Query」进行查询的调整。
癌症中的生物学进程或者路径常常通过多种不同的基因或者不同的机制进行调节。cBioPortal中的「Mutual Exclusivity」可以发现既往不知道一些癌症发病机制,这些机制可能在肿瘤形成和癌症的进展中起到重要作用。在「Mutual Exclusivity」标签中,和特定肿瘤相关的基因倾向于相互排斥,如果存在基因排斥,也就是说这个肿瘤可能只有一种基因问题。相反是基因共生,一种肿瘤如果有多个基因同时存在,那这几个基因可能共生,其都在肿瘤的发生和发展中起到作用,这个肿瘤也很可能并非单一基因问题。
如上例中的三个基因的变异可以通过「Mutual Exclusivity」标签查看统计学数据。
从上图要以看到这三个基因之间都存在排他性,其中又以CDK4-RB1的排他性最强,但是没有统计学意义(P=0.11),可能是由于样本量较小有关。CDK4-CDKN2A和RB1-CDKN2A之间的排他性有统计学意义(P<0.05,红框表示)。这也符合已知的RB信息通路在多形性成胶质细胞瘤的作用,可以通过RB1本身的失活(突变或者删除)引起失效,CDK4通过扩增而活化(CDK要以抑制RB1活性),或者CDK抑制剂p16而使CDK失活,p16是编码CDKN2A的基因。
odds ratio (OR) 的计算一般通过如下方法。假设有两个基因分别是G1和G2,这两个基因之间的共生OR一般如下计算。
OR=(A*D)/(B*C)
A:代表两个基因中都有变异数量
B:代表在G1中有变异但是G2中没有
C:代表G2中有变异但是G1中没有
D:代表两个基因中都没有的变异数
P值的计算主要是Fisher精确检验。
cBioPortal提供了离散基因和连续基因的可视化分析,如mRNA或者蛋白丰度,或DNA甲基化。
在查询时指定每个基因,cBioPortal会生在不同的散点图。打开「Plot」选项,在「Plot Type」中的「mRNA versus copy-number」选项展示的盒须图表示mRNA表达和它的拷贝数之间的关系。Copy-number status可以是纯合子缺失,杂合子缺失,二倍体,增进(即有少量拷贝扩增)或者扩增(即有大量拷贝扩增)。mRNA-versus-DNA methylation选项表示mRNA表达与DNA甲基化之间的比较。甲基化β值是CpG位点甲基化水平的一个估计值,是甲基化和未甲基化位点之间的比值。RPPA protein level versus mRNA选项表示蛋白丰度与mRNA丰度之间比较的散点图。
基因和数据类型可以通过下拉菜单进行选择,所有的散点图可以导出为PDF文件格式以利于发表,也可以导出为SVG格式。
例如我们分析一下ERBB2(一个编码表皮生长因子受体的致癌基因)在结肠和直肠腺癌中的作用。ERBB2可以结直肠癌样本中扩增。
1. Select Cancer Study选择「colon and Rectum Adenocarcinoma (TCGA, Provisional)」
2. Select Genomic Profiles选择「Mutations」和「Putative copy-number alterations from GISTIC」
3. Select Patient/Case Set选择「All Tumors 」
4. Enter Gene Set中输入「ERBB2」
然后「Submit」,选择「Plots」选项。
1. Plot Type中选择「mRNA vs. Copy Number」
2. Data Type-mRNA -选择「mRNA expression (microarray)」,- Copy Number - 选择「Putative copy-number alternations from GISTIC」。可以得到如下图。从下图可以看到ERBB2 mRNA扩增样本中ERBB2 mRNA是增加的。
注:Hetloss, heterozygously deleted; Diploid, two alleles present; Gain, low-level gene amplification event; Amp, high-level gene amplification event.
3. Plot Type选择「RPPA protein level v. mRNA」时, 可以得到如下图。可以看到ERBB2 mRNA高表达的肿瘤ERBB2蛋白量更高。
注:Homdel, homozygously deleted; Hetloss, heterozygously deleted; Diploid, two alleles present; Gain, low-level gene amplification event; Amp, high-level gene amplification event; Mutated, nonsynonymous mutation.
Mutations栏提供了所有非同义突变的图形化和表格式结果。图形化结果显示Pfam蛋白质结构域的上下的所有突变。所有DNA根据RefSeq isoform (http://www.broadinstitute.org/oncotator/)标准进行标准化。当DNA突变不在isoforms中时,图形化结果不包括这些突变。但是cBioPortal会在另提供这方面的信息。
突变图形下有一个所有非同义突变的表格,该表格可以通过「Show/hide columns」自定义显示信息,一般包括以下信息:
- Sample ID: 每个样本的ID号,可以通过链接连接到单患者视图页面;
- AA change: amino acid change,氨基酸的改变;
- Type: type of mutations突变类型,如missense, nonsense, splice site, frameshift insertion or deletion, in-frame insertion or deletion, nonstop, nonstart;
- Copy: 扩增类型,如Diploid, two alleles present; Gain, low-level gene amplification event; Amp, high-level gene amplification event等;
- COSMIC: 在COSMIC (Catalogue Of Somatic Mutations In Cancer)部位的突变数;
- MS: Mutation Status, Somatic;
- VS: Validations Status,是否有意义突变
- Mutation Assessor: Predicted Functional Impact Score (via Muation Assessor) for missense mutations. 预计突变引起的功能性影响分数;
- Center: Sequncing Center;
- Chr: Chromosome;
- Start Pos: Start Positions;
- End Pos: End Position;
- Ref: Reference Allele;
- Var: Variant Allele;
- Allele Freq (T): Variant allele frequency in the tumor sample;
- Allele Freq (N): Variant allele frequency in the normal sample;
- Var Ref: Variant Ref Count;
- Var Alt: Variant Alt Count;
- Norm Ref: Normal Ref Count;
- Norm Alt: Normal Alt Count;
- Mut in Sample: Total number of nonsynonymous mutations in the sample.
例如我们还是查询ERBB2,以次输入如一查询式
1. Select Cancer Study选择「colon and Rectum Adenocarcinoma (TCGA, Provisional)」 ;
2. Select Genomic Profiles选择「Mutations」;
3. Select Patient/Case Set选择「Sequenced Tumors (223)」;
4. Enter Gene Set中输入「ERBB2」
然后「Submit」,选择「Mutations」选项,得到如下图形:
Protein Changes显示蛋白和磷酸化蛋白改变使用 (reverse phase protein arry, RPPA)数据。对于每个检索式,cBioPortal对RPPA蛋白采用不同的分析,确认与检索基因的基因组改变相关的蛋白和磷酸化蛋白。检索时并不需要选择「RRPA proten/phosphoprotein level」。如果有可用的数据,蛋白改变分析就会进行。cBioPortal对于每个蛋白和磷酸化蛋白采用双相两样本Student's T检验确认肿瘤样本之间的蛋白丰度的不同。结果以蛋白或磷酸化蛋白列表形式显示,根据变异和未变异样本之间蛋白丰度的不同而进行排序。一般包括以下信息:
- Target Protein:由抗体确认;
- Residue:磷酸化或者修饰部分;
- Ave. Abundance: 变异和未变异暖融融丰度的Z Scores;
- P-value;
- Plot:蛋白的Plot图形。
例如查询PTEN在glioblastoma cancers中的变异,依次输入以下信息:
1. Select Cancer Study选择「Glioblastoma Mutiforme (TCGA, Provisional)」 ;
2. Select Genomic Profiles选择「Mutations」和「Putative copy-number alterations from GISTIC」;
3. Select Patient/Case Set选择「Tumor with Sequenced and CNA data (235)」;
4. Enter Gene Set中输入「PTEN」
然后「Submit」,选择「Protein Changes」选项,得到如下图形。可以看到PTEN减少在胶质母细胞癌中与AKT(pT308 and pS473) 的增加显著相关。
如果Survival数据可用,会显示Survival图形,会计算至少有一处变异的肿瘤样本和无变异的肿瘤样本之间的总的生存率和无病生存率。结果以Kaplan-Meier散点图显示并计算P值。
如检索BRCA1和BRCA2在卵巢癌中的情况,在检索时依次输入以下检索式:
1. Select Cancer Study选择「Ovarian Serous Cystadenocarcinoma (TCGA, Nature 2011)」 ;
2. Select Genomic Profiles选择「Mutations」;
3. Select Patient/Case Set选择「Sequenced Tumrs (316)」;
4. Enter Gene Set中输入「BRCA1 BRCA2」
然后「Submit」,选择「Survival」选项,会得到如下图形。从下图中可以看到卵巢癌如果有BRCA1或者BRCA2突变,总的生存率和无病生存率会明显提高。
Network提供了癌症中变异之间的网络联系和相互作用分析。Network包含Human Reference Protein Database (HPRD), Reactome, National Cancer Insititue (NCI)-Nature, 和the Memorial Sloan-Kettering Cancer Center (MSKCC) Cancer Cell Map (http://cancer.cellmap.org)中研究的所有途径。Network默认自动包含检索基因的邻近基因。如果邻近基因有50个以上,以基因组变异频率进行排序,但只有50个有高变异的邻近基因显示。这样可以控制网络的复杂性,并且自动突出与癌症高度相关的基因。图形可以下载为SIF和GraphML格式,并且可以在Cytoscape中查看和分析。默认情况一cBioPortal自动以颜色区分不同基因,同时把多维基因组数据合并到一个结点,可以突出突变、CNA和mRNA上调或下调的频率。数据的显示基因查询方法。
cBioPortal包含的基因靶向药物信息可以从以下资源中获得:DrugBank, KEGG Drug, NCI Cancer Drugs (http://www.cancer.gov/cancertopics/druginfo/alphalist)以及 Rask-Andersen等。药物默认是不在network中显示的,但是可以使用Genes & Drugs菜单添加。我们可以显示美国FDA批准的药物,NCI Cancer Drugs确认的癌症药物或者检索基因的所有靶向药物。
例如为了确认在表皮生长因子受体(epidermal growth factor receptor,EGFR)中基因组的改变,我们使用EGFR和ERBB2作为检索基因,依次输入以下内容。
1. Select Cancer Study选择「Ovarian Serous Cystadenocarcinoma (TCGA, Nature 2011)」 ;
2. Select Genomic Profiles选择「Mutations」和「Putative copy-number alterations (GISTIC)」;
3. Select Patient/Case Set选择「Tumor with Sequenced Tumrs and CNA data (316)」;
4. Enter Gene Set中输入「ERBB2 EGFR」
然后「Submit」,选择「Network」选项,会得到如下图。从图上可以看出ERGF和ERBB2以黑框显示,最邻近基因以不同淡红色表示在卵巢癌中的变异频率。通过「Legends」标准我们可以查看「Gen Legends」,「Drug Legends」和「Interaction Legends」。
我们可以选择Download下载数据,还可以拷贝详情用IGV查看,Bookmark可以保存为书签或者分享结果。
我们查询多个癌症可以查看多个不同癌症或一个癌症不同基因的变异和频率。但是多个癌症的mRNA表达或蛋白丰度不能利用多个癌症同时查询。cBioPortal会自动限制检索结果以符合检索式,因此只有包含单个突变的检索的突变信息和包含单个变异CNA信息的单个数据才可以进行多癌症检索。结果以直方图显示。
1. 以颜色的减少表示癌症的变异频率;
2. 以颜色的增加表示单个样本有和无变异。
如果检索多人基因,直方图会显示多个变异或变异频率。例如:
1. Select Cancer Study选择「All Cancer Studies」 ;
2. Select Genomic Profiles选择「only Mutations」;
4. Enter Gene Set中输入「TP53」
cBioPortal可以进行特定基因检索,查看一个癌症研究的数据。这些数据包括患者的临床资料,肿瘤信息(病史,病程等),基因组数据,最近的突变基因,以及最近的CNAs。临床数据以图表的形式显示。变异基因和CNA数据以表格的形式展示。所有的表格都有检索选项。例如在首页进行如一检索:
1. Select Cancer Study选择「Uterine Corpus Endometroid Carcinoma (TCGA, Provisional)」 ;
2. 选择「Study summary」进行查看。
单一癌症样本中可能会有潜在的上百种甚至上千种的基因组改变,因此查看和分析最有可能致癌基因及将来提供治疗就是重要。有时需要查看一个基因一个基因的图谱,cBioPortal也提供这样的查看方法。
患者查看结果包括临床特点,突变的概要等。结果以表格形式展示。cBioPortal会对基因改变进行筛选,标准为:反复的突变或者CNAs (MutSig and GISTIC),COSMIC发生的突变,癌症基因注释(源于一些资源,如Sanger Cancer Gene Census)。患者查看页面还提供癌症靶向药物及相关的临床实验,来源于http://www.cancer.gov。例如:
1. 在导航栏选择「DATA SETS」;
2. 选择选「Uterine Corpus Endometrioid Carcinoma (TCGA, Provisional)」;
3. 在「Clinical Data」标签选择或者搜索「TCGA-FI-A2D2」查看患者页面。
cBioPortal提供直接程序化的接口访问基因组数据,这要以使我们方便的查询癌症基因组数据,可以使用能运行HTTP请求的语言进行查询,如Java,Python, Perl, R, 和MATLAB等。具体可以点击导航栏的「Web API」进行查看。