查找和下载数据 从GEO搜索关键字“(gastriccancer)ANDH〔porgn:txid9606〕”,得到胃癌相关的表达谱数据。对这些数据进行过滤,过滤掉没有重复试验的样品。接下来,阅读文献,找出研究正常人和癌症病人,或者癌组织与正常组织的比较的数据。下载这些数据的表达矩阵或CEL文件,用于后续的分析。 (本文分析为原创,转载或引用文中图片请联系楼主,谢谢。数据请勿直接引用。) 表1用于分析的数据 注: S序列号 GEOGEOid P芯片平台号 N正常样品数目 T癌症样品数目 R参考文献 数据处理 对于芯片表达值数据,直接从GEO下载数据,对于没有取log的值,进行取log处理。对于CEL文件,使用affy包读取CEL文件的表达量数据。在同一芯片内,如果一个基因有多个探针,取所有探针的平均值作为基因的表达值。 差异表达 对于每个实验的数据,我们使用limma进行芯片之间的标准化,差异表达分析(每个实验的limma分析结果保存在01limma里面)。 每个实验数据做完limma分析之后,根据logFoldChange值对基因进行排序,然后进行Rank分析(adjustP0。05,矫正方法为bonferroni矫正法)。Rank方法的零假设是每个基因在每个实验中随机排序,如果某个基因在所有实验中,都排在前面,那么它的p值越小,是差异基因可能性越大。 通过Rank分析,我们共找到960个差异基因,其中458个上调基因,502个下调基因。 使用pheatmap绘制最上调和最下调的20个基因做热图,得到差异基因的热图。从图中可以看出,上调的基因基本在所有实验中logFC0,而下调的基因基本在所有的实验中logFC0。 表2差异基因列表 注: Ngenesymbol logFC每个实验差异logFC均值 P统计学p值 adjP校正后的p值 图1logFC热图 横坐标是geoid,纵坐标是基因名,红色代表logFC0,绿色代表logFC0,方框里面的数值代表logFC值。 TCGA验证差异基因 从TCGA下载胃癌level3的RNAseq数据,共xx个正常组织,xx个肿瘤组织。下载的数据是每个样品单个的FPKM文件,我们使用perl语言将所有的样品合并成一个矩阵,便于后续的分析。接下来,我们使用Wilcoxontests非参数检验对GEO数据库得到差异基因进行验证。 通过TCGA验证,我们共找到749个差异基因,其中320个上调基因,429个下调基因。 表3TCGA验证差异基因 注: Ngenesymbol logFC每个实验差异logFC均值 P统计学p值 adjP校正后的p值 生存分析 从TCGA下载生存数据,并将生存数据和差异基因表达数据整合在一起,做接下来的生存分析。使用survivalR包进行生存分析并绘制生存曲线,统计检验为logrank检验,过滤条件为P0。01。通过分析,共找到168个与胃癌生存相关的差异基因,结果保存在04TCGAsurvivalsurvival。xlsx里面。168个生存相关基因的生存曲线保存在04TCGAsurvivalpicture目录下。 图2生存分析 图中,横坐标是生存时间,纵坐标是总生存率,红色表达基因高表达组,蓝色代表低表达组。 GO富集分析 使用DAVID对目标靶基因进行GO功能富集分析,FDR0。05被作为筛选条件,我们共找到5个相关的GO,(即“extracellularspace”、“digestion”等),使用ggplot2R包绘制GO富集柱状图。5个相关GO表格和GO富集柱状图保存在diffSigGOGO。xls目录下。 图5GO富集结果 注: T富集的GO C差异基因落在Term的数目 PV富集统计学p值 FDR统计FDR值(falsediscoveryrate) 图3GO富集柱状图 横坐标是富集在GO的基因数目,纵坐标是富集的GO。颜色代表富集的统计学显著性,越蓝表示富集程度越高。 (本文分析为原创,转载或引用上面图片请联系楼主,谢谢。数据请勿直接引用。) KEGG富集分析 使用KOBAS对差异基因进行KEGG通路富集分析,CorrectedPV0。05被作为筛选条件。我们共找到23个相关的KEGG,富集的表格保存在diffSigKEGGKEGG。xlsx目录下,最富集通路hsa04971图保存在diffSigKEGGhsa04971。png目录下。如果需要查看其它富集通路的通路图,可以打开差异diffSigKEGGKEGG。xlsx,点击相应通路的Hyperlink链接即可。 表6KEGG富集结果 注: T富集的KEGG IDKEGGID PV富集统计学p值 CorrectedPV矫正后的p值 图4hsa04971通路图 绿色代表通路中的基因,红色代表我们输入的生存相关基因。 (本文分析为原创,转载或引用上面图片请联系楼主,谢谢。数据请勿直接引用。) 蛋白互作网络 使用String软件对生存相关基因构建蛋白互作网络,得到蛋白的相互作用关系。图1是蛋白互作网络图,图中圆圈代表蛋白,连线蛋白蛋白之间存在互作关系。使用R软件绘制互作网络邻接节点数目图,图2是每个蛋白的邻接节点数目,邻接节点数目越多,说明该基因位于蛋白互作网络的核心,对整个网络起的作用最关键。由图2可以看出,CFTR、SST、TIMP1等位于网络的最核心。蛋白互作网络图和互作网络邻接节点数目图、互作网络邻接节点数表格保存在diffSig蛋白互作网络目录下。 图5蛋白相互作用网络图 圆圈代表基因,线条代表基因间存在蛋白相互作用,圆圈内部的结果代表蛋白的结构。线头颜色代表证明蛋白之间存在相互作用的不同证据。(smallnodes:proteinofunknown3Dlargenodes:some3DAablacklinecoexpressionevidence。) 本文分析为原创,转载或引用上面图片请联系楼主,谢谢。数据请勿直接引用。