在TCGA项目中,使用AffymetrixSNP6。0芯片来分析CNV,首先使用DNACopy这个R包来计算拷贝数,然后用GISTIC2根据CNV来评估基因的变化情况,识别loss还是gain,流程示意如下 对于CNV分析的结果,提出了SEG这种存储格式,内容示意如下 第一列为样本ID,第二列到第四列为segmentation分析后划分好的拷贝数相同的基因组区域,第五列为该区域包含的探针数,第六列的值称之为segmentmean,计算公式如下 log2(copynumber2) 类似转录组中log2foldchange的转换,对于二倍体生物,拷贝数增加时,该值大于0,拷贝数减少时,该值小于0。 SEG格式的文件可以导入IGV中进行查看,以TCGA中的一个拷贝数分析结果为例,从以下链接下载seg格式的分析结果 https:portal。gdc。cancer。govfiles60778de0458a4b5891cdfdb879235c0c 导入IGV之后,效果如下所示 IGV在读取SEG文件时,首先读取前4列的信息,第一列作为trackname,二到四列作为染色体位置,然后用最后一列的值作为segmentmean,其他列则忽略。默认情况下,用热图的形式来展示segmentmean值的分布,热图的图例可以通过菜单栏的VColorLegends进行查看,示意如下 也可以在这里修改热图的颜色。SEG格式格式可以同时存储多个样本的CNV分析结果,不同样本可以通过第一列的ID来进行区分,对于每个样本,都会用一行来展示其segmentmean值的分布。 将SEG导入之后,不仅可以查看不同样本间CNV分布的异同,还可以快速定位基因或者特定染色体区域的CNV情况。 end