GEO上的人家的基因芯片怎么分析?那还用问么,就随便用Excel啊……

实验万事屋 2020-09-17 07:56


那天看到有童鞋在后台问我,芯片怎么分析……



呃,芯片不就这么分析么……


芯片的数据,说简单点就是一个矩阵,每一行代表一个探针,也就是对应的基因,每一列就是一个样本(其实二代测序的拷贝数数据集也是差不多的,分析方法也差不多)。然后用各种统计学方法来统计结果,找寻两组样本之间的差异


芯片数据库最常用的就是NCBI的GEO



比如我们搜一个糖尿病的芯片



会找到GDSGSEGDS,就是数据集。你可以理解为整合和处理好的GSE,一个GDS里可能有不同的GSE组成。



GSE呢是系列,一个系列里所采用的平台(GPL)是一致的,比如芯片的话,用的是哪个型号的,都要一致GSM呢,是样本,也就是一个样本中所有探针检测到的基因表达量数据。


当然,有的芯片可以直接用GDS工具来分析:



如果是GSE的话,也可以直接通过GEO2R来分析。或者用什么什么工具来分析:



但实际上最原始的,就是用Excel来分析芯片了。反正简单的统计工具,其实Excel上也都是有的。首先下载数据:



SOFT格式是最基础的,上面会有芯片的总体描述,样本描述(下图的红框里):



以及探针描述,探针所代表的基因,甚至还有这个基因的GO term:



接着就是每个GSM样本的描述:



然后,就是样本的具体探针数值了:



但SOFT格式的,没有形成矩阵,所有的样本(GSM)探针数据都是在一列里的。可以下载矩阵文件来进行简单的分析



首先把要分析的样本分成两组:对照组和处理组,或者正常组和疾病组,然后用双尾法检测得到p值



接着随便算一下变化倍数



t检验的p值取-LogP,变化倍数取log值,然后,就能形成一个简单的火山图了:



随便划划区间,选择差异表达明显的基因,这个就是最简单的芯片分析了……就是最简单的统计学分析,觉得自己高级一点的,可以用R语言,什么Limma包啊,ANNOVA啊,开着R Studio一路飙内存。稍微次一点的呢,可以用用GEO2R或者墨菲斯之类的工具,来算算,其实都大同小异……总共就这点数据,这点样本,还能统计出花儿来么……



好了,有兴趣的话,可以自己去NCBI的GEO上自己去感受一下,实在不行就回复“公克”(不要在评论区回复),要么就直接星球上见(当然,进不去也无所谓)。好吧,今天就先给你们策到这里吧,祝你们心明眼亮


ps:所以,不想要一个转运RNA的手袋么?不想要科研菜鸟想轻松入门么?可以回复科研菜鸟,或者阅读原文哦……祝你们心明眼亮……




延伸阅读


三个实验就完成一篇SCI?異議あり!!

细胞培养的菜鸟问题集

文献真的有这么难读么?那你该看看这个!

30分的Cell和电风扇的科学推理

分子生物学软件大测评:清新脱俗美少女和妖艳

要怎么证明LncRNA是LncRNA?!

实验室的恐怖故事

随缘地分析一下高分杂志的科研动态

那些Low Bee文献中隐藏着的科研思路

TCGA中miRNA神器的骚操作

不做实验也能发文章(3)

几分钟超神,直接用PubMed来分析文献研究趋势(上)

我就是用这神器随便挖一个TCGA


点击“阅读原文”进入微店



推荐阅读