美文网首页生物信息学R语言源码WGCNA专刊
一篇WGCNA文章复现-GSE85589-中集

一篇WGCNA文章复现-GSE85589-中集

作者: 小梦游仙境 | 来源:发表于2019-11-21 22:43 被阅读0次

前面已经在老大jimmy的帮助下,知道我下载的表达矩阵是没有问题的,那么我就直接往下做好了,不过在读取id转换的文件的时候,我又不会了!是因为我用这个最最好用又常用的read.table我根本读不出来我想要的表达矩阵的样子!报错的信息如下:

#这个就是记录下这个read.table在这里并不友好
> ids<-read.table('GPL19117-74051.txt',comment.char = '#',sep='\t')
Warning messages:
1: In scan(file = file, what = what, sep = sep, quote = quote, dec = dec,  :
  EOF within quoted string
2: In scan(file = file, what = what, sep = sep, quote = quote, dec = dec,  :
  读取的项目数必需是列数的倍数

上面的read.table的参数调试了好几次,无果,求救老大jimmy!遂得以解,代码如下:

probe2symbol <- data.table::fread(file = "GPL19117-74051.txt")#对于这样的一个文件,就这么容易读进去了
image-20191121201607933

另外两种报错信息记录如下

关于报错信息:

Error in `.rowNamesDF<-`(x, value = value) : 'row.names'的长度不对

上面的报错是把较长的探针和基因的对应矩阵的基因名那一列给了较短的dat的行名,所以说长度不对

关于另一种报错:

Error in .rowNamesDF<-(x, value = value) : 不允许有重复的'row.names'

[图片上传失败...(image-ff1949-1574347357192)]

上面的报错信息是因为当我把dat的探针名按照probe2symbol的PROBE_ID这一列的顺序取出来生成新的矩阵以后,那么此时probe2symbol的SYMBOL_ID这一列,必定顺序是相同的,所以我想直接把SYMBOL_ID这一列给新生成的dat,但是呢,却出现了上么报错,就是因为虽然对应上了,但是由于这个PROBE_ID对应上的SYMBOL_ID是有重复的,而有重复的一列向量是不可以做行名的,所以,就会出现上面row.names的长度不对的报错。

这点也可以检查一下重复项来看看

table(duplicated(probe2symbol$SYMBOL_ID))

所以新建一列SYMBOL_ID,然后根据某一个值去掉重复的探针后再将SYMBOL_ID变为行名就可以了

ids=ids[ids$probe_id %in%  rownames(dat),]
dat[1:4,1:4]   
dat=dat[ids$probe_id,] 

ids$median=apply(dat,1,median) #ids新建median这一列,列名为median,同时对dat这个矩阵按行操作,取每一行的中位数,将结果给到median这一列的每一行
ids=ids[order(ids$symbol,ids$median,decreasing = T),]#对ids$symbol按照ids$median中位数从大到小排列的顺序排序,将对应的行赋值为一个新的ids
ids=ids[!duplicated(ids$symbol),]#将symbol这一列取取出重复项,'!'为否,即取出不重复的项,去除重复的gene ,保留每个基因最大表达量结果s
dat=dat[ids$probe_id,] #新的ids取出probe_id这一列,将dat按照取出的这一列中的每一行组成一个新的dat
rownames(dat)=ids$symbol#把ids的symbol这一列中的每一行给dat作为dat的行名
dat[1:4,1:4]  #保留每个基因ID第一次出现的信息

最后友情宣传生信技能树

相关文章

  • 一篇WGCNA文章复现-GSE85589-中集

    前面已经在老大jimmy的帮助下,知道我下载的表达矩阵是没有问题的,那么我就直接往下做好了,不过在读取id转换的文...

  • 一篇WGCNA文章复现-GSE85589-下集

    前面由于对miRNA的探针数目没有正确的理解,以为数据一直没有下载完全,折腾了一番。后来经老大jimmy提醒了,m...

  • 一篇WGCNA文章复现-GSE85589-上集

    想要复现一篇WGCNA文章中的原图,数据集时GSE85589,前面在下载数据时折腾了好久,原因是呢,我下载的矩阵的...

  • WGCNA-尝试复现

    对2016年的WGCNA文章尝试复现,效果不太好,但是过了一遍流程还不错!文章名称:伴 HBV 感染性肝癌调控枢纽...

  • WGCNA(5):模块导出至其他可视化软件

    这篇文章是WGCNA系列的最后一篇,其余见链接:WGCNA(1):R包安装及数据导入清洗 - 简书 (jiansh...

  • ggplot做双曲线阈值火山图

    接着我们之前复现过的一篇NC文章(复现《nature communications》散点小提琴图+蜜蜂图[http...

  • 复现一篇文章

    前言 此复现过程全程由kinesin老师指导,过程有点复杂,如发现问题,请及时简书联系我,我及时更改,主要复现标准...

  • 一篇经典的WGCNA套路分析

    内容来自:一篇典型的WGCNA文章解读 - 生信人(生物信息学)问答平台

  • WGCNA学习笔记

    本篇代码参考文章:1.生信菜鸟团:一文学会WGCNA分析2.WGCNA(加权基因共表达网络分析)3.WGCNA分析...

  • TCGA数据库中的TNBC病人,lncRNA和mRNA分开做的差

    题目主要是来源于要对一篇文章中的图复现,其实已经在公众号上的七步走纯R代码通过数据挖掘复现一篇实验文章(第1到6步...

网友评论

    本文标题:一篇WGCNA文章复现-GSE85589-中集

    本文链接:https://www.haomeiwen.com/subject/mcvxwctx.html