美文网首页文献阅读
TCGA知识图谱视频学习笔记1

TCGA知识图谱视频学习笔记1

作者: 大吉岭猹 | 来源:发表于2020-03-14 12:18 被阅读0次

1. 生存分析

  • 有很多模型
    • log-rank
    • COX
    • LASSO
    • 随机森林
    • 支持向量机

1.1. COX

  • 虽然最后只留下基因表达的风险因子等信息,但生存分析时要把性别、年龄、癌症的 stage 等因素加进去以排除这些因素的影响,这是比 log-rank 优秀之处

1.2. LASSO

  • 首先用glm函数找到最优的 λ 值,cv.glmnet是用交叉验证找到最优方程,同样是为了得到最优 λ 值
  • 本质是取基因的过程

2. 风险因子关联图

  • 3 图联动:风险因子散点图 - 生存时间和状况散点图 - 重要 signature 的表达量热图
  • 重难点是 3 张图的样本都要按照风险因子从低到高排序

3. 拆分数据集

  • 拆分数据集,用于模型验证
library(caret)
set.seed(12345679)
sam<- createDataPartition(meta$event, p = .5,list = FALSE)

train <- exprSet[,sam]
test <- exprSet[,-sam]
train_meta <- meta[sam,]
test_meta <- meta[-sam,]

友情宣传

相关文章

网友评论

    本文标题:TCGA知识图谱视频学习笔记1

    本文链接:https://www.haomeiwen.com/subject/dusvshtx.html