TCGA知识图谱视频学习笔记1
作者:
大吉岭猹 | 来源:发表于
2020-03-14 12:18 被阅读0次
1. 生存分析
- 有很多模型
- log-rank
- COX
- LASSO
- 随机森林
- 支持向量机
1.1. COX
- 虽然最后只留下基因表达的风险因子等信息,但生存分析时要把性别、年龄、癌症的 stage 等因素加进去以排除这些因素的影响,这是比 log-rank 优秀之处
1.2. LASSO
- 首先用
glm函数找到最优的 λ 值,cv.glmnet是用交叉验证找到最优方程,同样是为了得到最优 λ 值
- 本质是取基因的过程
2. 风险因子关联图
-
- 3 图联动:风险因子散点图 - 生存时间和状况散点图 - 重要 signature 的表达量热图
- 重难点是 3 张图的样本都要按照风险因子从低到高排序
3. 拆分数据集
library(caret)
set.seed(12345679)
sam<- createDataPartition(meta$event, p = .5,list = FALSE)
train <- exprSet[,sam]
test <- exprSet[,-sam]
train_meta <- meta[sam,]
test_meta <- meta[-sam,]
友情宣传
本文标题:TCGA知识图谱视频学习笔记1
本文链接:https://www.haomeiwen.com/subject/dusvshtx.html
网友评论