再回到之前的随机森林(希望还没忘记,机器学习算法-随机森林初探(1))
library(randomForest)
set.seed(304)
rf1000 <- randomForest(expr_mat, metadata[[group]], ntree=1000)
rf1000
##
## Call:
## randomForest(x = expr_mat, y = metadata[[group]], ntree = 1000)
## Type of random forest: classification
## Number of trees: 1000
## No. of variables tried at each split: 84
##
## OOB estimate of error rate: 11.69%
## Confusion matrix:
## DLBCL FL class.error
## DLBCL 57 1 0.01724138
## FL 8 11 0.42105263
除了 OOB,我们还可以怎么评估模型的准确性呢?这里没有测试集,那么就拿原始数据做个评估吧(注意:这样会低估预测错误率):
# 查看模型的类,为randomForest
class(rf1000)
## [1] "randomForest"
# 查看 predict 函数的帮助,默认帮助信息为通用函数 predict 的
# ?predict
# 查看 randomForest 类的 predict 的帮助(predict+'.'+类名字)
# 像 print 此类函数,也是如此查看帮助或源码
# type 参数: response 表示返回分类的值;prob 表示分类的概率;vote 表示 vote counts
# ?predict.randomForest
开始预测
preds <- predict(rf1000, expr_mat, type="response")
查看下preds
对象,显示的是每个样品被预测为属于什么类。
preds
## DLBCL_1 DLBCL_2 DLBCL_3 DLBCL_4 DLBCL_5 DLBCL_6 DLBCL_7 DLBCL_8 DLBCL_9 DLBCL_10 DLBCL_11
## DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL
## DLBCL_12 DLBCL_13 DLBCL_14 DLBCL_15 DLBCL_16 DLBCL_17 DLBCL_18 DLBCL_19 DLBCL_20 DLBCL_21 DLBCL_22
## DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL
## DLBCL_23 DLBCL_24 DLBCL_25 DLBCL_26 DLBCL_27 DLBCL_28 DLBCL_29 DLBCL_30 DLBCL_31 DLBCL_32 DLBCL_33
## DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL
## DLBCL_34 DLBCL_35 DLBCL_36 DLBCL_37 DLBCL_38 DLBCL_39 DLBCL_40 DLBCL_41 DLBCL_42 DLBCL_43 DLBCL_44
## DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL
## DLBCL_45 DLBCL_46 DLBCL_47 DLBCL_48 DLBCL_49 DLBCL_50 DLBCL_51 DLBCL_52 DLBCL_53 DLBCL_54 DLBCL_55
## DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL
## DLBCL_56 DLBCL_57 DLBCL_58 FL_1 FL_2 FL_3 FL_4 FL_5 FL_6 FL_7 FL_8
## DLBCL DLBCL DLBCL FL FL FL FL FL FL FL FL
## FL_9 FL_10 FL_11 FL_12 FL_13 FL_14 FL_15 FL_16 FL_17 FL_18 FL_19
## FL FL FL FL FL FL FL FL FL FL FL
## Levels: DLBCL FL
计算模型效果评估矩阵(也称混淆矩阵),敏感性、特异性 100%。完美的模型!!!(这里主要是看下predict
如何使用,完美的模型只是说构建的完美,不能表示预测性能的完美,因为没有用独立数据集进行评估。)
library(caret)
## Warning: package 'caret' was built under R version 4.0.3
## Loading required package: lattice
## Loading required package: ggplot2
##
## Attaching package: 'ggplot2'
## The following object is masked from 'package:randomForest':
##
## margin
caret::confusionMatrix(preds, metadata[[group]])
## Confusion Matrix and Statistics
##
## Reference
## Prediction DLBCL FL
## DLBCL 58 0
## FL 0 19
##
## Accuracy : 1
## 95% CI : (0.9532, 1)
## No Information Rate : 0.7532
## P-Value [Acc > NIR] : 3.343e-10
##
## Kappa : 1
##
## Mcnemar's Test P-Value : NA
##
## Sensitivity : 1.0000
## Specificity : 1.0000
## Pos Pred Value : 1.0000
## Neg Pred Value : 1.0000
## Prevalence : 0.7532
## Detection Rate : 0.7532
## Detection Prevalence : 0.7532
## Balanced Accuracy : 1.0000
##
## 'Positive' Class : DLBCL
##
predict
还可以返回分类的概率 (有了这个是不是就可以绘制 ROC
曲线和计算AUC
值了)。
preds_prob <- predict(rf1000, expr_mat, type="prob")
head(preds_prob)
## DLBCL FL
## DLBCL_1 0.951 0.049
## DLBCL_2 0.972 0.028
## DLBCL_3 0.975 0.025
## DLBCL_4 0.984 0.016
## DLBCL_5 0.963 0.037
## DLBCL_6 0.989 0.011
predict
还可以返回分类的vote
值。
preds_prob <- predict(rf1000, expr_mat, type="vote")
head(preds_prob)
## DLBCL FL
## DLBCL_1 0.951 0.049
## DLBCL_2 0.972 0.028
## DLBCL_3 0.975 0.025
## DLBCL_4 0.984 0.016
## DLBCL_5 0.963 0.037
## DLBCL_6 0.989 0.011
前面主要是学习下predict
和confusionMatrix
函数的使用。把前面的代码串起来,就构成了一个随机森林的 10 折交叉验证代码:
# https://stackoverflow.com/questions/47960427/how-to-calculate-the-oob-of-random-forest
K = 10
m = nrow(expr_mat)
set.seed(1)
kfold <- sample(rep(1:K, length.out=m), size=m, replace=F)
randomForestCV <- function(x, y, xtest, ytest, type="response", seed=1, ...){
set.seed(seed)
model <- randomForest(x, y, ...)
preds <- predict(model, xtest, type=type)
return(data.frame(preds, real=ytest))
}
CV_rf <- lapply(1:K, function(x, ...){
train_set = expr_mat[kfold != x,]
train_label = metadata[[group]][kfold!=x]
validate_set = expr_mat[kfold == x,]
validate_label = metadata[[group]][kfold==x]
randomForestCV(x=train_set, y=train_label, xtest=validate_set, ytest=validate_label, ...)
})
kfold_estimate <- do.call(rbind, CV_rf)
查看下10 折交叉验证的预测结果
kfold_estimate
## preds real
## DLBCL_3 DLBCL DLBCL
## DLBCL_8 DLBCL DLBCL
## DLBCL_9 DLBCL DLBCL
## DLBCL_35 DLBCL DLBCL
## DLBCL_57 DLBCL DLBCL
## FL_9 DLBCL FL
## FL_10 DLBCL FL
## FL_18 FL FL
## DLBCL_15 DLBCL DLBCL
## DLBCL_16 DLBCL DLBCL
## DLBCL_40 DLBCL DLBCL
## DLBCL_41 DLBCL DLBCL
## DLBCL_42 DLBCL DLBCL
## DLBCL_44 DLBCL DLBCL
## DLBCL_51 DLBCL DLBCL
## DLBCL_53 DLBCL DLBCL
## DLBCL_5 DLBCL DLBCL
## DLBCL_20 DLBCL DLBCL
## DLBCL_25 DLBCL DLBCL
## DLBCL_32 DLBCL DLBCL
## DLBCL_38 DLBCL DLBCL
## FL_2 DLBCL FL
## FL_12 DLBCL FL
## FL_16 FL FL
## DLBCL_4 DLBCL DLBCL
## DLBCL_6 DLBCL DLBCL
## DLBCL_10 DLBCL DLBCL
## DLBCL_14 DLBCL DLBCL
## DLBCL_18 DLBCL DLBCL
## DLBCL_39 DLBCL DLBCL
## FL_1 DLBCL FL
## FL_6 FL FL
## DLBCL_17 DLBCL DLBCL
## DLBCL_19 DLBCL DLBCL
## DLBCL_22 DLBCL DLBCL
## DLBCL_33 DLBCL DLBCL
## DLBCL_36 DLBCL DLBCL
## DLBCL_45 DLBCL DLBCL
## DLBCL_47 DLBCL DLBCL
## FL_11 DLBCL FL
## DLBCL_13 DLBCL DLBCL
## DLBCL_23 DLBCL DLBCL
## DLBCL_37 DLBCL DLBCL
## DLBCL_52 DLBCL DLBCL
## FL_3 FL FL
## FL_5 FL FL
## FL_17 DLBCL FL
## FL_19 FL FL
## DLBCL_11 DLBCL DLBCL
## DLBCL_12 DLBCL DLBCL
## DLBCL_27 DLBCL DLBCL
## DLBCL_28 DLBCL DLBCL
## DLBCL_54 DLBCL DLBCL
## DLBCL_56 DLBCL DLBCL
## DLBCL_58 DLBCL DLBCL
## FL_14 DLBCL FL
## DLBCL_1 DLBCL DLBCL
## DLBCL_26 FL DLBCL
## DLBCL_29 FL DLBCL
## DLBCL_43 DLBCL DLBCL
## DLBCL_50 DLBCL DLBCL
## FL_8 DLBCL FL
## FL_15 FL FL
## DLBCL_2 DLBCL DLBCL
## DLBCL_7 DLBCL DLBCL
## DLBCL_48 DLBCL DLBCL
## DLBCL_55 DLBCL DLBCL
## FL_4 FL FL
## FL_7 FL FL
## FL_13 FL FL
## DLBCL_21 DLBCL DLBCL
## DLBCL_24 DLBCL DLBCL
## DLBCL_30 DLBCL DLBCL
## DLBCL_31 DLBCL DLBCL
## DLBCL_34 DLBCL DLBCL
## DLBCL_46 DLBCL DLBCL
## DLBCL_49 DLBCL DLBCL
计算模型效果评估矩阵(也称混淆矩阵)。准确性值为0.8581
,OOB 的错误率是88.31%
,相差不大。但Kappa
值不算高0.5614
,这也是数据集中两个分组的样本数目不均衡导致的。
library(caret)
caret::confusionMatrix(kfold_estimate$preds, kfold_estimate$real)
## Confusion Matrix and Statistics
##
## Reference
## Prediction DLBCL FL
## DLBCL 56 9
## FL 2 10
##
## Accuracy : 0.8571
## 95% CI : (0.7587, 0.9265)
## No Information Rate : 0.7532
## P-Value [Acc > NIR] : 0.01936
##
## Kappa : 0.5614
##
## Mcnemar's Test P-Value : 0.07044
##
## Sensitivity : 0.9655
## Specificity : 0.5263
## Pos Pred Value : 0.8615
## Neg Pred Value : 0.8333
## Prevalence : 0.7532
## Detection Rate : 0.7273
## Detection Prevalence : 0.8442
## Balanced Accuracy : 0.7459
##
## 'Positive' Class : DLBCL
##
# 结果如下
其它指标前面大都有讲述或?confusionMatrix
可看到对应的计算公式。
重点看下Kappa
系数,其也是评估分类准确性的一个指标。在模型评估指标一文有提到,准确性
值在各个分类样本不平衡时会更多偏向样品多的类。而Kappa
系数则可以综合评估这种不平衡性。Kappa
系数在-1和1
之间,值越大表示模型性能越好。
Kappa=0
说明模型和瞎猜差不多。
Kappa>0.4
说明模型还行。
Kappa>0.4
说明模型挺好的。
这几个标准未找到确切文献,仅供参考来理解 Kappa 系数。
其计算公式如下:
后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集
(请备注姓名-学校/企业-职务等)
文章浏览阅读3.3k次,点赞7次,收藏39次。CPU 执行现行程序的过程中,出现某些急需处理的异常情况或特殊请求,CPU暂时中止现行程序,而转去对异常情况或特殊请求进行处理,处理完毕后再返回现行程序断点处,继续执行原程序。void 函数名(void) interrupt n using m {中断函数内容 //尽量精简 }编译器会把该函数转化为中断函数,表示中断源编号为n,中断源对应一个中断入口地址,而中断入口地址的内容为跳转指令,转入本函数。using m用于指定本函数内部使用的工作寄存器组,m取值为0~3。该修饰符可省略,由编译器自动分配。_51单片机中断篇
文章浏览阅读396次。项目经验(案例一)项目时间:2009-10 - 2009-12项目名称:中驰别克信息化管理整改完善项目描述:项目介绍一,建立中驰别克硬件档案(PC,服务器,网络设备,办公设备等)二,建立中驰别克软件档案(每台PC安装的软件,财务,HR,OA,专用系统等)三,能过建立的档案对中驰别克信息化办公环境优化(合理使用ADSL宽带资源,对域进行调整,对文件服务器进行优化,对共享打印机进行调整)四,优化完成后..._网络工程师项目经历
文章浏览阅读1k次,点赞31次,收藏30次。LVS:Linux Virtual Server,负载调度器,内核集成, 阿里的四层SLB(Server Load Balance)是基于LVS+keepalived实现。NATTUNDR优点端口转换WAN性能最好缺点性能瓶颈服务器支持隧道模式不支持跨网段真实服务器要求anyTunneling支持网络private(私网)LAN/WAN(私网/公网)LAN(私网)真实服务器数量High (100)High (100)真实服务器网关lvs内网地址。
文章浏览阅读899次。https://www.toutiao.com/a6713171323893318151/作者 | 黄小邪/言有三编辑 | 黄小邪/言有三图像预处理算法的好坏直接关系到后续图像处理的效果,如图像分割、目标识别、边缘提取等,为了获取高质量的数字图像,很多时候都需要对图像进行降噪处理,尽可能的保持原始信息完整性(即主要特征)的同时,又能够去除信号中无用的信息。并且,降噪还引出了一..._噪声很大的图片可以降噪吗
文章浏览阅读152次。目录谨慎地覆盖cloneCloneable接口并没有包含任何方法,那么它到底有什么作用呢?Object类中的clone()方法如何重写好一个clone()方法1.对于数组类型我可以采用clone()方法的递归2.如果对象是非数组,建议提供拷贝构造器(copy constructor)或者拷贝工厂(copy factory)3.如果为线程安全的类重写clone()方法4.如果为需要被继承的类重写clone()方法总结谨慎地覆盖cloneCloneable接口地目的是作为对象的一个mixin接口(详见第20_为继承设计类有两种选择,但无论选择其中的
文章浏览阅读958次,点赞21次,收藏24次。今天学长向大家分享一个毕业设计项目基于协同过滤的电影推荐系统项目运行效果:项目获取:https://gitee.com/assistant-a/project-sharing21世纪是信息化时代,随着信息技术和网络技术的发展,信息化已经渗透到人们日常生活的各个方面,人们可以随时随地浏览到海量信息,但是这些大量信息千差万别,需要费事费力的筛选、甄别自己喜欢或者感兴趣的数据。对网络电影服务来说,需要用到优秀的协同过滤推荐功能去辅助整个系统。系统基于Python技术,使用UML建模,采用Django框架组合进行设
文章浏览阅读614次。10G SFP+光模块被广泛应用于10G以太网中,在下一代移动网络、固定接入网、城域网、以及数据中心等领域非常常见。下面易天光通信(ETU-LINK)就为大家一一盘点下10G SFP+光模块都有哪些吧。一、10G SFP+双纤光模块10G SFP+双纤光模块是一种常规的光模块,有两个LC光纤接口,传输距离最远可达100公里,常用的10G SFP+双纤光模块有10G SFP+ SR、10G SFP+ LR,其中10G SFP+ SR的传输距离为300米,10G SFP+ LR的传输距离为10公里。_10g sfp+
文章浏览阅读239次。该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流项目运行环境配置:项目技术:Express框架 + Node.js+ Vue 等等组成,B/S模式 +Vscode管理+前后端分离等等。环境需要1.运行环境:最好是Nodejs最新版,我们在这个版本上开发的。其他版本理论上也可以。2.开发环境:Vscode或HbuilderX都可以。推荐HbuilderX;3.mysql环境:建议是用5.7版本均可4.硬件环境:windows 7/8/10 1G内存以上;_基于vue美食网站源码
文章浏览阅读62次。oldwain随便写@hexun链接:http://oldwain.blog.hexun.com/ ...
文章浏览阅读843次,点赞16次,收藏22次。用这个工具扫描其它网站时,要注意法律问题,同时也比较慢,所以我们以之前写的登录页面为例子扫描。_sqlmap拖库
文章浏览阅读1.5w次,点赞5次,收藏38次。Origin也能玩转图片的拼接组合排版谭编(华南师范大学学报编辑部,广州 510631)通常,我们利用Origin软件能非常快捷地绘制出一张单独的绘图。但是,我们在论文的撰写过程中,经常需要将多种科学实验图片(电镜图、示意图、曲线图等)组合在一张图片中。大多数人都是采用PPT、Adobe Illustrator、CorelDraw等软件对多种不同类型的图进行拼接的。那么,利用Origin软件能否实..._origin怎么把三个图做到一张图上
文章浏览阅读4.2k次,点赞4次,收藏51次。51单片机智能电风扇控制系统仿真设计( proteus仿真+程序+原理图+报告+讲解视频)仿真图proteus7.8及以上 程序编译器:keil 4/keil 5 编程语言:C语言 设计编号:S0042。_电风扇模拟控制系统设计