机器学习理论学习:朴素贝叶斯_补集朴素贝叶斯-程序员宅基地

技术标签: 机器学习  

最近一直在看《统计学习方法》,打算先把理论搞明白,后续将着重用c++实现下自己ml库,计划就是这样,好好干吧。其实在平常中使用这个算法比较少,但他主要的优势是在少量,几十或几百张样本的情况下,都能表现得非常好。但如果你有大量得数据几千以上得话,这个算法你可以尝试一下,毕竟她得运行速度比较快。另外,相对于其他机器学习算法,这种概率模型得可解释性非常好,简单说就是容易理解。关于朴素贝叶斯有好多种分支,如高斯、多项式等,也有好多评价方法,如布里尔、对数似然函数以及还可以通过可靠性曲线来评估等,毕竟朴素贝叶斯得可调参数太少了,所以,如果你想用朴素贝叶斯,但苦于没啥可调得,可以尝试可靠性曲线校正,也许有意外惊喜啊,这你不多作介绍,有兴趣得可以自己研究。废话不多说,直接开始吧。


目录

一、概述

二、朴素贝叶斯的学习与分类

三、朴素贝叶斯法的参数估计

 3.1、朴素贝叶斯算法

四、探索贝叶斯:贝叶斯样本的不均衡问题


朴素贝叶斯是根据贝叶斯定理和特征条件独立的分类方法。对于给定数据集,首先会根据特征条件独立的假设计算输入输出联合概率分布,然后基于此模型,对给定的输入,利用贝叶斯定理求出后验概率最大化输出。这里需要说明的是,朴素贝叶斯算法的前提条件是特征之间条件独立,如果特征之间有相互关系,那么该算法效果也不怎么样。同时,对于高维特征,贝叶斯算法只需很少数据下也能表现的很好,而且速度快。对于PCA等降维处理后的特征,其内部本身也存在一定的关联,这种特征也不适用与朴素贝叶斯算法。

一、概述

朴素贝叶斯是一种直接衡量标签和特征之间的概率关系的有监督学习算法,是一种专注分类的算法。朴素贝叶斯的算 法根源就是基于概率论和数理统计的贝叶斯理论,因此它是根正苗红的概率模型。接下来,我们就来认识一下这个简单快速的概率算法。

朴素贝叶斯被认为是最简单的分类算法之一。首先,我们需要了解一些概率论的基本理论。假设有两个随机变量X和 Y,他们分别可以取值为x和y。有这两个随机变量,我们可以定义两种概率:

关键概念:联合概率和条件概率

联合概率:X取值为x和Y取值为y同时发生的概率,表示为:P(X=x,Y=y)

条件概率:在X取值x的条件下Y取值为y的概率,表示为:P(Y=y|X=x)

举个例子,我们让X为"气温",Y为“七星瓢虫冬眠”,则X和Y可能的取值分为别x和y,其中x = {0,1},0表示没有下降到 0度以下,1表示下降到了0度以下。y = {0,1},其中0表示否,1表示是。 两个事件分别发生的概率就为:

  • P(X=1)=50%,则是说明,气温下降到0度以下的可能性为50%,则P(X=0)=50%。
  • P(Y=1)=70%,则是说明,七星瓢虫会冬眠的可能性为70%,则P(Y=0)=30%。

则这两个事件的联合概率为P(X=1,Y=1),这个概率代表了气温下降到0度以下和七星瓢虫去冬眠这两件事情同时,独立发生的概率

而两个事件之间的条件概率为P(Y=1|X=1),这个概率代表了,当气温下降到0度以下这个条件被满足之后,七 星瓢虫会去冬眠的概率。也就是说,气温下降到0度以下,一定程度上影响了七星瓢虫去冬眠这个事件。 在概率论中,我们可以证明,两个事件的联合概率等于这两个事件任意条件概率 * 这个条件事件本身的概率。

简单一些,则可以将上面的式子写成:

由上面的式子,我们可以得到贝叶斯理论等式:

而这个式子,就是我们一切贝叶斯算法的根源理论。我们可以把我们的特征X当成是我们的条件事件,而我们要求解的标签Y当成是我们被满足条件后会被影响的结果,而两者之间的概率关系就是P(Y|X),这个概率在机器学习中被我们称之为是标签的后验概率(posterior probability),即是说我们先知道了条件,再去求解结果。而标签Y在没有任何条件限制下取值为某个值的概率,被我们写作P(Y),与后验概率相反,这是完全没有任何条件限制的,标签的先验概率(prior probability)。而我们的P(X|Y)被称为“类的条件概率”,表示当Y的取值固定的时候,X为某 个值的概率。那现在,有趣的事情就出现了。

二、朴素贝叶斯的学习与分类

 假设输出类的标签为y={c1,c2,..ck},输入特征为X,训练数据集为T={(X1,y1),(X2,y2),...,(Xn,yn)},则条件概率分布:

对于贝叶斯定理得分子P(X|Y),因为朴素贝叶斯对条件概率分布做了条件独立的假设(这也是朴素贝叶斯法的由来)。所以,根据条件独立假设,我们可以写为:

对于贝叶斯定理得分母P(X),我们可以使用全概率公式来计算P(X):

 因此,朴素贝叶斯法分类时,对于给定的输入x,通过学习得到的模型计算后验概率分布P(Y=ck|X=x),将后验概率最大的类作为x的类输出。后验概率计算根据贝叶斯定理进行:

将条件独立假设带入得:

 于是贝叶斯分类器可以表示为:

 

对于这个式子来说,从训练集中求解P(Y=ck)很容易,但P(X)和P(X|Y)这一部分就没有这么容易了。在我们的例子中,我们通过全概率公式来求解分母,两个特征就求解了四项概率。随着特征数目的逐渐变多,分母上的计算两会成指数级增长,而分子中的P(X|Y)也越来越难计算。

在实际计算分类的时候,比较两个类别的时候,两个概率计算的分母是一致的,因此我们可以不用计算分母,只考虑分子的大小。当我们分别计算出分子的大小之后,就可以通过让两个分子相加,来获得分母的值,以此来避免计算一个样本上所有特征下的概率。这个过程,被我们称为“最大后验估计”(MAP)。在最大后验估计中,我们只需要求解分子,主要是求解一个样本下每个特征取值下的概率 ,再求连乘便能够获得相应的概率。

这里,我们可以先来看一个例子,看完之后我们就会明白到底怎么进行分类了。

索引

温度(X1)

瓢虫得年龄(X2)

瓢虫冬眠(Y)

0

零下

10天

1

零下

20天

2

零上

10天

3

零下

一个月

4

零下

20天

5

零上

两个月

6

零下

一个月

7

零下

两个月

8

零上

一个月

9

零上

10天

10

零下

20天

 此时,我们希望预测零下的时候,年龄为20天的瓢虫,是否会冬眠。

 对于分子我们可以求得:

对于分母我们可以求得:

 设定阈值为0.5,假设大于0.5的就被认为是会冬眠,小于0.5的就被认为是不会冬眠。根据我们的计算,我们认为一个在零下条件下,年龄为20天的瓢虫,是不会冬眠的。这就完成了一次预测。

三、朴素贝叶斯法的参数估计

从上节可以看出,如果要进行朴素贝叶斯估计,那么就需要计算P(Y)以及P(X|Y)。可以使用极大似然估计相应的概率。先验概率P(Y=ck)的极大似然估计为:

换句话说,我们可以直接计算样本标签为Ck占总样本数量的比例,这样就得到P(Y)的概率分布。

假设第j个特征xj的可能取值集合为{aj1,aj2,...,ajn},那么条件概率P(Xj=ajl|Y=ck)的极大似然估计为:

式中,Xij是第i个样本第j个特征;ajl是第j个特征的可能取值第l个值;I()为指示函数。

从上式可以看出,计算条件概率函数P(Xj=ajl|Y=ck)其实即使找到在Y=ck标签下,某个特征中其特征值等于ajl所占的比例。

 3.1、朴素贝叶斯算法

输入:训练数据集

输出:实例x的分类

  • 计算先验概率和条件概率

先验概率:

条件概率:

  • 对于给定的实例x=(x1,x2,...xn)计算

  • 确定下得类别

四、探索贝叶斯:贝叶斯样本的不均衡问题

补集朴素贝叶斯(complement naive Bayes,CNB)算法是标准多项式朴素贝叶斯算法的改进。CNB的发明小组创造出CNB的初衷是为了解决贝叶斯中的“朴素”假设带来的各种问题,他们希望能够创造出数学方法以逃避朴素贝叶斯中的朴素假设,让算法能够不去关心所有特征之间是否是条件独立的。以此为基础,他们创造出了能够解决样本不平衡问题,并且能够一定程度上忽略朴素假设的补集朴素贝叶斯。在实验中,CNB的参数估计已经被证明比普通多项式朴素贝叶斯更稳定,并且它特别适合于样本不平衡的数据集。有时候,CNB在文本分类任务上的表现有时能够优于多项式朴素贝叶斯,因此现在补集朴素贝叶斯也开始逐渐流行。关于补集朴素贝叶斯具体是如何逃避了我们的朴素假设,或者如何让我们的样本不均衡问题得到了改善,背后有深刻的数学原理和复杂的数学证明过程,大家如果感兴趣可以参阅这篇论文:

Rennie, J. D., Shih, L., Teevan, J., & Karger, D. R. (2003). Tackling the poor assumptions of naive bayes textclassifiers. In ICML (Vol. 3, pp. 616-623).

简单来说,CNB使用来自每个标签类别的补集的概率,并以此来计算每个特征的权重。

其中j表示每个样本,xij表示在样本 上对于特征i的下的取值,在文本分类中通常是计数的值或者是TF-IDF值。a是像标准多项式朴素贝叶斯中一样的平滑系数。可以看出,这个看似复杂的公式其实很简单,其实指的就是,一个特征i下,所有标签类别不等于c值的样本的特征取值之和。而其实就是,所有特征下,所有标签类别不等于c值得样本的特征取值之和。其实就是多项式分布的逆向思路。 

参考文献:

《统计学习方法》第2版 

朴素贝叶斯算法原理小结

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/wxplol/article/details/105660608

智能推荐

React学习记录-程序员宅基地

文章浏览阅读936次,点赞22次,收藏26次。React核心基础

Linux查磁盘大小命令,linux系统查看磁盘空间的命令是什么-程序员宅基地

文章浏览阅读2k次。linux系统查看磁盘空间的命令是【df -hl】,该命令可以查看磁盘剩余空间大小。如果要查看每个根路径的分区大小,可以使用【df -h】命令。df命令以磁盘分区为单位查看文件系统。本文操作环境:red hat enterprise linux 6.1系统、thinkpad t480电脑。(学习视频分享:linux视频教程)Linux 查看磁盘空间可以使用 df 和 du 命令。df命令df 以磁..._df -hl

Office & delphi_range[char(96 + acolumn) + inttostr(65536)].end[xl-程序员宅基地

文章浏览阅读923次。uses ComObj;var ExcelApp: OleVariant;implementationprocedure TForm1.Button1Click(Sender: TObject);const // SheetType xlChart = -4109; xlWorksheet = -4167; // WBATemplate xlWBATWorksheet = -4167_range[char(96 + acolumn) + inttostr(65536)].end[xlup]

若依 quartz 定时任务中 service mapper无法注入解决办法_ruoyi-quartz无法引入ruoyi-admin的service-程序员宅基地

文章浏览阅读2.3k次。上图为任务代码,在任务具体执行的方法中使用,一定要写在方法内使用SpringContextUtil.getBean()方法实例化Spring service类下边是ruoyi-quartz模块中util/SpringContextUtil.java(已改写)import org.springframework.beans.BeansException;import org.springframework.context.ApplicationContext;import org.s..._ruoyi-quartz无法引入ruoyi-admin的service

CentOS7配置yum源-程序员宅基地

文章浏览阅读2w次,点赞10次,收藏77次。yum,全称“Yellow dog Updater, Modified”,是一个专门为了解决包的依赖关系而存在的软件包管理器。可以这么说,yum 是改进型的 RPM 软件管理器,它很好的解决了 RPM 所面临的软件包依赖问题。yum 在服务器端存有所有的 RPM 包,并将各个包之间的依赖关系记录在文件中,当管理员使用 yum 安装 RPM 包时,yum 会先从服务器端下载包的依赖性文件,通过分析此文件从服务器端一次性下载所有相关的 RPM 包并进行安装。_centos7配置yum源

智能科学毕设分享(算法) 基于深度学习的抽烟行为检测算法实现(源码分享)-程序员宅基地

文章浏览阅读828次,点赞21次,收藏8次。今天学长向大家分享一个毕业设计项目毕业设计 基于深度学习的抽烟行为检测算法实现(源码分享)毕业设计 深度学习的抽烟行为检测算法实现通过目前应用比较广泛的 Web 开发平台,将模型训练完成的算法模型部署,部署于 Web 平台。并且利用目前流行的前后端技术在该平台进行整合实现运营车辆驾驶员吸烟行为检测系统,方便用户使用。本系统是一种运营车辆驾驶员吸烟行为检测系统,为了降低误检率,对驾驶员视频中的吸烟烟雾和香烟目标分别进行检测,若同时检测到则判定该驾驶员存在吸烟行为。进行流程化处理,以满足用户的需要。

随便推点

STM32单片机示例:多个定时器同步触发启动_stm32 定时器同步-程序员宅基地

文章浏览阅读3.7k次,点赞3次,收藏14次。多个定时器同步触发启动是一种比较实用的功能,这里将对此做个示例说明。_stm32 定时器同步

android launcher分析和修改10,Android Launcher分析和修改9——Launcher启动APP流程(转载)...-程序员宅基地

文章浏览阅读348次。出处 : http://www.cnblogs.com/mythou/p/3187881.html本来想分析AppsCustomizePagedView类,不过今天突然接到一个临时任务。客户反馈说机器界面的图标很难点击启动程序,经常点击了没有反应,Boss说要优先解决这问题。没办法,只能看看是怎么回事。今天分析一下Launcher启动APP的过程。从用户点击到程序启动的流程,下面针对WorkSpa..._回调bubbletextview

Ubuntu 12 最快的两个源 个人感觉 163与cn99最快 ubuntu安装源下包过慢_un.12.cc-程序员宅基地

文章浏览阅读6.2k次。Ubuntu 12 最快的两个源 个人感觉 163与cn99最快 ubuntu下包过慢 1、首先备份Ubuntu 12.04源列表 sudo cp /etc/apt/sources.list /etc/apt/sources.list.backup (备份下当前的源列表,有备无患嘛) 2、修改更新源 sudo gedit /etc/apt/sources.list (打开Ubuntu 12_un.12.cc

vue动态路由(权限设置)_vue动态路由权限-程序员宅基地

文章浏览阅读5.8k次,点赞6次,收藏86次。1.思路(1)动态添加路由肯定用的是addRouter,在哪用?(2)vuex当中获取到菜单,怎样展示到界面2.不管其他先试一下addRouter找到router/index.js文件,内容如下,这是我自己先配置的登录路由现在先不管请求到的菜单是什么样,先写一个固定的菜单通过addRouter添加添加以前注意:addRoutes()添加的是数组在export defult router的上一行图中17行写下以下代码var addRoute=[ { path:"/", name:"_vue动态路由权限

JSTL 之变量赋值标签-程序员宅基地

文章浏览阅读8.9k次。 关键词: JSTL 之变量赋值标签 /* * Author Yachun Miao * Created 11-Dec-06 */关于JSP核心库的set标签赋值变量,有两种方式: 1.日期" />2. 有种需求要把ApplicationResources_zh_CN.prope

VGA带音频转HDMI转换芯片|VGA转HDMI 转换器方案|VGA转HDMI1.4转换器芯片介绍_vga转hdmi带音频转换器,转接头拆解-程序员宅基地

文章浏览阅读3.1k次,点赞3次,收藏2次。1.1ZY5621概述ZY5621是VGA音频到HDMI转换器芯片,它符合HDMI1.4 DV1.0规范。ZY5621也是一款先进的高速转换器,集成了MCU和VGA EDID芯片。它还包含VGA输入指示和仅音频到HDMI功能。进一步降低系统制造成本,简化系统板上的布线。ZY5621方案设计简单,且可以完美还原输入端口的信号,此方案设计广泛应用于投影仪、教育多媒体、视频会议、视频展台、工业级主板显示、手持便携设备、转换盒、转换线材等产品设计上面。1.2 ZY5621 特性内置MCU嵌入式VGA_vga转hdmi带音频转换器,转接头拆解

推荐文章

热门文章

相关标签