算法学习笔记(1) : 从感知机开始_mlp算法最早由谁提出-程序员宅基地

技术标签: python  

1 感知机是什么

本文为感知机学习笔记,主要参考李航《统计学习方法》

定义

感知机(preceptron) 是一个经典的二分类模型,旨在特征空间中找到一个超平面,使得正负样本点尽可能分布在超平面两侧。

感知机的发展
  1. 1957年Rosenbllatt提出感知机,这在当时是一个非常令人兴奋的发现。
  2. 1960年,维德罗首次使用Delta学习规则用于感知器的训练步骤, 这两者的结合创造了一个良好的线性分类器。
  3. 1962年,Rosenbllatt,Novikoff等人进行了一系列理论研究 ,如感知机收敛定理等
  4. 1969年Marvin Minsky将感知器话题推到最高顶峰。他提出了著名的XOR问题和感知器数据线性不可分的情形,之后机器学习的研究处于休眠状态。
  5. 1981年,多层感知器(MLP)由伟博斯神经网络反向传播算法中具体提出。
  6. 1995年 , 机器学习领域中一个最重要的突破,支持向量(support vector machines, SVM )被提出,其来源于感知机

2感知机为什么可以分类——感知机原理

2.1模型

感知机是一个二类分类的线性模型,其输入为实例的特征向量, 输出为实例的类别,取+1和-1。
线性方程 w ∗ x + b = 0 w*x + b = 0 wx+b=0 对应特征空间的一个超平面。如下图:
在这里插入图片描述

2.2策略

感知机选择超平面的策略是误分类点到超平面的总距离最小
首先,任意一点x到超平面的距离为: ∣ w x + b ∣ ∣ ∣ w ∣ ∣ \frac{|wx+b|}{||w||} wwx+b
将超平面上方的点记为正类点,标签为1 。超平面下方的点标签则为-1 。注意到, w x + b > 0 wx+b>0 wx+b>0,说明x在超平面上方。 所以, y ( w x + b ) > 0 y(wx+b)>0 y(wx+b)>0则说明分类正确, − y ( w x + b ) > 0 -y(wx+b)>0 y(wx+b)>0则分类错误。
对于一个分类模型,误分类的点越少越好,当一个样本点已经在错误的一侧后,希望它距离超平面越近越好。也就是误分类的点到超平面总距离越小越好。
将所有误分类的点记为集合M(mistake), 则损失函数为: L o s s ( W , b ) = − ∑ x i ⊂ M y i ( w x i + b ) ∣ ∣ w ∣ ∣ Loss(W,b)=-\sum_{x_i\subset M}\frac{y_i(wx_i+b)}{||w||} Loss(W,b)=xiMwyi(wxi+b)
||w||的大小对解没有影响, 则最终感知机的学习策略, m i n L o s s ( W , b ) = − ∑ x i ⊂ M y i ( w x i + b ) min Loss(W,b)=-\sum_{x_i\subset M}y_i(wx_i+b) minLoss(W,b)=xiMyi(wxi+b)

2.3算法

确定损失函数之后,要做的就是找到使得损失函数最小的 ( w , b ) (w,b) (w,b)(感知机的求解算法为梯度下降法。求导知,损失函数对w,b的梯度分别为

  • ▽ w = − ∑ x i ⊂ M y i x i \triangledown _w=-\sum_{x_i\subset M}y_ix_i w=xiMyixi
  • ▽ b = − ∑ x i ⊂ M y i \triangledown _b=-\sum_{x_i\subset M}y_i b=xiMyi

算法:
1 初始化超平面 ( w 0 , b 0 ) (w_0,b_0) (w0,b0) ,阈值e.
2 计算误分类集合M
3 更新(w,b) w = w + η y i x i ; b = b + η y i w= w+\eta y_ix_i ; b= b+\eta y_i w=w+ηyixi;b=b+ηyi, 计算损失值。
4 重复2,3 直到损失值小于阈值e。

在这里插入图片描述
上图为感知机迭代过程

2.4对偶算法

感知机对偶形式的基本想法是, 在上述算法中可假设初始值 w 0 , b 0 w_0,b_0 w0,b0均为0, η = 1 \eta=1 η=1, 从梯度下降学习过程中可以看出,最后学习的w,b分别为( x i , y i x_i,y_i xi,yi线性组合的形式):

  • w = ∑ i = 1 N α i y i x i w=\sum_{i=1}^{N}\alpha_iy_ix_i w=i=1Nαiyixi
  • b = ∑ i = 1 N α i y i b=\sum_{i=1}^{N}\alpha_iy_i b=i=1Nαiyi

那么模型则为 f ( x ) = s i g n ( ∑ j = 1 N α j y j x j ⋅ x + b ) f(x) = sign(\sum_{j=1}^{N}\alpha_jy_jx_j \cdot x+b) f(x)=sign(j=1Nαjyjxjx+b)
α i \alpha_i αi表示第i个样本点参与更新的次数。 实例点更新的次数多,意味这它常被误分,也就离超平面较近,也就越难正确分类。这样的实例点对学习结果的影响最大。类似于SVM中的支持向量。
η ≠ 1 \eta\neq 1 η=1 α i \alpha_i αi也可以近似理解为更新次数。则对偶型式的算法为

1 α = ( α 1 , α 2 , ⋯   , α N ) T , α = 0 , b = 0 \alpha =(\alpha_1, \alpha_2, \cdots ,\alpha_N)^T , \alpha = 0,b=0 α=(α1,α2,,αN)T,α=0,b=0
2 若 y i ( ∑ j = 1 N α j y j x j ⋅ x + b ) ⩽ 0 y_i(\sum_{j=1}^{N}\alpha_jy_jx_j \cdot x+b)\leqslant 0 yi(j=1Nαjyjxjx+b)0, 则更新 :

  • α i = α i + η \alpha_i = \alpha_i+\eta αi=αi+η
  • b = b + η y i b=b+\eta y_i b=b+ηyi
    直到损失值小于阈值。
    对偶形式中训练实例只以内积的形式出现,为了计算快捷,可以将训练集中的内积计算出来以矩阵形式存储,这个矩阵就是Gram矩阵 G = [ x i ⋅ x j ] G=[x_i\cdot x_j] G=[xixj]
2.5理论性质——收敛性

在这里插入图片描述
这是《统计学习方法》p31的结论,主要证明了 对于线性可分数据集感知机是可以找到超平面将其完全划分的,而且梯度下降算法在训练中的误分类次数是有界的。详细证明参考书。

显然对于线性可分数据集,感知机的解不是唯一的,只要所有的点都被正确分类,就会停止迭代,所以初始点、步长不同,得到的解不同

3 感知机实现

3.1 Numpy实现perceptron

代码如下:

import numpy as np
import matplotlib.pyplot as plt
x_train=np.array([3,3,4,3,1,1]).reshape(-1,2,order='C')
y_train=np.array([1,1,-1]).reshape(-1,1)
#写一个整的函数,输入x_train ,y_train,eta ,输出 W=(w1.w2.b)
def perceptron(x_train,y_train,eta=1):
    N,p=x_train.shape
    #design matrix # x_Rd design x_Rd+1
    X=np.concatenate((x_train,np.ones(N).reshape(N,1)),axis=1)
    W=np.ones(p+1).reshape(p+1,1)
    #梯度下降,直到不在变化
    error=1
    while error>1e-05:
        loc = np.where(np.dot(X,W)*y_train<=0)[0]# 误分类点
        if len(loc)>0: 
            #error = sum((-1)*np.dot(X[loc,:],W)*y_train[loc,:])
            loc = loc[0]
        else : return W
        X_mis = X[loc]; Y_mis=y_train[loc]
        X_mis = X_mis.reshape(-1,p+1);Y_mis=Y_mis.reshape(-1,1)
        W_temp = W + eta*np.dot(Y_mis.T,X_mis).reshape(-1,1)
        error = np.dot((W-W_temp).T,W-W_temp)
        W=W_temp
        print(W)
    return W   
W=perceptron(x_train,y_train,eta=0.1)  
#预测函数
def predict_percep (x_test,W):
    pre=np.dot(x_test, W[:-1,:])+W[-1,:]
    pre[pre>=0]=1;pre[pre<0]=-1;
    return pre
y_predict = predict_percep(x_train,W)
3.4 调用sklearn实现perceptron
import numpy as np
from sklearn.datasets import make_classification
from sklearn.linear_model import Perceptron 
#生成二分类的样本
x,y = make_classification(n_samples=1000,n_features=2,n_redundant=0,n_informative=1,n_clusters_per_class=1)
# make_classification模拟生成分类样本
y = np.array([(lambda x:1  if x==1 else -1)(i) for i in y])
#分成训练集和测试集
x_train = x[:800,]
y_train = y[:800,]
x_test = x[800:,]
y_test= y[800:,]
clf = Perceptron(fit_intercept=False, shuffle=False)#实例化一个感知机模型
clf.fit(x_train,y_train)#使用训练数据进行训练
#得到训练结果,权重矩阵
print(clf.coef_)
#预测
acc = clf.score(x_test,y_test)
print(acc)#正确率
>0.972  
3.5 可视化
#正例和反例
positive_location = np.where(y_train==1)
negetive_location = np.where(y_train==-1)
#画出正例,负例,超平面
from matplotlib import pyplot as plt
plt.scatter(x_train[positive_location,][:,:,0],x_train[positive_location,][:,:,1],marker='*')
plt.scatter(x_train[negetive_location,][:,:,0],x_train[negetive_location,][:,:,1],color="red",marker='+')
line_x = np.arange(-4,4)
line_y = line_x * (-clf.coef_[0][0] / clf.coef_[0][1]) - clf.intercept_
plt.plot(line_x,line_y)
plt.show()

在这里插入图片描述

总结

感知机是基础的ML模型,是svm的前生。
感知机的策略为最小误分类点到超平面距离 ,算法为梯度下降法。
感知机是线性分类器,对于非线性问题和高维问题效果交叉,而SVM通过核技巧解决了这个问题。
感知机及其对偶形式算法效率上的区别是什么,话句话说,什么时候使用对偶形式,这个问题没搞懂,清楚的希望能留言告诉我。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_43705953/article/details/108305890

智能推荐

JavaScript学习笔记_curry函数未定义-程序员宅基地

文章浏览阅读343次。五种原始的变量类型1.Undefined--未定义类型 例:var v;2.String -- ' '或" "3.Boolean4.Number5.Null--空类型 例: var v=null;Number中:NaN -- not a number非数本身是一个数字,但是它和任何数字都不相等,代表非数,它和自己都不相等判断是不是NaN不能用=_curry函数未定义

兑换码编码方案实践_优惠券编码规则-程序员宅基地

文章浏览阅读1.2w次,点赞2次,收藏17次。兑换码编码设计当前各个业务系统,只要涉及到产品销售,就离不开大大小小的运营活动需求,其中最普遍的就是兑换码需求,无论是线下活动或者是线上活动,都能起到良好的宣传效果。兑换码:由一系列字符组成,每一个兑换码对应系统中的一组信息,可以是优惠信息(优惠券),也可以是相关奖品信息。在实际的运营活动中,要求兑换码是唯一的,每一个兑换码对应一个优惠信息,而且需求量往往比较大(实际上的需求只有预期_优惠券编码规则

c语言周林答案,C语言程序设计实训教程教学课件作者周林ch04结构化程序设计课件.ppt...-程序员宅基地

文章浏览阅读45次。C语言程序设计实训教程教学课件作者周林ch04结构化程序设计课件.ppt* * 4.1 选择结构程序设计 4.2 循环结构程序设计 4.3 辅助控制语句 第四章 结构化程序设计 4.1 选择结构程序设计 在现实生活中,需要进行判断和选择的情况是很多的: 如果你在家,我去拜访你 如果考试不及格,要补考 如果遇到红灯,要停车等待 第四章 结构化程序设计 在现实生活中,需要进行判断和选择的情况..._在现实生活中遇到过条件判断的问

幻数使用说明_ioctl-number.txt幻数说明-程序员宅基地

文章浏览阅读999次。幻数使用说明 在驱动程序中实现的ioctl函数体内,实际上是有一个switch{case}结构,每一个case对应一个命令码,做出一些相应的操作。怎么实现这些操作,这是每一个程序员自己的事情。 因为设备都是特定的,这里也没法说。关键在于怎样组织命令码,因为在ioctl中命令码是唯一联系用户程序命令和驱动程序支持的途径 。 命令码的组织是有一些讲究的,因为我们一定要做到命令和设备是一一对应的,利_ioctl-number.txt幻数说明

ORB-SLAM3 + VScode:检测到 #include 错误。请更新 includePath。已为此翻译单元禁用波浪曲线_orb-slam3 include <system.h> 报错-程序员宅基地

文章浏览阅读399次。键盘按下“Shift+Ctrl+p” 输入: C++Configurations,选择JSON界面做如下改动:1.首先把 “/usr/include”,放在最前2.查看C++路径,终端输入gcc -v -E -x c++ - /usr/include/c++/5 /usr/include/x86_64-linux-gnu/c++/5 /usr/include/c++/5/backward /usr/lib/gcc/x86_64-linux-gnu/5/include /usr/local/_orb-slam3 include 报错

「Sqlserver」数据分析师有理由爱Sqlserver之十-Sqlserver自动化篇-程序员宅基地

文章浏览阅读129次。本系列的最后一篇,因未有精力写更多的入门教程,上篇已经抛出书单,有兴趣的朋友可阅读好书来成长,此系列主讲有理由爱Sqlserver的论证性文章,希望读者们看完后,可自行做出判断,Sqlserver是否真的合适自己,目的已达成。渴望自动化及使用场景笔者所最能接触到的群体为Excel、PowerBI用户群体,在Excel中,我们知道可以使用VBA、VSTO来给Excel带来自动化操作..._sqlsever 数据分析

随便推点

智慧校园智慧教育大数据平台(教育大脑)项目建设方案PPT_高校智慧大脑-程序员宅基地

文章浏览阅读294次,点赞6次,收藏4次。教育智脑)建立学校的全连接中台,对学校运营过程中的数据进行处理和标准化管理,挖掘数据的价值。能:一、原先孤立的系统聚合到一个统一的平台,实现单点登录,统一身份认证,方便管理;三、数据共享,盘活了教育大数据资源,通过对外提供数。的方式构建教育的通用服务能力平台,支撑教育核心服务能力的沉淀和共享。物联网将学校的各要素(人、机、料、法、环、测)全面互联,数据实时。智慧校园解决方案,赋能教学、管理和服务升级,智慧教育体系,该数据平台具有以下几大功。教育大数据平台底座:教育智脑。教育大数据平台,以中国联通。_高校智慧大脑

编程5大算法总结--概念加实例_算法概念实例-程序员宅基地

文章浏览阅读9.5k次,点赞2次,收藏27次。分治法,动态规划法,贪心算法这三者之间有类似之处,比如都需要将问题划分为一个个子问题,然后通过解决这些子问题来解决最终问题。但其实这三者之间的区别还是蛮大的。贪心是则可看成是链式结构回溯和分支界限为穷举式的搜索,其思想的差异是深度优先和广度优先一:分治算法一、基本概念在计算机科学中,分治法是一种很重要的算法。字面上的解释是“分而治之”,就是把一个复杂的问题分成两_算法概念实例

随笔—醒悟篇之考研调剂_考研调剂抑郁-程序员宅基地

文章浏览阅读5.6k次。考研篇emmmmm,这是我随笔篇章的第二更,原本计划是在中秋放假期间写好的,但是放假的时候被安排写一下单例模式,做了俩机试题目,还刷了下PAT的东西,emmmmm,最主要的还是因为我浪的很开心,没空出时间来写写东西。  距离我考研结束已经快两年了,距离今年的考研还有90天左右。  趁着这个机会回忆一下青春,这一篇会写的比较有趣,好玩,纯粹是为了记录一下当年考研中发生的有趣的事。  首先介绍..._考研调剂抑郁

SpringMVC_class org.springframework.web.filter.characterenco-程序员宅基地

文章浏览阅读438次。SpringMVC文章目录SpringMVC1、SpringMVC简介1.1 什么是MVC1.2 什么是SpringMVC1.3 SpringMVC的特点2、HelloWorld2.1 开发环境2.2 创建maven工程a>添加web模块b>打包方式:warc>引入依赖2.3 配置web.xml2.4 创建请求控制器2.5 创建SpringMVC的配置文件2.6 测试Helloworld2.7 总结3、@RequestMapping注解3.1 @RequestMapping注解的功能3._class org.springframework.web.filter.characterencodingfilter is not a jakart

gdb: Don‘t know how to run. Try “help target“._don't know how to run. try "help target".-程序员宅基地

文章浏览阅读4.9k次。gdb 远程调试的一个问题:Don't know how to run. Try "help target".它在抱怨不知道怎么跑,目标是什么. 你需要为它指定target remote 或target extended-remote例如:target extended-remote 192.168.1.136:1234指明target 是某IP的某端口完整示例如下:targ..._don't know how to run. try "help target".

c语言程序设计教程 郭浩志,C语言程序设计教程答案杨路明郭浩志-程序员宅基地

文章浏览阅读85次。习题 11、算法描述主要是用两种基本方法:第一是自然语言描述,第二是使用专用工具进行算法描述2、c 语言程序的结构如下:1、c 语言程序由函数组成,每个程序必须具有一个 main 函数作为程序的主控函数。2、“/*“与“*/“之间的内容构成 c 语言程序的注释部分。3、用预处理命令#include 可以包含有关文件的信息。4、大小写字母在 c 语言中是有区别的。5、除 main 函数和标准库函数以..._c语言语法0x1e