理解监督学习和无监督学习的定义_·城府、的博客-程序员宅基地

技术标签: 机器学习  人工智能  

机器学习

  首先呢,学习可以称为一个举一反三的过程,举个例子:我们在学生时代经常参加的考试,考试的题目在上考场前我们未必做过,但是在考试之前我们通常都会刷很多的题目,通过刷题目学会了解题方法,因此考场上面对陌生问题也可以算出答案。

  机器学习的思路也类似:我们可以利用一些训练数据(已经做过的题),使机器能够利用它们(解题方法)分析未知数据(考场的题目)。就像考试前老师给我们预测考试会考什么一样。

  简单的一句话:机器学习就是让机器从大量的数据集中学习,进而得到一个更加符合现实规律的模型,通过对模型的使用使得机器比以往表现的更好。

监督学习

定义:从给定的训练数据集中学习出一个函数(模型参数),当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求包括输入输出,也可以说是特征和目标。训练集中的标签是由人标注的。监督学习就是最常见的分类(注意和聚类区分)问题,通过已有的训练样本(即已知数据及其对应的输出)去训练得到一个最优模型,再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的。也就具有了对未知数据分类的能力。监督学习的目标往往是让计算机根据已有的数据集去学习我们已经创建好的分类系统,知道输入和输出结果之间的关系。根据这种已知的关系,训练得到一个最优的模型。也就是说,在监督学习中训练数据既有特征(feature)又有标签(label),通过训练,让机器可以自己找到特征和标签之间的联系,在面对只有特征没有标签的数据时,可以判断出标签。通俗一点,可以把机器学习理解为我们教机器如何做事情。

监督学习的分类:回归(Regression)、分类(Classification)

回归(Regression)
回归问题是针对于连续型变量的。

举个例子:预测房屋价格
假设想要预测房屋价格,绘制了下面这样的数据集。水平轴上,不同房屋的尺寸是平方英尺,在竖直轴上,是不同房子的价格,单位时(千万$)。给定数据,假设一个人有一栋房子,750平方英尺,他要卖掉这栋房子,想知道能卖多少钱。
这个时候,监督学习中的回归算法就能派上用场了,我们可以根据数据集来画直线或者二阶函数等来拟合数据。

在这里插入图片描述
通过图像,我们可以看出直线拟合出来的150k,曲线拟合出来是200k,所以要不断训练学习,找到最合适的模型得到拟合数据(房价)。
回归通俗一点就是,对已经存在的点(训练数据)进行分析,拟合出适当的函数模型y=f(x),这里y就是数据的标签,而对于一个新的自变量x,通过这个函数模型得到标签y。

分类(Classification)
和回归最大的区别在于,分类是针对离散型的,输出的结果是有限的。

举个例子:估计肿瘤性质
假设某人发现了一个乳腺瘤,在乳腺上有个z肿块,恶性瘤是危险的、有害的;良性瘤是无害的。

假设在数据集中,水平轴是瘤的尺寸,竖直轴是1或0,也可以是Y或N。在已知肿瘤样例中,恶性的标为1,良性的标为0。那么,如下,蓝色的样例便是良性的,红色的是恶性的。

在这里插入图片描述
这个时候,机器学习的任务就是估计该肿瘤的性质,是恶性的还是良性的。

那么分类就派上了用场,在这个例子中就是向模型输入人的各种数据的训练样本(这里是肿瘤的尺寸,当然现实生活里会用更多的数据,如年龄等),产生“输入一个人的数据,判断是否患有癌症”的结果,结果必定是离散的,只有“是”或“否”两种情况

所以简单来说分类就是,要通过分析输入的特征向量,对于一个新的向量得到其标签。

无监督学习

   定义:输入数据没有被标记,也没有确定的结果。样本数据类别未知,需要根据样本间的相似性对样本集进行分类(聚类,clustering)试图使类内差距最小化,类间差距最大化。通俗点将就是实际应用中,不少情况下无法预先知道样本的标签,也就是说没有训练样本对应的类别,因而只能从原先没有样本标签的样本集开始学习分类器设计。
  非监督学习目标不是告诉计算机怎么做,而是让它(计算机)自己去学习怎样做事情

接刚刚上面机器学习解释时用到的例子来更好理解一下二者的区别:

对于平时的考试来说,监督学习相当于我们做了很多题目都知道它的标准答案,所以在学习的过程中,我们可以通过对照答案,来分析问题找出方法,下一次在面对没有答案的问题时,往往也可以正确地解决。 而无监督学习,是我们不知道任何的答案,也不知道自己做得对不对,但是做题的过程中,就算不知道答案,我们还是可以大致的将语文,数学,英语这些题目分开,因为这些问题内在还是具有一定的联系。

如下图所示,在无监督学习中,我们只是给定了一组数据,我们的目标是发现这组数据中的特殊结构。例如我们使用无监督学习算法会将这组数据分成两个不同的簇,,这样的算法就叫聚类算法。
在这里插入图片描述

两者不同点

1.有监督学习方法必须要有训练集与测试样本。在训练集中找规律,而对测试样本使用这种规律。而非监督学习没有训练集,只有一组数据,在该组数据集内寻找规律。

2.有监督学习的方法就是识别事物,识别的结果表现在给待识别数据加上了标签。因此训练样本集必须由带标签的样本组成。而非监督学习方法只有要分析的数据集的本身,预先没有什么标签。如果发现数据集呈现某种聚集性,则可按自然的聚集性分类,但不予以某种预先分类标签对上号为目的。

3.非监督学习方法在寻找数据集中的规律性,这种规律性并不一定要达到划分数据集的目的,也就是说不一定要“分类”。这一点是比有监督学习方法的用途要广。 譬如分析一堆数据的主分量(决策树,找出哪个属性提供的信息最大),或分析数据集有什么特点都可以归于非监督学习方法的范畴。

图文来自:https://www.jianshu.com/p/682c88cee5a8

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_45704645/article/details/111322101

智能推荐

eclipse 导入工程后修改导入jar包时.classpath和.project文件拒绝访问-程序员宅基地

有时我们导入工程到eclipse时,会出现红色感叹号,原因是缺少jar包。此时我们可以去修改Libraries里面的内容,添加需要用到的jar包。在添加时会报错classpath文件拒绝访问。原因是classpath和.project文件在你的工程下面隐藏了。需要显示出来。转载于:https://www.cnblogs.com/zxwm/p/9961799.html..._.classpath 拒绝访问

HDFS概述(下)_active standby datanode介绍-程序员宅基地

Hadoop 核心-HDFS##1:HDFS 的 API 操作###1.1 配置Windows下Hadoop环境在windows系统需要配置hadoop运行环境,否则直接运行代码会出现以下问题:缺少winutils.exeCould not locate executable null \bin\winutils.exe in the hadoop binaries 缺少hadoop..._active standby datanode介绍

IDEA使用git提交到github时提示Push rejected: Push to xxx/master was rejected_there should be at least one change-set with a val-程序员宅基地

IDEA使用git提交到github时提示Push rejected: Push to xxx/master was rejected第一次提交项目到已创建的空库中时报错第一次提交项目到已创建的空库中时报错解决方法打开项目路径右键-Git Bash Here 打开git控制台git pull xxx master –allow-unrelated-historiesgit push -u origin master -f根据提示输入github用户名和密码登录github,这里xx_there should be at least one change-set with a valid issue key

win10、win7系统重装教程_ventoy安装win10_清风徐梦的博客-程序员宅基地

使用Ventoy工具制作启动优盘,进行Windows系统重装_ventoy安装win10

用request爬取腾讯新闻_腾讯新闻爬取-程序员宅基地

import requestsimport jsonimport xlwtimport os_腾讯新闻爬取

java8遍历集合_【记录】【java】JDK8新特性Stream方式遍历集合-程序员宅基地

由于是以流方式,所以怎么操作也不改变原来的集合1、普通遍历forEachList list = newArrayList();list.add("a");list.add("b");list.add("c");list.add("d");List list2 = newArrayList();list.stream().forEach(str->{list2.add(str);});Syst..._jdk8 集合遍历

随便推点

Linux 下的I/o-程序员宅基地

Linux的I/O机制经历了一下几个阶段的演进:(1)同步阻塞I/O: 用户进程进行I/O操作,一直阻塞到I/O操作完成为止。(2)同步非阻塞I/O: 用户程序可以通过设置文件描述符的属性O_NONBLOCK,I/O操作可以立即返回,但是并不保证I/O操作成功。(3)

Java实现 蓝桥杯 算法提高 P0101-程序员宅基地

算法提高 P0101时..._java蓝桥杯算法提高 p0101

正方教务管理系统服务器崩溃,正方教务管理系统应用中存在的问题及应对策略...-程序员宅基地

【摘要】在当前我国高等院校的教学管理软件之中,正方系统一直具有良好的口碑,尤其是在经过各所学校的实践检验之后,体现出稳定、安全与适用等特点。但是,由于我国高等教育领域改革的持续推进,这一系统也出现了一些问题。本文以以四川航天职业技术学院为例,分析了运用正方教务管理系统的现状和使用中存在的问题,并提出了进一步完善正方教务管理系统的几点对策。【关键词】正方教务管理系统;问题;对策教务管理系统一直是高等..._四川航天职业技术学院正方系统

dnw-linux的安装及使用-程序员宅基地

《Tiny6410刷机指南》介绍了如何用USB线下载uboot,kernel,filesystem到开发板的nand flash,USB下载文件用到工具dnw。遗憾的是该教程提供的是windows下dnw工具的用法,作为Linux平台的开发者,我们总希望把一切动作都转移到Linux环境中来,好让咱显得专业一点。(*^__^*)切入正题:开发环境:开发板:FriendlyAR..._dnw-linux

mysql根据年分组_mysql 按年、月、周、日分组查询_青妍的博客-程序员宅基地

以下列数据库表中的数据为例来说明按年、月、周、日的分组查询:按年查询:SELECT DATE_FORMAT(t.time,'%Y') year_time,sum(t.quantity) total FROM `time_demo` t GROUP BY year_time;结果为:按月查询:SELECT DATE_FORMAT(t.time,'%Y-%m') month_time,sum(t.qu..._mysql 按年分组

VirtualBox不能为虚拟电脑打开一个新任务——The VirtualBox kernel modules do not match this version of VirtualBox...-程序员宅基地

本文由荒原之梦原创,原文链接:http://zhaokaifeng.com/?p=608一、问题产生的环境物理机操作系统:Ubuntu 17.10 (Ubuntu版本查看命令: cat /etc/issue )二、问题产生的背景我目前使用的主力操作系统是Ubuntu,原来安装的VirtualBox是在Ubuntu的软件中心里下载的,但是无...