【数学基础】一份非常适合人工智能学习的概率论基础材料中文版 (CS229概率论)...-程序员宅基地

技术标签: 算法  机器学习  人工智能  统计学  概率论  

本文是斯坦福大学 CS229 机器学习课程的基础材料,原始文件下载[1]

原文作者:Arian Maleki , Tom Do

翻译:石振宇[2]

审核和修改制作:黄海广[3]

备注:请关注github[4]的更新。线性代数的翻译见(这篇文章)。

CS229 机器学习课程复习材料-概率论

概率论复习和参考

概率论是对不确定性的研究。通过这门课,我们将依靠概率论中的概念来推导机器学习算法。这篇笔记试图涵盖适用于CS229的概率论基础。概率论的数学理论非常复杂,并且涉及到“分析”的一个分支:测度论。在这篇笔记中,我们提供了概率的一些基本处理方法,但是不会涉及到这些更复杂的细节。

1. 概率的基本要素

为了定义集合上的概率,我们需要一些基本元素,

  • 样本空间 :随机实验的所有结果的集合。在这里,每个结果   可以被认为是实验结束时现实世界状态的完整描述。

  • 事件集(事件空间) :元素   的集合(称为事件)是   的子集(即每个   是一个实验可能结果的集合)。

    备注: 需要满足以下三个条件:

    (1) 

    (2) 

    (3) 

  • 概率度量 :函数 是一个 的映射,满足以下性质:

  • 对于每个  ,

  • 如果  是互不相交的事件 (即 当 时,  ), 那么:

以上三条性质被称为概率公理

举例

考虑投掷六面骰子的事件。样本空间为 。最简单的事件空间是平凡事件空间 .另一个事件空间是 的所有子集的集合。对于第一个事件空间,满足上述要求的唯一概率度量由 给出。对于第二个事件空间,一个有效的概率度量是将事件空间中每个事件的概率分配为 ,这里  是这个事件集合中元素的数量;例如

性质:

  • 如果 ,则:

  • (布尔不等式):

  • (全概率定律):如果 是一些互不相交的事件并且它们的并集是 ,那么它们的概率之和是 1

1.1 条件概率和独立性

假设 是一个概率非 0 的事件,我们定义在给定 的条件下  的条件概率为:

换句话说, )是度量已经观测到 事件发生的情况下 事件发生的概率,两个事件被称为独立事件当且仅当 (或等价地, )。因此,独立性相当于是说观察到事件 对于事件 的概率没有任何影响。

2. 随机变量

考虑一个实验,我们翻转 10 枚硬币,我们想知道正面硬币的数量。这里,样本空间 的元素是长度为 10 的序列。例如,我们可能有。然而,在实践中,我们通常不关心获得任何特定正反序列的概率。相反,我们通常关心结果的实值函数,比如我们 10 次投掷中出现的正面数,或者最长的背面长度。在某些技术条件下,这些函数被称为随机变量

更正式地说,随机变量 是一个的 函数。通常,我们将使用大写字母 或更简单的 (其中隐含对随机结果 的依赖)来表示随机变量。我们将使用小写字母 来表示随机变量的值。

举例:在我们上面的实验中,假设 是在投掷序列 中出现的正面的数量。假设投掷的硬币只有 10 枚,那么 只能取有限数量的值,因此它被称为离散随机变量。这里,与随机变量 相关联的集合取某个特定值 的概率为:

举例:假设 是一个随机变量,表示放射性粒子衰变所需的时间。在这种情况下, 具有无限多的可能值,因此它被称为连续随机变量。我们将 在两个实常数 之间取值的概率(其中 )表示为:

2.1 累积分布函数

为了指定处理随机变量时使用的概率度量,通常可以方便地指定替代函数(CDFPDFPMF),在本节和接下来的两节中,我们将依次描述这些类型的函数。

累积分布函数(CDF)是函数 ,它将概率度量指定为:

通过使用这个函数,我们可以计算任意事件发生的概率。图 1 显示了一个样本CDF函数。

图1:一个累计分布函数(CDF) 性质:
2.2 概率质量函数

当随机变量 取有限种可能值(即, 是离散随机变量)时,表示与随机变量相关联的概率度量的更简单的方法是直接指定随机变量可以假设的每个值的概率。特别地,概率质量函数(PMF)是函数  ,这样:

在离散随机变量的情况下,我们使用符号 表示随机变量 可能假设的一组可能值。例如,如果 是一个随机变量,表示十次投掷硬币中的正面数,那么

性质:

2.3 概率密度函数

对于一些连续随机变量,累积分布函数 处可微。在这些情况下,我们将概率密度函数(PDF)定义为累积分布函数的导数,即:

请注意,连续随机变量的概率密度函数可能并不总是存在的(即,如果它不是处处可微)。

根据微分的性质,对于很小的

CDFPDF(当它们存在时!)都可用于计算不同事件的概率。但是应该强调的是,任意给定点的概率密度函数(PDF)的值不是该事件的概率,即 。例如, 可以取大于 1 的值(但是 的任何子集上的积分最多为 1)。

性质:

2.4 期望

假设 是一个离散随机变量,其PMF为  是一个任意函数。在这种情况下, 可以被视为随机变量,我们将 的期望值定义为:

如果 是一个连续的随机变量,其PDF ,那么 的期望值被定义为:

直觉上, 的期望值可以被认为是 对于不同的 值可以取的值的“加权平均值”,其中权重由 给出。作为上述情况的特例,请注意,随机变量本身的期望值,是通过令 得到的,这也被称为随机变量的平均值。

性质:

  • 对于任意常数 

  • 对于任意常数 

  • (线性期望):

  • 对于一个离散随机变量

2.5 方差

随机变量 方差是随机变量 的分布围绕其平均值集中程度的度量。形式上,随机变量 的方差定义为:

使用上一节中的性质,我们可以导出方差的替代表达式:

其中第二个等式来自期望的线性,以及 相对于外层期望实际上是常数的事实。

性质:

  • 对于任意常数 

  • 对于任意常数 

举例:

计算均匀随机变量 的平均值和方差,任意 ,其PDF为  ,其他地方为 0。

举例:

假设对于一些子集 ,有 ,计算 ?

离散情况:

连续情况:

2.6 一些常见的随机变量

离散随机变量

  • 伯努利分布:硬币掷出正面的概率为 (其中: ),如果正面发生,则为 1,否则为 0。

  • 二项式分布:掷出正面概率为 (其中: )的硬币 次独立投掷中正面的数量。

  • 几何分布:掷出正面概率为 (其中: )的硬币第一次掷出正面所需要的次数。

  • 泊松分布:用于模拟罕见事件频率的非负整数的概率分布(其中: )。

连续随机变量

  • 均匀分布:在 之间每个点概率密度相等的分布(其中:$a

  • 指数分布:在非负实数上有衰减的概率密度(其中: )。

  • 正态分布:又被称为高斯分布。

一些随机变量的概率密度函数和累积分布函数的形状如图 2 所示。

图2:一些随机变量的概率密度函数(PDF)和累积分布函数(CDF)下表总结了这些分布的一些特性:

3. 两个随机变量

到目前为止,我们已经考虑了单个随机变量。然而,在许多情况下,在随机实验中,我们可能有不止一个感兴趣的量。例如,在一个我们掷硬币十次的实验中,我们可能既关心 出现的正面数量,也关心 连续最长出现正面的长度。在本节中,我们考虑两个随机变量的设置。

3.1 联合分布和边缘分布

假设我们有两个随机变量,一个方法是分别考虑它们。如果我们这样做,我们只需要 。但是如果我们想知道在随机实验的结果中, 同时假设的值,我们需要一个更复杂的结构,称为 联合累积分布函数,定义如下:

可以证明,通过了解联合累积分布函数,可以计算出任何涉及到 的事件的概率。

联合CDF 和每个变量的联合分布函数 分别由下式关联:

这里我们称 为  边缘累积概率分布函数

性质:

3.2 联合概率和边缘概率质量函数

如果 是离散随机变量,那么联合概率质量函数  由下式定义:

这里, 对于任意 , 并且 

两个变量上的联合 PMF分别与每个变量的概率质量函数有什么关系?事实上:

对于 类似。在这种情况下,我们称 的边际概率质量函数。在统计学中,将一个变量相加形成另一个变量的边缘分布的过程通常称为“边缘化”。

3.3 联合概率和边缘概率密度函数

假设 是两个连续的随机变量,具有联合分布函数 。在 中处处可微的情况下,我们可以定义联合概率密度函数

如同在一维情况下,,而是:

请注意,概率密度函数 的值总是非负的,但它们可能大于 1。尽管如此,可以肯定的是 

与离散情况相似,我们定义:

作为 边际概率密度函数(或边际密度),对于 也类似。

3.4 条件概率分布

条件分布试图回答这样一个问题,当我们知道 必须取某个值 时, 上的概率分布是什么?在离散情况下,给定 的条件概率质量函数是简单的:

假设分母不等于 0。

在连续的情况下,在技术上要复杂一点,因为连续随机变量的概率等于零。忽略这一技术点,我们通过类比离散情况,简单地定义给定 的条件概率密度为:

假设分母不等于 0。

3.5 贝叶斯定理

当试图推导一个变量给定另一个变量的条件概率表达式时,经常出现的一个有用公式是贝叶斯定理

对于离散随机变量

对于连续随机变量

3.6 独立性

如果对于 的所有值,,则两个随机变量 是独立的。等价地,

  • 对于离散随机变量, 对于任意  ,。

  • 对于离散随机变量,  当对于任意

  • 对于连续随机变量,  对于任意 

  • 对于连续随机变量,   ,当 对于任意

非正式地说,如果“知道”一个变量的值永远不会对另一个变量的条件概率分布有任何影响,那么两个随机变量 是独立的,也就是说,你只要知道 就知道关于这对变量 的所有信息。以下引理将这一观察形式化:

引理 3.1

如果 是独立的,那么对于任何 ,我们有:

利用上述引理,我们可以证明如果 无关,那么 的任何函数都与 的任何函数无关。

3.7 期望和协方差

假设我们有两个离散的随机变量 并且 是这两个随机变量的函数。那么 的期望值以如下方式定义:

对于连续随机变量 ,类似的表达式是:

我们可以用期望的概念来研究两个随机变量之间的关系。特别地,两个随机变量的协方差定义为:

使用类似于方差的推导,我们可以将它重写为:

在这里,说明两种协方差形式相等的关键步骤是第三个等号,在这里我们使用了这样一个事实,即 实际上是常数,可以被提出来。当 时,我们说 不相关。

性质:

  • (期望线性) 

  • 如果 相互独立, 那么 

  • 如果 相互独立, 那么 .

4. 多个随机变量

上一节介绍的概念和想法可以推广到两个以上的随机变量。特别是,假设我们有 个连续随机变量, 。在本节中,为了表示简单,我们只关注连续的情况,对离散随机变量的推广工作类似。

4.1 基本性质

我们可以定义 联合累积分布函数联合概率密度函数,以及给定 边缘概率密度函数为:

为了计算事件 的概率,我们有:

链式法则:

从多个随机变量的条件概率的定义中,可以看出:

独立性:对于多个事件, ,我们说  是相互独立的,当对于任何子集 ,我们有:

同样,我们说随机变量 是独立的,如果:

这里,相互独立性的定义只是两个随机变量独立性到多个随机变量的自然推广。

独立随机变量经常出现在机器学习算法中,其中我们假设属于训练集的训练样本代表来自某个未知概率分布的独立样本。为了明确独立性的重要性,考虑一个“坏的”训练集,我们首先从某个未知分布中抽取一个训练样本 ,然后将完全相同的训练样本的 个副本添加到训练集中。在这种情况下,我们有:

尽管训练集的大小为 ,但这些例子并不独立!虽然这里描述的过程显然不是为机器学习算法建立训练集的明智方法,但是事实证明,在实践中,样本的不独立性确实经常出现,并且它具有减小训练集的“有效大小”的效果。

4.2 随机向量

假设我们有n个随机变量。当把所有这些随机变量放在一起工作时,我们经常会发现把它们放在一个向量中是很方便的...我们称结果向量为随机向量(更正式地说,随机向量是从 的映射)。应该清楚的是,随机向量只是处理 个随机变量的一种替代符号,因此联合概率密度函数和综合密度函数的概念也将适用于随机向量。

期望:

考虑 中的任意函数。这个函数的期望值 被定义为

其中, 是从 个连续积分。如果 是从 的函数,那么 的期望值是输出向量的元素期望值,即,如果 是:

那么,

协方差矩阵:对于给定的随机向量 ,其协方差矩阵 平方矩阵,其输入由 给出。从协方差的定义来看,我们有:

其中矩阵期望以明显的方式定义。协方差矩阵有许多有用的属性:

  • ;也就是说, 是正半定的。

  • ;也就是说, 是对称的。

4.3 多元高斯分布

随机向量上概率分布的一个特别重要的例子叫做多元高斯或多元正态分布。随机向量 被认为具有多元正态(或高斯)分布,当其具有均值 和协方差矩阵 (其中 指对称正定 矩阵的空间)

我们把它写成 。请注意,在 的情况下,它降维成普通正态分布,其中均值参数为 ,方差为

一般来说,高斯随机变量在机器学习和统计中非常有用,主要有两个原因:

首先,在统计算法中对“噪声”建模时,它们非常常见。通常,噪声可以被认为是影响测量过程的大量小的独立随机扰动的累积;根据中心极限定理,独立随机变量的总和将趋向于“看起来像高斯”。

其次,高斯随机变量便于许多分析操作,因为实际中出现的许多涉及高斯分布的积分都有简单的封闭形式解。我们将在本课程稍后遇到这种情况。

5. 其他资源

一本关于CS229所需概率水平的好教科书是谢尔顿·罗斯的《概率第一课》(A First Course on Probability by Sheldon Ross)。

参考资料

[1]

原始文件下载: http://cs229.stanford.edu/summer2019/cs229-prob.pdf

[2]

石振宇: https://github.com/szy2120109

[3]

黄海广: https://github.com/fengdu78

[4]

github: https://github.com/fengdu78/Data-Science-Notes/tree/master/0.math

本文首发于“机器学习初学者”公众号

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/fengdu78/article/details/107970308

智能推荐

【阿里云】DCDN全站加速介绍及配置_阿里云dcdn配置多个服务器-程序员宅基地

文章浏览阅读5.2k次。【阿里云】DCDN全站加速介绍及配置阿里云自主研发的全站加速产品(Dynamic Route for Content Delivery Network),是融合了动态加速和静态加速技术的CDN产品。该产品一站式解决了页面动静态资源混杂、跨运营商、网络不稳定、单线源站、突发流量、网络拥塞等诸多因素导致的响应慢、丢包、服务不稳定的问题,提升全站性能和用户体验。智能区分动静态内容:域名接入阿里云全..._阿里云dcdn配置多个服务器

TRACCAR支持的设备列表-程序员宅基地

文章浏览阅读1.7k次。GT06_traccar支持的设备

基于连接的每IP限速实现_netfilter限速-程序员宅基地

文章浏览阅读9.7k次,点赞2次,收藏2次。在《修改netfilter的limit模块实现基于单个ip的流量监控》中,介绍了一种方式实现针对一个网段每个IP地址的流量控制,如果细化到流,那个就叫做针对每个流的流量控制,我们知道,一个IP地址可以和很多流相关联,针对流的流控限制的不是主机,而是主机上的一个连接,它的约束要比针对IP地址的流控更加小。 然而如何来实现这个呢?实际上在Linux中,几乎所有的流控都可以用TC工具配置出_netfilter限速

Java 获取linux根目录下的文件夹_java获取指定文件夹下的所有文件名-程序员宅基地

文章浏览阅读1.8k次。原文链接:java获取指定文件夹下的所有文件名_tomorrowzm的专栏-程序员宅基地_java查询指定文件夹下的所有文件输出文件名 site:blog.csdn.net​blog.csdn.netpackage 这里我们主要使用的是listFiles函数来得到file文件夹下的所有文件,包括文件夹。然后通过File类的isFile和isDirectory来区分,如果是文件,就输出对应的信息,如..._java读取linux服务器下指定目录下的文件名称

Update批量更新(高性能、动态化)_批量update-程序员宅基地

文章浏览阅读7.6k次,点赞7次,收藏20次。文章目录前言一、环境开发环境测试环境二、灵光乍现MyBatis-Plus源码2.初见真正的批量更新语法三、开工基础类搭建SysUser(表sys_user实体类)Stash(拼接SQL服务,内部类)TableCacheDTO(数据表信息存储)TableCache(表信息缓存)MySQL拼接常量类缓存数据库表信息1. 继承AbstractMethod2. 自定义sql注入器3. 自定义注入器生效事务工具类制作SQL工具类SQL执行类四、测试100条测试数据1千条测试数据1万条测试数据10万条测试数据五、弊端总_批量update

PID优化系列之目标值平滑(斜坡函数梯形图+完整SCL代码)_控制斜坡pid-程序员宅基地

文章浏览阅读2.2k次,点赞4次,收藏6次。作为PID系列专题,这些文章,我都会给出PLC梯形图的源代码和SCL代码方便大家对比学习,文章中的错误和不严谨之处,也请大家指正。1、专题1:设定值响应问题 2、PLC的梯形图代码,这部分我们可以做成功能块,启用PID运算时,我们可以对设定值进行线性化平滑处理,也可以不处理。......_控制斜坡pid

随便推点

JAVA文件上传多方式_java文件上传读取文件-程序员宅基地

文章浏览阅读2.7k次,点赞5次,收藏3次。JAVA文件上传多种方式_java文件上传读取文件

微平均的服务拓扑管理与可视化-程序员宅基地

文章浏览阅读350次,点赞9次,收藏9次。1.背景介绍微平均(Microservices)是一种软件架构风格,它将应用程序拆分成小的、独立运行的服务。这些服务通过轻量级的通信协议(如HTTP和gRPC)相互协同,以实现整个应用程序的功能。微服务架构的优势在于它的可扩展性、灵活性和容错性。然而,随着微服务数量的增加,服务之间的依赖关系也变得复杂,这导致了服务拓扑管理和可视化的问题。在这篇文章中,我们将讨论如何使用微平均的服务拓扑管理..._微服务 拓扑 可视化

无法安全地连接到此页面,这可能是因为该站点使用过期的或不安全的 TLS 安全设置._无法安全地连接到此页面 这可能是因为该站点使用过期的或不安全的 tls 安全设置。-程序员宅基地

文章浏览阅读2w次,点赞3次,收藏15次。问题描述:网页中的链接打不开,页面显示如标题所述,原因可能是因为我之前打开了很多内容,后来电脑没电直接关机了,导致出错。解决方法:1、按住win+R打开运行,输入inetcpl.cpl,点击确定,打开internet属性。2、打开在internet属性后,点击【安全】选卡,再点击【安全】页面中的“Internet”,选择“自定义级别”。如下图所示:3、在中间偏下位置找到“显示混合模式”,将其改为“启用”。如下图所示:4、再在Internet属性窗口中点击【高级】选项卡,找到“使用TLS 1_无法安全地连接到此页面 这可能是因为该站点使用过期的或不安全的 tls 安全设置。

B/S與C/S_当今世界开发模式技术架构的两大主流技术?-程序员宅基地

文章浏览阅读1.3k次。一、什么是C/S和B/S 要想对“C/S”和“B/S”技术发展变化有所了解,首先必须搞清楚三个问题。 第一、什么是C/S结构。 C/S (Client/Server)结构,即大家熟知的客户机和服务器结构。它是软件系统体系结构,通过它可以充分利用两端硬件环境的优势,将任务合理分配到Client端和Server端来实现,降低了系统的通讯开销。目前大多数应用软件系统都是Client/Server形式的两_当今世界开发模式技术架构的两大主流技术?

MDK配置jlink仿真器步骤_mdk5如何定义swd-程序员宅基地

文章浏览阅读5.5k次。MDK配置jlink仿真器步骤:1.如下图2.设置为SW模式3.选择处理器的flash大小4.设置utilities5.查看是否是SW模式6.查看Flash大小重新编译程序download就好了..._mdk5如何定义swd

渗透测试17---Metasploit (MSF) 部署与功能_msf war包部署 渗透-程序员宅基地

文章浏览阅读7.5k次。MetasploitMetasploit Framework简称MSF(ruby语言开发的)实验环境准备Metasploit的使用第一次使用要进行数据库的初始化msfdb init用的时候就:msfconsole也可以:msfdb run (就等于msfdb init 和msfconsole)Metasploit指令search ms17_010 会列出许多模..._msf war包部署 渗透

推荐文章

热门文章

相关标签