论文地址 :Towards Faster Training of Global Covariance Pooling Networks by Iterative Matrix Square Root Normalization
工程地址:github 链接
深层卷积神经网络在计算机视觉的许多领域都获得了很大成功,这个网络实际上可以看成是学习和表示的过程,即经过层次化的卷积以及池化来学习图像特征,最后经过一个全局平均池化得到一个图像层面的表示,然后送给分类器进行分类。
该论文系列的工作重点关注最早在ICLR2014上提出的现在已经广泛的应用于主流的深层网络的全局平均池化,但是全局平均池化的问题在于,网络经过不断地学习得到一个表达能力很强的feature,但是最后在表示这个图像的时候却做了一个全局的均值,统计意义上来讲均值知识一阶的信息,这就让人困惑,为什么不能选择表达能力更强的表示呢?
基于这样的思考,论文作者团队提出了用一个二阶甚至高阶的统计方法来替换一阶的全局平均池化,即将一阶的均值替换为二阶的协方差,幂值取经验值0.5,解决了小样本高纬度难以统计的问题并且有效利用了协方差矩阵的几何结构,系列工作包括先前的CVPR2016(数学理论的推导和验证),ICCV2017(首次在大规模图像识别中使用并性能优异),以及CVPR2018也就是此次阅读的论文的迭代计算矩阵平方根提升速率。{2019-4-16刚放出来系列工作的最新进展-Deep CNNs Meet Global Covariance Pooling:Better Representation and Generalization}
卷积神经网络中使用全局协方差池化在许多任务上取得了显著的效果,但是特征值分解(EIG)和奇异值分解(SVD)在由于GPU缺乏对其的支持导致这种方法训练缓慢,为了解决这个问题,改论文提出使用迭代式的矩阵平方根算法来快速地对全局协方差矩阵池化进行端到端的训练。本质上,论文提出的方法是一个带有循环嵌套的有向图的元层(meta-layer),这个元层由三个连续的层组成,分别进行预正则化,牛顿-舒尔茨迭代和后补偿处理。该方法比之前基于EIG或者SVD计算矩阵平方根的方法快很多,因为方法中仅仅包含矩阵乘法,适合并行能力较强的GPU进行运算。而且论文提出的方法应用于ResNet能够加速ResNet的收敛从而加速网络训练,论文提出的方法在几个通用数据集上都取得了SOTA效果。
略
论文这一节首先概述文章提出的iSQRT-COV网络,然后解释了矩阵平方根的计算和正向传播,最后推导对应的梯度后向传播。
论文提到的方法的流程如上图所示,卷积层(带有ReLU)输出一个 h × w × d h \times w \times d h×w×d的张量,将这个张量调整为一个维度为d特征数为 n = w h n=wh n=wh特征矩阵X,然后通过 ∑ = X I ˉ X T \sum =X \bar IX^T ∑=XIˉXT计算协方差矩阵应用二阶的池化,其中 I ˉ = 1 n ( I − 1 m 1 ) \bar I=\frac{1}{n}(I-\frac{1}{m}1) Iˉ=n1(I−m11),而且I和1分别是 n × n n \times n n×n的单位矩阵和全是1的矩阵。
论文提出的meta-layer{循环嵌套的有向图结构}包含三个层,第一层(pre-normalization)将协方差矩阵按照它的迹或者F-范数进行划分以保证下一个阶段的牛顿-舒尔茨迭代的可收敛性,第二层则是一个循环结构,进行一定次数的耦合矩阵方程迭代以计算合适的矩阵平方根,第一层大幅调整了输入数据的量级,所以设计第三层的时候需要乘上平方根矩阵的迹。meta-layer的输出是一个对称矩阵,论文将这个矩阵的上三角区连成一个 d ( d + 1 ) / 2 d(d+1)/2 d(d+1)/2维的向量,并将其交付后续卷积网络。
矩阵特别是协方差矩阵的平方根都是正定矩阵,正定矩阵能够通过EIG或者SVD计算一个唯一的平方根,给定A为一个正定矩阵,其EIG可以写作 A = U d i a g ( λ i ) U T A=Udiag(\lambda_i)U^T A=Udiag(λi)UT,其中U是一个正交矩阵, d i a g ( λ i ) diag(\lambda_i) diag(λi)是A的特征值组成的对角矩阵,则A的一个平方根就是 Y = U d i a g ( λ i 1 / 2 ) U T Y=Udiag(\lambda_i^{1/2})U^T Y=Udiag(λi1/2)UT,而且有 Y 2 = A Y^2=A Y2=A。
牛顿舒尔茨迭代
一种计算矩阵平方根的方法,为了计算A的平方根Y,假定对于 k = 1 , . . . , N , Y 0 = A , Z 0 = I k=1,...,N,Y_0=A,Z_0=I k=1,...,N,Y0=A,Z0=I,则耦合迭代可以写成如下形式:
Y k = Y k − 1 p l m ( Z k − 1 Y k − 1 ) q l m ( Z k − 1 Y k − 1 ) − 1 Y_k=Y_{k-1}p_{lm}(Z_{k-1}Y_{k-1})q_{lm}(Z_{k-1}Y_{k-1})^{-1} Yk=Yk−1plm(Zk−1Yk−1)qlm(Zk−1Yk−1)−1
(1) Z k = p l m ( Z k − 1 Y k − 1 ) q l m ( Z k − 1 Y k − 1 ) − 1 Z k − 1 Z_k=p_{lm}(Z_{k-1}Y_{k-1})q_{lm}(Z_{k-1}Y_{k-1})^{-1}Z_{k-1}\tag{1} Zk=plm(Zk−1Yk−1)qlm(Zk−1Yk−1)−1Zk−1(1)
其中 q l m 和 p l m q_{lm}和p_{lm} qlm和plm是多项式, l 和 m l和m l和m是非负整数,公式1局部收敛:如果||A-I||<1{
∣ ∣ ⋅ ∣ ∣ ||\cdot|| ∣∣⋅∣∣表示一致矩阵的范数},则 Y k Y_k Yk和 Z k Z_k Zk收敛至Y和Y − 1 ^{-1} −1。该族迭代中之前的小误差不会得到放大。当 l = 0 , m = 1 l=0,m=1 l=0,m=1时称迭代为牛顿-舒尔茨迭代,此时与论文的目的即没有GPU不友好型的矩阵的逆的计算:
Y k = 1 2 Y k − 1 ( 3 I − Z k − 1 Y k − 1 ) Y_k=\frac{1}{2}Y_{k-1}(3I-Z_{k-1}Y_{k-1}) Yk=21Yk−1(3I−Zk−1Yk−1)
(2) Z k = 1 2 ( 3 I − Z k − 1 Y k − 1 ) Z k − 1 Z_k=\frac{1}{2}(3I-Z_{k-1}Y_{k-1})Z_{k-1}\tag{2} Zk=21(3I−Zk−1Yk−1)Zk−1(2)
公式2中只涉及矩阵乘法,适合GPU上的并行计算,与通过EIG方法计算的精确的矩阵平方根相比,这种方法仅需要几次迭代就能得到一个较为准确的解,通过交叉验证的方法设置一个迭代次数N,与EIG或者SVD相比,实验表明这种方法得到了相同甚至略优的结果,迭代次数不超过5次。
正规化预处理和补偿式后处理 牛顿-舒尔茨迭代知识局部收敛通过对协方差矩阵进行如下处理{除以迹或者F-范数}:
A = 1 t r ( Σ ) Σ 或 者 1 ∣ ∣ Σ ∣ ∣ F Σ A=\frac{1}{tr(\Sigma)}\Sigma 或者\frac{1}{||\Sigma||_F}\Sigma A=tr(Σ)1Σ或者∣∣Σ∣∣F1Σ
设 λ i \lambda_i λi为 Σ \Sigma Σ的特征值,则 t r ( Σ ) = Σ i λ i , ∣ ∣ Σ ∣ ∣ F = Σ i λ i 2 tr(\Sigma)=\Sigma_i\lambda_i,||\Sigma||_F=\sqrt{\Sigma_i\lambda_i^2} tr(Σ)=Σiλi,∣∣Σ∣∣F=Σiλi2。而且可以看出 ∣ ∣ Σ − I ∣ ∣ 2 ||\Sigma-I||_2 ∣∣Σ−I∣∣2等于 1 − λ i Σ i λ i 或 者 1 − λ 1 Σ i λ i 2 1-\frac{\lambda_i}{\Sigma_i\lambda_i}或者1-\frac{\lambda_1}{\sqrt{\Sigma_i\lambda_i^2}} 1−Σiλiλi或者1−Σiλi2λ1,和最大奇异值 Σ − I \Sigma-I Σ−I相等,都小于1,所以收敛条件是满足的。
以上对协方差矩阵的处理会降低数据的数量级,从而对网络有负面的影响,由此在牛顿舒尔茨迭代后需要根据预处理的操作进行一次后处理,即:
(4) C = t r ( Σ ) Y N 或 者 C = ∣ ∣ Σ ∣ ∣ F Y N C=\sqrt{ tr(\Sigma)}Y_N或者C=\sqrt{||\Sigma||_F}Y_N\tag{4} C=tr(Σ)YN或者C=∣∣Σ∣∣FYN(4)
另一个可选的后处理方式就是Batch Normlization(BN),甚至不加任何后处理方式,但是论文的实验表明不叫后处理ResNet无法收敛,使用BN后处理话比论文提到的后处理会降一个百分点。
各个层的梯度是通过矩阵反向传播实现的,它建立在一阶泰勒公式的基础上,论文该节以使用矩阵的迹的预处理对相应的梯度进行说明。
后处理的BP 给定 ∂ l ∂ C \frac{\partial l}{\partial C} ∂C∂l, l l l是损失函数,根据链式法则, t r ( ( ∂ l ∂ C ) T d C ) = t r ( ( ∂ l ∂ Y N ) d Y N + ( ∂ l ∂ Σ ) T d Σ ) tr((\frac{\partial l}{\partial C})^TdC)=tr((\frac{\partial l}{\partial Y_N})^dY_N+(\frac{\partial l}{\partial \Sigma})^Td\Sigma) tr((∂C∂l)TdC)=tr((∂YN∂l)dYN+(∂Σ∂l)TdΣ),经过一系列计算有:
∂ l ∂ Y N = t r ( Σ ) ∂ l ∂ C \frac{\partial l}{\partial Y_N}=\sqrt{tr(\Sigma)}\frac{\partial l}{\partial C} ∂YN∂l=tr(Σ)∂C∂l
(5) ∂ l ∂ Σ ∣ p o s t = 1 2 t r ( Σ ) ( ( ∂ l ∂ C ) T Y N ) I \frac{\partial l}{\partial \Sigma}|_{post}=\frac{1}{2\sqrt{tr(\Sigma)}}((\frac{\partial l}{\partial C})^TY_N)I\tag{5} ∂Σ∂l∣post=2tr(Σ)1((∂C∂l)TYN)I(5)
牛顿-舒尔茨迭代的BP 上一阶段后,计算损失函数关于 ∂ l ∂ Y k \frac{\partial l}{\partial {Y_k}} ∂Yk∂l和 ∂ l ∂ Z k \frac{\partial l}{\partial Z_k} ∂Zk∂l的偏导,其中,k=N-1,…,1,其中 ∂ l ∂ Y N \frac{\partial l}{\partial Y_N} ∂YN∂l通过公式5计算, ∂ l ∂ Z N = 0 \frac{\partial l}{\partial Z_N}=0 ∂ZN∂l=0。因为协方差矩阵 Σ \Sigma Σ是对称的,所以从公式2可以看出 Y k 和 Z k Y_k和Z_k Yk和Zk都是对称的,根据矩阵后向传播的链式法则和一些列计算,得到当 k = N , . . . , 2 k=N,...,2 k=N,...,2,有:
最后一步是损失函数关于A的偏导,计算公式如下:
预处理的BP 从后处理层反向传播的信息需要结合损失函数 l l l关于协方差矩阵 Σ \Sigma Σ的梯度,根据公式3,可以得到:
如果预处理采用F-范数的话,则后处理的梯度变为:
响应的预处理阶段损失函数关于协方差矩阵的梯度可以写为:
同时公式6中计算的牛顿-舒尔茨迭代的后向梯度保持不变。
最终,给定 ∂ l ∂ Σ \frac{\partial l}{\partial \Sigma} ∂Σ∂l,损失函数 l l l关于输入矩阵的梯度可以这样计算:
预处理
后处理
论文提出的通过迭代方法计算矩阵平方根的协方差池化网络iSQRT-COV Network能够进行端到端的训练,通过几次牛顿-舒尔茨迭代使得网络全程在GPU上计算的同时取得了SOTA效果。
欢迎扫描二维码关注微信公众号 深度学习与数学 [每天获取免费的大数据、AI等相关的学习资源、经典和最新的深度学习相关的论文研读,算法和其他互联网技能的学习,概率论、线性代数等高等数学知识的回顾]
文章浏览阅读3.2k次。本文研究全球与中国市场分布式光纤传感器的发展现状及未来发展趋势,分别从生产和消费的角度分析分布式光纤传感器的主要生产地区、主要消费地区以及主要的生产商。重点分析全球与中国市场的主要厂商产品特点、产品规格、不同规格产品的价格、产量、产值及全球和中国市场主要生产商的市场份额。主要生产商包括:FISO TechnologiesBrugg KabelSensor HighwayOmnisensAFL GlobalQinetiQ GroupLockheed MartinOSENSA Innovati_预计2026年中国分布式传感器市场规模有多大
文章浏览阅读1.1k次,点赞2次,收藏12次。常用组合逻辑电路结构——为IC设计的延时估计铺垫学习目的:估计模块间的delay,确保写的代码的timing 综合能给到多少HZ,以满足需求!_基4布斯算法代码
文章浏览阅读3.3k次,点赞3次,收藏5次。OpenAI Manager助手(基于SpringBoot和Vue)_chatgpt网页版
文章浏览阅读2.2k次。USACO自1992年举办,到目前为止已经举办了27届,目的是为了帮助美国信息学国家队选拔IOI的队员,目前逐渐发展为全球热门的线上赛事,成为美国大学申请条件下,含金量相当高的官方竞赛。USACO的比赛成绩可以助力计算机专业留学,越来越多的学生进入了康奈尔,麻省理工,普林斯顿,哈佛和耶鲁等大学,这些同学的共同点是他们都参加了美国计算机科学竞赛(USACO),并且取得过非常好的成绩。适合参赛人群USACO适合国内在读学生有意向申请美国大学的或者想锻炼自己编程能力的同学,高三学生也可以参加12月的第_usaco可以多次提交吗
文章浏览阅读394次。1.1 存储程序1.2 创建存储过程1.3 创建自定义函数1.3.1 示例1.4 自定义函数和存储过程的区别1.5 变量的使用1.6 定义条件和处理程序1.6.1 定义条件1.6.1.1 示例1.6.2 定义处理程序1.6.2.1 示例1.7 光标的使用1.7.1 声明光标1.7.2 打开光标1.7.3 使用光标1.7.4 关闭光标1.8 流程控制的使用1.8.1 IF语句1.8.2 CASE语句1.8.3 LOOP语句1.8.4 LEAVE语句1.8.5 ITERATE语句1.8.6 REPEAT语句。_mysql自定义函数和存储过程
文章浏览阅读188次。半导体二极管——集成电路最小组成单元。_本征半导体电流为0
文章浏览阅读2.8k次,点赞3次,收藏18次。游戏水面特效实现方式太多。咱们这边介绍的是一最简单的UV动画(无顶点位移),整个mesh由4个顶点构成。实现了水面效果(左图),不动代码稍微修改下参数和贴图可以实现岩浆效果(右图)。有要思路是1,uv按时间去做正弦波移动2,在1的基础上加个凹凸图混合uv3,在1、2的基础上加个水流方向4,加上对雾效的支持,如没必要请自行删除雾效代码(把包含fog的几行代码删除)S..._unity 岩浆shader
文章浏览阅读5k次。广义线性模型是线性模型的扩展,它通过连接函数建立响应变量的数学期望值与线性组合的预测变量之间的关系。广义线性模型拟合的形式为:其中g(μY)是条件均值的函数(称为连接函数)。另外,你可放松Y为正态分布的假设,改为Y 服从指数分布族中的一种分布即可。设定好连接函数和概率分布后,便可以通过最大似然估计的多次迭代推导出各参数值。在大部分情况下,线性模型就可以通过一系列连续型或类别型预测变量来预测正态分布的响应变量的工作。但是,有时候我们要进行非正态因变量的分析,例如:(1)类别型.._广义线性回归模型
文章浏览阅读69次。环境保护、 保护地球、 校园环保、垃圾分类、绿色家园、等网站的设计与制作。 总结了一些学生网页制作的经验:一般的网页需要融入以下知识点:div+css布局、浮动、定位、高级css、表格、表单及验证、js轮播图、音频 视频 Flash的应用、ul li、下拉导航栏、鼠标划过效果等知识点,网页的风格主题也很全面:如爱好、风景、校园、美食、动漫、游戏、咖啡、音乐、家乡、电影、名人、商城以及个人主页等主题,学生、新手可参考下方页面的布局和设计和HTML源码(有用点赞△) 一套A+的网_垃圾分类网页设计目标怎么写
文章浏览阅读614次,点赞7次,收藏11次。之前找到一个修改 exe 中 DLL地址 的方法, 不太好使,虽然能正确启动, 但无法改变 exe 的工作目录,这就影响了.Net 中很多获取 exe 执行目录来拼接的地址 ( 相对路径 ),比如 wwwroot 和 代码中相对目录还有一些复制到目录的普通文件 等等,它们的地址都会指向原来 exe 的目录, 而不是自定义的 “lib” 目录,根本原因就是没有修改 exe 的工作目录这次来搞一个启动程序,把 .net 的所有东西都放在一个文件夹,在文件夹同级的目录制作一个 exe._.net dll 全局目录
文章浏览阅读1.5k次。本文为转载,原博客地址:http://blog.csdn.net/hujingshuang/article/details/46910259简介 BRIEF是2010年的一篇名为《BRIEF:Binary Robust Independent Elementary Features》的文章中提出,BRIEF是对已检测到的特征点进行描述,它是一种二进制编码的描述子,摈弃了利用区域灰度..._breif description calculation 特征点
文章浏览阅读4.1k次,点赞21次,收藏79次。本文是《基于SpringBoot的房屋租赁管理系统》的配套原创说明文档,可以给应届毕业生提供格式撰写参考,也可以给开发类似系统的朋友们提供功能业务设计思路。_基于spring boot的房屋租赁系统论文