人体姿态2019(四)SemGCN——Semantic Graph Convolutional Networks for 3D Human Pose Regression-程序员宅基地

技术标签: 图像处理  

在这里插入图片描述
原文:Semantic Graph Convolutional Networks for 3D Human Pose Regression
收录:CVPR2019
代码:Pytorch


Abstract

  • 用于3D回归的图卷积网络(GCN)的问题:目前的GCNs算法存在一些限制,即卷积滤波器感受野小以及每个节点共享变换矩阵。

        为解决上面限制,本文提出 SemGCN,一种新的神经网络结构,用来处理 图结构数据 的回归任务。

        其原理则是:SemGCN学会捕获语义信息,如局部和全局节点关系,这些信息不是明确表示在图中,这些语义关系可以通过GT值进行端到端训练来学习,不需要额外的监督或自定规则,最后进行全面的研究来验证SemGCN,结果表明SemGCN在使用90%的参数的情况下具有更好的性能。

 


1. Introduction

        CNNs目前成功解决图像分类、目标检测以及生成等经典CV问题,其中输入图像是规则的网格状结构(例如size = H×W)。然而现实中的许多任务,例如分子结构、社交网络和3D网格,通常都是不规则的结构,而CNNs在这方面受限。

        为解决这一限制,开始引入 图卷积网络(GCNs),但是,却有以下两个局限性,使得GCNs不能直接应用于回归问题。① 为解决图节点可能具有多个邻域的问题,卷积滤波器对所有节点共享相同的权值矩阵,CNNs则不是这样;② GCNs将滤波器限制在每个节点的一步邻域内运行,那么卷积核的感受野被限制为1,这当网络加深时会严重影响信息交换的效率。

        一波未平一波又起,为解决上面所有限制,本文提出 SemGCN。在给定图中,研究学习语义信息的编码,例如局部和全局节点关系。使用SemGCN来实现2D到3D人体位姿回归。将一个2D人体姿态(或可选的相关图像)作为输入,最后预测3D关节在特定坐标空间中的位置。由于2D和3D姿势都可以用2D或3D坐标自然地表示,那么SemGCN可以显式地利用它们的空间关系。

        最后本文方法的有效性通过严格**消融研究(ablation study)**的综合评估以及与当前先进方法比较来验证。在Human3.6M上测试,只使用2D关节坐标作为输入,并且使用90%的参数。与此同时,还展示了SemGCN的可视化结果,定性地证明方法的有效性。


 
主要贡献:

  • 提出了一种改进的图卷积操作——语义图卷积(SemGConv),它来源于CNNs,其关键思想是学习图中隐含的先验边的信道加权,然后将其与核矩阵(kernel matrices)相结合。显著提高图卷积的能力;
  • 引入SemGCN,其中SemGConv和非局部层交错。该体系结构捕获节点之间的本地和全局关系;
  • 提出端到端的学习框架,表明SemGCN中还可以加入外部信息,如图像内容,进一步提高3D人体位姿回归的性能。

 


2. Related work

  • Graph convolutional networks
     
           将神经网络应用到输入为 类图结构(graph-like structures) 是深度学习一个重要课题。对于有向无环图的数据尝试使用 递归神经网络(RNN) 来解决;之后GNN被引入后,GNN则成为处理任意图数据更常见的解决方案;再之后提出GCN,该网络主要有两种主流方法:① 基于光谱的观点(spectral perspective);② 基于空间的观点(spatial perspective)。本文采用第二种方法,将卷积滤波器直接应用于图节点及其邻居节点上。
  1. 基于光谱的观点(spectral perspective):图卷积中的位置信息被看做是以光谱分析的形式;
  2. 基于空间的观点(spatial perspective):卷积核直接被应用在图节点和邻居节点上。
  • 3D pose estimation
     
           Lee和Chen等人首先从相应的2D投影来推断3D关节。后来的方法要么利用最近邻来精炼推断的位姿,要么提取hand-craft特征来进行后期回归。利用深度神经网络寻找2D到3D关节位置映射的研究越来越多。有些是直接从图像中预测3D位姿,还有一些3D姿态回归方法要么将2D热图与体积表示相结合,要么估计成对距离矩阵或者图像线索。

 


3. Semantic Graph Convolutional Networks

 

3.1. ResGCN: A Baseline

notation meaning
G {V, E}
V K个节点
K 总节点数
E
i i i i i i 个节点
j ∈ N ( i ) j\in N(i) jN(i) i i i 个节点的第 j j j 个邻节点
x i ⃗ ( l ) ∈ R D l \vec{x_{i}}^{(l)}\in R^{D_{l}} xi (l)RDl 节点 i i i l l l 次卷积之前的表示
x i ⃗ ( l + 1 ) ∈ R D l + 1 \vec{x_{i}}^{(l+1)}\in R^{D_{l+1}} xi (l+1)RDl+1 节点 i i i l l l 次卷积之后的表示
X ( l ) ∈ R D l × K X^{(l)}\in R^{D_{l}\times K} X(l)RDl×K 总节点矩阵
W ∈ R D l + 1 × D l W\in R^{D_{l+1}\times D_{l}} WRDl+1×Dl 参数矩阵
A ~ \tilde{A} A~ 邻接矩阵A的对称标准化

在这里插入图片描述
       Wang等人利用残差连接(residual connections)对基于等式(1)的深度图网络 (deep graph network)进行重新修改,来学习图像特征与3D顶点之间的映射,本文将ResGCN作为基准网络(baseline)。

       等式(1)有两大缺点。首先,为了在任意拓扑结构的节点上运用卷积,必须对所有边共享核矩阵W,相邻节点或图中的内部结构的关系没有得到很好的利用。其次,以前的工作只收集每个节点的一阶邻居的特性,这使得感受野被固定为1。


 

3.2. Semantic Graph Convolutions

在这里插入图片描述

  • M:可学的加权矩阵, M ∈ R K × K M\in R^{K\times K} MRK×K
  • ρ i \rho_{i} ρi:Softmax非线性;
  • ⊙ \odot :逻辑同或运算, ⊕ \oplus 则是异或。

       如Fig.1(d)所示,还可以对等式2进一步扩展:
在这里插入图片描述

  • M d ∈ R K × K M_{d}\in R^{K\times K} MdRK×K :第d通道的权值矩阵 (如Fig.1(d):对输出节点的每个通道d采用不同的权值矩阵);
  • w ⃗ d \vec{w} _{d} w d:变换矩阵W的第d行。
  • ∥ \parallel :通道串联

 

3.3. Network Architecture

在这里插入图片描述

  • W x W_{x} Wx:初始化为0;
  • f ( x i , x j ) f(x_{i},x_{j}) f(xi,xj):计算节点 i i i 和周边节点 j j j 的affinity(关系密切程度);

       实际上,对于等式(4)可以通过 非局部层 (non-local layers) 来实现;基于等式(3)和(4),本文提出新的网络结构用于回归任务——SemGCN,网络中的SemGConv和非局部层交错来捕获节点之间的局部和全局语义关系,如图2所示:

在这里插入图片描述
       上图在网络开始时,先使用一个SemGConv将输入映射到潜在空间(latent space);网络最后还有一个附加的SemGConv,用于将编码后的特性投影回输出空间。注意:若将SemGConv替换为vanilla graph convolutions,并且所有非局部层都删除,那么SemGCN变为ResGCN。

 


4. 3D Human Pose Regression

在这里插入图片描述
       在一个预定义的摄像机坐标系统中,目的是学习一个回归函数 F ∗ F^{*} F,使得在内含N个人体姿态的数据集上的损失最小化。

  • P ∈ R K × 2 P\in R^{K\times 2} PRK×2:2D关节点;
  • J ∈ R K × 3 J\in R^{K\times 3} JRK×3:相对应的3D关节点

       本文认为图像内容能够为解决模棱两可的情况提供重要的线索,因此,再将图像内容作为附加约束进一步扩展等式(5),如下式:

在这里插入图片描述

  • I i I_{i} Ii:为包含2D关节 P i P_{i} Pi 对齐后的人体姿态图像。在实际中,已知摄像机参数或者通过2D关节检测器,P可以作为2D GT值。

在这里插入图片描述
       整个框架如图3所示:由两个神经网络组成。先输入一幅图像,利用深度卷积网络进行2D关节预测;同时,它也是一个骨干网,从它的中间层汇集图像特征。由于2D和3D的关节坐标可以编码到人体骨骼中,因此提出的SemGCN根据2D姿态和感知特征来预测3D坐标,注意,当不考虑图像特性时,我们的框架采用等式(5),SemGCN用于有效地编码从2D到3D姿态的映射,并且在合并图像内容时性能可以进一步提高。

 


4.1. Perceptual Feature Pooling

ResNetHourglass 广泛应用在传统的人体位姿检测中,本文采用 ResNet 作为骨干网络( backbone ),因为它的中间层提供图像的层次特征,这在CV中,如目标检测和分割中很有用。给定输入图像中每个2D关节的坐标,在ResNet中汇集来自多个层次的特征,特别是,通过使用RoIAlign将从conv_1层提取的特征连接到conv_4层。然后将感知特性与2D坐标连接起来,并输入到SemGCN中。注意:由于输入图像中的所有关节具有相同的尺度,因此我们将特征集中在一个以每个关节为中心、大小固定的方形边界盒中,边长大小即骨骼的平均骨骼长度。

 


4.2. Loss Function

在这里插入图片描述

  • J = { J ~ i ∣   i = 1 , ⋯   , K } J=\{\tilde{J}_{i}|\ i=1,\cdots ,K\} J={ J~i i=1,,K}:预测的3D关节坐标;
  • B = { B ~ i ∣   i = 1 , ⋯   , M } B=\{\tilde{B}_{i}|\ i=1,\cdots ,M\} B={ B~i i=1,,M}:从 J J J中计算得到的bones;
  • J i J_{i} Ji B i B_{i} Bi:相应的GT值。
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_40520596/article/details/107372566

智能推荐

Kotlin 解压缩_kotlin 对上传的压缩包进行分析-程序员宅基地

文章浏览阅读638次。fun unZip(zipFile: String, context: Context) { var outputStream: OutputStream? = null var inputStream: InputStream? = null try { val zf = ZipFile(zipFile) val entries = zf.entries() while (en..._kotlin 对上传的压缩包进行分析

64K方法数限制解决办法_java函数大于64k编译失败-程序员宅基地

文章浏览阅读1.9k次。随着业务逻辑越来越多,业务模块也越来越大,不可避免会遇到64K方法数的限制。最直观的表现就是编译报错:较早版本的编译系统中,错误内容如下:Conversion to Dalvik format failed:Unable to execute dex: method ID not in [0, 0xffff]: 65536较新版本的编译系统中,错误内容如下:trouble writing outp_java函数大于64k编译失败

案例分享——低压电力线载波通信模组(借助电源线实现远距离数据传输、宽压输入、波特率范围广、应用场景多样化)_电力载波模块csdn-程序员宅基地

文章浏览阅读2k次,点赞7次,收藏10次。物联网领域,有很多数据通信场景,因为原设备整体系统结构、运行环境等方面的限制,需求在不增加通信数据线缆的情况下实现数据的远程传输,因为特殊应用场景下考虑到环境的限制,还不能使用常规的无线通信手段,所以借助电源线缆进行传输的电力线载波技术应运而生,本次博文给大家分享的就是博主完全自主研发的低压电力线载波通信模组。_电力载波模块csdn

密码学基础_密码体制的五个要素-程序员宅基地

文章浏览阅读7.4k次。密码学基本概念 密码学(Cryptology)是结合数学、计算机科学、电子与通信等学科于一体的交叉学科,研究信息系统安全的科学。起源于保密通信技术。具体来讲,研究信息系统安全保密和认证的一门科学。 密码编码学,通过变换消息(对信息编码)使其保密的科学和艺术 密码分析学,在未知密钥的情况下从密文推_密码体制的五个要素

python支持中文路径_基于python 处理中文路径的终极解决方法-程序员宅基地

文章浏览阅读1.9k次。1 、据说python3就没有这个问题了2 、u'字符串' 代表是unicode格式的数据,路径最好写成这个格式,别直接跟字符串'字符串'这类数据相加,相加之后type就是str,这样就会存在解码失误的问题。别直接跟字符串'字符串'这类数据相加别直接跟字符串'字符串'这类数据相加别直接跟字符串'字符串'这类数据相加unicode类型别直接跟字符串'字符串'这类数据相加说四遍3 、有些读取的方式偏偏..._python 路径 中文

阿里云 B 站直播首秀,用 Serverless 搭个游戏机?-程序员宅基地

文章浏览阅读107次。最近,阿云 B 站没声音,是在憋大招!8月5日周四 19:00 是阿里云的直播首秀,给大家请来了 Forrester 评分世界第一的 Serverless 团队产品经理江昱,给大家在线...._阿里云直播b站

随便推点

AS 3.1.3连续依赖多个Module,导致访问不到Module中的类_为什么as在一个包下建了多个module,缺无法打开了-程序员宅基地

文章浏览阅读1.1k次。我好苦啊,半夜还在打代码。还出bug,狗日的。问题是这样的:我在新建的项目里,建了两个Module: fiora-ec和fiora-core。项目的依赖顺序是这样的,App依赖fiora-ec,fiora-ec又依赖于fiora-core,因为这种依赖关系,所有可以在app和fiora-ec中删除一些不必要的引入,比如这个玩意儿:com.android.support:appcompat-v7:..._为什么as在一个包下建了多个module,缺无法打开了

Magento 常用插件二-程序员宅基地

文章浏览阅读1.4k次。1. SMTP 插件 URL:http://www.magentocommerce.com/magento-connect/TurboSMTP/extension/4415/aschroder_turbosmtp KEY:magento-community/Aschroder_TurboSmtp 2. Email Template Adapter..._magento extension pour ricardo.ch

【连载】【FPGA黑金开发板】Verilog HDL那些事儿--低级建模的资源(六)-程序员宅基地

文章浏览阅读161次。声明:本文为原创作品,版权归akuei2及黑金动力社区共同所有,如需转载,请注明出处http://www.cnblogs.com/kingst/ 2.5 低级建模的资源 低级建模有讲求资源的分配,目的是使用“图形”来提高建模的解读性。 图上是低级建模最基本的建模框图,估计大家在实验一和实验二已经眼熟过。功能模块(低级功能模块)是一个水平的长方形,而控制模块(低级控制模块)是矩形。组..._cyclone ep2c8q208c黑金开发板

R语言实用案例分析-1_r语言案例分析-程序员宅基地

文章浏览阅读2.2w次,点赞10次,收藏63次。在日常生活和实际应用当中,我们经常会用到统计方面的知识,比如求最大值,求平均值等等。R语言是一门统计学语言,他可以方便的完成统计相关的计算,下面我们就来看一个相关案例。1. 背景最近西安交大大数据专业二班,开设了Java和大数据技术课程,班级人数共100人。2. 需求通过R语言完成该100位同学学号的生成,同时使用R语言模拟生成Java和大数据技术成绩,成绩满分为100,需要满足正_r语言案例分析

Java知识体系总结(2024版),这一次带你搞懂Spring代理创建过程-程序员宅基地

文章浏览阅读639次,点赞11次,收藏26次。虽然我个人也经常自嘲,十年之后要去成为外卖专员,但实际上依靠自身的努力,是能够减少三十五岁之后的焦虑的,毕竟好的架构师并不多。架构师,是我们大部分技术人的职业目标,一名好的架构师来源于机遇(公司)、个人努力(吃得苦、肯钻研)、天分(真的热爱)的三者协作的结果,实践+机遇+努力才能助你成为优秀的架构师。如果你也想成为一名好的架构师,那或许这份Java成长笔记你需要阅读阅读,希望能够对你的职业发展有所帮助。一个人可以走的很快,但一群人才能走的更远。

车辆动力学及在Unity、UE4中的实现_unity 车辆动力学模型-程序员宅基地

文章浏览阅读3.9k次,点赞9次,收藏53次。受力分析直线行驶时的车轮受力如下:水平方向上,所受合力为:F=Ft+Fw+FfF=F_t+F_w+F_fF=Ft​+Fw​+Ff​其中,FtF_tFt​为牵引力,FwF_wFw​为空气阻力,FfF_fFf​为滚动阻力,下面我们将逐个介绍。驱动力先来说扭矩,扭矩是使物体发生旋转的一个特殊力矩,等于力和力臂的乘积,单位为N∙mN∙mN∙m:设驱动轴的扭矩为TtT_tTt​,车轮半径为rrr,那么牵引力:Ft=Tt⁄rF_t=T_t⁄rFt​=Tt​⁄r如何求得驱动轴扭矩TtT_tTt​呢?_unity 车辆动力学模型