技术标签: 图像处理
原文:Semantic Graph Convolutional Networks for 3D Human Pose Regression
收录:CVPR2019
代码:Pytorch
为解决上面限制,本文提出 SemGCN,一种新的神经网络结构,用来处理 图结构数据 的回归任务。
其原理则是:SemGCN学会捕获语义信息,如局部和全局节点关系,这些信息不是明确表示在图中,这些语义关系可以通过GT值进行端到端训练来学习,不需要额外的监督或自定规则,最后进行全面的研究来验证SemGCN,结果表明SemGCN在使用90%的参数的情况下具有更好的性能。
CNNs目前成功解决图像分类、目标检测以及生成等经典CV问题,其中输入图像是规则的网格状结构(例如size = H×W)。然而现实中的许多任务,例如分子结构、社交网络和3D网格,通常都是不规则的结构,而CNNs在这方面受限。
为解决这一限制,开始引入 图卷积网络(GCNs),但是,却有以下两个局限性,使得GCNs不能直接应用于回归问题。① 为解决图节点可能具有多个邻域的问题,卷积滤波器对所有节点共享相同的权值矩阵,CNNs则不是这样;② GCNs将滤波器限制在每个节点的一步邻域内运行,那么卷积核的感受野被限制为1,这当网络加深时会严重影响信息交换的效率。
一波未平一波又起,为解决上面所有限制,本文提出 SemGCN。在给定图中,研究学习语义信息的编码,例如局部和全局节点关系。使用SemGCN来实现2D到3D人体位姿回归。将一个2D人体姿态(或可选的相关图像)作为输入,最后预测3D关节在特定坐标空间中的位置。由于2D和3D姿势都可以用2D或3D坐标自然地表示,那么SemGCN可以显式地利用它们的空间关系。
最后本文方法的有效性通过严格**消融研究(ablation study)**的综合评估以及与当前先进方法比较来验证。在Human3.6M上测试,只使用2D关节坐标作为输入,并且使用90%的参数。与此同时,还展示了SemGCN的可视化结果,定性地证明方法的有效性。
主要贡献:
notation | meaning |
---|---|
G | {V, E} |
V | K个节点 |
K | 总节点数 |
E | 边 |
i i i | 第 i i i 个节点 |
j ∈ N ( i ) j\in N(i) j∈N(i) | 第 i i i 个节点的第 j j j 个邻节点 |
x i ⃗ ( l ) ∈ R D l \vec{x_{i}}^{(l)}\in R^{D_{l}} xi(l)∈RDl | 节点 i i i 第 l l l 次卷积之前的表示 |
x i ⃗ ( l + 1 ) ∈ R D l + 1 \vec{x_{i}}^{(l+1)}\in R^{D_{l+1}} xi(l+1)∈RDl+1 | 节点 i i i 第 l l l 次卷积之后的表示 |
X ( l ) ∈ R D l × K X^{(l)}\in R^{D_{l}\times K} X(l)∈RDl×K | 总节点矩阵 |
W ∈ R D l + 1 × D l W\in R^{D_{l+1}\times D_{l}} W∈RDl+1×Dl | 参数矩阵 |
A ~ \tilde{A} A~ | 邻接矩阵A的对称标准化 |
Wang等人利用残差连接(residual connections)对基于等式(1)的深度图网络 (deep graph network)进行重新修改,来学习图像特征与3D顶点之间的映射,本文将ResGCN作为基准网络(baseline)。
等式(1)有两大缺点。首先,为了在任意拓扑结构的节点上运用卷积,必须对所有边共享核矩阵W,相邻节点或图中的内部结构的关系没有得到很好的利用。其次,以前的工作只收集每个节点的一阶邻居的特性,这使得感受野被固定为1。
如Fig.1(d)所示,还可以对等式2进一步扩展:
实际上,对于等式(4)可以通过 非局部层 (non-local layers) 来实现;基于等式(3)和(4),本文提出新的网络结构用于回归任务——SemGCN,网络中的SemGConv和非局部层交错来捕获节点之间的局部和全局语义关系,如图2所示:
上图在网络开始时,先使用一个SemGConv将输入映射到潜在空间(latent space);网络最后还有一个附加的SemGConv,用于将编码后的特性投影回输出空间。注意:若将SemGConv替换为vanilla graph convolutions,并且所有非局部层都删除,那么SemGCN变为ResGCN。
在一个预定义的摄像机坐标系统中,目的是学习一个回归函数 F ∗ F^{*} F∗,使得在内含N个人体姿态的数据集上的损失最小化。
本文认为图像内容能够为解决模棱两可的情况提供重要的线索,因此,再将图像内容作为附加约束进一步扩展等式(5),如下式:
整个框架如图3所示:由两个神经网络组成。先输入一幅图像,利用深度卷积网络进行2D关节预测;同时,它也是一个骨干网,从它的中间层汇集图像特征。由于2D和3D的关节坐标可以编码到人体骨骼中,因此提出的SemGCN根据2D姿态和感知特征来预测3D坐标,注意,当不考虑图像特性时,我们的框架采用等式(5),SemGCN用于有效地编码从2D到3D姿态的映射,并且在合并图像内容时性能可以进一步提高。
ResNet 和 Hourglass 广泛应用在传统的人体位姿检测中,本文采用 ResNet 作为骨干网络( backbone ),因为它的中间层提供图像的层次特征,这在CV中,如目标检测和分割中很有用。给定输入图像中每个2D关节的坐标,在ResNet中汇集来自多个层次的特征,特别是,通过使用RoIAlign将从conv_1层提取的特征连接到conv_4层。然后将感知特性与2D坐标连接起来,并输入到SemGCN中。注意:由于输入图像中的所有关节具有相同的尺度,因此我们将特征集中在一个以每个关节为中心、大小固定的方形边界盒中,边长大小即骨骼的平均骨骼长度。
文章浏览阅读638次。fun unZip(zipFile: String, context: Context) { var outputStream: OutputStream? = null var inputStream: InputStream? = null try { val zf = ZipFile(zipFile) val entries = zf.entries() while (en..._kotlin 对上传的压缩包进行分析
文章浏览阅读1.9k次。随着业务逻辑越来越多,业务模块也越来越大,不可避免会遇到64K方法数的限制。最直观的表现就是编译报错:较早版本的编译系统中,错误内容如下:Conversion to Dalvik format failed:Unable to execute dex: method ID not in [0, 0xffff]: 65536较新版本的编译系统中,错误内容如下:trouble writing outp_java函数大于64k编译失败
文章浏览阅读2k次,点赞7次,收藏10次。物联网领域,有很多数据通信场景,因为原设备整体系统结构、运行环境等方面的限制,需求在不增加通信数据线缆的情况下实现数据的远程传输,因为特殊应用场景下考虑到环境的限制,还不能使用常规的无线通信手段,所以借助电源线缆进行传输的电力线载波技术应运而生,本次博文给大家分享的就是博主完全自主研发的低压电力线载波通信模组。_电力载波模块csdn
文章浏览阅读7.4k次。密码学基本概念 密码学(Cryptology)是结合数学、计算机科学、电子与通信等学科于一体的交叉学科,研究信息系统安全的科学。起源于保密通信技术。具体来讲,研究信息系统安全保密和认证的一门科学。 密码编码学,通过变换消息(对信息编码)使其保密的科学和艺术 密码分析学,在未知密钥的情况下从密文推_密码体制的五个要素
文章浏览阅读1.9k次。1 、据说python3就没有这个问题了2 、u'字符串' 代表是unicode格式的数据,路径最好写成这个格式,别直接跟字符串'字符串'这类数据相加,相加之后type就是str,这样就会存在解码失误的问题。别直接跟字符串'字符串'这类数据相加别直接跟字符串'字符串'这类数据相加别直接跟字符串'字符串'这类数据相加unicode类型别直接跟字符串'字符串'这类数据相加说四遍3 、有些读取的方式偏偏..._python 路径 中文
文章浏览阅读107次。最近,阿云 B 站没声音,是在憋大招!8月5日周四 19:00 是阿里云的直播首秀,给大家请来了 Forrester 评分世界第一的 Serverless 团队产品经理江昱,给大家在线...._阿里云直播b站
文章浏览阅读1.1k次。我好苦啊,半夜还在打代码。还出bug,狗日的。问题是这样的:我在新建的项目里,建了两个Module: fiora-ec和fiora-core。项目的依赖顺序是这样的,App依赖fiora-ec,fiora-ec又依赖于fiora-core,因为这种依赖关系,所有可以在app和fiora-ec中删除一些不必要的引入,比如这个玩意儿:com.android.support:appcompat-v7:..._为什么as在一个包下建了多个module,缺无法打开了
文章浏览阅读1.4k次。1. SMTP 插件 URL:http://www.magentocommerce.com/magento-connect/TurboSMTP/extension/4415/aschroder_turbosmtp KEY:magento-community/Aschroder_TurboSmtp 2. Email Template Adapter..._magento extension pour ricardo.ch
文章浏览阅读161次。声明:本文为原创作品,版权归akuei2及黑金动力社区共同所有,如需转载,请注明出处http://www.cnblogs.com/kingst/ 2.5 低级建模的资源 低级建模有讲求资源的分配,目的是使用“图形”来提高建模的解读性。 图上是低级建模最基本的建模框图,估计大家在实验一和实验二已经眼熟过。功能模块(低级功能模块)是一个水平的长方形,而控制模块(低级控制模块)是矩形。组..._cyclone ep2c8q208c黑金开发板
文章浏览阅读2.2w次,点赞10次,收藏63次。在日常生活和实际应用当中,我们经常会用到统计方面的知识,比如求最大值,求平均值等等。R语言是一门统计学语言,他可以方便的完成统计相关的计算,下面我们就来看一个相关案例。1. 背景最近西安交大大数据专业二班,开设了Java和大数据技术课程,班级人数共100人。2. 需求通过R语言完成该100位同学学号的生成,同时使用R语言模拟生成Java和大数据技术成绩,成绩满分为100,需要满足正_r语言案例分析
文章浏览阅读639次,点赞11次,收藏26次。虽然我个人也经常自嘲,十年之后要去成为外卖专员,但实际上依靠自身的努力,是能够减少三十五岁之后的焦虑的,毕竟好的架构师并不多。架构师,是我们大部分技术人的职业目标,一名好的架构师来源于机遇(公司)、个人努力(吃得苦、肯钻研)、天分(真的热爱)的三者协作的结果,实践+机遇+努力才能助你成为优秀的架构师。如果你也想成为一名好的架构师,那或许这份Java成长笔记你需要阅读阅读,希望能够对你的职业发展有所帮助。一个人可以走的很快,但一群人才能走的更远。
文章浏览阅读3.9k次,点赞9次,收藏53次。受力分析直线行驶时的车轮受力如下:水平方向上,所受合力为:F=Ft+Fw+FfF=F_t+F_w+F_fF=Ft+Fw+Ff其中,FtF_tFt为牵引力,FwF_wFw为空气阻力,FfF_fFf为滚动阻力,下面我们将逐个介绍。驱动力先来说扭矩,扭矩是使物体发生旋转的一个特殊力矩,等于力和力臂的乘积,单位为N∙mN∙mN∙m:设驱动轴的扭矩为TtT_tTt,车轮半径为rrr,那么牵引力:Ft=Tt⁄rF_t=T_t⁄rFt=Tt⁄r如何求得驱动轴扭矩TtT_tTt呢?_unity 车辆动力学模型