7月5号,中国机器视觉技术展览会VisionChina-2020落下帷幕。展会同期举办了中国(上海)国际机器视觉技术及工业应用研讨会,在研讨会上上海数迹智能科技有限公司的首席产品官葛昊博士带来了题为《3D视觉中ISP技术的应用与未来》的分享,下面我们就来一起来看一看研讨会上葛博士有哪些精彩发言吧。
演讲人:葛昊
1975年,柯达发布了全球第一款数码相机,它拥有100*100像素分辨率的CCD传感器,开启了数字成像时代。如今,45年过去了,数字成像经历了从CCD工艺到CMOS工艺,从单反、到傻瓜相机、到卡片相机、到智能手机的演变。为了实现拍照的智能化和自动化,并且使得成像效果尽可能接近我们人眼所观察到的世界,目前每个图像传感器都至少配备一个ISP用以处理数字信号、改善拍照的质量。尤其是近些年,成像能力已经成为智能手机上主要的技术创新方向,从单摄,到双摄,到六摄,从2D镜头到ToF镜头,传感器种类、数量的升级,对ISP提出了新的、更高的要求。
其实在2D成像中,ISP并不是什么新鲜的概念,已经是一个相对比较成熟的技术,我们日常所使用的手机、智能摄像头、行车记录仪等等,都内含ISP用于数字信号的处理和图像质量的提升。在2D成像系统中,图像传感器负责完成从光信号到电信号,从模拟信号到数字信号的转化。而ISP则主要负责数字信号域上的一系列处理。一个典型的ISP功能流程如图所示,可以看到ISP的主要包括五大功能。①拜尔插值:用以将传感器原始数据还原成RGB数据。②降噪滤波,包含原始数据域、RGB域和YUV域上面的滤波算法。③3A控制,即自动对焦自动曝光、自动白平衡。④图像校正,镜头校正、失效像素、黑电平等系统误差的矫正,以及⑤数据压缩和传输等部分。
随着2D成像产业的不断发展完善和产业细分,2D ISP市场逐渐形成了以设计授权为主导的IP模式,和以售卖独立芯片为主的芯片模式。每种模式都孕育了大量的世界著名公司,当然IP模式的存在使得芯片模式公司选择性更多、更加繁荣。目前2D ISP的存在物理形式有三种,集成进前端图像传感器、独立芯片或者集成于后端应用SoC中,由于成本和系统灵活性的原因,目前主要还是以独立芯片和集成进SoC两种方式为主。
从成像原理上来看,2D成像是被动接受外界的入射光线,而3D成像则大多采用主动成像的方式。不论是结构光还是ToF,都会主动向外界投射一个经过调制的红外光,结构光更多是一种空间调制,向空间投射含有某种特定编码图案的光斑,ToF更多是一种时间调制,像空间投射某种特定调制频率的正弦波或者方波。场景内物体再将它们自身的距离和反射率等信息调制进反射信号内(分别表现为相位和幅值),由接收端接收并解析。2D成像和3D成像这种从原理上的本质区别决定了3D ISP中的核心运算内容和2D-ISP差别巨大,无法直接采用2D ISP技术。从功能上看,3D ISP是2D ISP的超集,具有较高的技术门槛,3D图像传感器的控制参数数量、成像运算量、校准复杂度、应用难度均远高于普通的2D图像传感器。下面这张图是一个3D ToF ISP技术功能框图,可以看到2D和3D ISP总体流程上比较相似,但在2D的基础上又进行了一定的拓展。在环境自适应拍摄控制部分,3D成像系统需要控制更多的参数,由传统的3A控制拓展到了5A控制,分别是自动曝光、自动对焦、自动环境光补偿、自动调制频率、自动光照功率。传感器原始图像信号经过了深度解算、原始域、深度域、点云域滤波、数据压缩等操作,就可以传输给后端视觉处理器或者应用处理器进行更高层的AI运算。
可以看出一个3D ISP处理过程如此复杂,我们为什么要大费周章的去研究3D ISP?我们为什么需要3D ISP?我认为是三方面的需求,一是成像质量的需求。二是处理3D数据量的需求,三是成本与功耗的需求。这三方面的需求决定了,未来3D ISP将作为处理中枢,和以VCSEL为代表的发光端、以3D图像传感器为代表的接收端一并成为3D成像系统不可或缺的“三极”。
第一点,成像质量的要求。根据Yole 2020年发布的3D imaging and Sensing报告预测,全球3D成像与感知系统将会从2019年的50亿美元增长到2025年的150亿美元,复合增长率CAGR达到20%左右。未来3D成像与感知市场将在手机行业、消费行业、自动驾驶行业、医疗行业、工业、国防和航空航天等领域迎来爆发增长,其中手机后置3D感应将会是市场的主要增长点。随着结构光、ToF传感设备在手机、平板等设备上的普及,我们认为3D感知硬件基础已经逐步完善,3D市场将发生从强调成像到强调感知的转变。感知意味着对成像的质量有进一步的要求,我们认为目前3D成像的质量已经成为了阻碍3D应用爆发的一大瓶颈。由于ToF技术有望(至少在手机上)成为未来3D成像与感知的主流技术,我们这里以ToF成像的问题为例来说明成像质量是如何影响上层应用算法的。左边是一个示例场景,拍摄的是数迹公司前台,包含数迹logo背景墙,花瓶和座椅靠背等物体。右上角是原始点云图像,可以看到存在着点云畸变、散粒噪声、飞散点噪声等等各种噪声因素,右下角是经过数迹的SmartToF 3D ISP技术处理后的点云。对比可以发现,高质量的点云中花瓶很容易分辨,而低质量点云中,花瓶几乎完全淹没在噪声之中。我们都知道现在应用层主流算法都是基于机器学习的方法,而机器学习大多是基于统计模型的,对数据源的概率分布非常敏感,噪声、失真、畸变会急剧放大上层应用算法的开发难度。因此,高成像质量的3D数据是3D视觉应用爆发的基础,而ISP技术是高质量3D数据的有力保障。
第二点,处理数据量的要求。自2005年,MESA推出了首款商业级ToF相机,拥有QCIF的分辨率。2011年三星发布了QVGA分辨率的ToF芯片,2014年微软推出了基于ToF技术的分辨率为20万像素的体感设备,取代了第一代kinect中的结构光技术。2015年,basler推出了基于松下ToF芯片的VGA分辨率3D相机。2019年,微软的kinect Azure将ToF的分辨率一举提高到了百万像素级别。回顾一下手机上2D摄像头的发展历史,2003年4月手机2D摄像头进入了megapixel百万像素时代,我们预计2021年手机上的ToF将跨入百万像素时代。像素数量的提升直接带来计算量的提升,无论是深度值解算,还是降噪滤波,AP都已经无法负担,对专用处理芯片或者ISP IP的需求将越来越迫切。
第三点,成本和功耗的要求。目前的一些应用领域例如智能门锁、金融支付、智能手机、扫地机器人,据我们了解,对3D系统的成本功耗都有着极为严苛的要求。专用ISP处理芯片的出现对于降低3D成像系统的成本功耗,也具有重大积极意义。
下面我们来聊一聊,ToF图像信号处理中存在的困难和挑战。下面这张图上列举了影响ToF系统成像质量的主要误差来源,总体上讲,ToF的误差源分为环境误差,系统误差,随机误差三类。环境误差顾名思义是跟应用环境有关的误差,例如场景复杂程度、测距范围、场景中物体运动速度、场景环境光强度等等。系统误差一般是指由客观物理条件、器件工艺的限制引起的误差,一般可以用出厂校准的方法加以消除,随机误差中的固定模式噪声也可以通过模组出厂校准加以解决,而时变噪声主要与温度相关,温度的升高会导致时变噪声变大,需要针对模组温度进行补偿,内部系统噪声则主要跟信号的信噪比有关系。
针对上述误差,数迹目前有一套相应的软硬件校准工具。其中,芯片级校准是对芯片带来的误差进行校准,支持对包括系统误差、时变误差和固定模式误差在内的六类噪声源进行校准。而镜头级校准是对镜头、应用环境带来的误差进行校准,支持镜头2D失真、3D失真校准和固定场景的现场多径校准。这些校准形成的校准参数将被我们的图像信号处理库调用。将ToF芯片输出的原始信号数据解算为高质量的3D深度、点云图像输出,为应用层数据处理提供支撑。
下面我详细介绍几个iToF和dToF中要解决的ISP核心问题。
对于ToF来说,多路径干扰一直是一个比较棘手的问题。ToF成像原理基于芯片接收到的物像反射光路径只有一条的假设,当反射光路径多于一条,就形成了多路径干扰。由于iToF芯片本质上是一个积分电路,无法区分主路径和分路径上的光分量,因此会造成相位解算偏差。典型的几种多路径干扰的情况,一种是当场景中有高反射率物体时,会发生多径干扰,表现为被测物体距离偏远。第二种常出现在物体边缘,由于传感器分辨率有限,如果单个像素接收到的反射光部分来自前景,部分来自背景,不同相位的反射光就会叠加在一起,表现为飞散点或者离群点。第三种是发生在镜头内的杂散光造成的多径,这是由于近处物体强烈的反射光线在镜头内部的传感器和镜头之间又进行了多次反射,造成近处物体的实际点扩散函数(PSF)范围变大,表现为远处的物体距离会变小。
应对多径干扰目前有两大类方法,一是基于物理的方法,可以利用不同频率的测量值线性无关这个特性来对各个路径上的分量进行解算。这种多频的方式来完全解决k重多径需要2k+1个不同的频率(k重多径,每个路径上有幅值和相位2个自由度,加上环境光直流分量1个自由度,因此是2k+1),不过一般我们只需要解算直接径(direct path)的相关参数即可,问题经过简化后求解2重多径问题至少需要3频来实现。另外一种物理方法是采用改变照明方式的方法,例如分区照明或者扫描的方式。下图就是卡内基梅隆大学和多伦多大学的研究人员做出的一个基于iToF芯片的原型机,使用的是EPC660芯片,采用微镜扫描的方式来提高ToF的性能。第二大类方法是基于机器学习的方法,利用随机森林或者神经网络端到端的进行监督学习,来达到消除多径的目的。总体而言,第一类方法对于硬件有更高的要求,不够灵活。第二类方法苦于需要大量的真实值作为训练输入,数据获取较难。
对于dToF,与iToF类似的,在一个周期内多次测量结果来自于不同距离的物体时,也就是有多个返回信号时,它也会遇到多重回应的问题。但由于dToF不是采用积分的处理方式,而是对多次脉冲进行时间相关单光子计数TCSPC,它天生对于多径具有较好的鲁棒性。目前在TCSPC中,一般的做法是选取直方图的“主峰”来作为测距时间,这样做减少了噪声但其实是有信息损失的。在某些特殊情况下TCSPC算法处理有进一步挖掘的空间,来提升dToF的性能。举两个简单的可能的应用场景,第一个就是dToF的超分辨率,虽然目前业界也出现了512×512、甚至百万像素级的dToF,但目前能够规模化量产的SPAD阵列分辨率一般在QQVGA乃至更低,苹果ipad Pro搭载的dToF投射24*24=576个红外点,在做精细化识别时这种分辨率的信息量太低,需要提升分辨率提升实用性。此时,我们可以对统计直方图上的不同峰值进行进一步细分,利用算法来达到超分辨率的效果。第二个是测量透明介质背后的物体。射出的光线在玻璃前表面、后表面和目标物体上都会发生反射,由于dToF对光子进行响应响应是一个随机事件,如右边这个示意图所示,绿色曲线表示发射出去的单脉冲,红色曲线表示不同距离物体的回波时间。我们可以利用这个信息来进一步区分不同距离的物体,达到区分透明介质和其背后物体的目的。
那么ISP技术发展的一大趋势,就是越来越多的利用机器学习的力量,特别是深度学习的力量。其实ISP技术本质就是一系列图像信号处理算法,由于ISP技术中很多问题都属于非适定问题(ill posed problem),解法不唯一。各家解决ISP问题就像米其林餐厅大厨各有特色,八仙过海、各显神通。过去ISP算法主要依赖研发人员对底层原理的深刻理解和巧妙的人工设计,来形成自己独门算法。现在随着机器学习特别是深度学习算法的崛起,利用数据的力量去发现规律,设计算法是ISP算法技术发展的一大趋势。上表中列出的都是近些年出现的,基于机器学习来提高ToF成像质量的相关研究,当然这只是冰山一角,反映出了工业界和学术界对这种方式是非常赞同和有信心的。针对前面提到的多径问题,数迹也有一些基于机器学习方法的研究心得和成果,已经向相关学术会议投稿并申请专利,相信不久后就可以跟大家分享。
最后介绍一下数迹公司,我们公司成立于2016年3月,致力于成为全球领先的3D视觉ISP技术提供商。我们组建了上海交通大学背景的核心研发团队,包括我本人也是交大博士毕业,我们的技术能力得到上游供应商Sony、EPC认可。我们从2015年就开始了对ToF系统的研究,已有五年的ToF系统设计开发经验,成功量产了两个系列的ToF模组,行业客户累计200余家,获取了大量真实场景3D数据和应用反馈,协助我们更好的完成ISP的功能定义。
去年我们光荣地担任工信部人工智能产业创新重点任务3D智能相机项目技术攻关揭榜单位。
如果您想了解关于我们的更多信息,欢迎访问我们的网站或者关注我们的微信公众号smarttof(3D感知与智能),我们将不定期分享对于行业最新技术的分析和理解。或者直接到我们的展台进行交流。谢谢大家!
以上就是数迹智能葛昊博士的演讲全文实录,如果大家有进一步交流的想法,欢迎大家通过公众号联系我们!后续我们也将陆续推出《3D ISP核心技术算法》系列科普文章,详细介绍目前ToF技术应用中存在的主要问题和解决方法,敬请关注!
今天小编为大家推荐一个相当牛逼的项目,粗略估计,这个项目价值超过百万当前star 2.5k,但是大胆预判,这个项目肯定要火,未来Star数应该可以到10k甚至20k!着急的,可以Gith...
开启weblogic:1、找到/Oracle/Middleware/user_projects/domains/用户_domain目录,2、执行 ./startWebLogic.sh&(&的作用是让weblogic启动在后台运行),3、使用命令tail -f 文本文件名即可监视远程文件的变动情况,例如要监视Weblogic某一域的日志输出只需要输入命令:ta...
原文地址:http://blog.csdn.net/xiaonadiandian/article/details/50477790最近4个月都在忙一个项目,最近项目接近尾声,所有打算趁这个机会稍微做一点总结。本次总结的功能是实现一段文字,部分文字颜色不同,部分文字有下划线并且可以点击,主要的思路就是使用SpannableString,自定义一个ClickableSpan
docker安装Ubuntu更新apt包索引sudo apt-get update更新apt包索引sudo apt-get upgrade安装dockersudo apt-get install docker.io打开docker服务:systemctl docker start查看是否安装成功:查看安装的docker版本:docker -v运行...
DataView的RowFilter 实现过滤根据文本框文字对datagridview的数据进行模糊查询,其实也就是一个过滤 string qymc = textBox1.Text.ToString(); //获取文本框要模糊查询的文字 using (SQLiteConnection con = new SQLiteConnection(DATASOURCE)) ...
图像及视频基础知识一、光和颜色1 光和颜色 可见光是波长在380 nm~780 nm 之间的电磁波,我们看到的大多数光不是一种波长的光,而是由许多不同波长的光组合成的。如果光源由单波长组成,就称为单色光源。该光源具有能量,也称强度。实际中,只有极少数光源是单色的,大多数光源是由不同波长组成,每个波长的光具有自身的强度。这称为光源的光谱分析。 颜色是视觉系
html不是一种编程语言,而是一种标记语言 ,是网页制作所必备的。这些代码式的专业语言我们在普通的工作中运用的非常少,它的通用性可以把存放在一台电脑中的文本或图形与存放在另一台电脑中的文本或图形方便地联系在一起,形成有机的整体,我们以具体的运用为例了解一下html,学习怎么操作html星空特效代码?1、在页面中引入jquery和jquery.warpdrive.min.js文件。2、HTML结构使...
简介:怎样是适合能够通过开发文档部署文档,这是唯一的能力要求,上手非常简单、流畅。使用宝塔部署,即可快速搭建PC商城、小程序商城、公众号H5商城、安卓APP、苹果APP。如果你具备开发能力,也可在likeshop在原有的功能上进行个性化开发,易懂易改。那么是谁呢 电商公司:通过likeshop一键搭建自有私域流量商城,快速实现社交电商裂变推广变现。公域流量虽大,但私域流量经营的B方案也同样重要,likeshop支持免费商用可去界面版权。 软件公司:还在苦苦找寻靠谱稳定的电商
一、 指令集 (一)、名词解释:指令集是计算机体系结构中与程序设计有关的部分,包含了基本数据类型、指令集、寄存器、寻址模式、中断、异常处理以及外部的I/O。指令集架构包含一系列的opcode即操作码(机器语言),以及由特定处理器执行的基本命令。 通俗理解就是一套技术标准,是计算机能的一种机器语言,命令计算机做读取写入 以及做更复杂运算的一套命令标准。 (二)、指令集可以分为复杂指
一、index.jsp报错解决方案右键项目--Build Path--Configure Build Path--Add Library--Finsh二、pom.xml报错解决方案解决办法:1、Help——>Install New SoftWare2.https://otto.takari.io/content/sites/m2e.extras/m2eclipse-mavenarchive...
虽然我不是Python高手,但我是零基础,之前会的都是软件PS,PPT之类。点击链接加入群【我爱python大神】:https://jq.qq.com/?_wv=1027&k=47zuLPd如果目的是想成为程序员,参考教学大纲。如果只是学程序,理解科技,解决工作问题,我的方式可以参考使用:1,找到合适的入门书籍,大致读一次,循环啊判断啊,常用类啊,搞懂(太难的跳过)2,做些简单习题,字符串...