3月20-21日,由佐思产研、佐智汽车主办,地平线、TTTech、魔智、海信网络科技、晶众股份、芯仑科技、PLK、中科慧眼等单位支持的2018第三届ADAS与自动驾驶国际论坛在上海银星皇冠假日酒店举办。超过400多位嘉宾参加了本次论坛,上海芯仑科技的陈守顺教授发表了《动态视觉传感器与ADAS》的主题演讲。
上海芯仑光电科技陈守顺教授
陈守顺:大家好,我是来自上海芯仑科技的陈守顺,公司英文名字叫CelePixel。我们的使命是为机器视觉打造业界最先进的动态视觉传感器,它的工作原理跟目前市面上的图像传感器非常不一样。
我们在2012年做出第一款动态视觉传感器芯片,经过多轮产品迭代,目前已经有了成熟的50万像素CeleX IV传感器产品,以及即将面世的CeleX V(100万像素)。2015年我们在新加坡成立了Hillhouse Technology,2017年夏天团队回到国内,重新命名为上海芯仑光电科技有限公司。17年底完成了百度领投的4000万元Pre-A轮融资。
首先请允许我简单地自我介绍。我是芯仑科技的创始人和CTO,此前在新加坡南洋理工大学任教,主要专注于智能图像传感器以及成像系统,遥感成像系统,和混合信号集成电路的研究和开发。对动态视觉传感器的兴趣开始于我在香港科技大学的博士时代,至今已有十五年的研究积累。
接下来介绍我们的动态图像传感器。简单来说,传统摄像头是为了取悦人眼存在的,我们的传感器是为了机器视觉而存在的。
从原理上说,传统的摄像头提供的是某一时刻的平面图象,当运用在机器视觉领域时,需要通过算法将连续多帧图像进行对比以提炼有效信息,提供决策判断的依据。然而传统摄像头采集图像的速度是有限的,受曝光时间的限制,常见帧率有1秒钟30帧到120帧。同时,每一帧取样过程分为几个阶段,(下图)红色的部分是在曝光,摄像头在曝光的时候观察世界,不曝光的时候是不看东西的。这就造成信息输出的不连贯,给后端图像处理算法带来问题。因此,为了尽可能提供更多的信息,传统摄像头只有向着更高帧率,更大分辨率的方向发展,带来越来越大的数据量。
我们的动态视觉传感器解决了这个问题。它没有曝光和帧率的概念,没有闲置的时间,每一个像素点都能进行独立的运算,在且仅在这个像素点发生光强变化时进行数据的读出。对机器视觉来说,就是“敌不动我不动”,物体不运动的时候不需要分析它,我只需要对有效的象素点进行记录。CeleX对于物体在空间域和时间域都是连续跟踪的,反应速度在纳秒级。并且提供一个额外的光流模式,对物体的运动方向和速度都有正确的预测,对信号处理的复杂度会大大降低。
我们需要解决的行业痛点,简单讲就是运算力不足的问题。现在有很多公司在做特别的信号处理器,大家都把注意力放在后端。而我们要解决的问题,是一辆自动驾驶汽车上可能有超过10个传感器,包括摄像头、毫米波雷达、激光雷达,他们每秒钟可能产生超过100兆的数据,一天可能超过4TB的数据,庞大的数据量要交给后端去处理。
我们选择了全新的技术路径来解决这个问题。这里用一个动画来描述我们的传感器跟普通的不同。如何捕捉一个快速运动的点?普通的摄像头有固定的帧率,有曝光的问题,因此难以抓到一个完美的点,拍摄到的是一段残影,一个小条。另外在每一帧之间,摄像头有一段时间不工作,这个小条就会有一个间断,从一个小条到另一个小条之间不知道是怎么动的,产生跟踪的问题。
我们的传感器输出是连续三维的点云,不但提供位置信息,同时告知发生运动是在哪一个时刻,时间坐标精度达到纳秒级。动态视觉传感器的特点是没有曝光时间,没有帧率的概念,同时又能够跟传统的图像传感器融合,能够产生传统的全幅画面,可以兼容使用基于全幅图像的算法。
我们的技术路径已经得到业界的认可。专注汽车行业的法国咨询公司YOLE把动态视觉传感器(又叫事件驱动的图像传感器)列入到L4和L5级别的自动驾驶的方案当中,我们知道那时候需要多种传感器融合。
目前,和我们走同样技术路线的一共有四家公司,一家是在瑞士的Inilabs,最早开发这种传感器的。第二家是法国的Prophesee,还有三星(licensed IP),最后一家是芯仑科技。从分辨率、反应速度等参数指标来对比,我们是处在领先定位。在怎么样跟传统的技术路线兼容,如何获得一张传统照片的方向上,我们的技术路线是最优的。另外两家都有很难兼容的问题。
另外我们的传感器提供一种实时的光流。大家知道光流用传统传感器来计算非常耗资源。现在很多公司也在做光流,但是做的是稀疏的。我们的全幅密集光流是在芯片采样层级上实现的,这个传感器本身能够在芯片上进行计算和预处理。大家可以看我们这个Demo,左边是物体运动的方向,右边是物体运动的速度。
我们用不同的颜色标识,往上走、往下走、往左走、往右走,用不同的颜色标识它,这个可以识别物体是往哪个方向运动的。用于自动驾驶的意义在于,如果放在车上的时候,可以知道前面物体哪个是车、哪个是背景,用传感器把车和人从背景里抠出来,这样自动驾驶就容易多了。
怎样把这种传感器跟目前的技术路径相融合?这种传感器可以提供三种模式的输出:图像、动态、光流。下图右边是数据的流层,我们的传感器要做多步处理,比如做预处理,做物体的探测,做跟踪,再往上走才是识别,识别是哪种类型的车还是人。芯仑光电传感器在整个技术路线里的各个阶段都可以发力,在分离器之前都可以做,减轻整个运算的复杂度。
如右下TI所展示的计算机视觉的流程图。光流在图像处理里是非常底层而有效的手段,有了光流以后,很多算法可以大大降低复杂度。而我们的传感器因为天然地输出光流信号,在应用层面有巨大优势。
芯仑光电跟ADAS相关的事情有两个,第一个是车内的驾驶员监控系统。但是我们的目标不仅仅限于识别司机是不是在打电话、睡觉等传统功能,我们的技术路径可以做的很长,可以和人机交互结合在一起,有多维的数据,既有画面又有动态。
比如说识别眨眼睛这件事情非常容易,因为它是动的。另外可以看到人说话的时候皮肤在振动,可以跟语音识别技术相融合,识别面部肌肉的变化情况。上图最右是我们马上要发布的一个产品,是一个DMS(驾驶员监测)的产品,在今年第三季度就可以批量发货了。
芯仑第二个ADAS产品是车外ADAS相关的。我们把传感器用AI的算法包起来,便于友商使用。这是一家大客户给我们的传感器做的评估,跟传统的摄像头技术路径相比,我们的传感器可以节省100-200毫秒。节省上百毫秒的时间,对于安全性来讲是非常有意义的,对于120公里每小时行驶的汽车,芯仑方案可以节省5米的制动距离。
在我们的技术发展路线图里,希望一两年之后能够跟雷达融合,有点像RaCam(德尔福雷达与摄像头集成系统)的概念。
我们也有计划做一个Event-based ToF激光雷达。大家知道雷达就两个重要部分,一个是芯片,一个是激光。在激光方面,我们想要把传统的雷达用Event-based的概念进行改造,降低它运算的复杂度。本质上就是怎样从一堆点云里找出哪些点云需要算、哪些点云不需要算。这个概念和DVS技术是相仿的,我们在这方面有技术储备,很快会启动项目研发。
芯仑光电采用的是传感器平台化的技术,不仅用于车载,也可以用于游戏、高速运动物体的探测等。
另外像生产物料检测、无人机和机器人避障、像体感和其他人机交互等。简言之,我们的传感器适用于对实时处理要求高、计算单元体积小的各种机器视觉场景。
我们发展比较快,目前已经有30多个员工,绝大部分都是技术研发人员。很高兴我们也获得了业界的一些肯定,比如安创最佳创新奖,机器之心中国十大最具潜力早期AI公司等。谢谢大家!
提问:这种传感器跟传统的传感器比功耗会不会大?
陈守顺:这种传感器跟传统传感器比功耗会不会大?答案是确定的,要比传统传感器高几百个毫瓦,我们的好处是节省了后端计算的功耗。大家知道在很多汽车智能化系统里面,比如说特斯拉对应系统的功耗是100多瓦,跟100多瓦相比几百毫瓦并不算多。然而我们可以节省下来的后端计算功耗并不是毫瓦级别的。这个得失非常清楚。