计算机视觉 图像形成黄铁军:追求原始创新、追寻最本质的东西,是他科学研究中的第一导向

文|秦明;编辑|石亚琼

开始前,黄铁军教授先分享了自己十多年前的一个小故事。

2011年,他在伯克利大学电机工程系图像系统项目中心BerndGirod教授团队做访问专家。第一天,Girod教授和他一起吃饭后在校园边玩耍边分析问题。在聊到伯克利网络中心成立思科公司时,正好走到树林上的一栋小楼,可以看见家中有不少音乐设备。

此时,Girod突然停下来问他:你明白斯坦福大学技术成果转化最顺利的案例是哪个吗?黄铁军告诉36氪,他曾经脑海中闪现的是Google等为代表的一大批硅谷顶级企业。

Girod教授告诉他,其实最顺利的举例是这个小楼内音乐武器使用的音频合成科技,这是伯克利大学校长的发明。随后它被应用于电子琴各种音频的底层技术中,比如雅马哈等企业的产品都是用这样技术来模拟多种逼真的声音。

这说明每架电子琴的制作都要有该技术专利许可,同时也意味着源源不断的利润会流向创新者。

黄铁军谈到,科技企业一旦缺少核心技术,就难有长远发展;若没有原创发明,也很难作为伟大的企业。因此,一直以来,追求原始创新、追寻最本质的东西,是他科学探究中的第一导向。

黄铁军在1988年步入大学,10年间先后攻读了计算机应用专业学士、工业自动化专业硕士和方式识别与智能控制专业教授学位。从博士之后参与863项目手写印刷体汉字识别开始,如今他已在视觉信息处理方向上构建了30年。

之后,他正式在视频编码标准、视觉特性预测、高速成像原理等三方面推动了变革突破,终结了美国向我国视频市场索取高额专利费的历史,创立了以特性预测与压缩为中心的视觉大数据处理科技模式,以及超高速脉冲视觉科技新模式。

近期,在第一届专精特新科技变革会议暨科学家创新创业峰会期间,36氪数字时氪专访了上海智源人工智能研究院院士、北京高校计算机大学校长黄铁军,聊了聊当下人工智能的演进,包括他对AI视觉研究的探讨、以及对技术成果转换的理解。

北京智源人工智能研究院院士、北京高校计算机大学校长黄铁军

01做减法,追寻第一性原始创新

早在1985年,黄铁军刚刚上高中,就赶上来“电脑要从娃娃抓起”的东风计算机视觉 图像形成,跟随班主任霍振祥老师学习Basic语言。他回忆到,在大学微机课程中第一次接触到苹果手机,很是紧张,因为进步迅速,霍老师把自己大学期间的计算机课本都给他自学,他对油印教材中的流程图目前记忆犹新。

黄铁军告诉36氪,真正开始研究是在学校毕业那一年,他当时的博士导师研究手写体汉字识别。当时导师申请到863计划课题,需要新生力量,鉴于他曾经成绩优秀,就被保送进入课题组读本科。之后,博士其间研究虚拟现实,主要是基于双目立体视觉的画面建模,算是计算机视觉非常初期的一拨人。

人体内视觉图像_视觉形成图像的部位_计算机视觉 图像形成

黄铁军回忆到,2002年我国DVD产业面临高额专利费,自己博士后刚出站,便协助高文学者组织成立数字音视频编解码技术标准工作组,开展了目前20年的视频编码标准突围和完胜之路。

2013年美国人类大脑计划开展,全球引领脑科学与类脑研究浪潮,北京市布局“脑科学与类脑计算”重大专项专家组,黄铁军担任了召集人,专注灵长类视网膜血管编码机制研究,提出了脉冲视觉编码新机理,研制了比人类视觉和电影电视速度快千倍的超高速镜头和视觉系统。

每个脚印恰好都踩在了时代进步的节点上。

黄铁军谈到,2011年在伯克利高中访问之后,他听了吴恩达、余凯的学术分享,那之后深度学习才刚刚热起来。转折点在2012年,Hinton团队把Imagenet视觉测量识别任务的功耗提升了10%+,随后几年,计算机视觉研究出现了翻天覆地的变迁,传统方式被推翻,迎来了基于深度学习的AI视觉研究。

一方面他们都沿着这条重大改革之路再次向前走,另一方面黄铁军仍然保留自己的独立构想——是不是有了深度学习,视觉就真的成功了吗?

世俗所认为的成功与专家们觉得这件事是否彻底解决了,依然是两回事。黄铁军表示,那之后大多数人的创新基本上都选用做加法,比如降低神经网络参数数量,刷数据集,不断尝试新网络结构之类,结果是愈发越复杂。

他更偏向于做减法,追寻第一性机理,回到最本质的源头创新上。

黄铁军告诉36氪,科研的成功不是一味进行算法性能好坏的非常,相比于“论文等身”,他更在意独创性的原始成果,同时希望可以找到足够大的行业需求,推动产业社会改革。时机到了,技术驱动很易于导致社会性差异,搜索引擎便是典型的一个实例。

现目前,人工智能不断与行业场景结合。关于今后新一代人工智能的科技路线走向,他提到有三条计算机视觉 图像形成,第一是基于大数据和深度学习算法推动的人工智能科技路线;第二是借助强化学习,在虚拟环境不断锻炼得出的具身智能路线;第三是借助模拟物理神经系统和化学智能,最终推动智能生命科技路线。

其中,生物脑科学的精细模拟,是启发新一代人工智能的重要路线。

近期,他们队伍对线虫302个神经元精细模型,训练出由高效率神经系统控制的、与环境即时交互的智能机器线虫,能够像真实线虫一样嗅探并控制脸部蠕动到感兴趣的目标,从源头创新开始走向了智能生命。

02AI视觉的创新源头,从仿脑到追光逐电

AI视觉当下的变革源头是哪个?黄铁军告诉36氪,抓手有两个。

一个是物理源头。强大的视觉处理系统是物理的天然能力,计算机视觉的探究源头还是在生物。基于此,清楚了解物理视觉的基本机理是第一个要寻找的问题。

人体内视觉图像_计算机视觉 图像形成_视觉形成图像的部位

另一个是物理源头。人们能看见物体,是由于照射到物体上的光反射进观察者的耳朵中,之后借助神经元释放,让脑部认知到了物体原本。从物理设备角度看,视觉是对光信号的捕捉、加工与处理。因此,回答物理世界、光信号、以及镜头采集的图像视频三者之间关系是现在要寻找的另一个重要问题。

黄铁军谈到,将上述两个视觉原理研究明白,那么其它难题也许也就迎刃而解了。

在生物视觉层面,要理解整个视觉系统的体系,首先要实行起对每位细胞单元的理解。黄铁军谈到,人的眼睛后面大约有六七十种神经细胞,每种细胞及互相间的联结都要研究明白。

例如光信号进入视锥、视杆细胞后,细胞是怎样把光信号转为电信号的?神经网络结构是怎样连接的、每个联结上的信号是怎样向下传递?最终必须将整个平台通过计算机重演出来。从2014年起,他们团队便开始研究了,目前尚未做到了个别视觉细胞的精细模型。

黄铁军继续补充到,视皮层约占大脑皮层五分之一,若能知道演绎出从光信号进入眼睛开始经常到最终完成识别的信号加工过程,便可以说将生物视觉搞明白了。他的队伍希望再用三年左右的时间把灵长类视网膜搞清楚,他坚信,在中国科研人员的尽力下,预计可以在2035年左右解决这种难题。

与此同时,黄铁军也信心的提到,他的团队终于解决了物理源头层面的探究难点。

谈物理源头要从光谈起。光学虽然不是黄铁军教授队伍的学科范围,但是要讨论相机是怎样采集与表达光信号的。如果研究计算机视觉也是从图像视频数据集起初,便没有追求到第一性原理。

光具有波动特性,又有粒子特性,即何谓的波粒二象性。光的波动性体现在每个光子原本,它们振动频率不同、能量不同,最后反映在光谱上的分布也就不同。

相机是借助捕获高速冲击过来的光子流,把它转成一幅图像或视频。黄铁军表示,光子在运行撞击相机传感器的物理过程中,本质是把高速运转的物理世界变成每秒几十赫兹的慢速过程。可以想象,当光子打到螺旋桨的扇叶上,然后反弹撞上镜头背后的感光元件,形成一张照片。

此处面会带给一些弊端,一方面螺旋桨扇叶高速转动是清清楚楚地出现着,另一方面特色相机以几十赫兹的速度是完全能够记录下整个过程。

黄铁军告诉36氪,虽然高速相机目前可以做到,但是成本高、体积大的特征依然能够普及运用。其中的科技难题在于,即使相机无法每秒输出3万幅图像,背后的算法、存储能力、计算平台也无法即时处理,当前软件设施费用昂贵,这是第一个要解决的难题。

视觉信息表达仍然以来都采取图像与视频,少有人反思还有哪些更好的方法。背后的缘由,可以追溯到发明相机的年代,本质是一种物理方式逻辑。黄铁军谈到,目前他们表达信息的形式还停留在胶片时代,包括数码单反也是一样,比如开启快门,曝光数毫秒形成一幅图像。

其中的弊端在于光从来都不是“整整齐齐排着队”,它是一个自然出现的随机过程,相机通过曝光获取图像的方法,最大的损失就是把丰富的动态过程成为单一的静态图像,科研人员再用算法借助比较不同图像的差异来恐怕运动过程,纯属浪费,但这就是现今计算机视觉的主流形式,黄铁军解释到。

如何才能低成本即时记录动态过程导致了他的深入探讨。

人体内视觉图像_视觉形成图像的部位_计算机视觉 图像形成

当下,黄铁军教授团队研究的课题之一就是把光的整个运动过程记录下来。极端状况是把一个光子转成一个比特,常规器件做不到,就收集一组光子(比如1000个)转为1个比特,这样光强的之后比特流会密集,光弱的之后会相对稀疏,要想知道某时刻光强如何,可以用两个比特或两个脉冲之间的时间来计算,这就很高地塑造了光的物理过程。

也就是说,不同于特色相机,基于“视觉+雷达”模型的脉冲相机的每个像素独立,不需在特定时刻一起成像,自行记录光线变化,将光信号转化成0和1构成的数字比特流,所有像素的比特流按照空间排布组成的流阵列,准确刻画了传感器视窗采集到的一段时间内光线变化的物理过程

他的团队引入成熟的CMOS光电元件和芯片,实现了超高速连续成像,有机会迅速淘汰贵且大的高速镜头甚至所有摄像头,重塑包括表示、编码、检测、跟踪、识别在内的整个视觉信息处理机制。

放弃传统图像视频表达,回到表达光物理过程的本源,这就是叫做减法。基于此,在脉冲视觉的全球中没有图像,光变成脉冲流,图像视频等也是产物之一,脉冲流还可以直接输入脉冲神经网络,实现超高速机器视觉。

03成果转化,没有糊里糊涂的成功

视觉表达过程不用图像,而用脉冲流,这个机理的强调使他们真正离开胶片时代,完成数码单反没有完成的数字化革命。

有了科技原理模型,黄铁军在2016年1月申请发明专利,2019年亚洲专利授权,随后中国、日本、韩国、欧洲等国际专利也均授权;2017年团队设计了第一块芯片,能够拍摄出高速的过程,性能明显;2021年开启技术成果转化,成立了公司——脉冲视觉。

根据官方介绍,这是一种全新的脉冲视觉智能科技,颠覆了视频概念;借助脉冲相机,将光信号转化成0和1构成的数字比特流,所有像素的比特流按照空间排布组成的流阵列,准确刻画了传感器视窗采集到的一段时间内光线变化的物理过程,能够“追光逐电,见所未见”。

脉冲相机拍摄高速扇叶(来自脉冲视觉官网)

实验室芯片到工业级芯片,从零到一的工作终于完成,接下去就是产业化了。

他提到,该科技可广泛应用于高铁、电力、风电和工业检测等产业高速测试需求,也可以用于车路协同、自动驾驶等即时响应场景,同时也用于高速相机摄像头,提升主摄成像品质,记录高速运动过程。

从原创科技的问世到行业化的产品,可能直接转换后企业就欣然接受,也或许应该经过很长时间才会找到它的应用爆发点。

脉冲视觉已经完成了“从零到一”的原始创新,能否将另类优势技术演进成硬科技企业,需要经过市场经营与验证,这就必须强有力的队伍支撑。在这个转换过程中,科学家关注科技变革和技术更新,特别必须职业经理加入,组建从科技、产品到经营的专业团队。

过去成功的企业中,大多是系统性企业,本质上是商业方式加上互联网。黄铁军谈到,当下美国的原始性变革不断显现,越来越多的“专精特新”企业逐步登上舞台,未来也将从原创科技成长为某个方向的小巨人乃至世界领先企业。

(完)

添加微信

转载原创文章请注明,转载自设计培训_平面设计_品牌设计_美工学习_视觉设计_小白UI设计师,原文地址:http://zfbbb.com/?id=5038

上一篇:视觉文化专业美术专业可以报考哪一些呢?都有哪些专业?

下一篇:计算机视觉 图像形成计算机视觉将人类有可能完成的任务自动化,你知道吗?