清华教授温江涛:后摩尔时代的视觉感知应回归能耗

我们此刻曾经进入到了一个面向特定域设想架构的时代,此刻最大的限制要素就是能耗,我们需要提出一系列新的理论指点下的算法,针对特定使用范畴,面向使用和算法设想架构,面向使用和架构设想算法,思虑怎样能够更高效地感知、处置我们获得的数据。”铂岩科技 CEO 温江涛在 EmTech China 峰会上暗示。

温江涛于 2012 年回到学术界后仅仅三年即被选国际出名学会 IEEE Fellow,是其时中国大陆最年轻的被选者。他现任清华大学计较机科学与手艺系长聘正传授,同时也是媒体与收集手艺教育部 – 微软重点尝试室结合主任。

需要提到的是,他于 21 世纪初在美国处置视频编码、多媒体通信等相关的研究和尺度制定工作,曾有多个专利被国际尺度采用。他作为配合创始人,次要手艺担任人和天使投资人也参与开办了多家公司,先后被 Dell、Facebook 等上市公司收购,产物去世界各地普遍使用,包罗三星、华为、阿里巴巴、谷歌等公司都在利用他设想实施的产物。

他在大会上以《摩尔定律之后的视觉感知》为题颁发了演讲,他认为此刻正处在三个趋向的交汇期:无处不在的视频和视觉使用;摩尔定律和登纳德缩放效应的终结;伦理和隐私问题。

既利用我们能设想的最先辈的抱负半导体手艺,要实现雷同生物大脑的消息处置能力也需要 10 兆瓦的能耗,可是生物大脑的能耗不外 10 瓦,这里面有 1000000:1 的差距。若是要把视觉数据通过收集传输的话,功耗会更大若干的数量级,并且延时对良多使用来讲不克不及接管。

所以人们但愿能够通过 AI 处置器来处理如许的问题,好比华为和英伟达等公司,它们但愿能够让摄像头更智能,避免摄像头和云办事器之间的数据传输,而且处置视觉消息比保守通用办事器更无效率。

除了数据在芯片上和芯片外、收集中的传输,现有系统对于视觉信号的暗示和处置的效率也不是很高。人类大脑能够通过各类体例间接实现非线性处置,可是机械只能处置 0 和 1 如许的二进制数据,需要用良多门电路才能完成对复杂逻辑和函数的模仿。这在很大程度上也限制了效率。因而有公司但愿通过开辟分歧线路来模仿人类大脑功能,有一些努力于开辟神经芯片,通过监控神经元的突起开辟出深度进修的算法并集成到线路中。

而鄙人一代“视觉感知”手艺中,温江涛认为“会有如许一种新的阵列,它的耗能长短常低的,并且全体延迟率很是低,而且能够具有进修能力,能够进行不竭的自我演进,这是后摩尔定律和登纳德缩放效应时代视觉处置的必由之路。”

图 VPU 间接操纵光子的数据,低功耗低延迟实现追踪等根本视觉使命(来历:温江涛)

他把这类视觉处置器架构称为 VPU,VPU(Visual Perception Unit,视觉感知单位)能够以极低的功耗和延时,更好地完成感知、追踪和识别等根基视觉使命。

保守的结果是把光子消息通过光电转换和复杂的信号处置重建为一系列数据量庞大的高清晰度像素点阵序列消息。这些消息再通过通用或者公用处置器处置,两头涉及大量的无效计较和数据传输,而且为了完成数据传输,需要压缩、解压缩等复杂处置。而 VPU 能够间接感知光子,不需要通过视频序列的重建就能够间接完成视觉使命,从而在底子上实现现有系统无法达到的功耗、延时和处置机能。

生物视觉的别的一个特征是大量分歧类型的视觉细胞(好比人类就有两种)以至复眼系统的消息融合,以达到更宽广的视野和更好的感知能力。VPU 架构也需要把分歧的消息融合在一路,还需要考虑兼容性、同步、异步、靠得住性等等问题。这个融合能够在芯片内完成,也能够在芯片外完成,以至能够通过摄像头阵列来实现。

由于大量的感知单位运转着一系列随机的使命,为了能更好地设置装备摆设资本,必必要高效建模,然后及时动态地对数以万计的处置资本做优化的分派。这一焦点手艺也能够用在英特尔 CPU 如许的通用途理器上,实现诸如及时、低延时、高广播级超高清视频编码如许对计较资本和数据吞吐率有极高要求的使用。

温江涛的团队本年去世界上初次实现了广播级 8K+5G 的及时转播,在诸如男篮世界杯角逐,新华社国庆 70 周年庆贺勾当 24 小时直播获得了使用。

同时,温江涛和团队也在和内容制造商切磋,音乐等范畴。“我们但愿可以或许搭建起一个生态系统,更好地成立面向下一代的视频手艺。”

DeepTech 在会后采访了温江涛,就人工智能、5G 布景下的 “视觉感知” 相关问题进行了交换(以下为不改变原意的采访实录):

DeepTech:从广播电视不断到收集数字图象成长很是速度快,此刻曾经到 4K、8K、16K,你怎样评价这种趋向?

温江涛:起首必定是很快,我感觉最焦点的几个要素此刻曾经具备了:起首是带宽,其次此刻比力风行的一些短视频软件都答应用户间接在手机长进行编纂编码,从而大大提到用户生成内容的抚玩价值。

可是这里有一个很是主要的问题,今天给人看的和给机械看的视频是没有区此外。今天拍摄到的绝大部门内容可能是永久不会有人看的,好比城市监控这些视频,除非调出来,出事的时候才会有人看。而有更多的摄像机永久都不会被接到显示器上去。

在未来,视频的使用是无处不在的。我们但愿被人看的视频能越来越清晰,而除了文娱以外,针对机械看的工具但愿能起头从头设想一套机理让它普遍使用起来,在一些用很复杂的传感器来处理问题的处所,能够用视频来处理。可是最焦点的工具,一个是成本,一个是功耗。

DeepTech:你演讲里提到的 1000000:1 等等比例,是不是次要指的就是能耗?怎样去理解视觉感知正处在三种趋向的交汇期?

某种程度上我不像有些专家对人工智能那么欢欣雀跃或者无忧无虑。好比下棋下过人类,这个工作虽然了不得,可是起首,它是针对一类特定的问题;这类问题都是人发现出来为难我们本人的,人工智能系统采用浩繁的办事器恨不得后面有一个核电站给这类机械供电。柯洁、李世石早上随便吃了点就来跟你下,所以我感觉人的效率的高的不得了。

而伴跟着摩尔定律和登纳德缩放效应的终结,现有计较机处置能力既使采用针对使用的架构设想也很难有摩尔定律时代的 10000:1 以至 1000000:1 的飞跃,能耗更是越来越高,所以我们必需找到下一个 10000:1 飞跃的标的目的。

我感觉最底子的工具,将来是能量受限的。在这种环境下,真正的人工智能不是用机械去挑战一个什么样的功能,大概是合成一个什么样的“器官”,用两碗豆乳就能够支持完成一些使命。此刻提到的良多机械人和人工智能可能没相关系。所以将来的话,最焦点的工具不必然在电化学机理上仿真,但至多从它的系统设想的思惟和概念上去仿真。

今天良多的人工智能的使用其实只需是涉及到人的一些根基功能的,其实相当复杂,视觉只是此中之一。有人在从机理上做生物芯片,试图模仿电化学反映过程或者电信号处置过程。可是我们此刻想的是若何从逻辑上模仿大脑的过程,空气中有温度、触觉等等刺激,大脑是若何将之过滤掉并呈现出视觉表象的?

大脑两头的每一个脑细胞,可能都是不太靠得住的。可是大量的工具连系在一路就变得靠得住了,我们但愿这些工具能处理一些问题,若是大量摆设,那么就会很是廉价并且很是低功耗。可能激光雷达要卖 2 万美元,而这个工具只卖 25 美分,好比让白叟用的轮椅具有避障等平安功能,若是在轮椅上装激光雷达那成本太高,我们能够装良多小的、廉价的摄像头。

我但愿在价钱、功耗、延时和机能之间做一个衡量选择。一些不需要高精度的处所以成本和功耗为主,不竭再去提拔机能。

隐私方面,好比我想在泊车场拍车牌,除了拍到车牌以外,还会拍到其他那些工具,好比驾驶员的脸之类的,这就涉及到隐私问题。假如我做一个摄像机,它独一的功能就是识别车牌。那么,这个摄像机能够抓拍任何处所,大师感觉很平安,不怕被泄露隐私。

温江涛:一些低速的机械人,好比仓库里面的,它有一个根基固定的路线,不需要走很快,可是这过程中可能有工具掉下来,周边的工人需要遁藏等等场景。

如许的一些情况是能够很快使用的,假如成本做得很廉价的话,我们能够装良多,它协同工作的时候会很靠得住,同时这堆工具的犯错概率很是低。

温江涛:针对人类视觉的设法有良多摸索,可是我们如许定义视觉感知单位(Visual Perception Unit),而不是视频处置单位(Video Processing Unit),或者人工智能芯片,该当是没有了。这是由使用需求、手艺成长两者的分析效应决定的一个可能是最无效的体例。我们的输入是 vision, 不是先将其重建为 video. 方针是 perception,也不是处置。现实上现有良多神经芯片用模仿电路仿真深度进修的一些方式,因为架构和算法脱节,可能不会实现很是抱负的结果。

温江涛:由于 5G 带来了对耗损带宽的需求,所以 8K 本年获得了及其大的注重。我们做了世界杯男篮的转播,“十一”的时候我们做了新华社 24 小时的直播。8K 超高清视频通过 5G 现网实现直播,这是世界初次,我们也很是侥幸能和上下流的合作伙伴一路实现这些世界第一。

别的一些 5G 的物联网或者机械人的使用可能要到来岁或者更晚一些。目前来看,通俗消费者可能感受不到 4K、8K、16K 的区别,可是有几个处所是需要的:安防备畴,摄像头的位置和数量是无限制的,良多装的很是远,在建筑物顶上,又要看到很宽的范畴,这就需要超高清晰度,这是 8K、16K 的硬需求,以至这些都仍是不敷的,可能需要十亿像素级此外分辩率;第二个是体育范畴,在转播中由于受机位限制,无法设置过多的 4K 相机,而在一个大的场景里用 8K 去拍,不消剪来剪去,大分辩率能够支撑主动剪裁,不需要添加成本和效率。

DeepTech:手艺本身有没有一些挑战和瓶颈?FPGA 是不是一个无效的方案?

温江涛:最大的瓶颈在于资本的安排和高机能的计较,还有一个是数据的传输,这些都是要动态节制的,是挺难的工作。

FPGA 有一点儿像 CPU 和 GPU 两头的一种,能够用一些硬件的法子去优化一些焦点的处置能力。这一类工具适合在今天人工智能里面做深度进修的锻炼。可是对视频来讲,输入没有法子把它做得很规整,所以它并不适合做良多的视频处置。

我认为你只需同意视频将来有严重的需求,CPU 和 GPU 会碰到庞大的瓶颈,必然会有新的架构呈现才能够。

DeepTech:你在美国工作有十多年了,有良多专利被采用,包罗在 UCLA 里面最大的专利授权和谈。能不克不及谈一下你是若何鞭策些学术研究落地的?

温江涛:现实上今天去看那些发现,不是在做了科学研究或者理论之后,再想这个工具能够在什么处所用。假如你真正很厉害的话,需要先找到要处理哪一些问题,然后再逐个去找处理方案。为什么有些研究不太能落地,就是由于做了一些不需要的笼统,处理了一些其实不需要处理的问题。

麻省理工学院 Bob Gallager 传授说过,做传授最根基的职责是协助学生去找到一个最简单的没处理的问题,我感觉这里每一个都是环节词。

所谓硬核的科技,这些工具需要必然的流程和培育体例,一些体例不但是在讲义里。我感觉目前中国对硬核科技或者是真正有价值的手艺的认识在不竭改变。

更多精彩报道,尽在https://www.xfzwy.com

发表评论

电子邮件地址不会被公开。 必填项已用*标注