12月12日,第八届GAIR全球人工智能与机器人大会在深圳正式启幕。
本次大会为期两天,由GAIR研究院与雷峰网联合主办,高文院士任指导委员会主席,杨强院士与朱晓蕊教授任大会主席。
作为观测AI技术演进与生态变迁的重要窗口,GAIR大会自2016年创办以来以来,始终与全球AI发展的脉搏同频共振,见证了技术浪潮从实验室涌向产业深海。2025年,是大模型从“技术破壁”迈向“价值深耕”的关键节点,值此之际GAIR如期而至,携手智者触摸AI最前沿脉动,洞见产业深层逻辑。
大会上,深圳市海外高层次人才、南方科技大学计算机科学与工程系长聘副教授张进亲临现场,为参会者带来了一场精彩纷呈的演讲分享。
演讲一开始,张进教授就向“时空AI”、“具身智能”等当下火热概念率先抛出了自身见解:无论是具身智能还是智慧健康,都需要对物理世界进行感知理解,并在虚拟世界和物理世界之间建立沟通。因此传统AI和新型传感本质上是从不同的角度和路径走到同一个点,最终实现“殊途同归”。
基于这一点,张进教授认为传统AI从语言、文字、视觉等模态出发,生成世界模型探索空间智能。而传感器、智能物联网相关领域的学者们一直以来在做的,同样是为了准确感知物理世界。只不过感知方式从信号处理迭代到机器学习、深度学习,再到如今通过大模型实现面向空间智能的多模态感知。
关于面向空间智能的新型模态感知,张进教授和她的团队有一些新想法:
1、当下的多模态感知大部分集中在语音、文字、图像、视频等形式,存在功耗成本高、隐私性差等问题,我们希望引入更多的新型模态感知如声波感知、毫米波雷达感知。
2、声波感知成本低、计算量低,能通过对多个设备对之间的声波感知,判断它的方向和距离,未来这项技术有望作为提供连接和方向感知的基础设施。
3、声波感知在医疗健康领域大有可为,在未来也许利用小小一副耳机就能实现心跳、血压、肺功能健康全链路监测。但如何实现跨模态检测、消除个体差异性影响,仍是一项巨大挑战。
4、如今我们对毫米波雷达的关注点由检测准确率转向可信感知,正在思考要如何将视觉的数据合成毫米波数据。
5、接下来我们的主要工作方向有个:继续做用于物理信息辅助的新型模态理解模型、让传统模态与更新型的模态融合理解,用大模型自动生成代码来检测物理世界的感知信号。
6、在将来,面向空间智能、物理世界的多模态感知需求会极其大,需要更多像声波感知、毫米波雷达一样的新型感知模态在不同场景并发挥独特优势。
7、当下新型模态的数据量还是很少,所以未来的研究方向将会集中于数据理解、数据生成等方面。如何生成、如何防御、如何更轻量化的跑在端侧等等,这些问题亟需进一步研究。
以下是张进教授演讲的精彩内容,雷峰网作了不改变原意的整理与编辑:
声波感知也好,毫米波也罢,都是为了感知物理世界获取空间智能,所以今天我要讲的是面向空间智能的新型模态感知。
众所周知,上个月李飞飞院士刚刚提出空间智能是AI的下一个前沿。深圳的反应非常迅速,在上个月底发布的《深圳市“人工智能+”(征求意见稿)》当中就把空间智能模型写进去了。
实际上无论是现在的具身智能、无人机、智慧健康,都是用来认识和了解物理世界的,只不过大家是从不同的渠道、不同的方向走到了共同的点上,所以我管它叫殊途同归。
为什么说是殊途同归?
传统AI从语言、文字、视觉等模态出发,生成世界模型,探索空间智能。但回过头看,二十年前我们在无线通信和无线网络的研究中,就已经开始做无线传感器网络了:把所有的传感器放到山里、放到河里、甚至空中去进行监测。
再往前追溯十年,数字孪生、城市建筑、交通等等都是为了准确的感知物理世界。包括现在我们利用WiFi、手机信号做感知,从有线发展到无线,这些都是我们在试图感知物理世界的方式。
那么我们是如何做到殊途同归的呢?
最初我们是用信号处理来完成这件事情,后来我们可以用机器学习、深度学习来理解物理信息,现在我们可以用大模型理解传统传感器的信号,从而得到更多的信息,也为我们带来面向空间智能的多模态感知。
但说实话,现在所谓的多模态感知,都还是集中在语音、文字、图像、视频,真正新型的并不多。像激光雷达、点云、深度摄像头、红外,稍微有一点与传统的结合。我们希望能够引入更多的模态,比如声波感知、毫米波雷达感知。
声波感知有哪些最新探索?
毫米波雷达感知目前已经有一些应用了,但声波感知的应用目前较少。更重要的是,为了更好地理解这些新型模态,我们需要用更新的网络更好地理解它,所以这也是我们整个正在团队做的事情,就是希望用这些最新的模型技术,来理解一些新型的传感器数据。
为什么需要这些新型的传感器数据?这个事情非常好理解。已有的视觉传感器复杂度高、依赖光照,还有隐私问题。如果要在小机器人上加一个摄像头,甚至加一个处理视觉数据的芯片,它的功耗和成本都是不容小觑的。那么能不能用更便宜、更好的方式来做感知呢?
基于此,我们最近几年都在研究声波感知。我们所有的设备,例如手机、智能眼镜、耳机、智能音箱等,全都带有扬声器和麦克风。无需要借助额外设备,只要让它们用扬声器、麦克风发出一个人听不到的声音,将这个声音打在环境中再返回来,就能够像蝙蝠一样感知到周边的状况。这种感知方法成本低、计算量低,非常适合机器人应用。
具体来看它有哪些应用呢?例如华为汽车,它在车内的定位已经试图在做这件事了。以及在笔记本电脑上,已经可以用手来翻页了,这个动作并不是靠摄像头来完成,而是通过声波完成的。还有很多应用,包括智能眼镜和耳机等设备上的应用。
最早的时候我们还没有用声波模型,只是理解信号,用两个很小、距离很近的两个扬声器,发一些特殊的旋转声场的信号,就可以做到很精准的厘米级的位置感知,这是需要依赖设备的,在设备和设备之间做定位的时候这一点就非常重要。
除了2D的感知,我们还可以做3D的运动追踪。其实两个设备之间去做声波感知,并非一件容易的事,多设备之间的声波感知就更为复杂了。在这个过程中要面临很多的冲突,要怎么去解决这些冲突呢?近几年我们在跟荣耀、华为等智能设备厂商合作解决这个问题,通过多个设备对之间的感知,判断它的方向和距离。未来,这项技术有望放到华为OpenHarmony系统中,作为提供连接以及方向感知的基础设施。
除此之外,我们还在智能交互方面做了很大一部分工作。我们花了很多的精力做智能眼镜的交互,希望能够用声波感知人眼上下左右的表情。比如只需要眨个眼、挤个眉,就可以控制眼镜的操作。本质其实也是speaker发出声音,打到麦克风上从而做交互,实现无需抬手仅用眼球就可以控制智能眼镜。
紧接着,我们还做了不少的东西。如果你现在的智能眼镜前面有十几个图标,在点击图标的时候你需要用手滑动它,看到需要点的位置。因此,我们做了一个面部的传感器,它只需要发出一个稍微高一点的次声波,就可以非常便捷地进行感知,包括触摸、滑动等等。未来,这种传感器如果可以集成在眼镜上,外观上可以做到基本隐形。
除此之外,我们还做了隔空的手势识别。比如华为的智能眼镜,在旁边有一个触控板,只要触碰到就可以感觉到眼镜在动造成不适感。那么能不能隔空控制它呢?这个技术挑战还是蛮高的。
目前,我们有两种技术:一种是被动感知的技术,手在滑动产生了微弱的声音,让麦克风听到。另一种是主动感知的技术,speaker要发一个人听不到的声音,弹回来然后感知它,无论如何都是隔空手势的感知。
除了在智能眼镜上做交互之外,我们还发现了很多痛点。例如现在几乎人手一个蓝牙耳机,但是目前对耳机做交互主要还是靠摸,摸它的柄上下不同的位置。尤其是很好的耳机,轻轻一摸声音的增减幅度就很大,现在我们希望不触摸它,就可以让耳机实现感知。
我们首先做的是,让舌头顶上颚的不同位置,来告诉耳机现在希望它进行什么样的操作,这个构想我们最早是从助听器上得到的。助听器具备一个很重要的特点,就是需要区分声音的方向,不光要选择声音的强弱,而且还要选择声音的方向,并且使用者一般不希望别人知道他戴着这个东西。
因此,我们受了助听器的启发,在蓝牙耳机上安装了隔空隐蔽式传感器,用舌头就可以控制耳机。它的原理其实很简单,因为耳道、上颚和口腔是连通的,耳道发一个声音,打到口腔内再返回去,舌头不同的位置会使信道产生明显的变化。通过感知信道的变化,就可以实现隔空隐蔽,这也是今年人机交互顶会上的一份工作。
除了用舌头来控制耳机之外,接下来我们还做了隔空手势控制耳机。这个部分其实有非常多的挑战,包括怎样设置这个手势?怎样防止周围环境的干扰?选用什么样的信号?看起来是蛮小的系统,但这里面的技术挑战还是很多的。在交互上,我们前前后后也做了不少的工作。有一些消费电子类厂商对我们正在做的这些研究很感兴趣,所以我们现在也在做进一步的落地工作。
另一方面,我们想稍微聊一下声波感知在健康方面的应用。实际上用声波感知做健康的监测,这项研究我们已经做了十多年。在此之前,我们已经做了快20年远程健康监测。
我们现在想做的事情是,用声波感知最基本的呼吸、心跳。打个比方,就是把手机放在桌子前面,就可以看你的呼吸、心跳,这部分现在已经做得非常成熟了。 而我们现在做的事情是,拿耳机观测你的肺功能。
在中国,有非常多的慢阻肺人群,以及哮喘病人需要定期到医院做肺功能的监测,有时候他不想去,就没办法知道自己病情的发展。如果我们在家里戴着耳机,就可以得出跟医院几十万的监测设备类似的肺功能曲线结果,这对用户来说将是一件非常利好的事情。
为此,我们做了两方面的工作:第一份工作,用耳机作肺功能监测,但是还需要吹一个很长的管子。第二份工作即今年的研究,现在用耳机做肺功能检测已经不需要管子了,通过正常说话就可以判断肺功能的情况。
在做完这件事情之后,医生告诉我们光知道他们的情况是没用的,对医学来说,技术手段不光要监测出状况,最重要的就是要形成闭环,还需要返回来帮助他们进行康复或治疗。
那么要如何在呼吸系统疾病上帮助他做治疗呢?医生告诉我们,肺部训练是一个很常用的办法,可以每天做几十次的腹式呼吸训练。
但是病人一回家就发现,虽然一开始做的是腹式呼吸,但做了不到2个就又变成胸式呼吸了。所以我们想到可以用声学摄像机或毫米波雷达来帮助他们做呼吸方式、呼吸深度的评估,从而替代医生和护士,帮助他们去做呼吸训练的指导。目前,我们正在跟广东省人民医院进行相关合作。
除此之外,我们还用声波做了房颤监测系统,只要放到手上就可以做监测,使用方法上相对比较容易。想象一下,未来只要戴着耳机就可以知道你的呼吸、心跳、压力状况,发出呼吸训练的提醒,还可以顺带放一些音乐缓解你的压力。这个方面目前我们正在做,后续还有很多需要进一步完善的地方。
除了声波感知,我们做了一些关于柔性传感器的工作。因为我们的研究主要关注医疗健康领域,所以我们尝试过把柔性传感器放在耳朵里做血压监测,放在手腕上进行血压的监测等等。这一方面我们要解决的核心问题是,原来大多数的数据都是基于光电传感器和PPG的,如果切换到柔性传感器它的数据量是远远不足的。
这部分的难点主要有两个,一方面要实现跨模态监测,这一点尤为重要。另一方面,在正常人身上做监测是很容易的,但是在病人身上做检测就相对困难。未来我们还需要收集更多病人的数据来做相关工作,仍然有很长的一段路要走。
数据匮乏是毫米波雷达感知的关键挑战
最后一部分,我想分享一下关于毫米波雷达的感知。
其实毫米波雷达我们其实做了已经快10年了,之前也做了很多毫米波雷达的SLAM,比如针对材质进行识别,是玻璃、石头还是沙发?最近我们的关注点反而不是它的检测准确率了,而是毫米波雷达的可信感知。之前我们尝试过用毫米波雷达监测人的运动,可以做到把人的Skeleton画出来、追踪出来。
在这个工作中要解决的核心问题是,毫米波雷达的数据很少。但视觉的数据很多的,所以我们在思考要如何将视觉的数据合成毫米波数据从而进行分析以及后续的学习和训练。在做的过程中我们发现,视觉上的欺骗可能会影响毫米波雷达的判断,所以只能识别还是远远不够的。
举一个交通相关的例子,假如你前面有一辆车,但是旁边车辆开门造成一个视觉上的遮挡,这时它就会生成一个信号让你误以为前面没有车,就很容易撞上去。还有一种可能,就是你前面本来没有车,但是它生成一个信号让你误以为前面有车,这个时候刹车就会导致后车追尾,这些情况都是有可能发生的。
那要怎么样防御这种生成式欺骗呢?后续我们着重做了一些工作。举个例子,我们可以设置毫米波雷达发射出来的信号,让它形成几个不同的通路,使得我们在一个通路下看到的运动速度距离是A,另外一个通路下看到的运动速度距离是B。这样我们就可以区分真实信号和欺骗信号。
如今大家进到一个陌生的房间里,会很关心屋子里有没有摄像头在进行偷拍。也许在未来,如果房间里有入侵的毫米波雷达,不需要偷拍就可以感知到房间里的状况,那我们要如何探测、发现、并将它清理出房间呢?这个相关研究也是我们后续要做的。
最后,我们来总结一下声波毫米波雷达的发展历程。
在初期,我主要做信号相关研究。这也与我的专业背景有关,我的本科硕士都是电子信息专业,博士期间跨专业到计算机,于是开始做深度学习研究。我们最早用的是一些信号处理的手段。随着深度学习的发展,我们早期的信号处理手段已经远远不够用了,需要在理解物理信号的基础上,设计针对物理信号的模型。
举个简单例子,毫米波雷达的信号是有稀疏性的,会有天线之间角度的关联性,这种关联性就不能再直接套用传统的视觉网络。我们需要理解它的物理意义,然后在此基础上设计合理的模型。因此,所以我们慢慢从物理意义做到有物理意义模型。
新型模态感知会走向何方?
在将来,我们的主要工作方向会集中在以下三个方面:
首先,继续做用于物理信息辅助的新型模态理解模型。举个例子,现在已经做出了很多毫米波雷达模型,但大都是基于生成点云然后在点云上做理解的。但实际上生成点云这件事本身就已经消耗了很多信息,如果可以直接在原有的信息上做理解,用物理意义结合深度模型来做模型设计,效果将会更好,这也是我们现在的工作方向。
其次,如何让传统模态与更新型的模态融合理解。
最后,近两年大模型非常火热,并且对各行各业造成了翻天覆地的变化。我们所做的智能感知领域的物联网相关研究,自然也深受大模型的影响。所以我们也在积极拥抱大模型并做了一些新的工作,比如用大模型自动生成代码来检测物理世界的感知信号,然后直接给出结果。
未来,还会有非常多基于大模型的感知模型生成方面的工作。如今这方面的工作才刚刚开始,我相信未来五到十年就会非常繁荣的发展。
总结一下,面向空间智能、物理世界的多模态感知需求是极其大的。传统的感知模式只有寥寥几类,而未来我们需要更多的新型感知模式。并且在不同领域需要不同的感知模式,声波感知、毫米波感知、柔性传感等新型模态,会适用于不同物体的感知并发挥独特优势。
而我们需要做的,就是理解新型的感知模态,设计新型感知模型,从而更好地利用这些新型感知模态的信息,更全面的感知这个物理世界。所以未来的研究方向将会集中于数据理解、数据生成等方面,当下新型模态的数据量还是很少,如何生成、如何防御、如何更轻量化的跑在端侧等等,这些问题亟需我们进一步研究。
我的分享就到这里,谢谢。
以下是雷峰网与张进教授采访对谈的精彩内容,雷峰网作了不改变原意的整理与编辑:
雷峰网:您最初的研究领域电子通信与现在跨度很大,是基于什么样的契机开始做感知研究?
张进:本硕期间我在清华读的都是电子通信专业,后来去了香港科技大学读博改学计算机专业,结合过往的学科背景,博士期间我开始研究认知无线电。博士毕业后我开始跟医院合作,将无线信号技术应用在智慧医疗中,也是在这期间发现了信号也能感知健康状况。人口老龄化不断加速发展的背景,让我意识到智慧健康领域的感知需求将会非常大。
但学界研究和业界需求变革始终是相辅相成的,所以在2014年前后我选择回到学术界,继续深耕健康检测感知技术。研究过程中我开始关注到毫米波雷达在医疗健康领域的适用性,从2014年至今我一直在南方科技大学做毫米波雷达相关的应用研究,并在2018年开始同时做声波感知的应用研究。因此,我经常告诉我的学生,在找工作时不能只看公司需求的产品跟自己的研究内容是否对号入座,要用系统性思维去拆分需求找到解决问题的突破点,这也是一个成功的博士应该具备的能力。
雷峰网:声波感知、毫米波雷达这种新型感知技术,会对普通大众产生什么主要影响?
张进:真正的好技术是“无形”和“无感”的。打个比方,平时我们把蓝牙耳机从充电仓里取出来戴在耳朵上,就能立刻自动连接手机。但如果戴上耳机之后还需要在手机上点一下才能开始用,那么用户的体验感就会大打折扣。所以我们这种新型感知技术的核心目的,就是帮助设备理解周围的环境,并具备智能感知周围环境的能力,从而更加便捷的进行人机交互。
举个例子,现在我们跟一些AI智能设备互动时,还需要拍个照片或说句话才能让设备理解我们的目的并执行。在未来,有了更多模态的智能感知技术之后,也许我们无需做任何事,设备就能自动理解周围环境并执行我们的目的。
雷峰网:新型模态感知技术在推动空间智能发展中起什么作用?未来的感知世界会是什么样?
王进:传统的AI是通过视觉、听觉、文本等内容来读取信息认识世界,对于物理世界中的距离这种概念它是无法理解的。所以要真想让空间智能真正的理解物理世界,需要通过物理传感来进行空间感知,因此我认为新型模态感知技术中的声波感知、毫米波雷达等物理传感,在推动空间智能的发展中是必不可少的。
正如刚才所说的,真正的好技术是“无形”和“无感”的,在感知这件事情上也是一样的。新型感知技术是一个非常复杂的领域,它会针对不同的场景需求和设备限制提供不同的技术支持,声波感知也好、毫米波雷达也好,一般来说不会有一种感知技术打通一切场景的情况。未来也许会是一样或者几样感知技术结合起来,在特定场景中满足产品的智能化需求。