所谓语音芯片或者叫语音IC是指一台电子设备中负责发出声
围绕着这个信息社会的基础、让人爱恨交织的人类技术结晶,今天可能随便拉一个中国人,都能跟你聊上一阵“卡脖子”、稀土、全球产业链、“实体名单”。然而一般来说,如今大家经常提到的芯片是指一套计算设备最底层的CPU、GPU等等。而事实上芯片的种类千变万化,今天处在中美贸易争端和全球技术变局中的芯片也远不止这些“基款”。比如说我们每天都在用,但日常却并不会给予太多关注的“语音芯片”。它的技术升级和贸易地位,其实也已经悄然来到了风口浪尖上。
所谓语音芯片,或者叫语音IC,是指一台电子设备中负责发出声音、收录声音的处理模块。
事实上,这东西在你的家中可谓无处不在。大到电视、电脑、音响,小到手机、录音笔、音乐播放器,甚至电磁炉、冰箱、洗衣机发出的那一声“滴”,背后也都需要专门的语音芯片来进行控制。
这个领域听上去没什么技术含量,毕竟今天哪个设备还不会响呢?但事实上,其背后的设计技术和定制化生产能力,加上庞大的应用数量附带的低成本要求,多种因素导致了今天中国的语音芯片市场还是主要依靠进口。
目前,国内语音芯片市场需求中,只有16%左右可以由国内厂商来满足。我国每年要进口超过2000亿美元的语音芯片产品,这个数字超过了我国每年原油进口总额。
如果我们把这个情况带入今天的中美贸易争端大背景中,不难发现这又是一个并不安全的“卡脖子”产业。由于大量依赖进口,缺乏底层设计技术和大规模量产能力,语音芯片一旦被卷入贸易莫测,很可能对半导体行业,甚至整个电子产业带来连锁反应。
为了摆脱产业链下游的地位,这些年来中国相关产业也在进行一系列行动。比如大规模收购美国和欧洲的语音芯片企业与专利技术,但类似收购经常被各种因素打断,流产率远大于成功率。
另一方面,今天大陆市场购买的语音芯片,其实大部分产自日本、韩国和中国台湾地区。在中美贸易战的大背景下, 稳固和发展与这些国家和地区的产业联动关系,也就变得相对重要。
这一领域人才的流动,近些年也成为大陆发展语音芯片的新动向。比如随着台湾地区经济发展放缓,大量台湾的语音芯片人才选择来大陆工作,客观上成为推动大陆发展自身产业链的推助剂。
然而在众多因素中,目前最有可能改变语音芯片全球贸易结构的,其实还是新技术的崛起。从AI到5G,这些我们耳熟能详的名字背后,语音芯片迎来了不小的“变数”。
从AI到5G的跳板
我们知道,传统意义上的语音芯片只负责录音和播放声音,其主要难度在于传输准确率、信号稳定性等方面。而这两年一个新崛起的市场,却让“古老”的语音芯片,看到了变化的可能。
那就是AI和智能音箱。2018年,全球智能音箱出货量达到了5600万台。而这也意味着数以千万计的芯片市场。
在最开始,智能音箱产品也是用通用CPU来完成计算任务处理的,而这个方式很快暴露出了弊端。由于音箱产品中需要CPU处理的任务并不多,其能效绝大部分都被浪费掉了,而消费者却要承担不小的成本。很快行业达成了共识,专用的AI语音芯片应该是智能音箱的标准配置。
而与传统语音芯片相比,AI语音芯片主要的不同,是必须增加语音识别功能。而这涉及到对AI算法的理解,声音文件的高度压缩,以及与麦克风阵列的新型控制关系等等。这些能力涉及多个学科,是原本语音芯片中并不会涉及到的全新功能。而新的需求带来的好消息是,行业中公司不分大小,国家不问西东,又来到了差不多相同的起跑线上。
而假如这个市场里,仅仅有一年几千万台音箱。那么与全球整体语音芯片市场相比,其实不过是沧海一粟。真正让AI技术在语音芯片市场中,引发更高想象力的因素在于5G。
我们都知道,5G的目标在于产业和行业应用,让大量物联网设备接入大带宽低延迟的网络。然而让这些设备接入网络其实是没啥用的,至少是用处非常有限。真正5G的价值,是让物联网设备可以接入智能交互,让物联网体系可以读懂人类需求,并基于5G网络带来的实时互通带来整体价值提升。
举个例子,给家里的空调连上网,这本身没有什么价值,反正也没有人爬到空调那上网。最多不过能让人远程控制空调,而这多半是个鸡肋功能。但是如果给空调加装AI,让人类可以语音控制空调,并且让空调理解主人比较复杂的需求,比如“我肩膀有点冷腿有点热”,那么物联的不可替代性就出现了。这里的人机交互能力来自于AI,而网络基础建设于5G。
顺着这个逻辑向下推演,意味着虽然今天音箱是AI语音芯片的核心市场,但未来可能会让无数电子设备都需要AI语音芯片。甚至于是否有这样的可能,今天我们其实已经习惯了所有屏幕都是触屏,有一两块非触屏都要在旁边写清楚。而未来可能每一块语音芯片都需要是AI语音芯片——人类需要每一个设备都不只能发生,而是能交流,能理解。
如果这个逻辑成立的话,那么语音芯片产业链将面临大规模洗牌,只能生产传统语音IC的企业将无法立足。今天处在产业变局的原始阶段,同时也是中国语音芯片产业,变革自身产业链位置的最大机会之一。
当然,瞄准这个机会的并不只有中国公司,但至少大家的机会是相对来说均等的。在此刻,已经有几路人马杀奔了AI语音芯片这个刚刚有兴起苗头的市场。
首先是芯片厂商们。随着智能音箱的崛起,抓住机会的芯片厂商又迎来了一轮增长。目前获利最多的是台湾地区的联发科,在全球智能音箱芯片中占据了超过70%的市场份额。而大陆的杭州国芯、晶晨科技等芯片企业也在发力这一领域。
一般来说,芯片厂商的优势在于AI语音芯片其实并不需要特别难的技术门槛,而且对量产能力和成本把控能力具有相当强的要求,这些都是芯片企业的强势。而对于新技术的理解,尤其是对AI算法的融合,则成为了芯片厂商的短板,因此与AI公司的合作往往成为了今天的主流。
另一方面,国内那些著名的AI独角兽也在奔赴AI语音芯片的路上。科大飞讯、云知声、出门问问等公司都推出了自己的语音芯片计划。AI公司的优势很明显是在对软件层的理解,比如对声音建模、NLP、语义理解等方面,独角兽们往往各有秘籍。另一方面,由于行业普遍人为算法公司的业务太“轻”,很难在未来获得长时间发展,所以今年的主流故事是算法公司纷纷走向芯片和硬件,把算法集成在芯片中,在产业上游卡住身位。这一点也加强了AI公司进军芯片的动力。
但是AI公司在芯片上的弱势也是显而易见的。AI语音芯片并不是个高净值产品,往往必须依赖大量生产和大规模出货才有可能盈利。而在集成化和工程能力上,AI公司显然处于弱势。目前AI独角兽们的语音芯片计划,更多还停留在对量产的肯定与承诺中。
还有一个必然出现的玩家,就是巨头们。Echo的主人亚马逊已经在去年3月公布了自己的AI语音芯片计划。有理由相信,热衷于造AI芯片的巨头们不会放过这口蛋糕。目前,谷歌、苹果等公司都有深入AI语音芯片的可能性。国内华为、百度、阿里,也都或多或少传出了类似消息。
而这里需要注意的是,AI+5G+IoT的组合,虽然打开了语音芯片的新想象力。但是在这个逻辑里,未来能占据广泛市场的芯片模式,绝不是今天智能音箱芯片的模样。语音芯片本身,变化才刚刚开始。
AIoT道路上的未来语音芯片
基于上文描述的逻辑,未来语音芯片的变革机会,将基于新网络条件下的大批量、全场景设备拥抱AI。那么符合这样逻辑的语音芯片产品事实上还没有出现。而从这个角度看,行业的准入证依旧没有停止发放。
从今天音箱中的AI语音芯片,到未来无处不在的AIoT语音芯片,有这样几条变化之路才刚刚开启:
1、三低芯片
所谓三低,是指低成本、低功耗,低时延。5G时代的物联网设备,理论上来说应该是可以长时间待机,尽量贴近可移动化的。因为设备将部署在海量并发场景,这也就让语音芯片的基础要求是足够省电和足够便宜。理想中下一个阶段的语音芯片,是能够随时保持等待唤醒,但在等待唤醒状态下极低能耗的。未来的物联网芯片、语音芯片、视频处理芯片,其实很大一部分竞争将围绕三低展开。
2、云边端一体化
云端一体,这个词估计大家也都听腻味了。但是没有办法,客观来说,如果我们希望一台物联网设备执行复杂且实时化的交互和推理,那么它的内部必将是本地计算、云端计算以及网络条件高效配合的。而目前的智能音箱还停留在较简单的AI任务层面,语音芯片不需要对云端任务有太强的理解和配合。而基于目前对未来的想象,本地语音任务处理,一定会与云端高效配合,这要求芯片对云端的理解必须加深。尤其在安全层面要求更好的解决方案。
3、能够复杂排列与定制的芯片组合
AIoT设想中,一个很重要的因素在于单一场景的智能设备应用,可能是由大量不同能耗、不能功能、不同计算能力的设备组合而成的。比如在一家养殖场里,动物身上的语音传感设备、围栏栅栏的语音设备、监控系统的语音交互能力,都需要不同的语音功能、语音硬件来完成。于是,这也要求语音芯片的规格和制式必须复杂多样,能够进行基于统一平台的互联互通。很有可能,接下来语音芯片厂商会更多与垂直行业相结合,在车联网、智能家庭、智能医疗、城市安防等领域出现垂直于行业的语音芯片厂商。
4、多模态芯片的到来与崛起
在AI技术向产业化的发展中,今天一个很明显的趋势在于,多模态AI能力正在明显提速。尤其是将语音识别、语义理解,与机器视觉任务相结合的AI模型。如果想要让类似任务计算效率达成最优,那么在芯片端对多模态的加速就变得十分重要。也许未来我们需要的,是机器感官芯片,而非语音芯片或者多媒体芯片。