1月6日至9日,在拉斯维加斯举办的消费电子展(CES)上,一处展台前的场景格外吸睛。
两位参展者正进行一场看似混乱的对话,你说中文,我说英文。可对方说完,另一人都能立即用母语回应,点头、反问、讨论细节,毫无障碍。
秘密藏在他们的耳畔:时空壶W4,全球首个骨声纹AI同传耳机。
98%准确率的高水准同传,嘈杂展会里的“沟通神器”
在时空壶的展区,正呈现出一幅特别的景象,两位体验者相对而坐,各自耳畔都戴着一只耳机。
男士刚用英文问完“Have you had lunch?”,女士已经自然地用中文回答:“是的,这里有一些不错的美食选择。我还没吃午饭”。
接着女士用中文反问“你在展位这里过得怎么样”,男士也毫不犹豫地笑着接话,“我就是有一些忙。”
整个过程中,他们的目光始终自然相接,偶尔伴随手势,对话节奏流畅如常。而在他们周围,是CES展区熙攘的人潮与持续的喧闹背景音。
长久以来,传统翻译耳机普遍被两大瓶颈所困:嘈杂环境下“听不清”,复杂语境中“译不准”。而这,恰恰是决定跨语言沟通体验好坏的关键所在。
而时空壶W4,正用两项全球首创技术,直击这两大痛点。
第一项是AI骨导收音。传统方案要么靠多麦克风阵列降噪,但在极端噪音前依然力不从心;要么硬件收音与软件翻译割裂,导致整体体验不佳。
W4创新地加入了一枚骨声纹传感器。它的原理很简单:人说话时,声音不仅通过空气传播,还会引起颅骨的震动。这枚传感器就是专门用来捕捉这种震动信号的。
“两个人近距离说话时,怎么防止我的声音窜进你的耳机里?”时空壶创始人田力坦言,“过去我们做过很多尝试,试过矢量型降噪,靠方向性波束控制收音距离,效果不错,但还不够极致。”
现在,骨声纹传感器捕捉颅骨震动,两颗气导麦克风收集空气传播的声音,三者信号融合计算后,就能实现“只收我声,不扰你耳”的精准收音。再吵的环境,也能稳稳锁定说话人的声音。
听清之后,下一个挑战是译准。
时空壶的解决方案是,通过与AI大模型深度融合,具备了联系上下文理解语境的能力。
举个例子,很多翻译设备至今都搞不懂“手冲”咖啡里的“手冲”二字。如果你在国外想点一杯手冲咖啡,不少“实时翻译耳机”可能会理解成让你“洗手”。
而W4不仅能准确翻译,还能结合场景帮你下单一杯“手冲咖啡”。
不仅如此,基于巴别系统,时空壶上线了业内首创的AI翻译引擎优选技术。
要知道,全世界有几千种语言,英文转西语、中文转韩语、德语转英文,每一组语言对的语法逻辑、表达习惯都天差地别,根本没法靠一个通用引擎搞定所有。
而AI引擎优选系统能实时识别当前语言对,并自动调度后台中最擅长处理该语言对的专精引擎,就像为每一种语言都配备了一位“母语译员”。
“从创业第一天我们就想明白,翻译引擎未来一定是混合状态。”田力指出,“没有哪家公司能把所有语言都做到顶尖——谷歌可能英语强,中文就不一定,小语种更难。”
所以,时空壶既自研一些引擎,特别是小语种和个性化引擎,也与OpenAI、豆包、通义千问等头部平台都有合作。
田力透露,目前,阿拉伯语有十几亿使用者,但全球AI公司对其识别普遍不佳,因为缺少本土技术生态。时空壶自己深耕后,目前识别准确率已超过许多大厂。
关键在于,时空壶并非将这两项顶尖技术简单并列,而是首创性地将其融合为一个完整、协同的智能翻译系统。
这是翻译耳机行业首次把“听得清”和“译得准”真正贯穿到同一个闭环之中,也因此让W4成为了迄今为止业内最准的AI同传翻译耳机。
数据显示,W4支持43种语言、96种口音,面对面同传翻译准确度高达98%,100db噪音环境下依旧能够稳定翻译。
9年的技术深耕,挖出一条护城河
这样的高水准同传体验,到底是怎么做到的?
故事要从创始人田力的经历说起。2006年到2010年,他在电子科技大学读书,毕业后入职华为,很快就拿下了中国区最年轻的金牌个人奖。
三年后他选择离开,原因是“特别想看看外面的世界”。
2016年底,田力在深圳大学城附近成立了时空壶。
那时候AI已经很火,商汤、旷视等企业估值都到了几百亿,翻译方面,谷歌翻译都好多年了,用户好几亿,微软也有相关服务和产品。
但田力发现了一个核心痛点:“尽管有这么多工具,出国、谈工作、交朋友,最大的障碍还是语言。这说明缺的不是技术,而是一个真正好用的产品。所以我们才出现,我们想实现的是两个人能像海报上那样自由自在地交谈。”
次年,当整个行业都在想怎么把“拿在手里”或“屏幕里的翻译”做得更好时,时空壶推出了全球第一款翻译耳机WT2。
WT2的技术特点是“1+2”模式,即一部手机配合两只耳机实现双向翻译。虽然不完美,但创新的模式和追求自然对话的模式,在海外众筹平台Kickstarter上获得了超预期3倍的支持,筹得16万美元。
这笔钱不多,但至关重要:它证明了市场需要翻译耳机,也证明了这条路走得通。
但技术攻克的难关才刚刚开始。就像自动驾驶分L1-L5级别,AI翻译也有清晰的进阶路径。
L1是基础文本翻译,类似早年电子词典;L2是“你说一句、我等一句”的回合制翻译,这是当时行业的主流水平。
而从L2迈向L3,实时同声传译,除了“听不清”外,还横亘着一座无法绕开的技术大山:
标准蓝牙耳机是单通道设计,无法实现两只耳机独立收音、实时互传。
时空壶选择死磕自研。历时数年,终于在2021年拿出的W3上真正实现了稳定、低延迟的双向同传。
同时,他们独创的“三麦克风阵列+矢量降噪”技术,让耳机能像雷达一样精准锁定用户的声音。
正是这些底层突破,让他们将对话延迟压缩到了仅有3-5秒。目前联合国级别的同声传译人员同传延迟大概在2秒左右。
与巨头共舞,在竞争与趋势中坚定前行
凭借扎实的技术护城河,时空壶得以更从容地面对全球市场的复杂竞争。
2023年后,AI翻译软件免费化,白牌硬件价格战惨烈,而苹果、谷歌的生态优势又如影随形。
就在这片红海中,时空壶在2024年营收做到了2亿元,连续六年行业第一,全球用户超百万,产品卖到170多个国家。
在田力看来,时空壶和很多公司最大的区别就在这儿。“巨头们是已经有了一个产品,比如耳机、手机,然后把翻译作为生态中的一个功能来覆盖,是‘我有锤子,找颗钉子’。我们不是,从创立第一天起,我们的目标就只有一个:解决跨语言沟通的问题。”
“我现在做AI的,基本都绕不开翻译,智能助理总得会说话吧?但问题是,翻译是一个‘顺便就能做好’的功能,还是一个‘需要专注做深’的事?我们坚定认为是后者。”
他举了个例子:很多产品的翻译功能,看似美好,实际用起来要么延迟高,要么交互别扭;苹果的翻译功能,还得双方都用苹果设备才能流畅使用,场景太受限。
“而且,苹果会专门为翻译,做一个不依赖iPhone的独立设备吗?不太可能。我们甚至做过不能听歌、不能打电话的耳机。因为在我们眼里,它不是耳机,是‘可穿戴的交流设备’。未来,我们的产品可能会更不像手机配件,一切设计都只为让沟通更沉浸。”
“我们现在的体量还很小,但市场潜力巨大。”田力的目光看得很远,“一方面,全球人工翻译市场有100亿美元,我们可以替代一部分;但更重要的是,很多场景以前根本请不起人工翻译,比如普通人出国旅游、小商户和海外客户谈生意,这些都是全新的增量市场。”
“就像大疆早期做无人机,不是为了替代谁,而是开创了一个新赛道。我们也是如此,比起盯着竞争对手抢蛋糕,更想把整个市场的蛋糕做大。”
现在,时空壶的目标很清晰:把翻译体验从L3推到L4的水平,让跨语言沟通变得像呼吸一样自然。
值得一提的是,即便站在了行业的高点,田力依然保持着创业者的警惕与清醒。
“未来两三年肯定会遇到危机,不光是因为我从华为出来,更因为创业公司永远不能自满。”他坦诚道,“我们虽然在细分领域有点领先,但市场远没定局,规模也还小。最关键的是,眼睛要盯着用户,而不是天天看竞争对手,否则很容易跑偏。”
田力最喜欢做的事,是听用户的故事:有用户每天早晚用时空壶耳机,和异国的妻子视频聊天;有在中国生活的澳大利亚演员,靠着它学会了中国功夫……
“看到这些真实的案例,你会很感动,觉得真的帮到了他们,完成了人和人之间的连接。这些东西带给我们的成就感,远比竞争来得重要。”田力表示。
结语
当科技行业纷纷追逐风口、搭建生态时,时空壶却选了条更窄的路,九年专注一件事:让人听清并理解彼此。
这份专注,也体现在他们的一个特别命名里。时空壶有个会议室叫“巴别鱼”,灵感源自《银河系漫游指南》:主角在飞船上听不懂外星人,往耳朵里塞只鱼,就能马上听懂。
如今,时空壶的探索,正让这条鱼以耳机的形态,从科幻游进现实。也让其自身成为巨头林立的时代里,一个独特的生存样本。
•END•