谷歌这一刀，终结“语音转文字”时代-AI Spot

谷歌搞了个逆天的东西！

他们发布了一个全新的语音搜索模型 S2R，完全颠覆了我们对语音识别的认知。

这个模型根本不“听”你说什么词，而是直接理解你的“意图”。

语音转文字（ASR）这条技术路线，可能要被谷歌彻底终结了。

旧的语音搜索流程是

语音 → 文字 → 搜索。中间但凡有一个词识别错了，比如你搜“呐喊画作”，它听成“那喊画作”，出来的结果就全完蛋。

S2R 直接删掉了中间的“文字”环节。

它思考的问题变了，不是“你说了啥？”，而是“你要找啥？”

这是从“转录”到“理解”的哲学转变，背后是双编码器模型，直接把你的声音和目标文档转换成同一个语义向量。不需要任何文本，直接一步到位。

数据表现非常恐怖。

S2R 在 17 种语言中的表现，几乎追平了“完美语音识别”的水平。

研究人员还发现一个更有意思的点：单纯提高语音识别的准确率，对搜索结果的改善收益会递减。因为机器需要学习的不是你“说了什么字”，而是这些字背后“真正的意图”。

这玩意儿已经上线了，我们正在使用的谷歌语音搜索就已经搭载了这项技术。

下一个时代，不是跟机器“说话”，而是跟“意义”本身对话。

文章版权归作者所有，未经允许请勿转载。

THE END

谷歌这一刀，终结“语音转文字”时代