谷歌这一刀,终结“语音转文字”时代

谷歌搞了个逆天的东西!

他们发布了一个全新的语音搜索模型 S2R,完全颠覆了我们对语音识别的认知。

这个模型根本不“听”你说什么词,而是直接理解你的“意图”。

语音转文字(ASR)这条技术路线,可能要被谷歌彻底终结了。


旧的语音搜索流程是

语音 → 文字 → 搜索。中间但凡有一个词识别错了,比如你搜“呐喊画作”,它听成“那喊画作”,出来的结果就全完蛋。

S2R 直接删掉了中间的“文字”环节。

它思考的问题变了,不是“你说了啥?”,而是“你要找啥?”

这是从“转录”到“理解”的哲学转变,背后是双编码器模型,直接把你的声音和目标文档转换成同一个语义向量。不需要任何文本,直接一步到位。


数据表现非常恐怖。

S2R 在 17 种语言中的表现,几乎追平了“完美语音识别”的水平。

研究人员还发现一个更有意思的点:单纯提高语音识别的准确率,对搜索结果的改善收益会递减。因为机器需要学习的不是你“说了什么字”,而是这些字背后“真正的意图”。

这玩意儿已经上线了,我们正在使用的谷歌语音搜索就已经搭载了这项技术。


下一个时代,不是跟机器“说话”,而是跟“意义”本身对话。


<

© 版权声明
THE END
喜欢就支持一下吧
点赞13 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容