谷歌搞了个逆天的东西!
他们发布了一个全新的语音搜索模型 S2R,完全颠覆了我们对语音识别的认知。
这个模型根本不“听”你说什么词,而是直接理解你的“意图”。
语音转文字(ASR)这条技术路线,可能要被谷歌彻底终结了。
旧的语音搜索流程是
语音 → 文字 → 搜索。中间但凡有一个词识别错了,比如你搜“呐喊画作”,它听成“那喊画作”,出来的结果就全完蛋。
S2R 直接删掉了中间的“文字”环节。
它思考的问题变了,不是“你说了啥?”,而是“你要找啥?”
这是从“转录”到“理解”的哲学转变,背后是双编码器模型,直接把你的声音和目标文档转换成同一个语义向量。不需要任何文本,直接一步到位。
数据表现非常恐怖。
S2R 在 17 种语言中的表现,几乎追平了“完美语音识别”的水平。
研究人员还发现一个更有意思的点:单纯提高语音识别的准确率,对搜索结果的改善收益会递减。因为机器需要学习的不是你“说了什么字”,而是这些字背后“真正的意图”。
这玩意儿已经上线了,我们正在使用的谷歌语音搜索就已经搭载了这项技术。
下一个时代,不是跟机器“说话”,而是跟“意义”本身对话。
<
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END
暂无评论内容