451. 腾讯研究院AI速递 20251021

生成式AI

一、甲骨文推出全球最大AI超算,作为「星际之门」算力核心

1. 甲骨文发布全球最大云端AI超级计算机OCI Zettascale10,由80万块NVIDIA GPU组成,峰值算力达16 ZettaFLOPS,成为OpenAI「星际之门」集群算力核心;

2. 采用独创Acceleron RoCE网络架构,每块GPU的NIC充当小型交换机连接多个隔离网络平面,大幅降低GPU间通信延迟并确保故障时自动切换路径;

3. 计划2026年下半年正式向客户提供服务,16 ZFLOPS峰值性能可能基于极低精度计算指标,实战表现还有待验证。

https://mp.weixin.qq.com/s/Y4k_ifpHXzeMMaxRyngbpQ

二、Gemini 3.0的两个「马甲」现身LMAreana,提前围观

1. 谷歌Gemini 3.0疑似以lithiumflow(Pro版)和orionmist(Flash版)马甲上线LMArena竞技场,Gemini 3 Pro成为首个能精确识别钟表时间的AI模型;

2. 实测显示Gemini 3 Pro在SVG绘制、音乐作曲等方面表现出色,能模仿音乐风格并保持节奏,画面表现力比之前版本显著提升;

3. 尽管模型能力提升明显,但AI圈的评测方式仍停留在老套路(实测截图、prompt对比、看图说话),缺乏创新性评测手段。

https://mp.weixin.qq.com/s/unJm-6AfdhtfsfaahFeZIQ

三、DeepSeek 刚刚开源一款OCR 模型,视觉方式压缩一切

1. DeepSeek开源3B参数OCR模型DeepSeek-OCR,通过光学二维映射技术实现长文本上下文压缩,压缩率小于10倍时OCR精度达97%,压缩率20倍时仍保持约60%准确率;

2. 模型由DeepEncoder(380M参数)和DeepSeek3B-MoE解码器(激活参数570M)构成,在OmniDocBench测试中仅用100个视觉token超越GOT-OCR2.0;

3. 单张A100-40G GPU每天可生成超20万页LLM/VLM训练数据,支持近100种语言识别,展现出高效的视觉-文本压缩潜力。

https://mp.weixin.qq.com/s/K6DVJGtJUuVudV4rFFS_8A

四、元宝AI录音笔来了,边录边读内心 OS,不怕讨论跑偏

1. 元宝推出AI录音笔新功能,基于腾讯天籁降噪技术无需购买硬件,用元宝就能清晰准确地录音转写

2. 开启元宝说内心OS”帮你解读发言人的内心戏和弦外之音可帮助用户避免讨论跑偏,实时掌握会议或对话的核心内容;

3. 一段录音有多人发言场景将支持智能拆分发言人不用对照录音反复听,也能看懂是谁在发言会议记录更清晰

https://mp.weixin.qq.com/s/Fi3-sQDyHE7--_ReoEcfmQ

五、Vidu Q2参考生功能、视频延长功能、APP改版更新

1. Vidu Q2参考生功能10月21日全球正式上线,推理速度比Q1版本快3倍,支持多主体一致性生成和精准语义理解,视频质量保持1080p高清;

2. 首次单独上线视频延长功能,免费用户可生成最长30秒,付费用户最长可延长至5分钟,支持文生视频、图生视频和参考生视频;

3. Vidu APP全面改版升级,从AI创作平台转变为一站式AI内容社交平台,内置海量主体库,用户可通过"二次创作"和@主体功能轻松生成合拍视频。

https://mp.weixin.qq.com/s/sXM8jZsFVlrs6I0cLSSxog

六、Gemini启用「Grounding with Google Maps」地理智能

1. 谷歌向所有开发者开放Gemini API调用谷歌地图工具功能,可将2.5亿个地点的位置感知功能整合进应用,按每1000条有事实依据的提示收费25美元;

2. 支持Gemini 2.5 Flash-Lite、2.5 Pro、2.5 Flash和2.0 Flash模型,开发者可用于餐饮推荐、路线规划、旅行行程规划等场景,提供实时路况和营业时间查询;

3. 该功能标志着AI从静态工具向动态立体"智能空间"演进,国内高德地图此前已推出小高老师智能体和高德扫街榜,率先落地空间智能应用。

https://mp.weixin.qq.com/s/1AD7xj2CtC0Lu_T45yQh3g

七、全球六大AI实盘厮杀,人手1万刀开局DeepSeek第1

1. nof1.ai发起Alpha Arena实验,给GPT-5、Gemini 2.5 Pro、Claude 4.5 Sonnet、Grok 4、Qwen3 Max和DeepSeek V3.1各1万美元在真实市场炒股,DeepSeek V3.1盈利超3500美元排名第一;

2. DeepSeek仅5次交易即获最高收益,不愧量化交易出身,Grok-4以1次交易紧随其二,Gemini 2.5 Pro凭45次"微操"成为赔钱最多的模型;

3. 该实验将金融市场视为智能的终极试金石,考验的不是"机器能否思考"而是"能否在不确定性中生存",市场会随AI变聪明而难度同步提升。

https://mp.weixin.qq.com/s/Ld3ZQIUc6mgXCqzg2ibbhw

前沿科技

八、宇树发布180cm仿生人形机器人!会跳芭蕾,能打功夫

1. 宇树发布第四款人形机器人H2,身高180cm,体重70kg,BMI达21.6健康水平,关节总数31个比R1增加约19%,分布在双臂、双腿和躯干;

2. H2在运动流畅性和仿生特征上大幅升级,可跳芭蕾舞、表演武术,手脚动作优雅流畅,配备"人脸"外观,被网友称为"世界上最像人的仿生机器人";

3. 与前代H1相比,H2的关节控制与平衡算法得到极大优化,应用前景从工业自动化巡检、仓储搬运扩展到娱乐演示和陪伴服务等场景。

https://mp.weixin.qq.com/s/8zKSgAExF9iDyDIMM0Y0ow

报告观点

九、Karpathy 回应争议:RL 不是真的不行,「十年」很乐观

1. Karpathy在播客中表示AGI仍需十年时间,强调这是基于行业经验的乐观预测,相比硅谷普遍乐观情绪悲观5-10倍,但相比极度怀疑论更为乐观;

2. 他批评强化学习效率极低,认为RL像"通过吸管吸取监督信号",噪声很大且容易受干扰,人类并不真正使用RL进行智力任务,需要第4、5、6层新的学习机制;

3. 提出"认知核心"概念,建议通过精简LLMs、降低记忆能力来提高泛化能力,预测未来模型将先变大再变小,最终收敛向更小、更专注的认知内核。

https://mp.weixin.qq.com/s/3OUQtqM8cr-mqHMNj7Zadw

👇加入AGI数据库,AI智能问答 

👇订阅下方合集,获取每日推送

<

© 版权声明
THE END
喜欢就支持一下吧
点赞14 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容