AI 每日速递 20251021-AI Spot

生成式AI

一、甲骨文推出全球最大AI超算，作为「星际之门」算力核心

1. 甲骨文发布全球最大云端AI超级计算机OCI Zettascale10，由80万块NVIDIA GPU组成，峰值算力达16 ZettaFLOPS，成为OpenAI「星际之门」集群算力核心；

2. 采用独创Acceleron RoCE网络架构，每块GPU的NIC充当小型交换机连接多个隔离网络平面，大幅降低GPU间通信延迟并确保故障时自动切换路径；

3. 计划2026年下半年正式向客户提供服务，16 ZFLOPS峰值性能可能基于极低精度计算指标，实战表现还有待验证。

https://mp.weixin.qq.com/s/Y4k_ifpHXzeMMaxRyngbpQ

二、Gemini 3.0的两个「马甲」现身LMAreana，提前围观

1. 谷歌Gemini 3.0疑似以lithiumflow（Pro版）和orionmist（Flash版）马甲上线LMArena竞技场，Gemini 3 Pro成为首个能精确识别钟表时间的AI模型；

2. 实测显示Gemini 3 Pro在SVG绘制、音乐作曲等方面表现出色，能模仿音乐风格并保持节奏，画面表现力比之前版本显著提升；

3. 尽管模型能力提升明显，但AI圈的评测方式仍停留在老套路（实测截图、prompt对比、看图说话），缺乏创新性评测手段。

https://mp.weixin.qq.com/s/unJm-6AfdhtfsfaahFeZIQ

三、DeepSeek 刚刚开源一款OCR 模型，视觉方式压缩一切

1. DeepSeek开源3B参数OCR模型DeepSeek-OCR，通过光学二维映射技术实现长文本上下文压缩，压缩率小于10倍时OCR精度达97%，压缩率20倍时仍保持约60%准确率；

2. 模型由DeepEncoder（380M参数）和DeepSeek3B-MoE解码器（激活参数570M）构成，在OmniDocBench测试中仅用100个视觉token超越GOT-OCR2.0；

3. 单张A100-40G GPU每天可生成超20万页LLM/VLM训练数据，支持近100种语言识别，展现出高效的视觉-文本压缩潜力。

https://mp.weixin.qq.com/s/K6DVJGtJUuVudV4rFFS_8A

四、元宝AI录音笔来了，边录边读内心 OS，不怕讨论跑偏

1. 元宝推出AI录音笔新功能，基于腾讯天籁降噪技术无需购买硬件，用元宝就能清晰准确地录音转写；

2. 开启元宝说，“内心OS”帮你解读发言人的内心戏和弦外之音，可帮助用户避免讨论跑偏，实时掌握会议或对话的核心内容；

3. 一段录音有多人发言场景将支持智能拆分发言人，不用对照录音反复听，也能看懂是谁在发言，会议记录更清晰。

https://mp.weixin.qq.com/s/Fi3-sQDyHE7–_ReoEcfmQ

五、Vidu Q2参考生功能、视频延长功能、APP改版更新

1. Vidu Q2参考生功能10月21日全球正式上线，推理速度比Q1版本快3倍，支持多主体一致性生成和精准语义理解，视频质量保持1080p高清；

2. 首次单独上线视频延长功能，免费用户可生成最长30秒，付费用户最长可延长至5分钟，支持文生视频、图生视频和参考生视频；

3. Vidu APP全面改版升级，从AI创作平台转变为一站式AI内容社交平台，内置海量主体库，用户可通过”二次创作”和@主体功能轻松生成合拍视频。

https://mp.weixin.qq.com/s/sXM8jZsFVlrs6I0cLSSxog

六、Gemini启用「Grounding with Google Maps」地理智能

1. 谷歌向所有开发者开放Gemini API调用谷歌地图工具功能，可将2.5亿个地点的位置感知功能整合进应用，按每1000条有事实依据的提示收费25美元；

2. 支持Gemini 2.5 Flash-Lite、2.5 Pro、2.5 Flash和2.0 Flash模型，开发者可用于餐饮推荐、路线规划、旅行行程规划等场景，提供实时路况和营业时间查询；

3. 该功能标志着AI从静态工具向动态立体”智能空间”演进，国内高德地图此前已推出小高老师智能体和高德扫街榜，率先落地空间智能应用。

https://mp.weixin.qq.com/s/1AD7xj2CtC0Lu_T45yQh3g

七、全球六大AI实盘厮杀,人手1万刀开局DeepSeek第1

1. nof1.ai发起Alpha Arena实验，给GPT-5、Gemini 2.5 Pro、Claude 4.5 Sonnet、Grok 4、Qwen3 Max和DeepSeek V3.1各1万美元在真实市场炒股，DeepSeek V3.1盈利超3500美元排名第一；

2. DeepSeek仅5次交易即获最高收益，不愧量化交易出身，Grok-4以1次交易紧随其二，Gemini 2.5 Pro凭45次”微操”成为赔钱最多的模型；

3. 该实验将金融市场视为智能的终极试金石，考验的不是”机器能否思考”而是”能否在不确定性中生存”，市场会随AI变聪明而难度同步提升。

https://mp.weixin.qq.com/s/Ld3ZQIUc6mgXCqzg2ibbhw

前沿科技

八、宇树发布180cm仿生人形机器人！会跳芭蕾，能打功夫

1. 宇树发布第四款人形机器人H2，身高180cm，体重70kg，BMI达21.6健康水平，关节总数31个比R1增加约19%，分布在双臂、双腿和躯干；

2. H2在运动流畅性和仿生特征上大幅升级，可跳芭蕾舞、表演武术，手脚动作优雅流畅，配备”人脸”外观，被网友称为”世界上最像人的仿生机器人”；

3. 与前代H1相比，H2的关节控制与平衡算法得到极大优化，应用前景从工业自动化巡检、仓储搬运扩展到娱乐演示和陪伴服务等场景。

https://mp.weixin.qq.com/s/8zKSgAExF9iDyDIMM0Y0ow

报告观点

九、Karpathy 回应争议：RL 不是真的不行，「十年」很乐观

1. Karpathy在播客中表示AGI仍需十年时间，强调这是基于行业经验的乐观预测，相比硅谷普遍乐观情绪悲观5-10倍，但相比极度怀疑论更为乐观；

2. 他批评强化学习效率极低，认为RL像”通过吸管吸取监督信号”，噪声很大且容易受干扰，人类并不真正使用RL进行智力任务，需要第4、5、6层新的学习机制；

3. 提出”认知核心”概念，建议通过精简LLMs、降低记忆能力来提高泛化能力，预测未来模型将先变大再变小，最终收敛向更小、更专注的认知内核。

https://mp.weixin.qq.com/s/3OUQtqM8cr-mqHMNj7Zadw

👇加入AGI数据库，AI智能问答

👇订阅下方合集,获取每日推送

文章版权归作者所有，未经允许请勿转载。

THE END

AI 每日速递 AI 资讯 AI 速递腾讯研究院
# 腾讯研究院 # AI 速递 # 腾讯

AI 每日速递 20251021

请登录后发表评论