AI 每日速递 20251023-AI Spot

生成式AI

一、OpenAI发布AI浏览器ChatGPT Atlas，基于Chromium

1. OpenAI发布AI浏览器ChatGPT Atlas，基于Chromium内核，目前仅推出macOS版并对所有用户免费开放，后续将推出Windows及移动端版本;

2. Atlas核心功能是将ChatGPT深度集成到浏览器，可查看用户页面内容并通过侧边栏回答问题，配备浏览器记忆功能和智能体模式，可执行订票、购物等复杂任务;

3. OpenAI强调安全措施包括禁止运行代码、访问敏感网站时暂停确认等，但承认智能体仍存在被恶意指令误导的风险。

https://mp.weixin.qq.com/s/yU4abbrkdDpQpwf9D7BNug

二、Claude 正式发布了桌面版，同时支持 Mac 和 Windows

1. Claude正式发布桌面版，同时支持Mac和Windows系统，提供全局快捷键（Mac双击Option随时唤醒）、窗口分享、语音输入（按Caps Lock说话）和工具连接四大核心功能；

2. 该桌面版支持截图、窗口共享和文件拖拽，能直接查看用户屏幕内容，并可连接代码编辑器、本地文件和数据库等工具；

3. 与OpenAI的Atlas浏览器不同，Claude Desktop是常规桌面助手而非具备Agent Mode的浏览器，但操作顺手且实用性强。

https://mp.weixin.qq.com/s/lHvIhTcmTClGKepPdOoByA

三、谷歌AI Studio 的 Built 模式更新，小白可用Vibe Coding

1. 谷歌AI Studio推出全新vibeCoding体验，用户通过点击Build一键生成AI应用，界面提供各种应用建议并支持”手气不错”按钮随机生成创意想法；

2. 该功能使用Gemini 2.5 Pro制定计划并生成文件，支持免费使用无需信用卡，用户可在生成过程中实时编辑代码并通过Cloud Run部署或下载；

3. 平台还提供AI智能推荐功能，基于代码上下文由2.5 Flashlight模型分析后自动生成改进建议，操作直观简单适合编程小白。

https://mp.weixin.qq.com/s/LFfisD9CQkuegt8Ta4iccA

四、混元世界模型1.1开源：支持多视图及视频输入，单卡部署

1. 腾讯混元世界模型1.1正式开源，首次支持多模态先验注入（相机位姿、内参、深度图）和多任务统一输出（点云、深度、相机参数、表面法线、3D高斯点），解决1.0版本仅支持文本或单图输入的局限；

2. 该模型采用纯前馈架构实现秒级推理，处理8-32视图输入仅需1秒，单卡即可部署，在SimplerEnv、CALVIN等仿真器及真实物理世界任务中性能显著超越现有方法；

3. 模型基于统一架构实现点云、深度、相机、表面法线和新视角合成等多种3D几何预测，已完全开源并提供HuggingFace在线demo体验。

https://mp.weixin.qq.com/s/V1TToEEltM1tisp_P4b2eg

五、Baichuan-M2 Plus 成为业内首个循证增强的医疗大模型

1. 百川智能发布Baichuan-M2 Plus，成为业内首个循证增强医疗大模型，通过首创”六源循证范式”构建权威医学知识体系，幻觉率比DeepSeek-R1低3倍，可信度比肩资深临床专家；

2. 该模型在USMLE美国执业医师考试取得97分、中国执医考试568分、临床医学综合能力考试282分，医学知识运用能力远超人类平均水平，多国医考准确率均在85%以上；

3. M2 Plus采用PICO检索框架实现精准循证，通过强化学习驱动的多层查询生成、语义感知匹配和证据排序机制，确保回答句句有据可回溯可验证，已全面上线百小应APP并开放API接口。

https://mp.weixin.qq.com/s/qtmx66_4cSxku-TzaIPNCg

六、华为打通苹果设备，鸿蒙 6 正式发布， AI 迎来重大更新

1. 华为发布HarmonyOS 6，实现与苹果iOS/iPadOS/macOS互传，纯血鸿蒙终端设备突破2300万台，头部应用全面覆盖，应用生态从”能用”跨越到”好用”；

2. 小艺AI能力升级，支持速记、AI修图、自动订机票购物等功能，深度研究智能体可搜索专业知识并生成PPT，支持16种方言交互，还可调用第三方智能体；

3. 系统优化并行计算和端云协同能力，电商平台抢购到支付速度提高20%，锁屏艺术签名利用AI自动构图定制壁纸，第三方应用可内嵌Agent智能体提供独特体验。

https://mp.weixin.qq.com/s/ZTl8MhPjyLMeIkuCq4WCTw

前沿科技

七、Dexmal原力灵机开源Dexbotic，一站式的VLA代码库

1. Dexmal原力灵机推出开源VLA代码库Dexbotic，基于PyTorch框架开发，采用Data、Model、Experiment三大核心组件架构，提供统一模块化VLA框架和实验导向型开发框架；

2. 该代码库同时支持π0、OpenVLA-OFT、CogACT、MemoryVLA等多个主流VLA算法，用户只需配置一次环境即可在各类仿真环境中复现算法，解决行业研发分散化和复现公平性欠缺痛点；

3. Dexbotic支持云端与本地一体化训练，适配多平台，同时推出首款开源硬件DOS-W1，采用快拆结构和可替换模块降低使用门槛。

https://mp.weixin.qq.com/s/lUBMDttS98v5PEuXiPHEsw

八、全球首款万元以下人形机器人来了，21自由度能说会走

1. 松延动力推出全球首款万元以内消费级人形机器人Bumi小布米，双十一京东首发售价9998元，身高94厘米重12公斤，拥有21个自由度比肩高端机型；

2. 该机器人采用48V电池平台支持1-2小时续航，搭载自研伺服电机和深度强化学习算法，能够稳定行走、跳舞和完成复杂动作，支持语音交互和图形化编程零代码门槛；

3. 小布米定位教育和陪伴等场景，松延动力已完成6轮融资，N2机型在人形半马比赛多项目夺冠并成为销量破千的人形机器人公司，实现了从实验室到客厅的消费级转变。

https://mp.weixin.qq.com/s/tsrjUT1LYITVz62f7tyPdg

九、三星首款XR头显Galaxy XR，一万三硬刚苹果Vision Pro

1. 三星发布首款旗舰XR头显Galaxy XR，售价1799.99美元约合人民币1.28万元（仅为Vision Pro一半），重545克比Vision Pro轻1/4，搭载3552×3840分辨率Micro-OLED屏和骁龙XR2+Gen 2平台；

2. 该设备首款搭载Android XR平台并内置Gemini AI助手，DCI-P3色域覆盖96%超过Vision Pro，支持3D照片视频拍摄、透视模式随圈随搜和沉浸式观赛，续航2-2.5小时；

3. Galaxy XR配备18个传感器实现头部手部眼部精准追踪，支持虹膜识别和瞳距调节，三星与谷歌还在合作开发搭载Gemini的智能眼镜，为XR市场注入新选择。

https://mp.weixin.qq.com/s/1NaAziux5soh4IJ8p0Ksuw

报告观点

十、Manus 研究员：一年半开发复盘，关于Agent的理解错位

1. 前Manus研究员言午系统复盘一年半AI开发实践，指出AI Agent能力质变的关键不在底层模型智力增长，而在于围绕模型设计的行之有效的”认知流程”；

2. 文章通过”学霸五个成长阶段”比喻详解Agent核心能力演进，阐述思维链、自我反思、规划和工具使用等流程如何用结构对抗混沌、用迭代对抗遗忘、用交互对抗虚无；

3. 作者强调开发者角色从”提示词工程师”转变为”Agent流程架构师”，未来竞争力核心在于智能流程的优劣而非模型参数大小，并从控制论和信息论视角揭示Agent有效性的科学基石。

https://mp.weixin.qq.com/s/mtJBQjafKoAZ1-tklexO2Q

文章版权归作者所有，未经允许请勿转载。

THE END

AI 每日速递 AI 资讯 AI 速递腾讯研究院
# 腾讯研究院 # AI 速递 # 腾讯

AI 每日速递 20251023

请登录后发表评论