生成式AI
一、OpenAI发布AI浏览器ChatGPT Atlas,基于Chromium
1. OpenAI发布AI浏览器ChatGPT Atlas,基于Chromium内核,目前仅推出macOS版并对所有用户免费开放,后续将推出Windows及移动端版本;
2. Atlas核心功能是将ChatGPT深度集成到浏览器,可查看用户页面内容并通过侧边栏回答问题,配备浏览器记忆功能和智能体模式,可执行订票、购物等复杂任务;
3. OpenAI强调安全措施包括禁止运行代码、访问敏感网站时暂停确认等,但承认智能体仍存在被恶意指令误导的风险。
https://mp.weixin.qq.com/s/yU4abbrkdDpQpwf9D7BNug
二、Claude 正式发布了桌面版,同时支持 Mac 和 Windows
1. Claude正式发布桌面版,同时支持Mac和Windows系统,提供全局快捷键(Mac双击Option随时唤醒)、窗口分享、语音输入(按Caps Lock说话)和工具连接四大核心功能;
2. 该桌面版支持截图、窗口共享和文件拖拽,能直接查看用户屏幕内容,并可连接代码编辑器、本地文件和数据库等工具;
3. 与OpenAI的Atlas浏览器不同,Claude Desktop是常规桌面助手而非具备Agent Mode的浏览器,但操作顺手且实用性强。
https://mp.weixin.qq.com/s/lHvIhTcmTClGKepPdOoByA
三、谷歌AI Studio 的 Built 模式更新,小白可用Vibe Coding
1. 谷歌AI Studio推出全新vibeCoding体验,用户通过点击Build一键生成AI应用,界面提供各种应用建议并支持"手气不错"按钮随机生成创意想法;
2. 该功能使用Gemini 2.5 Pro制定计划并生成文件,支持免费使用无需信用卡,用户可在生成过程中实时编辑代码并通过Cloud Run部署或下载;
3. 平台还提供AI智能推荐功能,基于代码上下文由2.5 Flashlight模型分析后自动生成改进建议,操作直观简单适合编程小白。
https://mp.weixin.qq.com/s/LFfisD9CQkuegt8Ta4iccA
四、混元世界模型1.1开源:支持多视图及视频输入,单卡部署
1. 腾讯混元世界模型1.1正式开源,首次支持多模态先验注入(相机位姿、内参、深度图)和多任务统一输出(点云、深度、相机参数、表面法线、3D高斯点),解决1.0版本仅支持文本或单图输入的局限;
2. 该模型采用纯前馈架构实现秒级推理,处理8-32视图输入仅需1秒,单卡即可部署,在SimplerEnv、CALVIN等仿真器及真实物理世界任务中性能显著超越现有方法;
3. 模型基于统一架构实现点云、深度、相机、表面法线和新视角合成等多种3D几何预测,已完全开源并提供HuggingFace在线demo体验。
https://mp.weixin.qq.com/s/V1TToEEltM1tisp_P4b2eg
五、Baichuan-M2 Plus 成为业内首个循证增强的医疗大模型
1. 百川智能发布Baichuan-M2 Plus,成为业内首个循证增强医疗大模型,通过首创"六源循证范式"构建权威医学知识体系,幻觉率比DeepSeek-R1低3倍,可信度比肩资深临床专家;
2. 该模型在USMLE美国执业医师考试取得97分、中国执医考试568分、临床医学综合能力考试282分,医学知识运用能力远超人类平均水平,多国医考准确率均在85%以上;
3. M2 Plus采用PICO检索框架实现精准循证,通过强化学习驱动的多层查询生成、语义感知匹配和证据排序机制,确保回答句句有据可回溯可验证,已全面上线百小应APP并开放API接口。
https://mp.weixin.qq.com/s/qtmx66_4cSxku-TzaIPNCg
六、华为打通苹果设备,鸿蒙 6 正式发布, AI 迎来重大更新
1. 华为发布HarmonyOS 6,实现与苹果iOS/iPadOS/macOS互传,纯血鸿蒙终端设备突破2300万台,头部应用全面覆盖,应用生态从"能用"跨越到"好用";
2. 小艺AI能力升级,支持速记、AI修图、自动订机票购物等功能,深度研究智能体可搜索专业知识并生成PPT,支持16种方言交互,还可调用第三方智能体;
3. 系统优化并行计算和端云协同能力,电商平台抢购到支付速度提高20%,锁屏艺术签名利用AI自动构图定制壁纸,第三方应用可内嵌Agent智能体提供独特体验。
https://mp.weixin.qq.com/s/ZTl8MhPjyLMeIkuCq4WCTw
前沿科技
七、Dexmal原力灵机开源Dexbotic,一站式的VLA代码库
1. Dexmal原力灵机推出开源VLA代码库Dexbotic,基于PyTorch框架开发,采用Data、Model、Experiment三大核心组件架构,提供统一模块化VLA框架和实验导向型开发框架;
2. 该代码库同时支持π0、OpenVLA-OFT、CogACT、MemoryVLA等多个主流VLA算法,用户只需配置一次环境即可在各类仿真环境中复现算法,解决行业研发分散化和复现公平性欠缺痛点;
3. Dexbotic支持云端与本地一体化训练,适配多平台,同时推出首款开源硬件DOS-W1,采用快拆结构和可替换模块降低使用门槛。
https://mp.weixin.qq.com/s/lUBMDttS98v5PEuXiPHEsw
八、全球首款万元以下人形机器人来了,21自由度能说会走
1. 松延动力推出全球首款万元以内消费级人形机器人Bumi小布米,双十一京东首发售价9998元,身高94厘米重12公斤,拥有21个自由度比肩高端机型;
2. 该机器人采用48V电池平台支持1-2小时续航,搭载自研伺服电机和深度强化学习算法,能够稳定行走、跳舞和完成复杂动作,支持语音交互和图形化编程零代码门槛;
3. 小布米定位教育和陪伴等场景,松延动力已完成6轮融资,N2机型在人形半马比赛多项目夺冠并成为销量破千的人形机器人公司,实现了从实验室到客厅的消费级转变。
https://mp.weixin.qq.com/s/tsrjUT1LYITVz62f7tyPdg
九、三星首款XR头显Galaxy XR,一万三硬刚苹果Vision Pro
1. 三星发布首款旗舰XR头显Galaxy XR,售价1799.99美元约合人民币1.28万元(仅为Vision Pro一半),重545克比Vision Pro轻1/4,搭载3552×3840分辨率Micro-OLED屏和骁龙XR2+Gen 2平台;
2. 该设备首款搭载Android XR平台并内置Gemini AI助手,DCI-P3色域覆盖96%超过Vision Pro,支持3D照片视频拍摄、透视模式随圈随搜和沉浸式观赛,续航2-2.5小时;
3. Galaxy XR配备18个传感器实现头部手部眼部精准追踪,支持虹膜识别和瞳距调节,三星与谷歌还在合作开发搭载Gemini的智能眼镜,为XR市场注入新选择。
https://mp.weixin.qq.com/s/1NaAziux5soh4IJ8p0Ksuw
报告观点
十、Manus 研究员:一年半开发复盘,关于Agent的理解错位
1. 前Manus研究员言午系统复盘一年半AI开发实践,指出AI Agent能力质变的关键不在底层模型智力增长,而在于围绕模型设计的行之有效的"认知流程";
2. 文章通过"学霸五个成长阶段"比喻详解Agent核心能力演进,阐述思维链、自我反思、规划和工具使用等流程如何用结构对抗混沌、用迭代对抗遗忘、用交互对抗虚无;
3. 作者强调开发者角色从"提示词工程师"转变为"Agent流程架构师",未来竞争力核心在于智能流程的优劣而非模型参数大小,并从控制论和信息论视角揭示Agent有效性的科学基石。
暂无评论内容