生成式AI
一、谷歌深夜上新Veo 3.1对标Sora 2,网友狂刷2.75亿条
1. 谷歌发布视频生成模型Veo 3.1,主打更强叙事与音频控制、首尾帧与多图参考等精控功能,接入Gemini API与Vertex AI,Flow与Gemini可用;
2. 模型支持720p或1080p分辨率24fps视频,原生时长4-8秒,使用Extend功能最长可扩展至148秒,可合成多人物场景并实现音画同步;
3. 用户已在Flow中生成超过2.75亿个视频,但成片质感较Veo 3进步有限,基础物理表现有所改善但人物表演与复杂调度仍存在问题。
https://mp.weixin.qq.com/s/2qlH4dnTviiWV5XuEUyANA
二、Anthropic 推轻量模型 Claude Haiku 4.5,便宜、快速
1. Anthropic发布轻量级模型Claude Haiku 4.5,编码性能可与Claude Sonnet 4相媲美,成本仅为其三分之一(每百万输入token 1美元,输出5美元),推理速度提升一倍多;
2. 在计算机使用基准OSWorld上得分50.7%超越Sonnet 4的42.2%,数学推理测试中借助Python工具成绩高达96.3%远超Sonnet 4的70.5%;
3. 模型主打实时低延迟任务场景如聊天助手、客服、协同编程,通过严格安全性评估,偏差行为发生率显著低于其他Claude模型。
https://mp.weixin.qq.com/s/EsiE4RhNhgMrFXul8OO0aA
三、千问上线Qwen Chat Memory功能,让AI拥有记忆
1. 阿里通义千问正式上线Qwen Chat Memory功能,让AI能够记录并理解用户在过去对话中的重要信息,包括个人偏好、兴趣方向或特定任务背景;
2. 该功能可跨越多轮甚至多天对话保留个性化认知,与仅依靠上下文窗口的短期记忆不同; 记忆是AI助手向长期陪伴型智能体迈出关键一步;
3. 所有记忆内容可由用户查看、管理和删除,用户拥有完整控制权,首先在网页版Qwen Chat上线,未来推广至更多终端。
https://mp.weixin.qq.com/s/65iKWpzNW3XsjP_yAtjKUA
四、字节更新语音模型,豆包·语音合成2.0与声音复刻2.0
1. 火山引擎升级豆包语音合成模型2.0和声音复刻模型2.0,通过Query-Response能力实现情境理解与语气把控,可通过细节描述精准生成对应情感;
2. 语音合成2.0提供默认模式、语音指令和引入上文三种模式,可控制整段情绪基调、方言类型、语速音调等,模型能自动理解上下文情绪连贯生成;
3. 声音复刻2.0可精准复现米老鼠、小沈阳等动漫人物和真人音色语速情绪,对公式朗读测试准确率接近90%,在教育场景专项优化。
https://mp.weixin.qq.com/s/_TJXhIp79xeZ5-HoEPX18Q
前沿科技
五、谷歌×耶鲁联手发布抗癌神器!AI狙击「隐身」癌细胞
1. 谷歌与耶鲁大学联合发布270亿参数大模型Cell2Sentence-Scale(C2S-Scale),基于Gemma模型构建,提出并验证让肿瘤对免疫系统更易被识别的全新抗癌假设;
2. 模型通过双环境虚拟筛选流程对4000多种药物进行模拟,发现激酶CK2抑制剂silmitasertib仅在免疫信号活跃环境中显著增强抗原呈递,该预测已在体外实验中多次验证;
3. 研究展示AI模型生成原创科学假设的潜力,有望打开人类抗癌新途径,模型及代码已在Hugging Face和GitHub全面开放。
https://mp.weixin.qq.com/s/EmKclm_O_gs8Gf5hPoEtAw
报告观点
六、Anthropic预训练负责人:预训练和后训练的平衡问题
1. Anthropic预训练团队负责人Nick Joseph强调预训练核心是推动损失函数下降,如何平衡预训练和后训练、各自作用叠加还是互补仍在早期探索阶段;
2. 当前AI研究最大瓶颈是计算资源受限而非算法突破,真正的挑战在于如何有效利用算力并解决规模扩展中的工程难题,预训练团队也需考虑推理问题;
3. 对齐问题核心是让模型分享人类目标,预训练与后训练各有优势,后训练迭代快适合调整模型,某些对齐可融入预训练增强鲁棒性和智能性。
https://mp.weixin.qq.com/s/Ikl93dlVqVZoHos-CFyJwg
七、LangChain联合Manus:也许是最佳上下文工程讲解
1. LangChain创始工程师Lance Martin与Manus联合创始人季逸超深入探讨上下文工程,强调AI Agents执行复杂长期任务时上下文窗口会因大量工具调用急剧膨胀导致性能下降;
2. 有效的上下文工程通过卸载、精简、检索、隔离和缓存等技术,将恰到好处的信息填入上下文窗口,Manus设计了基于多层阈值的自动化流程协同使用压缩和总结;
3. 核心设计哲学是避免上下文过度工程化,最大性能飞跃来自简化架构和信任模型,优先选择上下文工程而非过早模型专业化,保持应用层灵活性和快速迭代能力。
https://mp.weixin.qq.com/s/_LlK7hK7vjKYxKJQPn6t8w
八、谷歌142页报告首发揭秘:90%码农每天用AI超2小时
1. Google Cloud DORA 2025报告显示90%开发者已在日常工作中使用AI,每天中位数使用时长2小时约占工作日四分之一,但只有24%表示高度信任AI输出;
2. AI不是单向效率药丸而是放大镜,在文化健康协作顺畅团队中作为加速器提升效率,但在环境存在问题的团队会放大裂缝导致交付更加不稳定;
3. 报告首次提出七种典型团队人设和DORA AI能力模型,包括用户导向、版本控制、数据可用性等七项关键能力,决定团队能否从遗留瓶颈进化为和谐高效。
https://mp.weixin.qq.com/s/CZyS4wdRfortk79z92jPyQ
九、黄仁勋对话红杉美国:百万倍投资回报,AI 工厂资本逻辑
1. 黄仁勋回顾1993年红杉100万美元投资NVIDIA,三十年后成长为超过1万亿美元市值实现100万倍回报,强调从第一性原理推演未来是突破关键;
2. CUDA的诞生让GPU从图形设备变成通用加速平台,2012年AlexNet在ImageNet竞赛获胜成为转折点,NVIDIA为神经网络开发CUDNN库使模型训练速度成倍提升;
3. AI工厂核心是系统整合而非芯片性能,从建筑供电到软件栈提供完整算力生产线,未来的国家AI战略将是进口加自建的混合模式,主权AI成为新一轮国家竞争核心。
暂无评论内容