AI日报：小米开源首个原生端到端语音大模型；通义万相Wan2.2-Animate正式开源；Suno v5即将上线

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解：https://app.aibase.com/zh

1、小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

小米公司宣布开源其首个原生端到端语音大模型 Xiaomi-MiMo-Audio，标志着语音技术领域的重大突破。该模型基于创新的预训练架构和上亿小时的训练数据，在少样本泛化能力方面表现出色，并在多个评测基准中超越了其他闭源模型。

【AiBase提要:】
🧠 首次实现语音领域基于In-Context Learning的少样本泛化能力。
🚀 在音频理解基准 MMAU 和 Big Bench Audio S2T 任务中超越了 Google 和 OpenAI 的闭源模型。
🔧 开源完整的语音预训练方案，包括 Tokenizer、模型结构、训练方法和评测体系。
详情链接:https://huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Instruct

2、通义万相全新动作生成模型Wan2.2-Animate正式开源

通义万相团队推出的全新动作生成模型 Wan2.2-Animate 在人物一致性、生成质量等方面有显著提升，支持动作模仿和角色扮演两种模式，广泛应用于短视频创作、动漫制作等领域。

【AiBase提要:】
🎭 输入角色图片和参考视频，模型可将视频动作迁移到图片角色中。
🎭 在角色扮演模式下，模型可替换视频中的角色为图片角色。
🖼️ 模型设计了独立的光照融合 LoRA，保证光照效果完美融合。
详情链接:https://github.com/Wan-Video/Wan2.2

3、Suno v5音乐模型即将登场，AI音乐创作迎来“变革性”升级

Suno的v5音乐模型即将发布，被视为AI音乐创作的里程碑，预计将进一步模糊人类作曲与机器生成的界限。

【AiBase提要:】
🎧 Suno v5音乐模型即将推出，引发全球关注。
💡 v5将引入更先进的语义控制和多模态输入功能。
📈 v4.5上线后，用户生成作品播放量突破数亿次。

4、生数科技获数亿元融资，视频生成引领AI商业化新潮流

生数科技在多模态AI领域取得显著进展，成功获得数亿元融资，并通过Vidu视频大模型实现了商业化的成功。未来，视频生成技术有望进一步发展并影响多个行业，但同时也需应对版权和虚假信息等问题。

【AiBase提要:】
🎥 生数科技完成数亿元A轮融资，多模态AI领域迎来新突破。
💼 Vidu视频大模型实现2000万美元年收入，商业化应用广泛。
🌐 视频生成技术将改变全球数字内容生产方式，面临版权治理等挑战。

5、OpenAI 修复 ChatGPT 漏洞，防止用户 Gmail 数据被盗取

文章指出，网络安全公司 Radware 发现了 ChatGPT 的“深度研究”功能存在严重漏洞，可能被黑客利用来窃取用户的 Gmail 邮件数据。该漏洞允许黑客通过特制邮件诱导 ChatGPT 在处理用户 Gmail 查询时，将敏感信息发送到恶意网站。OpenAI 已迅速修复此漏洞，并强调模型的安全性是其首要任务。

【AiBase提要:】
📧 ChatGPT 漏洞允许黑客通过特制邮件窃取用户 Gmail 数据。
🔒 OpenAI 迅速修复漏洞，并确认其对用户信息安全的重视。
🛡️ 常规安全防护难以检测此类攻击，用户需保持警惕。

6、谷歌在 Chrome 浏览器中引入 Gemini，助力智能搜索新体验

谷歌将 Gemini 集成到 Chrome 浏览器中，以增强用户体验并应对竞争压力。Gemini 支持跨选项卡工作、任务安排等功能，并与谷歌的多个应用深度整合。企业用户也将受益于数据保护和代理功能。

【AiBase提要:】
🌐 谷歌在 Chrome 中整合 Gemini，提升用户智能搜索体验。
📅 Gemini 支持用户理解网页内容，跨选项卡工作和安排任务。
🔒 企业用户也将享受 Gemini 带来的数据保护和代理功能。

7、Luma AI发布Ray3：以“推理”能力革新视频生成，支持16位色深

Luma AI推出的Ray3视频生成模型凭借其HDR能力和强大的“推理”功能，为视频创作带来了革命性的变化，同时支持高精度的视觉控制和专业工作流程整合。

【AiBase提要:】
🎥 Ray3支持生成10位、12位乃至16位色深的视频，并可导出为EXR文件格式，便于专业工作流程使用。
🧠 Ray3具备“推理”能力，能理解复杂指令并自我评估输出质量，实现视频迭代优化。
🖌️ 用户可通过图像绘制草图控制视频内容，提供前所未有的创作自由度。

8、法国AI公司Mistral重磅推出开源推理模型 Magistral Small 1.2

法国公司 Mistral AI 推出了其最新开源推理模型 Magistral Small 1.2，该模型拥有24B参数，并以 Apache2.0 开源许可方式发布。新版本支持高达128k的上下文处理，引入了[THINK]特殊token，增强了模型的表现力和灵活性。同时，Magistral Small 1.2还增加了视觉编码器，兼容多种框架，为开发者提供了更多便利。

【AiBase提要:】
🧠 Magistral Small 1.2 是一款具有24B参数的开源推理模型，采用 Apache2.0 许可协议发布。
🔍 新版本引入了[THINK]特殊token，提升了模型的表现力和灵活性。
🖼️ 增加了视觉编码器，使其在图像和文本综合任务中更具优势。

9、Notion重磅发布AI智能体！自动生成会议笔记、竞品分析，20分钟处理数百页文档

Notion推出了首个AI智能体，能够利用用户所有Notion页面和数据库作为上下文，自动生成会议笔记、分析报告、竞品评估等。该智能体功能强大，可创建或更新页面和数据库，并支持从外部平台触发操作。个性化设置是其亮点，用户可以为智能体设置档案页面，指导其如何引用来源、输出风格等。

【AiBase提要:】
🧠 AI智能体能自动生成会议笔记、分析报告和竞品评估。
🔄 支持从外部平台（如Slack、邮件和Google Drive）触发智能体操作。
📝 用户可自定义智能体的档案页面，指导其行为和输出风格。

10、腾讯混元3D Studio 震撼登场:3D 创作从天级提速至分钟级

腾讯混元3D Studio的发布标志着3D创作效率的革命性提升，为设计师、游戏开发者和建模师提供了强大的AI工作台，显著缩短了3D资产生产周期。

【AiBase提要:】
🧠 原生3D分割算法实现模型部件的自动拆分，支持独立编辑角色配饰和服装。
🎨 AI语义UV展开技术在1-2分钟内生成符合美术标准的UV图，提升工作效率。
🔧 智能材质编辑支持通过文本或图片输入生成高质量PBR质感纹理，实现精准材质控制。
详情链接:https://3d.hunyuan.tencent.com/studio

（举报）