AI热点 1小时前 147 阅读 0 评论

AI日报:小米开源首个原生端到端语音大模型;通义万相Wan2.2-Animate正式开源;Suno v5即将上线

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://app.aibase.com/zh

1、小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

小米公司宣布开源其首个原生端到端语音大模型 Xiaomi-MiMo-Audio,标志着语音技术领域的重大突破。该模型基于创新的预训练架构和上亿小时的训练数据,在少样本泛化能力方面表现出色,并在多个评测基准中超越了其他闭源模型。

【AiBase提要:】

🧠 首次实现语音领域基于In-Context Learning的少样本泛化能力。

🚀 在音频理解基准 MMAU 和 Big Bench Audio S2T 任务中超越了 Google 和 OpenAI 的闭源模型。

🔧 开源完整的语音预训练方案,包括 Tokenizer、模型结构、训练方法和评测体系。

详情链接:https://huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Instruct

2、通义万相全新动作生成模型Wan2.2-Animate正式开源

通义万相团队推出的全新动作生成模型 Wan2.2-Animate 在人物一致性、生成质量等方面有显著提升,支持动作模仿和角色扮演两种模式,广泛应用于短视频创作、动漫制作等领域。

【AiBase提要:】

🎭 输入角色图片和参考视频,模型可将视频动作迁移到图片角色中。

🎭 在角色扮演模式下,模型可替换视频中的角色为图片角色。

🖼️ 模型设计了独立的光照融合 LoRA,保证光照效果完美融合。

详情链接:https://github.com/Wan-Video/Wan2.2

3、Suno v5音乐模型即将登场,AI音乐创作迎来“变革性”升级

Suno的v5音乐模型即将发布,被视为AI音乐创作的里程碑,预计将进一步模糊人类作曲与机器生成的界限。

【AiBase提要:】

🎧 Suno v5音乐模型即将推出,引发全球关注。

💡 v5将引入更先进的语义控制和多模态输入功能。

📈 v4.5上线后,用户生成作品播放量突破数亿次。

4、生数科技获数亿元融资,视频生成引领AI商业化新潮流

生数科技在多模态AI领域取得显著进展,成功获得数亿元融资,并通过Vidu视频大模型实现了商业化的成功。未来,视频生成技术有望进一步发展并影响多个行业,但同时也需应对版权和虚假信息等问题。

【AiBase提要:】

🎥 生数科技完成数亿元A轮融资,多模态AI领域迎来新突破。

💼 Vidu视频大模型实现2000万美元年收入,商业化应用广泛。

🌐 视频生成技术将改变全球数字内容生产方式,面临版权治理等挑战。

5、OpenAI 修复 ChatGPT 漏洞,防止用户 Gmail 数据被盗取

文章指出,网络安全公司 Radware 发现了 ChatGPT 的“深度研究”功能存在严重漏洞,可能被黑客利用来窃取用户的 Gmail 邮件数据。该漏洞允许黑客通过特制邮件诱导 ChatGPT 在处理用户 Gmail 查询时,将敏感信息发送到恶意网站。OpenAI 已迅速修复此漏洞,并强调模型的安全性是其首要任务。

【AiBase提要:】

📧 ChatGPT 漏洞允许黑客通过特制邮件窃取用户 Gmail 数据。

🔒 OpenAI 迅速修复漏洞,并确认其对用户信息安全的重视。

🛡️ 常规安全防护难以检测此类攻击,用户需保持警惕。

6、谷歌在 Chrome 浏览器中引入 Gemini,助力智能搜索新体验

谷歌将 Gemini 集成到 Chrome 浏览器中,以增强用户体验并应对竞争压力。Gemini 支持跨选项卡工作、任务安排等功能,并与谷歌的多个应用深度整合。企业用户也将受益于数据保护和代理功能。

【AiBase提要:】

🌐 谷歌在 Chrome 中整合 Gemini,提升用户智能搜索体验。

📅 Gemini 支持用户理解网页内容,跨选项卡工作和安排任务。

🔒 企业用户也将享受 Gemini 带来的数据保护和代理功能。

7、Luma AI发布Ray3:以“推理”能力革新视频生成,支持16位色深

Luma AI推出的Ray3视频生成模型凭借其HDR能力和强大的“推理”功能,为视频创作带来了革命性的变化,同时支持高精度的视觉控制和专业工作流程整合。

【AiBase提要:】

🎥 Ray3支持生成10位、12位乃至16位色深的视频,并可导出为EXR文件格式,便于专业工作流程使用。

🧠 Ray3具备“推理”能力,能理解复杂指令并自我评估输出质量,实现视频迭代优化。

🖌️ 用户可通过图像绘制草图控制视频内容,提供前所未有的创作自由度。

8、法国AI公司Mistral重磅推出开源推理模型 Magistral Small 1.2

法国公司 Mistral AI 推出了其最新开源推理模型 Magistral Small 1.2,该模型拥有24B参数,并以 Apache2.0 开源许可方式发布。新版本支持高达128k的上下文处理,引入了[THINK]特殊token,增强了模型的表现力和灵活性。同时,Magistral Small 1.2还增加了视觉编码器,兼容多种框架,为开发者提供了更多便利。

【AiBase提要:】

🧠 Magistral Small 1.2 是一款具有24B参数的开源推理模型,采用 Apache2.0 许可协议发布。

🔍 新版本引入了[THINK]特殊token,提升了模型的表现力和灵活性。

🖼️ 增加了视觉编码器,使其在图像和文本综合任务中更具优势。

9、Notion重磅发布AI智能体!自动生成会议笔记、竞品分析,20分钟处理数百页文档

Notion推出了首个AI智能体,能够利用用户所有Notion页面和数据库作为上下文,自动生成会议笔记、分析报告、竞品评估等。该智能体功能强大,可创建或更新页面和数据库,并支持从外部平台触发操作。个性化设置是其亮点,用户可以为智能体设置档案页面,指导其如何引用来源、输出风格等。

【AiBase提要:】

🧠 AI智能体能自动生成会议笔记、分析报告和竞品评估。

🔄 支持从外部平台(如Slack、邮件和Google Drive)触发智能体操作。

📝 用户可自定义智能体的档案页面,指导其行为和输出风格。

10、腾讯混元3D Studio 震撼登场:3D 创作从天级提速至分钟级

腾讯混元3D Studio的发布标志着3D创作效率的革命性提升,为设计师、游戏开发者和建模师提供了强大的AI工作台,显著缩短了3D资产生产周期。

【AiBase提要:】

🧠 原生3D分割算法实现模型部件的自动拆分,支持独立编辑角色配饰和服装。

🎨 AI语义UV展开技术在1-2分钟内生成符合美术标准的UV图,提升工作效率。

🔧 智能材质编辑支持通过文本或图片输入生成高质量PBR质感纹理,实现精准材质控制。

详情链接:https://3d.hunyuan.tencent.com/studio

(举报)

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!