欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
新鲜AI产品点击了解:https://app.aibase.com/zh
1、小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio
小米公司宣布开源其首个原生端到端语音大模型 Xiaomi-MiMo-Audio,标志着语音技术领域的重大突破。该模型基于创新的预训练架构和上亿小时的训练数据,在少样本泛化能力方面表现出色,并在多个评测基准中超越了其他闭源模型。
【AiBase提要:】
🧠 首次实现语音领域基于In-Context Learning的少样本泛化能力。
🚀 在音频理解基准 MMAU 和 Big Bench Audio S2T 任务中超越了 Google 和 OpenAI 的闭源模型。
🔧 开源完整的语音预训练方案,包括 Tokenizer、模型结构、训练方法和评测体系。
详情链接:https://huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Instruct
2、通义万相全新动作生成模型Wan2.2-Animate正式开源
通义万相团队推出的全新动作生成模型 Wan2.2-Animate 在人物一致性、生成质量等方面有显著提升,支持动作模仿和角色扮演两种模式,广泛应用于短视频创作、动漫制作等领域。
【AiBase提要:】
🎭 输入角色图片和参考视频,模型可将视频动作迁移到图片角色中。
🎭 在角色扮演模式下,模型可替换视频中的角色为图片角色。
🖼️ 模型设计了独立的光照融合 LoRA,保证光照效果完美融合。
详情链接:https://github.com/Wan-Video/Wan2.2
3、Suno v5音乐模型即将登场,AI音乐创作迎来“变革性”升级
Suno的v5音乐模型即将发布,被视为AI音乐创作的里程碑,预计将进一步模糊人类作曲与机器生成的界限。
【AiBase提要:】
🎧 Suno v5音乐模型即将推出,引发全球关注。
💡 v5将引入更先进的语义控制和多模态输入功能。
📈 v4.5上线后,用户生成作品播放量突破数亿次。
4、生数科技获数亿元融资,视频生成引领AI商业化新潮流
生数科技在多模态AI领域取得显著进展,成功获得数亿元融资,并通过Vidu视频大模型实现了商业化的成功。未来,视频生成技术有望进一步发展并影响多个行业,但同时也需应对版权和虚假信息等问题。
【AiBase提要:】
🎥 生数科技完成数亿元A轮融资,多模态AI领域迎来新突破。
💼 Vidu视频大模型实现2000万美元年收入,商业化应用广泛。
🌐 视频生成技术将改变全球数字内容生产方式,面临版权治理等挑战。
5、OpenAI 修复 ChatGPT 漏洞,防止用户 Gmail 数据被盗取
文章指出,网络安全公司 Radware 发现了 ChatGPT 的“深度研究”功能存在严重漏洞,可能被黑客利用来窃取用户的 Gmail 邮件数据。该漏洞允许黑客通过特制邮件诱导 ChatGPT 在处理用户 Gmail 查询时,将敏感信息发送到恶意网站。OpenAI 已迅速修复此漏洞,并强调模型的安全性是其首要任务。
【AiBase提要:】
📧 ChatGPT 漏洞允许黑客通过特制邮件窃取用户 Gmail 数据。
🔒 OpenAI 迅速修复漏洞,并确认其对用户信息安全的重视。
🛡️ 常规安全防护难以检测此类攻击,用户需保持警惕。
6、谷歌在 Chrome 浏览器中引入 Gemini,助力智能搜索新体验
谷歌将 Gemini 集成到 Chrome 浏览器中,以增强用户体验并应对竞争压力。Gemini 支持跨选项卡工作、任务安排等功能,并与谷歌的多个应用深度整合。企业用户也将受益于数据保护和代理功能。
【AiBase提要:】
🌐 谷歌在 Chrome 中整合 Gemini,提升用户智能搜索体验。
📅 Gemini 支持用户理解网页内容,跨选项卡工作和安排任务。
🔒 企业用户也将享受 Gemini 带来的数据保护和代理功能。
7、Luma AI发布Ray3:以“推理”能力革新视频生成,支持16位色深
Luma AI推出的Ray3视频生成模型凭借其HDR能力和强大的“推理”功能,为视频创作带来了革命性的变化,同时支持高精度的视觉控制和专业工作流程整合。
【AiBase提要:】
🎥 Ray3支持生成10位、12位乃至16位色深的视频,并可导出为EXR文件格式,便于专业工作流程使用。
🧠 Ray3具备“推理”能力,能理解复杂指令并自我评估输出质量,实现视频迭代优化。
🖌️ 用户可通过图像绘制草图控制视频内容,提供前所未有的创作自由度。
8、法国AI公司Mistral重磅推出开源推理模型 Magistral Small 1.2
法国公司 Mistral AI 推出了其最新开源推理模型 Magistral Small 1.2,该模型拥有24B参数,并以 Apache2.0 开源许可方式发布。新版本支持高达128k的上下文处理,引入了[THINK]特殊token,增强了模型的表现力和灵活性。同时,Magistral Small 1.2还增加了视觉编码器,兼容多种框架,为开发者提供了更多便利。
【AiBase提要:】
🧠 Magistral Small 1.2 是一款具有24B参数的开源推理模型,采用 Apache2.0 许可协议发布。
🔍 新版本引入了[THINK]特殊token,提升了模型的表现力和灵活性。
🖼️ 增加了视觉编码器,使其在图像和文本综合任务中更具优势。
9、Notion重磅发布AI智能体!自动生成会议笔记、竞品分析,20分钟处理数百页文档
Notion推出了首个AI智能体,能够利用用户所有Notion页面和数据库作为上下文,自动生成会议笔记、分析报告、竞品评估等。该智能体功能强大,可创建或更新页面和数据库,并支持从外部平台触发操作。个性化设置是其亮点,用户可以为智能体设置档案页面,指导其如何引用来源、输出风格等。
【AiBase提要:】
🧠 AI智能体能自动生成会议笔记、分析报告和竞品评估。
🔄 支持从外部平台(如Slack、邮件和Google Drive)触发智能体操作。
📝 用户可自定义智能体的档案页面,指导其行为和输出风格。
10、腾讯混元3D Studio 震撼登场:3D 创作从天级提速至分钟级
腾讯混元3D Studio的发布标志着3D创作效率的革命性提升,为设计师、游戏开发者和建模师提供了强大的AI工作台,显著缩短了3D资产生产周期。
【AiBase提要:】
🧠 原生3D分割算法实现模型部件的自动拆分,支持独立编辑角色配饰和服装。
🎨 AI语义UV展开技术在1-2分钟内生成符合美术标准的UV图,提升工作效率。
🔧 智能材质编辑支持通过文本或图片输入生成高质量PBR质感纹理,实现精准材质控制。
详情链接:https://3d.hunyuan.tencent.com/studio
(举报)