欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
新鲜AI产品点击了解:https://top.aibase.com/
1、谷歌发布全新 Gemini 2.5 Flash-Lite 稳定版:速度与成本的完美平衡
谷歌发布了 Gemini 2.5 Flash-Lite 稳定版,该模型在速度和成本之间取得了良好的平衡,支持高达100万 token 的上下文,并提供了多种高级功能。其定价策略具有竞争力,同时在性能上超越了之前的版本。
【AiBase提要:】
⚡Gemini 2.5 Flash-Lite 是谷歌最新发布的速度最快、成本最低的 AI 模型,已进入稳定版本(GA)
💰每百万输入 token 定价为0.10美元,输出为0.40美元,音频输入价格降低40%
🔧开发者可通过指定模型名 gemini-2.5-flash-lite 使用新版本,原有预览版别名将于8月25日移除
2、腾讯混元自主研发ASR语音识别大模型接入ima平台
腾讯混元的ASR大模型在ima平台的应用,为用户提供了更高效的语音输入体验。该模型具备强大的语义理解能力,尤其在中英文混杂场景中表现突出,同时支持多种应用场景,如知识库问答和笔记创作。
【AiBase提要:】
✅ 腾讯混元ASR大模型实现手机App端语音输入功能,提升输入效率。
💡 采用基于双编码器的流式ASR架构,显著提升语义理解能力。
🌐 支持多语言及方言识别,未来将持续优化以满足多样化需求。
3、通义千问开源最新AI编程大模型Qwen3-Coder
阿里云宣布其最新AI编程大模型Qwen3-Coder全面开源,该模型在代码生成和Agent能力上达到顶尖水平,为智能编程技术带来新突破。Qwen3-Coder拥有强大的MoE架构和长上下文处理能力,适用于大规模代码库和动态数据处理。
【AiBase提要:】
🔥 Qwen3-Coder采用先进的MoE架构,参数量高达480B,支持256K上下文长度。
💡 预训练阶段通过多维度扩展策略提升代码能力,7.5T训练数据中70%为代码。
🚀 开源工具Qwen Code增强解析器和工具支持,提升开发者使用体验。
详情链接:https://modelscope.cn/models/Qwen/Qwen3-Coder-480B-A35B-Instruct Hugging Face:https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507 Qwen Code GitHub:https://github.com/QwenLM/qwen-code
4、360将推智能眼镜和AI录音笔 周鸿祎:眼镜带显示功能
360公司董事长周鸿祎透露,公司将发布AI录音笔与智能眼镜。AI录音笔能够智能分析场景并总结要点,而智能眼镜需要显示功能以创造新的应用场景,如提词器和翻译工具,提升沟通效率。
【AiBase提要:】
🧠 AI录音笔具备智能分析不同场景的能力,能精准总结要点。
👓 智能眼镜需配备显示功能以凸显优势,创造新应用场景。
🌐 智能眼镜可充当提词器和翻译工具,提升沟通效率。
5、国内首个通过主任医师评测的大模型,已在夸克AI搜索上线
夸克健康大模型成功通过主任医师笔试评测,展现了其在医学领域的强大推理能力,并已集成至AI搜索中。该模型通过构建“慢思考能力”和高质量数据训练体系,提升了复杂医疗问题的处理能力,同时拥有专业医师团队支持,确保了模型输出的专业性和准确性。
【AiBase提要:】
🧠 夸克健康大模型通过主任医师笔试评测,展现医学推理能力。
🔍 构建“慢思考能力”,提升复杂医疗问题的分阶段推导能力。
👩⚕️ 拥有千人规模专业医师标注团队,确保模型输出内容的专业性。
6、Hedra Live Avatars震撼发布!每分钟仅0.05美元,视频AI代理开启人机交互新纪元
Hedra Live Avatars的推出标志着AI视频生成技术的重大突破。其以超低成本、超低延迟和高度灵活性为核心优势,为内容创作、教育、客户服务和游戏等领域带来了全新的可能性。
【AiBase提要:】
⚡ 超低成本:每分钟仅0.05美元,大幅降低高质量视频AI代理的准入门槛。
⚡ 超低延迟:低于100毫秒的响应时间,确保实时交互的流畅性和沉浸感。
⚡ 高度灵活:兼容主流大语言模型和文本转语音技术,支持个性化交互体验。
详情链接:https://www.hedra.com
7、谷歌 Gemini2.5革新图像处理:不止识别物体,更能理解抽象概念与关系
谷歌推出的 Gemini2.5AI 模型创新功能“对话式图像分割”,能够通过自然语言提示分析和突出显示图像内容,超越传统图像分割技术,支持关系查询、基于逻辑的指令以及抽象概念的理解。该功能在图像编辑、工作场所安全和保险行业有广泛应用,并为开发者提供了便捷的 API 接口。
【AiBase提要:】
🧠 能够理解并响应更复杂、更具语义的自然语言指令
🌐 支持多语言提示,并可提供其他语言的物体标签
🔧 开发者可通过 Gemini API 直接访问该功能,返回 JSON 格式结果
8、Meta 推出创新模型 AU-Nets,革新文本处理方式
Meta 推出的 AU-Net 模型通过自回归的 U-Net 结构,实现了对文本的灵活处理,能够从原始字节开始学习并动态组合成多层次的序列表示,为大语言模型的发展提供了新的思路。
【AiBase提要:】
🚀 AU-Net 架构通过自回归方式,动态组合字节形成多层次的序列表示。
📊 采用收缩和扩张路径,确保宏观语义信息和局部细节的有效融合。
⏩ 自回归生成机制提高推理效率,确保文本生成的连贯性与准确性。
详情链接:https://github.com/facebookresearch/lingua/tree/main/apps/aunet
9、苹果 AI 团队内部风波:自主研发与开源梦碎,或将求助第三方大模型!
苹果AI团队因开源计划受阻引发内部不满,高级副总裁费德里吉认为市场已有足够开源模型,且苹果模型在设备端性能不足。同时,苹果推迟Siri更新并考虑与第三方大模型合作,凸显其在AI发展上的战略调整。
【AiBase提要:】
🍎 苹果AI团队开源计划被高层否决,担忧模型性能不足。
⚙️ 苹果坚持设备优先策略,限制AI技术发展潜力。
🤖 苹果或转向与OpenAI、谷歌等第三方大模型合作提升Siri功能。
10、一键生成教学动画!Fogsight AI革新教育演示,抽象概念变秒懂动画
Fogsight是一款基于大型语言模型的AI动画引擎,能够将抽象概念转化为直观、易懂的动画。它通过输入关键词或短语,自动生成包含双语旁白和电影级视觉效果的动画短片,适用于课堂教学、在线课程和科普内容创作。
【AiBase提要:
🎥 一键生成:用户输入关键词即可生成30秒至90秒的叙事完整动画。
🎨 视觉与趣味兼得:动画具备电影级视觉效果,提升学习兴趣。
🛠️ 交互式界面:支持多轮对话调整动画内容,满足个性化需求。
详情链接:https://github.com/fogsightai/fogsight
(举报)