AI日报：通义开源AI编程大模型Qwen3-Coder；360将推智能眼镜和AI录音笔；谷歌发布Gemini 2.5 Flash-Lite 稳定版

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解：https://top.aibase.com/

1、谷歌发布全新 Gemini 2.5 Flash-Lite 稳定版：速度与成本的完美平衡

谷歌发布了 Gemini 2.5 Flash-Lite 稳定版，该模型在速度和成本之间取得了良好的平衡，支持高达100万 token 的上下文，并提供了多种高级功能。其定价策略具有竞争力，同时在性能上超越了之前的版本。

【AiBase提要:】
⚡Gemini 2.5 Flash-Lite 是谷歌最新发布的速度最快、成本最低的 AI 模型，已进入稳定版本（GA）
💰每百万输入 token 定价为0.10美元，输出为0.40美元，音频输入价格降低40%
🔧开发者可通过指定模型名 gemini-2.5-flash-lite 使用新版本，原有预览版别名将于8月25日移除

2、腾讯混元自主研发ASR语音识别大模型接入ima平台

腾讯混元的ASR大模型在ima平台的应用，为用户提供了更高效的语音输入体验。该模型具备强大的语义理解能力，尤其在中英文混杂场景中表现突出，同时支持多种应用场景，如知识库问答和笔记创作。

【AiBase提要:】
✅ 腾讯混元ASR大模型实现手机App端语音输入功能，提升输入效率。
💡 采用基于双编码器的流式ASR架构，显著提升语义理解能力。
🌐 支持多语言及方言识别，未来将持续优化以满足多样化需求。

3、通义千问开源最新AI编程大模型Qwen3-Coder

阿里云宣布其最新AI编程大模型Qwen3-Coder全面开源，该模型在代码生成和Agent能力上达到顶尖水平，为智能编程技术带来新突破。Qwen3-Coder拥有强大的MoE架构和长上下文处理能力，适用于大规模代码库和动态数据处理。

【AiBase提要:】
🔥 Qwen3-Coder采用先进的MoE架构，参数量高达480B，支持256K上下文长度。
💡 预训练阶段通过多维度扩展策略提升代码能力，7.5T训练数据中70%为代码。
🚀 开源工具Qwen Code增强解析器和工具支持，提升开发者使用体验。
详情链接:https://modelscope.cn/models/Qwen/Qwen3-Coder-480B-A35B-Instruct Hugging Face:https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507 Qwen Code GitHub:https://github.com/QwenLM/qwen-code

4、360将推智能眼镜和AI录音笔周鸿祎：眼镜带显示功能

360公司董事长周鸿祎透露，公司将发布AI录音笔与智能眼镜。AI录音笔能够智能分析场景并总结要点，而智能眼镜需要显示功能以创造新的应用场景，如提词器和翻译工具，提升沟通效率。

【AiBase提要:】
🧠 AI录音笔具备智能分析不同场景的能力，能精准总结要点。
👓 智能眼镜需配备显示功能以凸显优势，创造新应用场景。
🌐 智能眼镜可充当提词器和翻译工具，提升沟通效率。

5、国内首个通过主任医师评测的大模型，已在夸克AI搜索上线

夸克健康大模型成功通过主任医师笔试评测，展现了其在医学领域的强大推理能力，并已集成至AI搜索中。该模型通过构建“慢思考能力”和高质量数据训练体系，提升了复杂医疗问题的处理能力，同时拥有专业医师团队支持，确保了模型输出的专业性和准确性。

【AiBase提要:】
🧠 夸克健康大模型通过主任医师笔试评测，展现医学推理能力。
🔍 构建“慢思考能力”，提升复杂医疗问题的分阶段推导能力。
👩‍⚕️ 拥有千人规模专业医师标注团队，确保模型输出内容的专业性。

6、Hedra Live Avatars震撼发布！每分钟仅0.05美元，视频AI代理开启人机交互新纪元

Hedra Live Avatars的推出标志着AI视频生成技术的重大突破。其以超低成本、超低延迟和高度灵活性为核心优势，为内容创作、教育、客户服务和游戏等领域带来了全新的可能性。

【AiBase提要:】
⚡ 超低成本：每分钟仅0.05美元，大幅降低高质量视频AI代理的准入门槛。
⚡ 超低延迟：低于100毫秒的响应时间，确保实时交互的流畅性和沉浸感。
⚡ 高度灵活：兼容主流大语言模型和文本转语音技术，支持个性化交互体验。
详情链接:https://www.hedra.com

7、谷歌 Gemini2.5革新图像处理:不止识别物体，更能理解抽象概念与关系

谷歌推出的 Gemini2.5AI 模型创新功能“对话式图像分割”，能够通过自然语言提示分析和突出显示图像内容，超越传统图像分割技术，支持关系查询、基于逻辑的指令以及抽象概念的理解。该功能在图像编辑、工作场所安全和保险行业有广泛应用，并为开发者提供了便捷的 API 接口。

【AiBase提要:】
🧠 能够理解并响应更复杂、更具语义的自然语言指令
🌐 支持多语言提示，并可提供其他语言的物体标签
🔧 开发者可通过 Gemini API 直接访问该功能，返回 JSON 格式结果

8、Meta 推出创新模型 AU-Nets，革新文本处理方式

Meta 推出的 AU-Net 模型通过自回归的 U-Net 结构，实现了对文本的灵活处理，能够从原始字节开始学习并动态组合成多层次的序列表示，为大语言模型的发展提供了新的思路。

【AiBase提要:】
🚀 AU-Net 架构通过自回归方式，动态组合字节形成多层次的序列表示。
📊 采用收缩和扩张路径，确保宏观语义信息和局部细节的有效融合。
⏩ 自回归生成机制提高推理效率，确保文本生成的连贯性与准确性。
详情链接:https://github.com/facebookresearch/lingua/tree/main/apps/aunet

9、苹果 AI 团队内部风波：自主研发与开源梦碎，或将求助第三方大模型！

苹果AI团队因开源计划受阻引发内部不满，高级副总裁费德里吉认为市场已有足够开源模型，且苹果模型在设备端性能不足。同时，苹果推迟Siri更新并考虑与第三方大模型合作，凸显其在AI发展上的战略调整。