AI学习站
首页 AI热点 AI教程
用户头像

标准会员

会员时间

积分 0

历史 通知(0)
首页
AI动态
技术前沿
工具与教程
大模型
AI投资分析
AI落地
AI政策法规

登录账号

忘记密码?

还没有账号? 立即注册

我已阅读并同意用户协议和隐私政策

已有账号? 立即登录

OmniVinci – NVIDIA推出的全模态大语言模型
Top
AI视频 1月前 • 105

OmniVinci – NVIDIA推出的全模态大语言模型

OmniVinci是什么OmniVinci是NVIDIA推出的全模态大语言模型,专门处理视觉、听觉、语言和推理的多模态任务。通过独特的OmnialignNet技术实现跨模态语义对齐,Temporal Embedding Grouping机制解决时序同步问题,采用Constrained Rotary Time Embedding优化时间感知能力。在Dailyomni等基准测试中,性能超越Qwen

AI中国
AI中国

Read more
GPT-5 – OpenAI推出的最新最强AI模型
AI视频 4月前

GPT-5 – OpenAI推出的最新最强AI模型

GPT-5是什么GPT-5 是 OpenAI 最新推出的人工智能模型,是目前最强模型,面向所有用户开放。GPT-5是一个统一系统,包括一个基础模型用在解答常见问题,一个深度推理模型(GPT-5 思维模块)用在处理复杂难题,一个实时路由模块根据对话类型、问题复杂度、工具需求和用户指令(如“仔细思考”)智能调度模型。GPT-5 在编程、写作、数学、健康等多个领域表现出色,大幅减少幻觉和错误,回答更

AI中国 AI中国
212 0
AI视频 4月前

无痕AI

🧠 无痕AI 是什么?无痕AI是一款专注于视频水印、字幕、文字、人或物体移除的AI视频处理平台,利用2025年最新深度学习模型,实现真正意义上的“无痕去除”。用户可通过简单上传、框选或选择处理模式,自动完成高质量的视频清理操作。该工具可高效批量处理视频,无需安装软件,广泛应用于短视频再创作、视频清洗、内容分发等场景,支持API接入和企业私有部署,功能已远超传统剪辑软件如PR、剪映等。📌

AI中国 AI中国
196 0
Qwen-Flash – 阿里通义推出的Qwen3系列高性能模型
AI视频 4月前

Qwen-Flash – 阿里通义推出的Qwen3系列高性能模型

Qwen-Flash是什么Qwen-Flash是阿里通义千问推出的Qwen3系列Flash模型,版本号为qwen-flash-2025-07-28。模型在通用能力、推理能力、中英文知识处理及Agent能力上均有显著提升,特别优化主观开放类任务的处理,能更好地满足用户需求。Qwen-Flash支持1M超长上下文,适合处理复杂任务。定价为每百万字符0.00015元,具有速度快、成本低的优势,适合简

AI中国 AI中国
103 0
Speech 2.5 – MiniMax推出的新一代语音生成模型
AI视频 4月前

Speech 2.5 – MiniMax推出的新一代语音生成模型

Speech 2.5是什么Speech 2.5 是 MiniMax 推出的新一代语音生成模型,在多语种表现力、音色复刻和语言覆盖范围上实现重大突破。模型支持40种语言,能精准还原不同语言和口音的细节,复刻音色时保留风格与情绪,跨语种切换依然逼真。Speech 2.5 适用企业多语种客服、创作者全球内容制作和教育者语言教学等场景,助力全球化内容创作与传播。用户可通过MiniMax开放平台和Min

AI中国 AI中国
153 0
dots.vlm1 – 小红书hi lab开源的首个多模态大模型
AI视频 4月前

dots.vlm1 – 小红书hi lab开源的首个多模态大模型

dots.vlm1是什么dots.vlm1 是小红书 hi lab 开源的首个多模态大模型。基于一个从零训练的 12 亿参数视觉编码器 NaViT 和 DeepSeek V3 大语言模型(LLM),具备强大的视觉感知和文本推理能力。模型在视觉理解和推理任务上表现出色,接近闭源 SOTA 模型水平,在文本任务上也保持了竞争力。dots.vlm1 的视觉编码器 NaViT 完全从零开始训练,原生支

AI中国 AI中国
81 0
Genie 3 – 谷歌DeepMind推出的新一代通用世界模型
AI视频 4月前

Genie 3 – 谷歌DeepMind推出的新一代通用世界模型

Genie 3是什么Genie 3是谷歌DeepMind推出的新一代通用世界模型,能实时生成高度动态且连贯的虚拟世界。模型具备模拟物理现象、自然生态系统、奇幻场景和历史场景的能力,支持用文本提示改变世界状态,如天气变化或引入新物体。Genie 3实现了长达数分钟的视觉一致性,视觉记忆能追溯到一分钟前。模型为AI智能体提供训练环境,支持复杂目标的实现,其技术突破为AI研究和应用带来新的可能性。

AI中国 AI中国
115 0
Claude Opus 4.1 – Anthropic推出的最新编程模型
AI视频 4月前

Claude Opus 4.1 – Anthropic推出的最新编程模型

Claude Opus 4.1是什么Claude Opus 4.1 是 Anthropic 公司最新推出的大型语言模型,是 Claude Opus 4 的升级版本。模型在多个方面进行优化和提升,包括推理质量、指令遵循能力及整体性能。在安全性评估中,Claude Opus 4.1 表现优异,拒绝违规请求的无害响应率从 97.27% 提升到 98.76%,同时在处理敏感主题的良性请求时,拒绝率极低

AI中国 AI中国
182 0
Chunkr – Lumina AI 推出的开源文档处理API
AI视频 4月前

Chunkr – Lumina AI 推出的开源文档处理API

Chunkr是什么Chunkr 是 Lumina AI 推出的开源文档处理 API,专为 RAG(检索增强生成)和知识库场景设计。Chunkr 能将复杂文档(如 PDF、PPT、Word、图片等)转换为结构化数据,支持多格式智能解析。Chunkr 核心功能包括高精度 OCR、语义分块、多格式输出(HTML、Markdown、JSON、纯文本)及与多种 LLM(如 OpenAI、Claude、O

AI中国 AI中国
127 0
LangExtract – 谷歌开源的结构化信息提取工具
AI视频 4月前

LangExtract – 谷歌开源的结构化信息提取工具

LangExtract是什么LangExtract 是谷歌开源的用在从非结构化文本中提取结构化信息的 Python 库。LangExtract 用大型语言模型(LLM),自动处理临床笔记、报告等材料,识别并组织关键细节,确保提取的数据与源文本精确对应。LangExtract支持多种 LLM,包括云托管模型(如 Google Gemini)和本地开源模型(通过 Ollama 接口)。LangEx

AI中国 AI中国
126 0
Qwen-Image – 阿里通义千问开源的文生图模型
AI视频 4月前

Qwen-Image – 阿里通义千问开源的文生图模型

Qwen-Image是什么Qwen-Image 是阿里通义千问团队开源的 20B 参数MMDiT模型,是通义千问系列中首个图像生成基础模型,模型在复杂文本渲染和精确图像编辑方面表现出色,支持多行布局、段落级文本生成及细粒度细节呈现,中英文都能实现高保真输出。Qwen-Image 在通用图像生成和编辑任务中展现出强大的能力,支持多种艺术风格和高级编辑操作。目前用户可通过Qwen Chat,图像生

AI中国 AI中国
169 0
AudioGen-Omni – 快手推出的多模态音频生成框架
AI视频 4月前

AudioGen-Omni – 快手推出的多模态音频生成框架

AudioGen-Omni是什么AudioGen-Omni是快手推出的多模态音频生成框架,框架能基于视频、文本等输入生成高质量的音频、语音和歌曲。框架通过统一的歌词-文本编码器和相位对齐各向异性位置注入(PAAPI)技术,实现精准的视听对齐和跨模态同步。框架支持多语言输入,推理速度快,1.91秒能生成8秒音频,且在多种音频生成任务上表现出色,适用视频配音、语音合成和歌曲创作等场景。Audi

AI中国 AI中国
105 0
gpt-oss – OpenAI开源的推理模型系列
AI视频 4月前

gpt-oss – OpenAI开源的推理模型系列

gpt-oss是什么 gpt-oss 是 OpenAI 推出的开源推理模型系列,包含 gpt-oss-120b 和 gpt-oss-20b 两个版本。gpt-oss-120b 拥有1170亿参数,激活参数约51亿,能在单张 80GB GPU 上运行;gpt-oss-20b 拥有210亿参数,激活参数约36亿,能在 16GB 内存的消费级设备(如笔记本或手机)上运行。两者均基于 MoE 架构,支持

AI中国 AI中国
131 0
Wuhr AI Ops – AI运维管理平台,提供一站式运维解决方案
AI视频 4月前

Wuhr AI Ops – AI运维管理平台,提供一站式运维解决方案

Wuhr AI Ops是什么Wuhr AI Ops是智能化运维管理平台,通过AI技术简化复杂的运维任务。平台集成多模态AI助手,支持自然语言交互执行运维命令,能一键切换K8s集群和Linux系统命令环境。平台具备实时监控、日志分析、CI/CD管理、用户权限管理等功能,支持本地和远程主机统一管理。平台用ELK日志分析和Grafana性能监控,提供可视化流水线配置和多环境部署支持,帮助运维团队实现

AI中国 AI中国
154 0
Skywork MindLink – 昆仑万维开源的推理大模型
AI视频 4月前

Skywork MindLink – 昆仑万维开源的推理大模型

Skywork MindLink是什么Skywork MindLink是昆仑万维推出开源的推理大模型。具有自适应推理机制,可根据任务复杂度灵活切换推理模式,简单任务快速生成,复杂任务深度推理,兼顾效率与准确性。计划驱动推理范式去掉了“think”标签,降低了推理成本,提升了多轮对话能力。提出了新的数学分析方法,显著提升了数学推理水平。在性能方面,Skywork MindLink在“人类最后的

AI中国 AI中国
93 0
ScreenCoder – 开源的智能UI截图生成前端代码工具
AI视频 4月前

ScreenCoder – 开源的智能UI截图生成前端代码工具

ScreenCoder是什么ScreenCoder 是开源的智能 UI 截图转代码系统,支持将任何设计截图快速转换为整洁、可编辑的 HTML/CSS 代码。ScreenCoder用模块化多智能体架构,结合视觉理解、布局规划和代码合成技术,生成高精度、语义化的前端代码。用户根据需求轻松修改布局和样式,实现设计与开发的无缝衔接,适用快速原型设计和像素级完美界面构建,大大提升前端开发效率。Scr

AI中国 AI中国
106 0
RedOne – 小红书推出的社交大模型
AI视频 4月前

RedOne – 小红书推出的社交大模型

RedOne是什么RedOne 是小红书推出的首个面向社交网络服务(SNS)领域的定制化大语言模型(LLM)。模型通过三阶段训练策略,注入社交文化知识,强化多任务能力,并对齐平台规范与人类偏好。相较于基础模型,RedOne 在八大社交任务上平均性能提升14.02%,在双语评测基准上提升7.56%。模型在有害内容检测中将曝光率降低11.23%,在浏览后搜索中将点击页面率提升14.95%。RedO

AI中国 AI中国
192 0
Windows-MCP – 开源的AI Agent与Windows系统无缝集成工具
AI视频 4月前

Windows-MCP – 开源的AI Agent与Windows系统无缝集成工具

Windows-MCP是什么Windows-MCP 是轻量级、开源的 AI Agent与 Windows 系统集成工具。Windows-MCP作为 MCP 服务器,让大语言模型(LLM)能直接操作 Windows,实现文件浏览、应用控制、UI 交互、QA 测试等功能。Windows-MCP支持任何 LLM,无需依赖传统计算机视觉或特定微调模型,具备丰富的 UI 自动化工具集,操作延迟低(1.5

AI中国 AI中国
209 0
Animated Drawings – Meta AI推出的AI手绘作品转动画工具
AI视频 4月前

Animated Drawings – Meta AI推出的AI手绘作品转动画工具

Animated Drawings是什么Animated Drawings是Meta AI推出的开源工具,基于AI技术将手绘人物绘画自动转化为动画。Animated Drawings提供一套完整的工具和算法,能检测、分割绘画中的人物,为其生成动画效果。用户能通过配置文件灵活控制动画的场景、动作和角色。工具提供自动注释生成工具,帮助用户快速创建动画所需的注释文件。Animated Drawing

AI中国 AI中国
187 0
MiDashengLM – 小米开源的高效声音理解大模型
AI视频 4月前

MiDashengLM – 小米开源的高效声音理解大模型

MiDashengLM是什么MiDashengLM是小米开源的高效声音理解大模型,具体参数版本为MiDashengLM-7B 。模型基于 Xiaomi Dasheng 音频编码器和 Qwen2.5-Omni-7B Thinker 解码器构建,用通用音频描述对齐策略,实现对语音、环境声音和音乐的统一理解。模型性能卓越,推理效率高,首 Token 延迟仅为业界先进模型的 1/4,支持大规模并行处理

AI中国 AI中国
79 0
Coze Loop – 字节Coze推出的AI Agent开发与调试平台
AI视频 4月前

Coze Loop – 字节Coze推出的AI Agent开发与调试平台

Coze Loop是什么Coze Loop(扣子罗盘)是字节跳动旗下Coze平台开源的专注于AI智能体(Agent)开发与运维的管理平台,为开发者提供从开发、调试、评估到监控的全生命周期管理能力。包括提示词工程、Agent效果评测、性能监控与调优、透明决策监控以及多模型对比。支持提示词的编写、优化和版本管理,提供AI辅助优化功能,显著提升提示词开发效率。Coze Loop通过系统化的评估体系,

AI中国 AI中国
174 0
Qwen3-235B-A22B-Thinking-2507 – 阿里推出的最新推理模型
AI视频 4月前

Qwen3-235B-A22B-Thinking-2507 – 阿里推出的最新推理模型

Qwen3-235B-A22B-Thinking-2507是什么Qwen3-235B-A22B-Thinking-2507 是阿里巴巴发布的全球最强开源推理模型。基于2350亿参数的稀疏混合专家(MoE)架构,每次激活220亿参数,拥有94层Transformer网络和128个专家节点。模型专为复杂推理任务设计,支持256K原生上下文处理能力,可应对长文本和深度推理链。在性能方面,Qwen3-

AI中国 AI中国
91 0
Coze Studio – 字节跳动开源的AI Agent开发平台
AI视频 4月前

Coze Studio – 字节跳动开源的AI Agent开发平台

Coze Studio是什么Coze Studio(扣子开发平台)是字节跳动开源的AI智能体开发平台,帮助开发者快速构建、部署和管理AI智能体。提供一站式开发环境,支持Prompt、RAG、Plugin、Workflow等核心技术,通过可视化工作流编排,开发者可以零代码或低代码开发复杂AI应用。平台内置插件框架,可将第三方API或私有能力封装为插件,扩展智能体功能。Coze Studio采用G

AI中国 AI中国
108 0
Step 3 – 阶跃星辰最新推出的多模态推理模型
AI视频 4月前

Step 3 – 阶跃星辰最新推出的多模态推理模型

Step 3是什么Step 3 是阶跃星辰最新发布的新一代基础大模型,专为推理时代设计,兼具高性能与极致成本效益。采用 MoE 架构,拥有 321B 总参数量 和 38B 激活参数量,是首个全尺寸、原生多模态推理模型,具备强大的视觉感知和复杂推理能力,能在多个领域实现高效应用。通过 AFD 分布式推理系统 和 MFA 注意力机制,实现了推理效率的大幅提升。在国产芯片上,推理效率可达同类模型的

AI中国 AI中国
217 0
Higgs Audio V2 – 开源语音大模型,能模拟多人互动场景
AI视频 4月前

Higgs Audio V2 – 开源语音大模型,能模拟多人互动场景

Higgs Audio V2是什么Higgs Audio V2 是李沐及其团队 Boson AI 开发的开源语音大模型。基于超过1000万小时的音频数据训练而成,具备多语言对话生成、自动韵律调整、语音克隆和歌声合成等功能。模型能模拟自然流畅的多人对话,自动匹配说话者的情绪和语调,支持低延迟的实时语音交互。支持零样本语音克隆,用户只需提供简短语音样本,即可复制特定人物的声音特征,可以合成歌声。H

AI中国 AI中国
225 0
Agentar-Fin-R1 – 蚂蚁数科推出的金融推理大模型
AI视频 4月前

Agentar-Fin-R1 – 蚂蚁数科推出的金融推理大模型

Agentar-Fin-R1是什么Agentar-Fin-R1 是蚂蚁数科推出的专门面向金融领域的大型语言模型,提升金融场景中的推理能力、可信度和领域专长。模型基于 Qwen3 基础模型开发,提供 8B 和 32B 参数版本,通过精细化的金融任务标签体系和多层可信度保障框架进行优化。在数据构造上采用标签驱动的三级流水线,确保数据来源可信、合成可信和治理可信。模型在金融基准测试(如 Fineva

AI中国 AI中国
119 0
MonkeyCode – 开源的企业级本地AI编程助手
AI视频 4月前

MonkeyCode – 开源的企业级本地AI编程助手

MonkeyCode是什么MonkeyCode 是开源的企业级 AI 编程助手,支持私有化部署和离线使用,保障代码隐私与安全。MonkeyCode 兼容多种本地化大模型,具备代码补全、自然语言编程、代码安全扫描等功能,配备企业级管理面板,支持对 AI 编程行为进行严格审计和管控。MonkeyCode 安装便捷,基于 Docker 运行,适合注重隐私和安全的开发团队,提升研发效率并保障代码质量。

AI中国 AI中国
99 0
SuperDesign – 开源AI设计Agent,并行生成多个设计选项
AI视频 4月前

SuperDesign – 开源AI设计Agent,并行生成多个设计选项

SuperDesign是什么SuperDesign 是开源AI设计Agent,帮助设计师和开发者在 IDE 中直接生成 UI 原型、组件和线框图。工具支持自然语言输入,能并行生成多个设计选项,方便用户快速探索不同创意。SuperDesign 支持与 Cursor、Windsurf、Claude Code 和 VS Code 等主流 AI 编辑器无缝集成,支持设计变体管理、快速迭代和本地存储。工

AI中国 AI中国
126 0
KAT-V1 – 快手开源的自动思考模型
AI视频 4月前

KAT-V1 – 快手开源的自动思考模型

KAT-V1是什么KAT-V1是快手开源的自动思考(AutoThink)大模型,包含40B和200B两个版本。模型融合思考与非思考能力,能根据问题难度自动切换思考模式。40B版本性能逼近DeepSeek-R1(6850亿参数),200B版本在多项基准测试中超越Qwen、DeepSeek和Llama等开源模型。KAT-V1用长短思考混合训练范式和新型强化学习方法Step-SRPO,提升思考密度和

AI中国 AI中国
211 0
Qwen-MT – 阿里通义千问推出的机器翻译模型
AI视频 4月前

Qwen-MT – 阿里通义千问推出的机器翻译模型

Qwen-MT是什么Qwen-MT 是阿里通义千问团队推出的机器翻译模型,基于强大的 Qwen3 架构开发。模型支持 92 种语言的高质量互译,覆盖全球 95% 以上的人口,能满足多样化的跨语言交流需求。模型基于轻量级 MoE 架构,具备低延迟和低成本的特点,每百万输出 token 的 API 调用成本低至 0.5 美元。模型支持术语干预、领域提示和翻译记忆等功能,能根据用户需求定制翻译风格。

AI中国 AI中国
185 0
Seed LiveInterpret 2.0 – 字节跳动Seed推出的同声传译模型
AI视频 4月前

Seed LiveInterpret 2.0 – 字节跳动Seed推出的同声传译模型

Seed LiveInterpret 2.0是什么Seed LiveInterpret 2.0 是字节跳动Seed团队推出的端到端同声传译模型,支持中英双向翻译。具备接近真人水平的翻译准确率和极低的延迟,能实现“边听边说”的实时翻译。模型基于全双工语音生成理解框架,支持多人语音输入,可实时复刻说话人的音色,无需提前采集声音样本。在复杂场景下,翻译准确率超70%,单人演讲时超80%。平均语音到语

AI中国 AI中国
199 0
加载更多

推荐文章

OpenAI惊爆AI

OpenAI惊爆AI"阴谋论"!模型会故意欺骗人类,训练越多反而越狡猾

2月前 • AI热点
谷歌搜索全新 AI 模式亮相:Gemini 2.5、个性化回答、深度搜索等

谷歌搜索全新 AI 模式亮相:Gemini 2.5、个性化回答、深度搜索等

6月前 • AI热点
Cursor 2.0 发布首个编程大模型Composer!代码生成250tokens/秒,强化学习+MoE架构

Cursor 2.0 发布首个编程大模型Composer!代码生成250tokens/秒,强化学习+MoE架构

1月前 • AI热点
加州法官对律师事务所使用虚假 AI 研究提出严厉批评

加州法官对律师事务所使用虚假 AI 研究提出严厉批评

7月前 • AI热点
速抢(2核2G)77元/年香港免备案服务器

速抢(2核2G)77元/年香港免备案服务器

0秒前 • 学习教程
华为诺亚方舟实验室携手港大发布最强开源扩散语言模型 Dream 7B,打破文本生成格局

华为诺亚方舟实验室携手港大发布最强开源扩散语言模型 Dream 7B,打破文本生成格局

8月前 • AI热点
英伟达甲骨文连签大单,Meta、xAI斥巨资自建,AI基建投资卷疯了!

英伟达甲骨文连签大单,Meta、xAI斥巨资自建,AI基建投资卷疯了!

2月前 • AI热点
​OpenAI ChatGPT 语音模式升级:调速和自定义指令来袭!

​OpenAI ChatGPT 语音模式升级:调速和自定义指令来袭!

3月前 • AI热点

热门标签

腾讯 数学定理证明 TTS 健康科技 零基础学AI 开放世界 西游记 2025最新 投资美股 多智能体协作

热门作者

作者头像

AI前沿

2.4k 粉丝

作者头像

机器学习实验室

1.8k 粉丝

作者头像

AI创业圈

3.1k 粉丝

AI学习站

用AI颠覆视频创作!学习如何通过AI生成视频脚本、自动剪辑、添加特效与字幕,掌握低成本制作高质量宣传片、短视频、动画的全流程技巧,提升创作效率10倍。

快速链接

  • 首页
  • AI热点
  • AI教程

联系我们

  • gzhcly@qq.com

Copyright © 2025 All rights reserved. AI学习站 黔ICP备2025045649号-2

隐私政策 使用条款 免责声明