AI视频制作教程 | 从脚本生成到智能剪辑的完整解决方案 - AI学习站

OmniVinci – NVIDIA推出的全模态大语言模型

Top

AI视频 5月前 • 723

OmniVinci – NVIDIA推出的全模态大语言模型

OmniVinci是什么OmniVinci是NVIDIA推出的全模态大语言模型，专门处理视觉、听觉、语言和推理的多模态任务。通过独特的OmnialignNet技术实现跨模态语义对齐，Temporal Embedding Grouping机制解决时序同步问题，采用Constrained Rotary Time Embedding优化时间感知能力。在Dailyomni等基准测试中，性能超越Qwen

AI中国

AI中国

GPT-5 – OpenAI推出的最新最强AI模型

AI视频 8月前

GPT-5 – OpenAI推出的最新最强AI模型

GPT-5是什么GPT-5 是 OpenAI 最新推出的人工智能模型，是目前最强模型，面向所有用户开放。GPT-5是一个统一系统，包括一个基础模型用在解答常见问题，一个深度推理模型（GPT-5 思维模块）用在处理复杂难题，一个实时路由模块根据对话类型、问题复杂度、工具需求和用户指令（如“仔细思考”）智能调度模型。GPT-5 在编程、写作、数学、健康等多个领域表现出色，大幅减少幻觉和错误，回答更

AI中国

AI中国

243 0

AI视频 8月前

无痕AI

🧠 无痕AI 是什么？无痕AI是一款专注于视频水印、字幕、文字、人或物体移除的AI视频处理平台，利用2025年最新深度学习模型，实现真正意义上的“无痕去除”。用户可通过简单上传、框选或选择处理模式，自动完成高质量的视频清理操作。该工具可高效批量处理视频，无需安装软件，广泛应用于短视频再创作、视频清洗、内容分发等场景，支持API接入和企业私有部署，功能已远超传统剪辑软件如PR、剪映等。📌

AI中国

AI中国

248 0

Qwen-Flash – 阿里通义推出的Qwen3系列高性能模型

AI视频 8月前

Qwen-Flash – 阿里通义推出的Qwen3系列高性能模型

Qwen-Flash是什么Qwen-Flash是阿里通义千问推出的Qwen3系列Flash模型，版本号为qwen-flash-2025-07-28。模型在通用能力、推理能力、中英文知识处理及Agent能力上均有显著提升，特别优化主观开放类任务的处理，能更好地满足用户需求。Qwen-Flash支持1M超长上下文，适合处理复杂任务。定价为每百万字符0.00015元，具有速度快、成本低的优势，适合简

AI中国

AI中国

145 0

Speech 2.5 – MiniMax推出的新一代语音生成模型

AI视频 8月前

Speech 2.5 – MiniMax推出的新一代语音生成模型

Speech 2.5是什么Speech 2.5 是 MiniMax 推出的新一代语音生成模型，在多语种表现力、音色复刻和语言覆盖范围上实现重大突破。模型支持40种语言，能精准还原不同语言和口音的细节，复刻音色时保留风格与情绪，跨语种切换依然逼真。Speech 2.5 适用企业多语种客服、创作者全球内容制作和教育者语言教学等场景，助力全球化内容创作与传播。用户可通过MiniMax开放平台和Min

AI中国

AI中国

188 0

dots.vlm1 – 小红书hi lab开源的首个多模态大模型

AI视频 8月前

dots.vlm1 – 小红书hi lab开源的首个多模态大模型

dots.vlm1是什么dots.vlm1 是小红书 hi lab 开源的首个多模态大模型。基于一个从零训练的 12 亿参数视觉编码器 NaViT 和 DeepSeek V3 大语言模型（LLM），具备强大的视觉感知和文本推理能力。模型在视觉理解和推理任务上表现出色，接近闭源 SOTA 模型水平，在文本任务上也保持了竞争力。dots.vlm1 的视觉编码器 NaViT 完全从零开始训练，原生支

AI中国

AI中国

110 0

Genie 3 – 谷歌DeepMind推出的新一代通用世界模型

AI视频 8月前

Genie 3 – 谷歌DeepMind推出的新一代通用世界模型

Genie 3是什么Genie 3是谷歌DeepMind推出的新一代通用世界模型，能实时生成高度动态且连贯的虚拟世界。模型具备模拟物理现象、自然生态系统、奇幻场景和历史场景的能力，支持用文本提示改变世界状态，如天气变化或引入新物体。Genie 3实现了长达数分钟的视觉一致性，视觉记忆能追溯到一分钟前。模型为AI智能体提供训练环境，支持复杂目标的实现，其技术突破为AI研究和应用带来新的可能性。

AI中国

AI中国

143 0

Claude Opus 4.1 – Anthropic推出的最新编程模型

AI视频 8月前

Claude Opus 4.1 – Anthropic推出的最新编程模型

Claude Opus 4.1是什么Claude Opus 4.1 是 Anthropic 公司最新推出的大型语言模型，是 Claude Opus 4 的升级版本。模型在多个方面进行优化和提升，包括推理质量、指令遵循能力及整体性能。在安全性评估中，Claude Opus 4.1 表现优异，拒绝违规请求的无害响应率从 97.27% 提升到 98.76%，同时在处理敏感主题的良性请求时，拒绝率极低

AI中国

AI中国

211 0

Chunkr – Lumina AI 推出的开源文档处理API

AI视频 8月前

Chunkr – Lumina AI 推出的开源文档处理API

Chunkr是什么Chunkr 是 Lumina AI 推出的开源文档处理 API，专为 RAG（检索增强生成）和知识库场景设计。Chunkr 能将复杂文档（如 PDF、PPT、Word、图片等）转换为结构化数据，支持多格式智能解析。Chunkr 核心功能包括高精度 OCR、语义分块、多格式输出（HTML、Markdown、JSON、纯文本）及与多种 LLM（如 OpenAI、Claude、O

AI中国

AI中国

152 0

LangExtract – 谷歌开源的结构化信息提取工具

AI视频 8月前

LangExtract – 谷歌开源的结构化信息提取工具

LangExtract是什么LangExtract 是谷歌开源的用在从非结构化文本中提取结构化信息的 Python 库。LangExtract 用大型语言模型（LLM），自动处理临床笔记、报告等材料，识别并组织关键细节，确保提取的数据与源文本精确对应。LangExtract支持多种 LLM，包括云托管模型（如 Google Gemini）和本地开源模型（通过 Ollama 接口）。LangEx

AI中国

AI中国

153 0

Qwen-Image – 阿里通义千问开源的文生图模型

AI视频 8月前

Qwen-Image – 阿里通义千问开源的文生图模型

Qwen-Image是什么Qwen-Image 是阿里通义千问团队开源的 20B 参数MMDiT模型，是通义千问系列中首个图像生成基础模型，模型在复杂文本渲染和精确图像编辑方面表现出色，支持多行布局、段落级文本生成及细粒度细节呈现，中英文都能实现高保真输出。Qwen-Image 在通用图像生成和编辑任务中展现出强大的能力，支持多种艺术风格和高级编辑操作。目前用户可通过Qwen Chat，图像生

AI中国

AI中国

194 0

AudioGen-Omni – 快手推出的多模态音频生成框架

AI视频 8月前

AudioGen-Omni – 快手推出的多模态音频生成框架

AudioGen-Omni是什么AudioGen-Omni是快手推出的多模态音频生成框架，框架能基于视频、文本等输入生成高质量的音频、语音和歌曲。框架通过统一的歌词-文本编码器和相位对齐各向异性位置注入（PAAPI）技术，实现精准的视听对齐和跨模态同步。框架支持多语言输入，推理速度快，1.91秒能生成8秒音频，且在多种音频生成任务上表现出色，适用视频配音、语音合成和歌曲创作等场景。Audi

AI中国

AI中国

130 0

gpt-oss – OpenAI开源的推理模型系列

AI视频 8月前

gpt-oss – OpenAI开源的推理模型系列

gpt-oss是什么 gpt-oss 是 OpenAI 推出的开源推理模型系列，包含 gpt-oss-120b 和 gpt-oss-20b 两个版本。gpt-oss-120b 拥有1170亿参数，激活参数约51亿，能在单张 80GB GPU 上运行；gpt-oss-20b 拥有210亿参数，激活参数约36亿，能在 16GB 内存的消费级设备（如笔记本或手机）上运行。两者均基于 MoE 架构，支持

AI中国

AI中国

155 0

Wuhr AI Ops – AI运维管理平台，提供一站式运维解决方案

AI视频 8月前

Wuhr AI Ops – AI运维管理平台，提供一站式运维解决方案

Wuhr AI Ops是什么Wuhr AI Ops是智能化运维管理平台，通过AI技术简化复杂的运维任务。平台集成多模态AI助手，支持自然语言交互执行运维命令，能一键切换K8s集群和Linux系统命令环境。平台具备实时监控、日志分析、CI/CD管理、用户权限管理等功能，支持本地和远程主机统一管理。平台用ELK日志分析和Grafana性能监控，提供可视化流水线配置和多环境部署支持，帮助运维团队实现

AI中国

AI中国

181 0

Skywork MindLink – 昆仑万维开源的推理大模型

AI视频 8月前

Skywork MindLink – 昆仑万维开源的推理大模型

Skywork MindLink是什么Skywork MindLink是昆仑万维推出开源的推理大模型。具有自适应推理机制，可根据任务复杂度灵活切换推理模式，简单任务快速生成，复杂任务深度推理，兼顾效率与准确性。计划驱动推理范式去掉了“think”标签，降低了推理成本，提升了多轮对话能力。提出了新的数学分析方法，显著提升了数学推理水平。在性能方面，Skywork MindLink在“人类最后的

AI中国

AI中国

121 0

ScreenCoder – 开源的智能UI截图生成前端代码工具

AI视频 8月前

ScreenCoder – 开源的智能UI截图生成前端代码工具

ScreenCoder是什么ScreenCoder 是开源的智能 UI 截图转代码系统，支持将任何设计截图快速转换为整洁、可编辑的 HTML/CSS 代码。ScreenCoder用模块化多智能体架构，结合视觉理解、布局规划和代码合成技术，生成高精度、语义化的前端代码。用户根据需求轻松修改布局和样式，实现设计与开发的无缝衔接，适用快速原型设计和像素级完美界面构建，大大提升前端开发效率。Scr

AI中国

AI中国

132 0

RedOne – 小红书推出的社交大模型

AI视频 8月前

RedOne – 小红书推出的社交大模型

RedOne是什么RedOne 是小红书推出的首个面向社交网络服务（SNS）领域的定制化大语言模型（LLM）。模型通过三阶段训练策略，注入社交文化知识，强化多任务能力，并对齐平台规范与人类偏好。相较于基础模型，RedOne 在八大社交任务上平均性能提升14.02%，在双语评测基准上提升7.56%。模型在有害内容检测中将曝光率降低11.23%，在浏览后搜索中将点击页面率提升14.95%。RedO

AI中国

AI中国

222 0

Windows-MCP – 开源的AI Agent与Windows系统无缝集成工具

AI视频 8月前

Windows-MCP – 开源的AI Agent与Windows系统无缝集成工具

Windows-MCP是什么Windows-MCP 是轻量级、开源的 AI Agent与 Windows 系统集成工具。Windows-MCP作为 MCP 服务器，让大语言模型（LLM）能直接操作 Windows，实现文件浏览、应用控制、UI 交互、QA 测试等功能。Windows-MCP支持任何 LLM，无需依赖传统计算机视觉或特定微调模型，具备丰富的 UI 自动化工具集，操作延迟低（1.5

AI中国

AI中国

236 0

Animated Drawings – Meta AI推出的AI手绘作品转动画工具

AI视频 8月前

Animated Drawings – Meta AI推出的AI手绘作品转动画工具

Animated Drawings是什么Animated Drawings是Meta AI推出的开源工具，基于AI技术将手绘人物绘画自动转化为动画。Animated Drawings提供一套完整的工具和算法，能检测、分割绘画中的人物，为其生成动画效果。用户能通过配置文件灵活控制动画的场景、动作和角色。工具提供自动注释生成工具，帮助用户快速创建动画所需的注释文件。Animated Drawing

AI中国

AI中国

212 0

MiDashengLM – 小米开源的高效声音理解大模型

AI视频 8月前

MiDashengLM – 小米开源的高效声音理解大模型

MiDashengLM是什么MiDashengLM是小米开源的高效声音理解大模型，具体参数版本为MiDashengLM-7B 。模型基于 Xiaomi Dasheng 音频编码器和 Qwen2.5-Omni-7B Thinker 解码器构建，用通用音频描述对齐策略，实现对语音、环境声音和音乐的统一理解。模型性能卓越，推理效率高，首 Token 延迟仅为业界先进模型的 1/4，支持大规模并行处理

AI中国

AI中国

110 0

Coze Loop – 字节Coze推出的AI Agent开发与调试平台

AI视频 9月前

Coze Loop – 字节Coze推出的AI Agent开发与调试平台

Coze Loop是什么Coze Loop（扣子罗盘）是字节跳动旗下Coze平台开源的专注于AI智能体（Agent）开发与运维的管理平台，为开发者提供从开发、调试、评估到监控的全生命周期管理能力。包括提示词工程、Agent效果评测、性能监控与调优、透明决策监控以及多模型对比。支持提示词的编写、优化和版本管理，提供AI辅助优化功能，显著提升提示词开发效率。Coze Loop通过系统化的评估体系，

AI中国

AI中国

204 0

Qwen3-235B-A22B-Thinking-2507 – 阿里推出的最新推理模型

AI视频 9月前

Qwen3-235B-A22B-Thinking-2507 – 阿里推出的最新推理模型

Qwen3-235B-A22B-Thinking-2507是什么Qwen3-235B-A22B-Thinking-2507 是阿里巴巴发布的全球最强开源推理模型。基于2350亿参数的稀疏混合专家（MoE）架构，每次激活220亿参数，拥有94层Transformer网络和128个专家节点。模型专为复杂推理任务设计，支持256K原生上下文处理能力，可应对长文本和深度推理链。在性能方面，Qwen3-

AI中国

AI中国

122 0

Coze Studio – 字节跳动开源的AI Agent开发平台

AI视频 9月前

Coze Studio – 字节跳动开源的AI Agent开发平台

Coze Studio是什么Coze Studio（扣子开发平台）是字节跳动开源的AI智能体开发平台，帮助开发者快速构建、部署和管理AI智能体。提供一站式开发环境，支持Prompt、RAG、Plugin、Workflow等核心技术，通过可视化工作流编排，开发者可以零代码或低代码开发复杂AI应用。平台内置插件框架，可将第三方API或私有能力封装为插件，扩展智能体功能。Coze Studio采用G

AI中国

AI中国

136 0

Step 3 – 阶跃星辰最新推出的多模态推理模型

AI视频 9月前

Step 3 – 阶跃星辰最新推出的多模态推理模型

Step 3是什么Step 3 是阶跃星辰最新发布的新一代基础大模型，专为推理时代设计，兼具高性能与极致成本效益。采用 MoE 架构，拥有 321B 总参数量和 38B 激活参数量，是首个全尺寸、原生多模态推理模型，具备强大的视觉感知和复杂推理能力，能在多个领域实现高效应用。通过 AFD 分布式推理系统和 MFA 注意力机制，实现了推理效率的大幅提升。在国产芯片上，推理效率可达同类模型的

AI中国

AI中国

251 0

Higgs Audio V2 – 开源语音大模型，能模拟多人互动场景

AI视频 9月前

Higgs Audio V2 – 开源语音大模型，能模拟多人互动场景

Higgs Audio V2是什么Higgs Audio V2 是李沐及其团队 Boson AI 开发的开源语音大模型。基于超过1000万小时的音频数据训练而成，具备多语言对话生成、自动韵律调整、语音克隆和歌声合成等功能。模型能模拟自然流畅的多人对话，自动匹配说话者的情绪和语调，支持低延迟的实时语音交互。支持零样本语音克隆，用户只需提供简短语音样本，即可复制特定人物的声音特征，可以合成歌声。H

AI中国

AI中国

255 0

Agentar-Fin-R1 – 蚂蚁数科推出的金融推理大模型

AI视频 9月前

Agentar-Fin-R1 – 蚂蚁数科推出的金融推理大模型

Agentar-Fin-R1是什么Agentar-Fin-R1 是蚂蚁数科推出的专门面向金融领域的大型语言模型，提升金融场景中的推理能力、可信度和领域专长。模型基于 Qwen3 基础模型开发，提供 8B 和 32B 参数版本，通过精细化的金融任务标签体系和多层可信度保障框架进行优化。在数据构造上采用标签驱动的三级流水线，确保数据来源可信、合成可信和治理可信。模型在金融基准测试（如 Fineva

AI中国

AI中国

160 0

MonkeyCode – 开源的企业级本地AI编程助手

AI视频 9月前

MonkeyCode – 开源的企业级本地AI编程助手

MonkeyCode是什么MonkeyCode 是开源的企业级 AI 编程助手，支持私有化部署和离线使用，保障代码隐私与安全。MonkeyCode 兼容多种本地化大模型，具备代码补全、自然语言编程、代码安全扫描等功能，配备企业级管理面板，支持对 AI 编程行为进行严格审计和管控。MonkeyCode 安装便捷，基于 Docker 运行，适合注重隐私和安全的开发团队，提升研发效率并保障代码质量。

AI中国

AI中国

134 0

SuperDesign – 开源AI设计Agent，并行生成多个设计选项

AI视频 9月前

SuperDesign – 开源AI设计Agent，并行生成多个设计选项

SuperDesign是什么SuperDesign 是开源AI设计Agent，帮助设计师和开发者在 IDE 中直接生成 UI 原型、组件和线框图。工具支持自然语言输入，能并行生成多个设计选项，方便用户快速探索不同创意。SuperDesign 支持与 Cursor、Windsurf、Claude Code 和 VS Code 等主流 AI 编辑器无缝集成，支持设计变体管理、快速迭代和本地存储。工

AI中国

AI中国

174 0

KAT-V1 – 快手开源的自动思考模型

AI视频 9月前

KAT-V1 – 快手开源的自动思考模型

KAT-V1是什么KAT-V1是快手开源的自动思考（AutoThink）大模型，包含40B和200B两个版本。模型融合思考与非思考能力，能根据问题难度自动切换思考模式。40B版本性能逼近DeepSeek-R1（6850亿参数），200B版本在多项基准测试中超越Qwen、DeepSeek和Llama等开源模型。KAT-V1用长短思考混合训练范式和新型强化学习方法Step-SRPO，提升思考密度和

AI中国

AI中国

236 0

Qwen-MT – 阿里通义千问推出的机器翻译模型

AI视频 9月前

Qwen-MT – 阿里通义千问推出的机器翻译模型

Qwen-MT是什么Qwen-MT 是阿里通义千问团队推出的机器翻译模型，基于强大的 Qwen3 架构开发。模型支持 92 种语言的高质量互译，覆盖全球 95% 以上的人口，能满足多样化的跨语言交流需求。模型基于轻量级 MoE 架构，具备低延迟和低成本的特点，每百万输出 token 的 API 调用成本低至 0.5 美元。模型支持术语干预、领域提示和翻译记忆等功能，能根据用户需求定制翻译风格。

AI中国

AI中国

214 0

Seed LiveInterpret 2.0 – 字节跳动Seed推出的同声传译模型

AI视频 9月前

Seed LiveInterpret 2.0 – 字节跳动Seed推出的同声传译模型

Seed LiveInterpret 2.0是什么Seed LiveInterpret 2.0 是字节跳动Seed团队推出的端到端同声传译模型，支持中英双向翻译。具备接近真人水平的翻译准确率和极低的延迟，能实现“边听边说”的实时翻译。模型基于全双工语音生成理解框架，支持多人语音输入，可实时复刻说话人的音色，无需提前采集声音样本。在复杂场景下，翻译准确率超70%，单人演讲时超80%。平均语音到语

AI中国

AI中国

227 0

推荐文章

摩托罗拉与 Perplexity AI 携手推出全新智能手机助手

摩托罗拉与 Perplexity AI 携手推出全新智能手机助手

1年前 • AI热点

零基础玩转AI短视频教程，用AI打造爆款神话人物短片视频指南

零基础玩转AI短视频教程，用AI打造爆款神话人物短片视频指南

11月前 • 学习教程

马斯克称 xAI 将大力投入视频游戏：赚钱是次要的，主要是我喜欢玩游戏

马斯克称 xAI 将大力投入视频游戏：赚钱是次要的，主要是我喜欢玩游戏

6月前 • AI热点

全球首款“边走边讲边演示”人形机器人：魔法原子发布智慧导览解决方案

全球首款“边走边讲边演示”人形机器人：魔法原子发布智慧导览解决方案

7月前 • AI热点

向伪造视频开炮，马斯克称 Grok 将具备检测 AI 生成视频的能力

向伪造视频开炮，马斯克称 Grok 将具备检测 AI 生成视频的能力

6月前 • AI热点

和AI谈恋爱，她一条笔记获赞10W

和AI谈恋爱，她一条笔记获赞10W

7月前 • AI热点

速抢（2核2G）77元/年香港免备案服务器

速抢（2核2G）77元/年香港免备案服务器

0秒前 • AI热点

一盘狼人杀，扒下大模型底裤，GPT-5暴碾全场，开源被“团灭”？

一盘狼人杀，扒下大模型底裤，GPT-5暴碾全场，开源被“团灭”？

7月前 • AI热点

热门标签

水下图像标记化 GPT4o官网 SWE-bench 油管 AI创作平台 AI Agent 指令 OpenCV SecOps声音报告

热门作者

作者头像

AI前沿

2.4k 粉丝

作者头像

机器学习实验室

1.8k 粉丝

作者头像

AI创业圈

3.1k 粉丝