AI视频制作教程 | 从脚本生成到智能剪辑的完整解决方案 - AI学习站

OmniVinci – NVIDIA推出的全模态大语言模型

Top

AI视频 5月前 • 723

OmniVinci – NVIDIA推出的全模态大语言模型

OmniVinci是什么OmniVinci是NVIDIA推出的全模态大语言模型，专门处理视觉、听觉、语言和推理的多模态任务。通过独特的OmnialignNet技术实现跨模态语义对齐，Temporal Embedding Grouping机制解决时序同步问题，采用Constrained Rotary Time Embedding优化时间感知能力。在Dailyomni等基准测试中，性能超越Qwen

AI中国

AI中国

GPT-5-Codex – OpenAI推出的Agent编程优化模型

AI视频 7月前

GPT-5-Codex – OpenAI推出的Agent编程优化模型

GPT-5-Codex是什么GPT-5-Codex 是 OpenAI 推出的专为编程优化的模型，基于 GPT-5 进一步强化。模型聚焦于真实世界的软件工程任务，如从零搭建项目、代码重构、调试、测试和代码审查等。模型能根据任务复杂度动态调整思考时间，简单任务秒回，复杂任务深度思考，支持独立完成长达 7 小时的复杂任务。模型代码审查能力出色，能精准发现关键缺陷，减少无效评论。GPT-5-Codex

AI中国

AI中国

178 0

ROMA – Sentient AGI开源的多智能体框架

AI视频 7月前

ROMA – Sentient AGI开源的多智能体框架

ROMA是什么 ROMA（Recursive Open Meta-Agent）是Sentient AGI团队开源的多Agent系统框架，通过递归层次结构将复杂任务拆解为可并行的子任务，由父节点分配给子节点执行，再将结果汇总。ROMA支持多模态输入输出，内置通用任务解决器、深度研究Agent和金融分析Agent等，适用从研究分析到金融决策的多种场景。ROMA透明的执行过程便于调试和优化，在多个基

AI中国

AI中国

125 0

Mini-o3 – 字节联合港大推出的视觉推理模型

AI视频 7月前

Mini-o3 – 字节联合港大推出的视觉推理模型

Mini-o3是什么Mini-o3 是字节跳动和香港大学联合推出的开源模型，专为解决复杂的视觉搜索问题而设计。模型通过强化学习和基于图像的工具，能执行深度多轮推理，推理轮次可扩展至数十轮。Mini-o3 通过构建挑战性数据集、采用迭代数据收集流程以及提出过轮遮蔽策略等方法，显著提升模型的推理能力和交互轮次。模型在多个视觉搜索基准测试中取得最佳性能，所有代码、模型和数据集均开源，便于复现和进一步

AI中国

AI中国

248 0

Grok 4 Fast – xAI推出的快速版AI模型

AI视频 7月前

Grok 4 Fast – xAI推出的快速版AI模型

Grok 4 Fast是什么Grok 4 Fast是xAI推出的快速版人工智能模型，最大的特点是响应速度快，最高可达标准版的10倍，生成速度每秒75个token，能快速完成简单查询、基础代码生成等任务，大幅提升效率。模型目前处于早期访问测试版阶段，未来有望向更多用户开放，甚至取代旧版Grok 3，适配移动端应用。Grok 4 Fast的主要功能语言生成：Grok 4 Fast能快速生成

AI中国

AI中国

132 0

Lumina-DiMOO – 上海AI Lab推出的多模态生成与理解模型

AI视频 7月前

Lumina-DiMOO – 上海AI Lab推出的多模态生成与理解模型

Lumina-DiMOO是什么Lumina-DiMOO是上海人工智能实验室等机构开源的新一代多模态生成与理解模型。模型采用全离散扩散架构，统一处理文本、图像等多模态数据，支持文本到图像生成、图像编辑、风格转换等多种任务。Lumina-DiMOO在多个基准测试中表现优异，采样效率高，生成质量好，为多模态AI领域带来新的突破，有望在内容创作、智能分析、教育研究等多个领域发挥重要作用。Lumin

AI中国

AI中国

209 0

UnifoLM-WMA-0 – 宇树科技开源的世界模型行动框架

AI视频 7月前

UnifoLM-WMA-0 – 宇树科技开源的世界模型行动框架

UnifoLM-WMA-0是什么 UnifoLM-WMA-0 是宇树科技开源的跨多类机器人本体的世界模型 – 动作架构，专为通用机器人学习设计。核心是世界模型，能理解机器人与环境的物理交互，具备仿真引擎和策略增强两大功能。仿真引擎可生成合成数据用于机器人学习，策略增强通过预测未来交互优化决策性能。架构已在真实机器人上部署，能实现动作可控生成和长期交互生成，提升机器人在复杂环境中的学习和决策能力。

AI中国

AI中国

172 0

PP-OCRv5 – 百度推出的文字识别模型

AI视频 7月前

PP-OCRv5 – 百度推出的文字识别模型

PP-OCRv5是什么PP-OCRv5 是百度推出的高效、精准的文字识别模型。模型基于两阶段处理流程，专门用在快速、准确地检测和识别图像中的文字。模型参数量仅为0.07亿，体积小、效率高，在CPU和边缘设备上表现优异，每秒能处理370多个字符。模型支持简体中文、繁体中文、英文、日文和拼音等5种文字类型，能识别40多种语言。在多种OCR基准测试中，PP-OCRv5 的表现优于通用视觉语言模型，尤

AI中国

AI中国

124 0

Stable Audio 2.5 – Stability AI推出的音频生成模型

AI视频 7月前

Stable Audio 2.5 – Stability AI推出的音频生成模型

Stable Audio 2.5是什么Stable Audio 2.5 是 Stability AI 推出的最新音频生成模型，专为企业级声音制作设计。模型具备快速生成（三分钟音频仅需两秒）、动态音乐创作和音频修复功能。模型能根据品牌需求定制音频，支持企业创建独特的声音身份。Stable Audio 2.5 与专业音频品牌代理机构合作，为企业提供定制化解决方案，通过 API 和合作伙伴平台供用户

AI中国

AI中国

219 0

Live Interpreter API – 微软推出的实时多语言翻译服务

AI视频 7月前

Live Interpreter API – 微软推出的实时多语言翻译服务

Live Interpreter API是什么Live Interpreter API 是 Azure 语音翻译的新功能，能实现实时的多语言语音翻译。无需用户手动设置输入语言， Live Interpreter API 能自动连续识别正在使用的语言，能用自然的声音进行低延迟的语音到语音翻译，同时保留说话者的风格和语调。Live Interpreter API支持 76 种输入语言和 143 个

AI中国

AI中国

159 0

Youtu-GraphRAG – 腾讯优图开源的图检索增强生成框架

AI视频 7月前

Youtu-GraphRAG – 腾讯优图开源的图检索增强生成框架

Youtu-GraphRAG是什么Youtu-GraphRAG是腾讯优图实验室开源的图检索增强生成框架，通过将知识组织成图谱，结合大语言模型进行检索和推理，帮助模型更精准地回答复杂问题，减少“胡言乱语”。框架具有多跳推理、知识密集型任务处理和领域可扩展性等特点，通过创新的图模式构建、社区检测和代理检索等技术，大幅降低token成本，提高准确性。Youtu-GraphRAG支持无缝领域迁移，适用

AI中国

AI中国

182 0

AI视频 7月前

veCLI – 字节火山引擎推出的命令行AI工具

veCLI是什么 veCLI 是字节跳动火山引擎推出的命令行 AI 工具，提升开发效率。无缝集成豆包大模型 1.6 等多种模型，开发者可通过自然语言交互，快速生成代码并完成本地部署，无需记忆复杂命令。veCLI 支持密钥鉴权，保障安全，能灵活切换模型。集成了火山引擎云服务，从构建到部署都更便捷，具备自由扩展能力，可提升编程效率。 veCLI的主要功能无缝集成大模型：veCLI 深度集成了

AI中国

AI中国

108 0

AI视频 7月前

ZipVoice – 小米推出的零样本语音合成模型

ZipVoice是什么ZipVoice 是小米集团 AI 实验室发布的高效零样本语音合成（TTS）模型。模型基于 Flow Matching 架构，包含 ZipVoice（单说话人）和 ZipVoice-Dialog（对话语音）两个版本。模型通过技术创新，如基于 Zipformer 的高效建模、平均上采样策略和 Flow Distillation 方法，实现轻量化建模和快速推理，解决现有模型参

AI中国

AI中国

170 0

AI视频 7月前

MobileLLM-R1 – Meta推出的专项高效推理模型系列

MobileLLM-R1是什么 MobileLLM-R1是Meta推出的一系列专为数学、编程和科学推理设计的高效推理模型。系列包含基础模型和最终模型，分别有1.4亿、3.6亿和9.5亿参数版本。模型并非通用聊天模型，是经过监督微调（SFT）的专项模型，专注于特定任务的高效推理。MobileLLM-R1-950M模型仅用约2万亿高质量token进行预训练，总训练token量少于5万亿，但在多个基准

AI中国

AI中国

196 0

AI视频 7月前

AgentCLUE-ICabin – 汽车智能座舱的AI Agent评测基准

AgentCLUE-ICabin是什么 AgentCLUE-ICabin 是专注于汽车智能座舱场景的 AI 智能体测评基准，全面评估大语言模型在智能座舱中的工具调用能力。基准基于12大常见用车场景构建，覆盖从日常通勤到长途自驾等多种出行需求，充分贴合国内用户的实际交互场景。测评设计了1至10轮的多轮交互对话，每轮对话至少调用一个工具，全面考察模型在复杂环境下的交互能力。 AgentCLUE-IC

AI中国

AI中国

219 0

AI视频 7月前

IndexTTS2 – B站开源的最新文本转语音模型

IndexTTS2是什么 IndexTTS2是B站语音团队开发的新型文本转语音（TTS）模型，已经正式开源。模型在情感表达和时长控制方面实现了重大突破，是首个支持精确时长控制的自回归TTS模型。支持零样本声音克隆，仅需一个音频文件即可精准复制音色、节奏和说话风格，支持多语言。IndexTTS2实现了情感音色分离控制，用户可以独立指定音色来源和情绪来源。模型具备多模态情感输入功能，支持通过情感参考

AI中国

AI中国

230 0

LMDeploy – 上海AI Lab开源的大模型推理部署工具

AI视频 7月前

LMDeploy – 上海AI Lab开源的大模型推理部署工具

LMDeploy是什么LMDeploy 是上海人工智能实验室推出的大模型推理部署工具，能显著提升大模型的推理性能，支持多种硬件架构，包括 NVIDIA 的 Hopper 和 Ampere 系列 GPU，实现了 FP8 和 MXFP4 等高效量化技术。LMDeploy 提供从模型量化到推理优化的全流程支持，支持多机多卡分布式推理，能满足大规模生产环境的需求。LMDeploy 具备良好的兼容性和易

AI中国

AI中国

216 0

文心大模型X1.1 – 百度推出的深度思考模型

AI视频 7月前

文心大模型X1.1 – 百度推出的深度思考模型

文心大模型X1.1是什么文心大模型X1.1是百度推出的深度思考模型，基于迭代式混合强化学习框架，在事实性、指令遵循能力和智能体能力上显著提升，分别提高34.8%、12.5%和9.6%。在权威评测中，表现超越DeepSeek R1-0528，与GPT-5和Gemini 2.5 Pro持平。用户能在文心一言官网、文小言APP使用文心大模型X1.1，已上线百度智能云千帆平台，全面开放给企业客户和开发

AI中国

AI中国

159 0

SpikingBrain-1.0 – 中国科学院推出的类脑脉冲大模型

AI视频 7月前

SpikingBrain-1.0 – 中国科学院推出的类脑脉冲大模型

SpikingBrain-1.0是什么SpikingBrain-1.0（瞬悉 1.0）是中国科学院自动化研究所推出的类脑脉冲大模型。模型基于内生复杂性，用新型非Transformer架构，突破Transformer架构在处理超长序列时的瓶颈。模型在国产GPU算力平台上完成全流程训练和推理，实现大模型在超长序列推理上的效率和速度提升，具有极低数据量上的高效训练、推理效率的数量级提升等核心

AI中国

AI中国

278 0

混元图像2.1 – 腾讯开源的文生图模型

AI视频 7月前

混元图像2.1 – 腾讯开源的文生图模型

混元图像2.1是什么混元图像2.1（HunyuanImage 2.1）是腾讯推出的开源文生图模型，支持原生2K分辨率，具备强大的复杂语义理解能力，能精准生成场景细节、人物表情和动作。模型支持中英文输入，能生成多种风格的图像，如漫画、手办等，同时对图像中的文字和细节把控稳定。模型基于双通道文本编码器和高压缩率VAE等技术，大幅提升训练和推理效率。模型现已开源，方便开发者研究和开发衍生模型，可通过

AI中国

AI中国

252 0

AI视频 7月前

AI Image Editor

AI Image Editor 是什么？ AI Image Editor 是一款基于网页的智能图片编辑工具，支持用户通过文字提示（text prompt）来实现图像生成与编辑。无需掌握 Photoshop 或复杂的修图技巧，用户只需输入描述，AI 就能自动完成图片修改、增强或风格转换。它支持 2K 分辨率输出、3 秒快速生成，并提供多种艺术风格（写实、动漫、油画、赛博朋克等），帮助用户快

AI中国

AI中国

188 0

AI视频 7月前

Engagement Photos AI

Engagement Photos AI 是什么？Engagement Photos AI 是一款专注于订婚照与情侣人像生成的 AI 工具。用户只需上传个人或情侣照片，选择背景和姿势，AI 即可在 20–30 秒内生成高质量的订婚写真。它采用 AI人脸替换与智能背景合成技术，确保人物表情自然、光影协调，适合用于订婚公告、婚礼请柬、纪念相册等场景。Engagement Photo

AI中国

AI中国

153 0

AI视频 7月前

OneCAT – 美团联合上交大推出的统一多模态模型

OneCAT是什么OneCAT是美团推出的新型统一多模态模型，采用纯解码器架构，能无缝集成多模态理解、文本到图像生成和图像编辑功能。模型摒弃了传统多模态模型中依赖外部视觉编码器和分词器的设计，通过特定模态的专家混合（MoE）结构和多尺度自回归机制，实现了高效的多模态处理。在处理高分辨率图像输入和输出时表现出色。通过创新的尺度感知适配器和多模态多功能注意力机制，进一步增强了视觉生成能力和跨模态对

AI中国

AI中国

134 0

AI视频 7月前

剪映

剪映是什么？**剪映（国际版称 CapCut，中国版称 JianYing）**由字节跳动开发，是一款兼具多平台支持与 AI 智能功能的视频和图像编辑工具。最初于 2019 年上线移动端，随后扩展至网页端与专业版桌面端（Windows/macOS）。剪映应用场景社交媒体短视频创作：深度整合抖音（Douyin）平台资源，无论是日常记录、Vlog 还是创意视频，都能轻松剪辑并快速发布。

AI中国

AI中国

170 0

AI视频 7月前

InfinityHuman – 字节联合浙大推出的AI数字人视频生成模型

InfinityHuman是什么InfinityHuman 是字节跳动与浙江大学联合团队推出的商用级长时序音频驱动人物视频生成模型，开启 AI 数字人实用化新篇章。模型基于 coarse-to-fine 框架，生成低分辨率的动作表示，通过姿态引导细化器逐步生成高分辨率的长时视频。模型引入手部专属奖励机制，优化手部动作的自然性和同步性，有效解决现有方法中常见的身份漂移、画面不稳定和手部动作生硬等

AI中国

AI中国

165 0

AI视频 7月前

mobile-use – 开源的移动端AI Agents，自然语言控制手机

mobile-use是什么mobile-use是移动端AI Agents工具，支持自然语言控制Android和iOS设备，帮助用户操作手机。用户用日常语言下达指令，工具自动完成任务，如打开应用、填写表单、提取信息等。mobile-use能感知UI界面，智能导航，支持数据抽取和结构化处理。工具具有良好的可扩展性，支持配置不同的语言模型。mobile-use已在GitHub上开源，提供详细的使用指

AI中国

AI中国

198 0

AI视频 7月前

EmbeddingGemma – 谷歌开源的多语言文本嵌入模型

EmbeddingGemma是什么EmbeddingGemma是谷歌开源的多语言文本嵌入模型，专为端侧AI设计，支持在笔记本、手机等设备上部署。模型拥有3.08亿参数，基于Gemma 3架构打造，支持100多种语言，量化后内存占用不到200MB，能在EdgeTPU上15ms内生成嵌入向量。模型在海量文本嵌入基准（MTEB）上表现优异，性能接近尺寸翻倍的Qwen-Embedding-0.6B，能

AI中国

AI中国

224 0

AI视频 7月前

X-All in one

X-All in one 是什么？X-All in one 是由深圳遥声科技有限公司推出的自研型AI API平台，提供高性能、低成本的AI算力服务，特别适用于需要模型推理、高并发处理和跨区域服务的场景。平台依托三大运营商的国家级算力基础设施，具备弹性扩展与智能调度能力，支持从模型选型、优化、部署到运维的一站式服务。它采用分布式架构，自主研发核心引擎，在性能、稳定性、响应速度等方面表现突出。

AI中国

AI中国

148 0

AI视频 7月前

LongCat AI

LongCat 是什么？LongCat AI 是美团自研的大模型AI对话平台，其核心模型为最新开源的 LongCat-Flash-Chat。它基于 Mixture-of-Experts（MoE）架构构建，总参数量高达 5600亿，但每次推理仅激活 186亿至313亿参数，平均激活约 270亿参数，显著提高了推理效率与算力利用率。LongCat已在多个国际大模型基准评测中名列前茅，表现出卓越的

AI中国

AI中国

215 0

Super Agent Party – 开源3D AI桌面伴侣，全渠道一键部署

AI视频 7月前

Super Agent Party – 开源3D AI桌面伴侣，全渠道一键部署

Super Agent Party是什么Super Agent Party 是开源的3D AI桌面伴侣软件，将桌宠、智能助手、知识库、机器人控制等多种功能集于一体。用户能通过Docker或源码快速部署到Windows、macOS、Linux等系统。Super Agent Party 支持接入微信、QQ、B站直播等平台，具备联网能力、永久记忆、代码执行和多模态交互等功能。软件能作为可爱的桌面宠物

AI中国

AI中国

165 0

AudioStory – 腾讯ARC推出的音频生成模型

AI视频 7月前

AudioStory – 腾讯ARC推出的音频生成模型

AudioStory是什么AudioStory 是腾讯 ARC 实验室发布的音频生成技术，能根据自然语言描述生成高质量的长篇叙事音频。采用分而治之策略，将复杂叙事请求拆解为有序子任务，通过解耦桥接机制，精准协调语义与音效细节。端到端训练方式，提升了模型协同作用，生成的音频具有时序逻辑与情绪层次。AudioStory的主要功能视频自动配音：用户上传无声视频并描述音效风格，AudioSt

AI中国

AI中国

245 0

推荐文章

如何做好需求分析

如何做好需求分析

8月前 • 学习教程

CPU飙升、电量狂掉！Firefox新AI功能上线即「翻车」，遭老用户怒喷：“跟风加AI简直丢脸”

CPU飙升、电量狂掉！Firefox新AI功能上线即「翻车」，遭老用户怒喷：“跟风加AI简直丢脸”

8月前 • AI热点

ElevenLabs隆重推出AI语音助理11ai：语音优先并支持集成MCP

ElevenLabs隆重推出AI语音助理11ai：语音优先并支持集成MCP

10月前 • AI热点

ai一键生成高颜值服装模特图，用AI工具（可灵）做服装商品AI模特换装图片和试衣效果视频

ai一键生成高颜值服装模特图，用AI工具（可灵）做服装商品AI模特换装图片和试衣效果视频

1年前 • 学习教程

毕业7年，身价破亿！清北AI天团血洗硅谷，奥特曼被逼分天价股份

毕业7年，身价破亿！清北AI天团血洗硅谷，奥特曼被逼分天价股份

9月前 • AI热点

速抢（2核2G）77元/年香港免备案服务器

速抢（2核2G）77元/年香港免备案服务器

0秒前 • 学习教程

GPT-5发布时间定了！ChatGPT年费只要1美元，OpenAI估值达5000亿

GPT-5发布时间定了！ChatGPT年费只要1美元，OpenAI估值达5000亿

8月前 • AI热点

研究称 AI 写作水平仍不及真实学生：缺少个人体会与细腻的批判思维

研究称 AI 写作水平仍不及真实学生：缺少个人体会与细腻的批判思维

11月前 • AI热点

热门标签

NPCI 超大上下文 AITOLink 平面设计全套随手记录我的美好生活耳朵经济《科学》笔记管理万物研究所 GPT-4成本

热门作者

作者头像

AI前沿

2.4k 粉丝

作者头像

机器学习实验室

1.8k 粉丝

作者头像

AI创业圈

3.1k 粉丝