AI视频制作教程 | 从脚本生成到智能剪辑的完整解决方案 - AI学习站

OmniVinci – NVIDIA推出的全模态大语言模型

Top

AI视频 5月前 • 723

OmniVinci – NVIDIA推出的全模态大语言模型

OmniVinci是什么OmniVinci是NVIDIA推出的全模态大语言模型，专门处理视觉、听觉、语言和推理的多模态任务。通过独特的OmnialignNet技术实现跨模态语义对齐，Temporal Embedding Grouping机制解决时序同步问题，采用Constrained Rotary Time Embedding优化时间感知能力。在Dailyomni等基准测试中，性能超越Qwen

AI中国

AI中国

AI视频 6月前

Firefly Image 5 – Adobe推出的最新图像生成模型

Firefly Image 5是什么Firefly Image 5 是 Adobe 发布的最新图像生成模型。具备原生400万像素输出能力，能直接生成高分辨率图像，细节表现力大幅提升。在人物渲染方面，新模型优化了面部结构、肢体比例和光影逻辑，减少了常见问题，使生成的人物图像更加逼真。Firefly Image 5 引入了图层编辑功能，能智能识别图像中的不同元素并将其作为独立图层处理。创作者可以通

AI中国

AI中国

123 0

AI视频 6月前

LongCat-Video – 美团开源的视频生成模型

LongCat-Video是什么LongCat-Video是美团LongCat团队开源的136亿参数的视频生成模型，在文本到视频（Text-to-Video）、图像到视频（Image-to-Video）和视频续写（Video-Continuation）等任务上表现出色，尤其擅长高效生成高质量的长视频。模型通过多奖励强化学习优化（GRPO），在内部和公共基准测试中展现出与领先开源视频生成模型及最

AI中国

AI中国

132 0

AI视频 6月前

MiniMax M2 – MiniMax推出的Agent编程和优化模型

MiniMax M2是什么MiniMax M2是MiniMax推出的专为编程和Agent工作流优化的大语言模型。模型拥有100亿激活参数和2300亿总参数，支持204,800的上下文窗口和131,072的最大输出Token数。在通用推理、工具使用和多步任务执行方面表现出接近前沿的智能水平，同时保持了低延迟和部署效率。根据Artificial Analysis的基准测试，M2在数学、科学和指令遵

AI中国

AI中国

214 0

AI视频 6月前

Kimi CLI – Moonshot AI推出的命令行通用智能体工具

Kimi CLI是什么Kimi CLI 是 Moonshot AI 推出的命令行通用智能体工具，为开发者提供高效、便捷的编程辅助和文件处理功能。支持 macOS 和 Linux 系统，通过 uv 包管理器安装，安装过程简单快捷。首次使用时，用户需通过 /setup 元命令进行配置，输入 API Key 并选择合适的模型，如 Coding 会员可选择「Kimi For Coding」模型。Kim

AI中国

AI中国

141 0

AI视频 6月前

veo3.1

🎥 Veo 3.1 是什么？Veo 3.1 是由 Google 推出的次世代 AI 视频生成平台，基于 Veo 3.1 AI 模型构建，支持从文字、图片或照片自动生成具备声音、对白与精准口型同步的 4K 电影级视频。这款工具将视觉、声音与物理模拟融合在一起，使创作者能在几分钟内完成传统视频制作需要数小时才能完成的工作。无论你是内容创作者、品牌营销人员还是影视制作者，Veo 3

AI中国

AI中国

259 0

AI视频 6月前

Nof1.ai交易提示词 – 为AI交易系统设计的模板

Nof1.ai交易提示词是什么Nof1.ai交易提示词是为AI交易系统设计的详细输入模板，提供全面的市场数据、技术指标和账户信息。提示词包括多个币种的当前价格、EMA、MACD、RSI等指标，及账户的持仓详情和性能指标。提示词结构化地组织信息，支持AI进行深入分析和交易决策，最终输出每个币种的具体操作建议、置信度和持仓数量，实现优化交易策略。Nof1.ai交易提示词的核心模块 USER

AI中国

AI中国

181 0

AI视频 6月前

VitaBench – 美团推出的大模型Agent评测基准

VitaBench是什么VitaBench 是美团 LongCat 团队发布的面向复杂问题的大模型智能体评测基准。以外卖点餐、餐厅就餐、旅游出行等高频生活场景为载体，构建了包含66个工具的交互式评测环境，设计了跨场景综合任务，从深度推理、工具使用与用户交互三大维度衡量智能体表现。首次量化拆解智能体任务，构建大规模真实环境数据库，引入真实用户模拟器，通过原子化评估准则（Rubric）实现细粒度行

AI中国

AI中国

178 0

AI视频 6月前

KoalaQA – 开源AI售后服务社区，能7×24小时服务

KoalaQA是什么KoalaQA 是AI大模型驱动的开源售后服务社区，支持智能问答、语义搜索和自动运营等功能。KoalaQA 能帮助团队实现 7×24 小时服务，显著降低人工成本，提升客户满意度与响应效率，助力实现零接触解决（ZCR）目标。KoalaQA 适用售后客服、产品答疑、需求反馈等场景，通过知识库管理和 AI 辅助创作，进一步优化用户体验。KoalaQA的主要功能AI 智能回

AI中国

AI中国

260 0

AI视频 6月前

DeepSeek-OCR – DeepSeek团队开源的视觉语言模型

DeepSeek-OCR是什么DeepSeek-OCR 是 DeepSeek 团队推出的视觉语言模型，专注于通过光学压缩技术高效处理长文本内容。模型由 DeepEncoder 编码器和 DeepSeek3B-MoE 解码器组成，能在保持高分辨率输入的同时，显著降低激活内存和视觉标记数量。模型在 10 倍压缩比下 OCR 精度可达 97%，在 20 倍压缩比下仍能保持 60% 的准确率。Deep

AI中国

AI中国

149 0

AI视频 6月前

Dexter – AI金融研究Agent，自动进行金融任务规划

Dexter是什么Dexter 是自主金融研究智能代理（Agent），专为处理复杂金融问题而设计。工具能将复杂查询分解为清晰的分步骤研究计划，通过实时市场数据进行分析。Dexter 用多Agent架构，包括规划Agent（分解任务）、执行Agent（获取数据）、验证Agent（检查结果）和回答Agent（整合答案）。Dexter 支持智能任务规划、自主执行、自我验证，内置安全机制防止无限循环。

AI中国

AI中国

173 0

AI视频 6月前

PaddleOCR-VL – 百度飞桨开源的多模态文档解析模型

PaddleOCR-VL是什么PaddleOCR-VL是百度飞桨团队开源的多模态文档解析模型，参数量仅0.9B，专为低算力设备优化。在国际权威评测OmnidocBench V1.5中以92.6分登顶全球第一，超越GPT-4o等主流模型。模型采用双阶段架构：PP-DocLayoutV2负责版面分析，PaddleOCR-VL-0.9B完成内容识别，支持109种语言，能精准处理表格、公式、图表等复杂

AI中国

AI中国

220 0

AI视频 6月前

Coral NPU – 谷歌推出的全栈开源AI平台

Coral NPU是什么Coral NPU 是谷歌推出的全栈开源AI平台，专为低功耗边缘设备（如智能手表、AR 眼镜等）设计，能解决性能、碎片化和隐私三大挑战。Coral NPU基于 RISC-V 指令集，包含标量核心、向量执行单元和矩阵执行单元，能高效支持机器学习推理任务。Coral NPU 提供统一的开发者体验，支持 TensorFlow、JAX 和 PyTorch 等框架，通过硬件强制的

AI中国

AI中国

202 0

AI视频 6月前

LongCat-Audio-Codec – 美团开源的语音编解码方案

LongCat-Audio-Codec是什么LongCat-Audio-Codec 是美团 LongCat 团队开源的语音编解码方案，专为语音大语言模型（Speech LLM）设计。通过语义和声学双 Token 并行提取机制，兼顾语音的语义理解与声学特征保留，解决了传统方案中语义与声学信息难以平衡的问题。低延迟流式解码器支持实时交互，将解码延迟控制在百毫秒级，满足车载语音助手、实时翻译等场景的

AI中国

AI中国

199 0

AI视频 6月前

RTFM – 李飞飞团队推出的实时生成式世界模型

RTFM是什么RTFM（Real-Time Frame Model）是李飞飞团队推出的实时生成式世界模型。模型能在单块H100 GPU上运行，实时生成3D场景，支持持久交互。RTFM通过观看大量视频数据学习光影、材质和空间关系，将复杂的物理渲染问题转化为基于数据的感知问题。RTFM为每一帧赋予空间坐标，用“上下文腾挪”技术，只关注附近帧生成新画面，实现高效且持久的世界构建。RTFM展示了未来世

AI中国

AI中国

192 0

AI视频 6月前

UniPixel – 香港理工联合腾讯推出的像素级多模态大模型

UniPixel是什么UniPixel是香港理工大学和腾讯ARC Lab团队开发的首个统一像素级多模态大模型，专注于图像/视频的精细理解与交互。能在单个模型中完成对象指代、像素级分割和区域推理三大任务，通过创新设计的”对象记忆机制”和统一视觉编码方式，实现了对视频中目标的精准追踪与语义理解。模型基于Qwen2.5-VL框架，支持点、框、掩码三种交互方式，在9项视觉任务基准测试中超越72B参数的

AI中国

AI中国

175 0

AI视频 6月前

豆包语音2.0 – 字节跳动推出的升级版AI语音模型

豆包语音2.0是什么豆包语音2.0是字节跳动推出的升级版AI语音模型，包含两大核心模型：豆包语音合成模型2.0（Doubao-Seed-TTS 2.0）和豆包声音复刻模型2.0（Doubao-Seed-ICL 2.0）。语音合成模型2.0支持对话式合成，可精准理解语义和情感，实现复杂公式朗读，准确率高达90%。声音复刻模型2.0仅需5秒即可复刻音色，支持多语种，在交互中传递情感，分饰多角色。两

AI中国

AI中国

242 0

AI视频 6月前

豆包大模型1.6 lite – 字节跳动推出的轻量级AI模型

豆包大模型1.6 lite是什么豆包大模型1.6 Lite（Doubao-Seed-1.6-lite）是字节跳动推出的轻量级人工智能模型。模型相比旗舰版豆包1.6更轻量、推理速度更快，性价比更高。在企业级场景测评中，性能较豆包1.5 Pro提升14%，使用成本在0 – 32k输入区间内降低53.3%。模型支持思考程度可调节，有minimal、low、medium、high四种模式，用户能根据需

AI中国

AI中国

214 0

AI视频 6月前

DiaMoE-TTS – 清华联合巨人网络开源的多方言TTS框架

DiaMoE-TTS是什么DiaMoE-TTS 是清华大学和巨人网络联合推出的多方言语音合成（TTS）框架。框架基于国际音标（IPA）统一输入体系，结合方言感知的 Mixture-of-Experts（MoE）架构和低资源适配策略（PEFT），实现低成本、低门槛的多方言语音合成。框架支持多种方言和小语种，能在少量数据下快速建模，兼具高效性和灵活性。DiaMoE-TTS数据、代码和方法全面开源，

AI中国

AI中国

256 0

AI视频 6月前

Claude Haiku 4.5 – Anthropic最新推出的小型AI模型

Claude Haiku 4.5是什么Claude Haiku 4.5 是 Anthropic 公司最新推出的高性能、低成本的小型 AI 模型。模型在编码性能上与之前的旗舰模型 Claude Sonnet 4 相当，且在某些任务中表现更优，成本仅为三分之一，速度提升两倍多。模型具备出色的对齐性和安全性，被评为 AI 安全等级 2（ASL-2）。模型支持通过 Claude API、Amazon

AI中国

AI中国

182 0

AI视频 6月前

Veo 3.1 – 谷歌推出的AI视频生成模型

Veo 3.1是什么Veo 3.1 是谷歌推出的最新 AI 视频生成模型，在Veo 3基础上进行了重大升级，带来更丰富的音频支持、更强的叙事控制及更逼真的质感还原。通过原生音频生成和更精细的编辑能力，Veo 3.1 让用户能直接在生成阶段完成视频创作，无需后期处理。模型支持多种输入类型，包括文本提示、图像和视频片段，能生成高质量的 720p 或 1080p 视频。Veo 3.1 的目标是简化创

AI中国

AI中国

195 0

AI视频 6月前

Pyscn – AI代码质量分析工具，快速发现和清理代码问题

Pyscn是什么Pyscn 是专为 Python 开发者设计的智能代码质量分析工具，帮助开发者快速发现并清理代码中的问题，如死代码、重复代码、复杂代码结构等。通过控制流图（CFG）检测死代码，利用树编辑距离技术识别代码克隆，分析代码的耦合度和圈复杂度。Pyscn 的分析速度快，可达 100,000+ 行/秒，支持多种安装方式，包括 pipx 和 Go 安装。Pyscn 提供全面的分析功能，支持

AI中国

AI中国

239 0

AI视频 6月前

Local-NotebookLM – 开源PDF转播客AI工具，自定义音频

Local-NotebookLM是什么Local-NotebookLM 是开源的本地 AI 工具，能将 PDF 文档转换为引人入胜的音频内容，如播客、访谈、辩论等。支持多种输出格式和内容风格，用户可以根据需求选择不同的音频长度和风格，如短篇、中篇、长篇，以及正常、轻松、正式、技术、学术等风格。支持多种 LLM 提供商，如 OpenAI、Groq、Azure OpenAI 等，以及文本到语音转换

AI中国

AI中国

167 0

AI视频 6月前

FS-DFM – 苹果联合俄亥俄州立大学推出的扩散语言模型

FS-DFM是什么FS-DFM（Few-Step Discrete Flow-Matching）是苹果联合俄亥俄州立大学推出的用在快速生成长文本的扩散语言模型。模型通过将采样步数作为显式参数进行训练，使模型能在较少的步骤内生成高质量的文本。FS-DFM结合可靠的更新规则和强大的教师指导，确保概率更新准确且不会过度调整。在语言建模基准测试中，FS-DFM用8步采样达到1024步离散流基线的困惑度

AI中国

AI中国

147 0

AI视频 6月前

Kandinsky 5.0 – 俄罗斯AI-Forever开源的视频生成模型

Kandinsky 5.0是什么Kandinsky 5.0 是俄罗斯 AI 研究实验室 AI-Forever 开发的文本到视频生成模型，具有强大的生成能力和高效的性能表现。核心版本 Kandinsky 5.0 Video Lite 是一款参数量为 20 亿的轻量级模型，生成质量优异，甚至优于一些更大规模的模型。支持多种变体，包括 SFT 模型（生成质量最高）、CFG 蒸馏模型（推理速度提升约

AI中国

AI中国

232 0

AI视频 6月前

SongBloom – 腾讯AI Lab推出的全长度歌曲生成模型

SongBloom是什么SongBloom 是腾讯 AI Lab 开发的全长度歌曲生成框架，结合了自回归草图绘制和基于扩散的细化技术，通过交错生成范式（Interleaved Generation）交替生成语义和声学上下文，生成高质量的完整歌曲。模型只需输入 10 秒音频样本和对应歌词，即可生成长达 2 分 30 秒的双通道、48kHz 音频。SongBloom 在音频质量和歌词准确性方面表现

AI中国

AI中国

195 0

AI视频 6月前

MAI-Image-1 – 微软推出的首款自研图像生成式AI模型

MAI-Image-1是什么MAI-Image-1是微软推出的首款自研图像生成式AI模型。模型以“创作者导向”为核心设计理念，擅长生成逼真的自然光照效果和复杂场景图像，如闪电、风景等。与一些更大、更慢的模型相比，MAI-Image-1能更快地处理请求并生成图像。微软在研发过程中征求了专业创意人士的反馈，以避免程式化输出。目前，MAI-Image-1正在LMArena平台上测试。MAI-Im

AI中国

AI中国

197 0

AI视频 6月前

Youtu-Embedding – 腾讯优图开源的通用文本嵌入模型

Youtu-Embedding是什么Youtu-Embedding 是腾讯优图实验室开源的面向企业级应用的通用文本表示模型。模型通过大规模语料训练和创新的微调框架，具备强大的语义理解能力，能胜任文本检索、意图理解、相似度判断等六大任务。Youtu-Embedding 避免传统模型在新领域容易出现的“负迁移”问题，支持即插即用和基于业务数据的定制化训练。模型在中文语义评测基准 CMTEB 上表现

AI中国

AI中国

110 0

AI视频 6月前

Get Jobs – 开源的AI简历投递工具，支持多平台投递

Get Jobs是什么Get Jobs是开源的自动化简历投递工具，能帮助用户高效地在多个招聘平台（如Boss直聘、猎聘、拉勾、51job、智联招聘等）上投递简历。工具通过AI技术能实现岗位匹配和个性化打招呼语生成，支持定时投递、智能过滤、黑名单管理等功能，能有效提高投递精准度和效率。Get Jobs的主要功能自动化投递简历：支持多个招聘平台，自动批量投递简历，减少手动操作。AI

AI中国

AI中国

194 0

AI视频 6月前

SAIL-VL2 – 字节抖音联合国立大学开源的视觉语言模型

SAIL-VL2是什么SAIL-VL2 是抖音团队和新加坡国立大学联合开发的开源视觉语言基础模型，专注于多模态理解和推理。由视觉编码器 SAIL-ViT、视觉-语言适配器和大语言模型组成，采用渐进式训练框架，从视觉预训练到多模态融合，最终通过 SFT-RL 混合范式提升性能。SAIL-VL2 在架构上引入了混合专家（MoE）架构，突破了传统密集型模型的限制，显著提升了效率和性能。SAIL-

AI中国

AI中国

113 0

AI视频 6月前

nanochat – Karpathy开源的低成本自建ChatGPT全栈项目

nanochat是什么nanochat是AI领域专家Andrej Karpathy发布的开源项目，以极低成本和高效流程训练小型语言模型，实现类似ChatGPT的对话功能。仅需约100美元（使用8张H100 GPU训练4小时），即可训练出能进行基础对话、创作故事/诗歌、回答简单问题的小型模型。若增加预算至1000美元（训练约41.6小时），模型性能可显著提升，能解决简单数学/代码问题并参与多项选

AI中国

AI中国

121 0

推荐文章

Pika重磅发布超现实操控技术Pika Twists：AI视频编辑进入全新境界

Pika重磅发布超现实操控技术Pika Twists：AI视频编辑进入全新境界

1年前 • AI热点

速抢（2核2G）77元/年香港免备案服务器

速抢（2核2G）77元/年香港免备案服务器

0秒前 • 学习教程

稀宇科技MiniMax推出视频生成模型Hailuo 02

稀宇科技MiniMax推出视频生成模型Hailuo 02

10月前 • AI热点

Transformer作者：DeepSeek才有搞头，OpenAI指望不上了

Transformer作者：DeepSeek才有搞头，OpenAI指望不上了

7月前 • AI热点

IQ 过百的 AI 模型名单发布：ChatGPT、Deepseek等上榜

IQ 过百的 AI 模型名单发布：ChatGPT、Deepseek等上榜

1年前 • AI热点

从《纽约客》的担忧谈起：AI不是平庸的推手，而是提升了社会整体的智力水位

从《纽约客》的担忧谈起：AI不是平庸的推手，而是提升了社会整体的智力水位

9月前 • AI热点

视频生成模型大盘点：谁能定义下一代内容？

视频生成模型大盘点：谁能定义下一代内容？

8月前 • AI热点

2026年，99%的AI创业公司将会倒闭？

2026年，99%的AI创业公司将会倒闭？

10月前 • AI热点

热门标签

LumaAI 万物组装玩法 CEO 视频格式存储 AI数据库管理虚拟摄像机 ColorOS14 HDC2025 大模型到底有多聪明人工智能搜索

热门作者

作者头像

AI前沿

2.4k 粉丝

作者头像

机器学习实验室

1.8k 粉丝

作者头像

AI创业圈

3.1k 粉丝