AI视频制作教程 | 从脚本生成到智能剪辑的完整解决方案 - AI学习站

OmniVinci – NVIDIA推出的全模态大语言模型

Top

AI视频 5月前 • 723

OmniVinci – NVIDIA推出的全模态大语言模型

OmniVinci是什么OmniVinci是NVIDIA推出的全模态大语言模型，专门处理视觉、听觉、语言和推理的多模态任务。通过独特的OmnialignNet技术实现跨模态语义对齐，Temporal Embedding Grouping机制解决时序同步问题，采用Constrained Rotary Time Embedding优化时间感知能力。在Dailyomni等基准测试中，性能超越Qwen

AI中国

AI中国

Open-Fiesta – 开源的AI聊天平台，能同时运行多种模型对比

AI视频 7月前

Open-Fiesta – 开源的AI聊天平台，能同时运行多种模型对比

Open-Fiesta是什么Open-Fiesta 是开源的多模型 AI 聊天平台，基于 Next.js 14 构建。平台支持多种 AI 提供商（如 Gemini、OpenRouter 等）和多种模型，用户能同时选择 5 种模型进行对比。Open-Fiesta具备网页搜索、图片附件（仅 Gemini 支持）等功能，为用户提供简洁的用户界面和流畅的交互体验。基于配置环境变量（如 API 密钥），

AI中国

AI中国

148 0

AgentScope 1.0 – 阿里通义开源的多Agent开发框架

AI视频 7月前

AgentScope 1.0 – 阿里通义开源的多Agent开发框架

AgentScope 1.0是什么AgentScope 1.0 是阿里通义开源的多智能体开发框架，通过三层技术架构，AgentScope核心框架、AgentScope Runtime 和 AgentScope Studio，提供从开发到部署的全生命周期支持。AgentScope核心框架用模块化设计，包含消息、模型、记忆和工具四大组件，支持高效构建基于大语言模型的智能体应用。AgentScope

AI中国

AI中国

233 0

HunyuanWorld-Voyager – 腾讯推出的超长漫游世界模型

AI视频 7月前

HunyuanWorld-Voyager – 腾讯推出的超长漫游世界模型

HunyuanWorld-Voyager是什么HunyuanWorld-Voyager（简称混元Voyager）是腾讯推出的业界首个支持原生3D重建的超长漫游世界模型。是新颖的视频扩散框架，能从单张图片生成用户定义相机路径的3D点云序列，支持沿着自定义相机轨迹进行世界探索的3D一致场景视频生成，可生成对齐的深度和RGB视频，用于高效直接的3D重建。模型包含两个关键组件：世界一致视频扩散和长距离

AI中国

AI中国

114 0

USO – 字节跳动推出的内容与风格解耦与重组统一框架

AI视频 7月前

USO – 字节跳动推出的内容与风格解耦与重组统一框架

USO是什么USO（Unified Style-Subject Optimized）是字节跳动 UXO 团队推出的内容与风格解耦与重组统一框架。能将任何主题与任何风格在任何场景中自由组合，生成具有高度主体一致性、强烈风格保真度且自然、非塑料感的图像。USO 通过构建大规模三元组数据集，采用解耦学习方案同时对齐风格特征并分离内容与风格，引入风格奖励学习（SRL）来进一步提升模型性能。USO 发布

AI中国

AI中国

179 0

Prompt Tools – 开源AI提示词管理工具，支持跨平台运行

AI视频 7月前

Prompt Tools – 开源AI提示词管理工具，支持跨平台运行

Prompt Tools是什么Prompt Tools 是开源的桌面应用程序，能帮助用户高效管理 AI 提示词（Prompt）。工具支持跨平台运行（Windows、macOS、Linux），提供快速、安全的体验。用户能像管理笔记一样轻松创建、编辑、搜索和组织 Prompt，所有数据存储在本地，确保隐私安全。Prompt Tools是一个工具，更是一种高效的工作方式，能将零散的 Prompt 汇

AI中国

AI中国

225 0

编码面试解题助手 – 开源的AI编程辅助工具

AI视频 7月前

编码面试解题助手 – 开源的AI编程辅助工具

编码面试解题助手编码面试解题助手是面向中文用户的编程辅助工具，能通过快捷键抓取屏幕上的编程题目，实时借助AI生成解题思路和代码。在面试或笔试时，工具窗口能半透明置顶，不会导致原页面失焦，支持在屏幕分享时隐身，避免被发现。编码面试解题助手支持多种编程语言，如Python、JavaScript、Java、C++等，简单易用，只需配置API就能使用。编码面试解题助手的主要功能屏幕内容抓取：通

AI中国

AI中国

237 0

RealDevWorld – MetaGPT推出的AI自动化测试工具

AI视频 7月前

RealDevWorld – MetaGPT推出的AI自动化测试工具

RealDevWorld是什么RealDevWorld 是 MetaGPT 团队开发的新一代自动化测试工具。基于多智能体框架，通过模拟真实开发团队的工作流程，将需求分析、测试用例生成、代码调试到最终部署的全流程实现自动化。用户只需用自然语言描述需求，RealDevWorld 能自动生成测试用例，降低技术门槛。具备自愈测试脚本功能，能自动修复因 UI 更新失效的脚本，减少维护成本。RealDev

AI中国

AI中国

198 0

Kimi K2-0905 – 月之暗面推出的最新AI模型

AI视频 7月前

Kimi K2-0905 – 月之暗面推出的最新AI模型

Kimi K2-0905是什么Kimi K2-0905是月之暗面科技有限公司推出的AI大模型最新版本。模型在原有基础上进行增强，特别是在编程能力上，支持高达256K的上下文长度，远超之前的128K。Kimi K2-0905在创意写作、前端功能和与Claude Code的兼容性方面也有所提升，模型目前仍不具备思考或视觉能力，保留K2-0711模型的个性和风格。模型目前处于Beta测试阶段，尚未开

AI中国

AI中国

143 0

Apertus – 瑞士开源的首个大规模语言模型

AI视频 7月前

Apertus – 瑞士开源的首个大规模语言模型

Apertus是什么Apertus是瑞士EPFL、ETH Zurich和瑞士国家超级计算中心（CSCS）联合推出的瑞士首个大规模开放、多语言的大型语言模型，有70B和8B两个参数版本，用大规模语言进行训练，其中40%的数据为非英语，包括瑞士德语、罗曼什语等此前在LLM中被低估的语言。Apertus用解码器仅的Transformer架构，基于新的xIELU激活函数和AdEMAMix优化器。模型完

AI中国

AI中国

160 0

AI视频 7月前

Modor

Modor 是什么？Modor 是一款免费在线的 AI Mockup 生成器，允许用户快速创建专业产品展示图，无需设计技能。它支持从T恤、马克杯、书籍封面到移动设备等多种模板，只需上传设计，几秒钟即可生成高质量的Mockup图像。特别适合电商、品牌设计、社交媒体内容创建者使用。目前 Modor 拥有超过 10,000 个专业模板、支持 100K+ 图片下载、并且已有超 5000+ 用户在使

AI中国

AI中国

234 0

AI视频 7月前

博简智慧专利

博简智慧专利是什么？博简智慧专利是一个强大的 AI 驱动的专利查新检索与撰写平台，接入全球170多个专利数据库，覆盖数据超过 2 亿条，支持语义检索与检索式检索，可实现精准专利文档分析，快速锁定相似与关联内容。它不仅让查新过程大幅提速（10 分钟完成以往需 2 天的工作），还可在3分钟内依据用户提供的创新说明，自动生成结构清晰、逻辑严谨、格式规范的交底书初稿，并智能给出优化建议、帮助拓宽

AI中国

AI中国

147 0

AI视频 7月前

TabTab AI

TabTab 是什么？TabTab 是一款 AI 驱动的全链路数据分析平台，自称为“你身边的 AI 数据分析师”。它不只是辅助你完成数据清洗、处理与可视化，而是模拟“人类分析师的思维”，自动思考、调用工具、生成可视化报告，实现从原始数据到业务洞察的全流程智能化处理。其核心定位是「Data Agent」，以 AI 编程逻辑驱动，通过类 Coding 的方式生成复杂图表与分析结论，彻底简化从数据

AI中国

AI中国

155 0

问小白o4 – 问小白推出的首个并行思考模型

AI视频 8月前

问小白o4 – 问小白推出的首个并行思考模型

问小白o4是什么问小白o4是国内首个并行思考模型，能同时启动8条思考路径，自动筛选最优解，提供精准答案。模型融合Long‑CoT强化学习与过程奖励学习，具备深度推理和高质量思考筛选能力。问小白o4在复杂任务上表现卓越，打字速度比DeepSeek R1提升70%，性能显著优于OpenAI o3-mini-medium和Claude Opus 4。模型适用学科试题、代码编程和搜索场景，能有效降低幻

AI中国

AI中国

213 0

SlowFast-LLaVA-1.5 – 苹果推出的多模态长视频理解模型

AI视频 8月前

SlowFast-LLaVA-1.5 – 苹果推出的多模态长视频理解模型

SlowFast-LLaVA-1.5什么SlowFast-LLaVA-1.5（简称SF-LLaVA-1.5）是专为长视频理解设计的高效视频大语言模型。基于双流（SlowFast）机制，平衡处理更多输入帧与减少每帧令牌数量之间的关系，能捕捉详细的空间特征，且能高效地处理长时序运动信息。模型包含从1B到7B参数规模的模型，基于简化的两阶段训练流程和高质量的公开数据集混合训练而成，模型在长视频理解任

AI中国

AI中国

208 0

FutureX – 字节联合复旦等高校推出的动态实时评估基准

AI视频 8月前

FutureX – 字节联合复旦等高校推出的动态实时评估基准

FutureX是什么FutureX是字节跳动、复旦大学、斯坦福大学和普林斯顿大学的研究团队联合发布的，专为LLM智能体未来预测任务设计的动态实时评估基准。通过半自动化管道从195个高质量网站实时收集未来事件问题，在事件解决后自动获取真实结果进行评分，有效避免了数据污染。FutureX覆盖政治、经济、金融、体育和娱乐等多个领域，包含单选、多选、开放性排名和数值预测等多种类型的问题，分为四个难度层

AI中国

AI中国

208 0

ComoRAG – 华南理工联合微信推出的认知启发式RAG框架

AI视频 8月前

ComoRAG – 华南理工联合微信推出的认知启发式RAG框架

ComoRAG是什么ComoRAG 是华南理工大学未来技术学院、微信 AI 团队等机构联合推出的认知启发式检索增强生成（RAG）框架，专门用在长篇叙事文本的理解和推理。ComoRAG能模拟人类大脑前额叶皮层的功能，基于动态记忆工作空间和迭代推理循环，将碎片化的证据整合为连贯的上下文，实现有状态的长篇叙事推理。在多个长文本叙事基准测试中，ComoRAG 显著优于传统 RAG 方法，在需要全局理解

AI中国

AI中国

144 0

Prompt Optimizer – 开源AI提示词优化工具，支持MCP协议

AI视频 8月前

Prompt Optimizer – 开源AI提示词优化工具，支持MCP协议

Prompt Optimizer是什么Prompt Optimizer 是开源的 AI 提示词优化工具，帮助用户快速编写高质量的提示词，提升 AI 输出的质量。一键优化提示词，支持多轮迭代改进，提升 AI 回复的准确度和相关性。支持系统提示词和用户提示词的优化，满足不同使用场景。支持原始提示词和优化后提示词的实时对比，直观展示优化效果。支持 OpenAI、Gemini、DeepSeek、智谱

AI中国

AI中国

160 0

Grok 2.5 – xAI正式开源的AI模型，前身是Grok 2

AI视频 8月前

Grok 2.5 – xAI正式开源的AI模型，前身是Grok 2

Grok 2.5是什么Grok 2.5 是埃隆·马斯克旗下 xAI 公司开源的人工智能模型。模型文件可在 Hugging Face 下载，包含 42 个文件，总大小约 500GB，需 8 张显存超 40GB 的 GPU 才能运行。开源采用 Grok 2 社区许可证协议，允许非商业与年收入低于 100 万美元的商业使用，禁止用于训练其他基础模型，使用时需标识 “Powered by xAI”。

AI中国

AI中国

228 0

Fun-ASR – 钉钉联合通义推出的语音识别大模型

AI视频 8月前

Fun-ASR – 钉钉联合通义推出的语音识别大模型

Fun-ASR是什么Fun-ASR 是钉钉与通义实验室语音团队联合推出的新一代语音识别大模型。经过海量音频数据训练，能精准识别互联网、科技、家装、畜牧等十多个行业的专业术语，能听懂“黑话”。例如，在保险行业，准确率较以往提升18%，在家装、畜牧等行业也实现了15%-20%的提升。模型能结合钉钉内的企业信息进行推理优化，减少幻觉问题，提供更可靠的转写结果。Fun-ASR支持企业专属模型定制训练，

AI中国

AI中国

171 0

Intern-S1-mini – 上海AI Lab开源的轻量级科学多模态推理模型

AI视频 8月前

Intern-S1-mini – 上海AI Lab开源的轻量级科学多模态推理模型

Intern-S1-mini是什么Intern-S1-mini是上海人工智能实验室推出的轻量级开源多模态推理模型。基于与 Intern-S1 相同的技术构建。模型融合 8B 密集语言模型（Qwen3）和 0.3B 视觉编码器（InternViT），在包含 2.5 万亿科学领域标记的多模态数据上进一步预训练，Intern-S1-mini 具备强大的通用能力，在解释化学结构、理解蛋白质序列和规划化

AI中国

AI中国

221 0

AI视频 8月前

Keeva

Keeva AI 是什么？Keeva AI 是一款多功能 AI 数字人视频创作工具，专为海外中小企业与个人内容创作者打造，提供一站式的脚本生成、语言翻译、数字人口播与视频制作解决方案。用户只需输入视频主题，即可一键生成脚本并自动合成数字人视频，也可上传自定义脚本进行个性化编辑，是营销短视频与教学演示的高效利器。Keeva AI 应用场景跨境电商营销：用数字人生成多语种产品介绍与广告视频

AI中国

AI中国

246 0

Seed-OSS – 字节跳动开源的大语言系列模型

AI视频 8月前

Seed-OSS – 字节跳动开源的大语言系列模型

Seed-OSS是什么Seed-OSS 是字节跳动 Seed 团队开源的系列大型语言模型，专注于长文本处理、推理和智能代理能力。模型包含多个版本，如 Seed-OSS-36B-Base 和 Seed-OSS-36B-Instruct，分别在通用能力和指令跟随任务上表现出色。仅用 12T tokens 训练，在多个基准测试中表现优异。模型提供灵活的思考预算控制和原生长文本支持，适用多种应用场景。

AI中国

AI中国

105 0

ToonComposer – 腾讯联合港中文、北大推出的AI动画制作工具

AI视频 8月前

ToonComposer – 腾讯联合港中文、北大推出的AI动画制作工具

ToonComposer是什么ToonComposer 是香港中文大学、腾讯 PCG ARC 实验室和北京大学研究人员共同推出的生成式 AI 工具，几秒能将草图转化成专业级动画。ToonComposer基于生成式后关键帧技术，将传统动画制作中的中间帧生成和上色环节整合为自动化过程，仅需一个草图和一个上色参考帧，能生成高质量的动画视频。工具支持稀疏草图注入和区域控制，让艺术家能准控制动画效果，大

AI中国

AI中国

237 0

AutoCodeBench – 腾讯混元开源测评大模型代码能力的数据集

AI视频 8月前

AutoCodeBench – 腾讯混元开源测评大模型代码能力的数据集

AutoCodeBench是什么AutoCodeBench 是腾讯混元推出的专门测评大模型代码能力基准测试集，包含 3920 个问题，均匀分布在 20 种编程语言中。数据集具有高难度、实用性和多样性，能衡量大模型在多语言编程任务中的性能。基准测试集通过自动化工作流生成数据，保证高质量和覆盖度，且提供了简易版本（AutoCodeBench-Lite）和用在评估基础模型的版本（AutoCodeB

AI中国

AI中国

195 0

NVIDIA Nemotron Nano 2 – 英伟达推出的高效推理模型

AI视频 8月前

NVIDIA Nemotron Nano 2 – 英伟达推出的高效推理模型

NVIDIA Nemotron Nano 2是什么NVIDIA Nemotron Nano 2 是英伟达推出的高效推理模型，参数量为9B。模型基于混合Mamba-Transformer架构，在20万亿个token上预训练，支持128k上下文长度。相比Qwen3-8B，推理速度提升6倍，准确率相当或更高。模型具备思考预算控制功能，用户能指定推理token数量。英伟达开源了基础模型和大部分预训练数

AI中国

AI中国

128 0

DeepSeek V3.1 – DeepSeek最新开源的AI模型版本

AI视频 8月前

DeepSeek V3.1 – DeepSeek最新开源的AI模型版本

DeepSeek V3.1是什么DeepSeek V3.1是DeepSeek最新推出的AI模型版本。模型在V3的基础上进行多项升级，上下文窗口从64k扩展至128k，能处理更长的文本输入。模型用混合专家（MoE）架构，参数量与V3相同。DeepSeek V3.1的Base版本已开源至Hugging Face，供开发者下载和研究。模型在编程、物理定律理解、创意写作和数学能力等方面都有明显提升，回

AI中国

AI中国

226 0

CombatVLA – 淘天集团推出的3D动作游戏专用VLA模型

AI视频 8月前

CombatVLA – 淘天集团推出的3D动作游戏专用VLA模型

CombatVLA是什么CombatVLA 是淘天集团未来生活实验室团队推出的专为3D动作角色扮演游戏（ARPG）中的战斗任务设计的高效视觉-语言-动作（VLA）模型。模型基于3B参数规模，通过动作追踪器收集的视频动作对进行训练，数据格式化为“动作思维”（AoT）序列。模型用三阶段渐进式学习范式，从视频级到帧级再到截断策略，实现高效推理。CombatVLA 在战斗理解基准测试中超越现有模型，推

AI中国

AI中国

144 0

Klear-Reasoner – 快手开源的推理模型

AI视频 8月前

Klear-Reasoner – 快手开源的推理模型

Klear-Reasoner是什么Klear-Reasoner 是快手推出的基于 Qwen3-8B-Base 的推理模型，专注于提升数学和代码推理能力。模型通过长思维链监督微调（long CoT SFT）和强化学习（RL）训练，核心创新是 GPPO算法，通过保留被裁剪的梯度信息，解决传统方法中探索能力受限和负样本收敛慢的问题，在 AIME 和 LiveCodeBench 等基准测试中达到 8B

AI中国

AI中国

275 0

Nano Banana – AI图像编辑模型，具有极高的人物一致性

AI视频 8月前

Nano Banana – AI图像编辑模型，具有极高的人物一致性

Nano Banana是什么Nano Banana 是 AI 图像编辑模型，目前仅在 LMArena 网站上随机出现。模型具有极高的人物一致性，能精准还原人物的面部特征和表情，在背景替换和风格转换方面表现出色。用户只需上传图片并输入提示词，即可生成高质量的图像。模型生成效果被认为是 AI 图像编辑领域的新王者。Nano Banana的主要功能人物一致性生成：能高度还原人物的面部特征、表

AI中国

AI中国

254 0

Qwen-Image-Edit – 阿里通义推出的全能图像编辑模型

AI视频 8月前

Qwen-Image-Edit – 阿里通义推出的全能图像编辑模型

Qwen-Image-Edit是什么Qwen-Image-Edit 是基于 200 亿参数的 Qwen-Image 架构构建的全能图像编辑模型。模型兼具语义与外观的双重编辑能力，能进行低层次的视觉外观编辑（如添加、删除、修改元素）和高层次的视觉语义编辑（如 IP 创作、物体旋转、风格迁移等）。模型支持中英文双语文字的精准编辑，支持在保留原有字体、字号和风格的前提下修改图片中的文字。Qwen-I

AI中国

AI中国

286 0

推荐文章

谷歌发布Imagen4:突破文本生成瓶颈，Gemini API赋能文生图

谷歌发布Imagen4:突破文本生成瓶颈，Gemini API赋能文生图

10月前 • AI热点

科氪｜打造AI终端生态“全球会客厅”：荣耀阿尔法全球旗舰店落地深圳湾

科氪｜打造AI终端生态“全球会客厅”：荣耀阿尔法全球旗舰店落地深圳湾

6月前 • AI热点

破解人机协作密码：工作技能拆成两层，AI执行人类决策成功率狂飙

破解人机协作密码：工作技能拆成两层，AI执行人类决策成功率狂飙

8月前 • AI热点

AI时代测试工程师应该掌握的30个AI术语

AI时代测试工程师应该掌握的30个AI术语

11月前 • 学习教程

速抢（2核2G）77元/年香港免备案服务器

速抢（2核2G）77元/年香港免备案服务器

0秒前 • AI热点

刚刚，华为AI推理大招终于来了！10倍级上下文扩展，性价比暴涨

刚刚，华为AI推理大招终于来了！10倍级上下文扩展，性价比暴涨

8月前 • AI热点

OpenAI 最强推理模型 o3 / o4-mini 发布后，“照片查位置”成最新热门玩法

OpenAI 最强推理模型 o3 / o4-mini 发布后，“照片查位置”成最新热门玩法

1年前 • AI热点

即梦AI数字人对口型开口说话省积分小技巧，AI做手绘情感漫语视频制作教程

即梦AI数字人对口型开口说话省积分小技巧，AI做手绘情感漫语视频制作教程

9月前 • 图文教程

热门标签

品牌产品词:纽约时报两氢一氧 ProGen3 Halloween 华纳兄弟探索公司游戏世界 Surface AI自动化性能调度荒诞科技风格

热门作者

作者头像

AI前沿

2.4k 粉丝

作者头像

机器学习实验室

1.8k 粉丝

作者头像

AI创业圈

3.1k 粉丝