AI学习站
首页 AI热点 AI教程
用户头像

标准会员

会员时间

积分 0

历史 通知(0)
首页
AI动态
技术前沿
工具与教程
大模型
AI投资分析
AI落地
AI政策法规

登录账号

忘记密码?

还没有账号? 立即注册

我已阅读并同意用户协议和隐私政策

已有账号? 立即登录

OneCAT – 美团联合上交大推出的统一多模态模型
Top
AI视频 2天前 • 72

OneCAT – 美团联合上交大推出的统一多模态模型

OneCAT是什么OneCAT是美团推出的新型统一多模态模型,采用纯解码器架构,能无缝集成多模态理解、文本到图像生成和图像编辑功能。模型摒弃了传统多模态模型中依赖外部视觉编码器和分词器的设计,通过特定模态的专家混合(MoE)结构和多尺度自回归机制,实现了高效的多模态处理。在处理高分辨率图像输入和输出时表现出色。通过创新的尺度感知适配器和多模态多功能注意力机制,进一步增强了视觉生成能力和跨模态对

AI中国
AI中国

Read more
Seed-OSS – 字节跳动开源的大语言系列模型
AI视频 2周前

Seed-OSS – 字节跳动开源的大语言系列模型

Seed-OSS是什么Seed-OSS 是字节跳动 Seed 团队开源的系列大型语言模型,专注于长文本处理、推理和智能代理能力。模型包含多个版本,如 Seed-OSS-36B-Base 和 Seed-OSS-36B-Instruct,分别在通用能力和指令跟随任务上表现出色。仅用 12T tokens 训练,在多个基准测试中表现优异。模型提供灵活的思考预算控制和原生长文本支持,适用多种应用场景。

AI中国 AI中国
58 0
ToonComposer – 腾讯联合港中文、北大推出的AI动画制作工具
AI视频 2周前

ToonComposer – 腾讯联合港中文、北大推出的AI动画制作工具

ToonComposer是什么ToonComposer 是香港中文大学、腾讯 PCG ARC 实验室和北京大学研究人员共同推出的生成式 AI 工具,几秒能将草图转化成专业级动画。ToonComposer基于生成式后关键帧技术,将传统动画制作中的中间帧生成和上色环节整合为自动化过程,仅需一个草图和一个上色参考帧,能生成高质量的动画视频。工具支持稀疏草图注入和区域控制,让艺术家能准控制动画效果,大

AI中国 AI中国
184 0
AutoCodeBench – 腾讯混元开源测评大模型代码能力的数据集
AI视频 2周前

AutoCodeBench – 腾讯混元开源测评大模型代码能力的数据集

 AutoCodeBench是什么AutoCodeBench 是腾讯混元推出的专门测评大模型代码能力基准测试集,包含 3920 个问题,均匀分布在 20 种编程语言中。数据集具有高难度、实用性和多样性,能衡量大模型在多语言编程任务中的性能。基准测试集通过自动化工作流生成数据,保证高质量和覆盖度,且提供了简易版本(AutoCodeBench-Lite)和用在评估基础模型的版本(AutoCodeB

AI中国 AI中国
153 0
NVIDIA Nemotron Nano 2 – 英伟达推出的高效推理模型
AI视频 2周前

NVIDIA Nemotron Nano 2 – 英伟达推出的高效推理模型

NVIDIA Nemotron Nano 2是什么NVIDIA Nemotron Nano 2 是英伟达推出的高效推理模型,参数量为9B。模型基于混合Mamba-Transformer架构,在20万亿个token上预训练,支持128k上下文长度。相比Qwen3-8B,推理速度提升6倍,准确率相当或更高。模型具备思考预算控制功能,用户能指定推理token数量。英伟达开源了基础模型和大部分预训练数

AI中国 AI中国
80 0
DeepSeek V3.1 – DeepSeek最新开源的AI模型版本
AI视频 2周前

DeepSeek V3.1 – DeepSeek最新开源的AI模型版本

DeepSeek V3.1是什么DeepSeek V3.1是DeepSeek最新推出的AI模型版本。模型在V3的基础上进行多项升级,上下文窗口从64k扩展至128k,能处理更长的文本输入。模型用混合专家(MoE)架构,参数量与V3相同。DeepSeek V3.1的Base版本已开源至Hugging Face,供开发者下载和研究。模型在编程、物理定律理解、创意写作和数学能力等方面都有明显提升,回

AI中国 AI中国
178 0
CombatVLA – 淘天集团推出的3D动作游戏专用VLA模型
AI视频 2周前

CombatVLA – 淘天集团推出的3D动作游戏专用VLA模型

CombatVLA是什么CombatVLA 是淘天集团未来生活实验室团队推出的专为3D动作角色扮演游戏(ARPG)中的战斗任务设计的高效视觉-语言-动作(VLA)模型。模型基于3B参数规模,通过动作追踪器收集的视频动作对进行训练,数据格式化为“动作思维”(AoT)序列。模型用三阶段渐进式学习范式,从视频级到帧级再到截断策略,实现高效推理。CombatVLA 在战斗理解基准测试中超越现有模型,推

AI中国 AI中国
91 0
Klear-Reasoner – 快手开源的推理模型
AI视频 2周前

Klear-Reasoner – 快手开源的推理模型

Klear-Reasoner是什么Klear-Reasoner 是快手推出的基于 Qwen3-8B-Base 的推理模型,专注于提升数学和代码推理能力。模型通过长思维链监督微调(long CoT SFT)和强化学习(RL)训练,核心创新是 GPPO算法,通过保留被裁剪的梯度信息,解决传统方法中探索能力受限和负样本收敛慢的问题,在 AIME 和 LiveCodeBench 等基准测试中达到 8B

AI中国 AI中国
222 0
Nano Banana – AI图像编辑模型,具有极高的人物一致性
AI视频 2周前

Nano Banana – AI图像编辑模型,具有极高的人物一致性

Nano Banana是什么Nano Banana 是 AI 图像编辑模型,目前仅在 LMArena 网站上随机出现。模型具有极高的人物一致性,能精准还原人物的面部特征和表情,在背景替换和风格转换方面表现出色。用户只需上传图片并输入提示词,即可生成高质量的图像。模型生成效果被认为是 AI 图像编辑领域的新王者。Nano Banana的主要功能人物一致性生成:能高度还原人物的面部特征、表

AI中国 AI中国
204 0
Qwen-Image-Edit – 阿里通义推出的全能图像编辑模型
AI视频 2周前

Qwen-Image-Edit – 阿里通义推出的全能图像编辑模型

Qwen-Image-Edit是什么Qwen-Image-Edit 是基于 200 亿参数的 Qwen-Image 架构构建的全能图像编辑模型。模型兼具语义与外观的双重编辑能力,能进行低层次的视觉外观编辑(如添加、删除、修改元素)和高层次的视觉语义编辑(如 IP 创作、物体旋转、风格迁移等)。模型支持中英文双语文字的精准编辑,支持在保留原有字体、字号和风格的前提下修改图片中的文字。Qwen-I

AI中国 AI中国
239 0
Open-Lovable – Firecrawl开源的AI网站克隆工具
AI视频 2周前

Open-Lovable – Firecrawl开源的AI网站克隆工具

Open-Lovable是什么Open-Lovable 是 Firecrawl 团队推出的开源项目,通过 AI 技术快速将任意网站克隆为现代 React 应用。用户输入目标网站 URL 后,通过 Firecrawl 抓取内容,用 AI 模型生成 React 代码,最终输出完整应用。Open-Lovable用多个 AI 提供商的 API(如 Anthropic、OpenAI 等)实现自动化构建。

AI中国 AI中国
172 0
MemU – 面向AI情感陪伴的开源AI记忆框架
AI视频 2周前

MemU – 面向AI情感陪伴的开源AI记忆框架

MemU是什么MemU 是面向AI情感陪伴开源的AI记忆框架。MemU 能记住用户与 AI 的每一次对话,提取重点并建立知识图谱,让 AI 真正理解用户。MemU 的记忆会自主进化,随着使用不断优化。MemU 支持快速集成,只需几行代码能让 AI 拥有持久记忆。相比其他框架,MemU 准确率高达92%,成本降低90%,检索速度快至50毫秒。在情感陪伴、教育等其他场景,MemU 都能成为用户贴心

AI中国 AI中国
127 0
AudioGenie – 腾讯AI Lab推出的多模态音频生成工具
AI视频 2周前

AudioGenie – 腾讯AI Lab推出的多模态音频生成工具

AudioGenie是什么AudioGenie是腾讯AI Lab团队推出的多模态音频生成工具,能从视频、文本、图像等多种模态输入生成音效、语音、音乐等多种音频输出。工具采用无训练的多智能体框架,通过生成团队和监督团队的双层架构实现高效协同。生成团队负责将复杂的输入分解为具体的音频子事件,通过自适应混合专家(MoE)协作机制动态选择最适合的模型进行生成。监督团队则负责时空一致性验证,通过反馈循环

AI中国 AI中国
68 0
Chaterm – 开源的AI终端工具,运维版Cursor
AI视频 2周前

Chaterm – 开源的AI终端工具,运维版Cursor

Chaterm是什么Chaterm是开源的智能、安全的AI终端工具,专为云从业者和开发运维人员设计。工具基于AI Agent让用户能用自然语言代替复杂命令行操作,Chaterm提供基于个人知识库的智能补全功能,支持高精度语音命令输入,具备跨平台的个性化语法高亮、类似Sublime Text的可视化Vim编辑体验以及全局别名设置。Chaterm基于零信任安全模型,支持IAM和工作区隔离,配备隐私

AI中国 AI中国
206 0
MemU – 面相AI情感陪伴的开源AI记忆框架
AI视频 2周前

MemU – 面相AI情感陪伴的开源AI记忆框架

MemU是什么MemU 是面相AI情感陪伴开源的AI记忆框架。MemU 能记住用户与 AI 的每一次对话,提取重点并建立知识图谱,让 AI 真正理解用户。MemU 的记忆会自主进化,随着使用不断优化。MemU 支持快速集成,只需几行代码能让 AI 拥有持久记忆。相比其他框架,MemU 准确率高达92%,成本降低90%,检索速度快至50毫秒。在情感陪伴、教育等其他场景,MemU 都能成为用户贴心

AI中国 AI中国
144 0
AI视频 3周前

ThinkSound

ThinkSound是什么?ThinkSound 是一款先进的AI视频转音频生成平台,可自动为视频内容添加高保真音轨与智能音效。它利用多模态大语言模型(MLLM)和Chain-of-Thought(CoT)推理技术,实现从视频、文本或音频中提取语义并生成匹配的声音效果。该平台适用于后期制作、动画、游戏开发等多种场景,让原本无声或AI生成的视频焕发真实与沉浸式的听觉体验。ThinkSound

AI中国 AI中国
104 0
AI视频 3周前

Try On Haul

TryOnHaul AI 是什么?TryOnHaul AI 是一款基于人工智能的时尚内容发现与虚拟试穿平台,致力于为用户提供最前沿的潮流趋势、真实的试穿视频体验和AI驱动的虚拟试衣技术。该平台整合了AI搜索、视频展示、产品评论和虚拟试衣四大核心模块,旨在解决线上购物中“穿起来会是什么样”的最大痛点,提升购物决策效率与购物体验。TryOnHaul AI 应用场景时尚消费决策:观看不同身材

AI中国 AI中国
99 0
AI视频 3周前

Seedance AI

Seedance.run 是什么?Seedance.run 是一款先进的AI视频生成平台,支持文字生成视频(Text-to-Video)和图像生成视频(Image-to-Video)两种模式。平台提供两个模型版本(Seedance 1.0 Pro 和 Lite),帮助用户将文字描述或静态图像转化为具有真实物理质感、丰富动作表现和专业镜头效果的短视频,适用于社交媒体内容创作、广告、教育、产品展示

AI中国 AI中国
124 0
AI视频 3周前

AI Avatar Generator

AI Avatar Generator 简介AI Avatar Generator 是一款支持将照片或视频转化为「会说话的 AI 虚拟人」的内容生成平台。你可以上传一张照片、输入一段文字(或上传音频),平台就能快速生成拥有真实唇形同步、自然表情、多语言语音合成的 AI 人像视频。🧠 应用场景应用领域示例企业培训创建员工培训/上岗/制度介绍视频,更新仅需改文案即可

AI中国 AI中国
175 0
AI视频 3周前

Zoom Out AI

Zoom Out AI 平台简介Zoom Out AI 是一款支持用户将任意图片快速生成地球缩放视频的免费AI工具。用户上传一张照片,即可生成一个从照片主体拉远至城市、国家、地球,最终到太空背景的“缩放穿越”特效视频,适合社交媒体、短视频转场、品牌开场动画等创意场景。🚀 适用场景场景类别应用案例社交媒体视频用于 TikTok、抖音、Instagram 的吸睛转场

AI中国 AI中国
106 0
AI视频 3周前

AgentHunter

AgentHunter 平台简介AgentHunter 是一个聚合全球优质 AI 工具的平台,专注于帮助用户发现、比较并利用 AI Agents 来提升各类工作流的效率。它被视为“AI 工具导航器”,适用于企业、开发者、设计师、创作者等多个角色,帮助他们快速找到适配的 AI 产品和解决方案。🧠 适用人群与场景角色/行业场景示例产品经理快速比较 AI 自动化工具或客服类

AI中国 AI中国
64 0
AI视频 3周前

智写流程

智写流程 是什么?智写流程 是一款浏览器扩展类自动化工具,专注于将用户在网页上的一系列操作自动转化为结构化的图文操作教程。它的核心理念非常简单高效:你只需要“像平时一样操作一遍”,工具就会自动生成一份图文并茂、步骤清晰的傻瓜式操作指南,极大地节省了手动撰写教程的时间和精力。该工具结合了交互追踪 + 截图捕捉 + 文本描述自动生成的能力,是流程文档制作、系统培训手册、操作教学视频脚本准备的极佳

AI中国 AI中国
179 0
AI视频 3周前

Shortcut

Shortcut 是什么?Shortcut 是一个专为 Excel 操作与数据处理任务打造的AI超级智能体,能高效执行数据分析、图表生成、财务建模、表格自动化等复杂任务。用户只需通过自然语言提示即可启动任务,无需具备Excel公式或VBA编程能力。它在 Excel 世界锦标赛上的表现极为亮眼:准确率超过80%、处理速度是人类的10倍。其目标是通过AI解锁Excel的全部潜能,让用户“用说的方

AI中国 AI中国
91 0
AI视频 3周前

Voost – 创新的双向虚拟试穿和试脱AI模型

Voost是什么Voost 是NXN实验室推出创新的虚拟试穿和试脱模型,基于统一且可扩展的扩散 Transformer(DiT)框架开发。能同时处理虚拟试穿(try-on)和试脱(try-off)任务,生成高质量的图像结果。通过联合学习这两个任务,Voost 利用双向监督机制,使每对服装 – 人物数据能为两个方向的生成提供监督信号,显著增强了服装与身体的关系推理能力,无需依赖特定于任务的网络、

AI中国 AI中国
125 0
AI视频 3周前

hunyuan-large-vision – 腾讯混元推出的多模态视觉理解模型

hunyuan-large-vision 是什么hunyuan-large-vision 是腾讯推出的多模态理解模型,基于MoE架构,激活参数达52B,支持图像、视频和3D空间输入。模型在国际知名的大模型竞技场“LMArena Vision排行榜”上取得1256分,位列第五名(国内模型第一名),展现了卓越的多语言能力和用户体验。模型由数十亿参数的混元ViT视觉编码器、自适应下采样机制的MLP连

AI中国 AI中国
63 0
AI视频 3周前

Skywork Deep Research Agent v2 – 昆仑万维推出的升级版深度研究智能体

Skywork Deep Research Agent v2是什么Skywork Deep Research Agent v2是昆仑万维推出的升级版深度研究智能体,作为天工超级智能体的核心引擎,具备多模态深度调研能力,首次整合多模态检索、理解和生成功能,支持处理图文混排信息,生成高质量报告。Skywork Deep Research Agent v2具备多模态深度浏览器智能体功能,能模拟人类浏

AI中国 AI中国
131 0
AI视频 3周前

Mureka V7.5 – 昆仑万维推出的AI音乐生成模型

Mureka V7.5是什么Mureka V7.5是昆仑万维集团推出的先进AI音乐创作模型。模型在中文歌曲创作上表现卓越,能精准还原音色、演奏技法,提升咬字与情感表现。模型基于优化ASR技术,能分析真实演唱中的细节,生成更自然、更具情感的歌声。Mureka V7.5积累了丰富的中文音乐文化特性,能深刻理解和再现中文音乐的独特韵味。Mureka V7.5为音乐创作带来更高的艺术性和真实感,开启A

AI中国 AI中国
176 0
AI视频 3周前

Shadow – 开源的AI编程Agent,提供实时任务状态更新

Shadow是什么Shadow 是开源的AI编程Agent,能帮助开发者理解、推理并贡献现有的代码库。Shadow 支持 GitHub 仓库集成,能生成拉取请求、管理分支,提供实时任务状态更新。Shadow 提供多语言模型支持,具备代码生成、代码搜索和文件操作等功能,通过 Micro-VMs 和 Kata QEMU 容器实现硬件级隔离,确保安全性和隔离性。Shadow支持本地和远程两种执行模式

AI中国 AI中国
98 0
AI视频 3周前

MoE-TTS – 昆仑万维推出的语音合成框架

MoE-TTS是什么MoE-TTS 是昆仑万维语音团队推出的首个基于MOE的角色描述语音合成框架,专门用在提升对开放域文本描述的理解能力。模型通过混合专家(Mixture-of-Experts,MoE)架构,将预训练的大型语言模型(LLM)与语音专家模块相结合。在训练中冻结文本模块参数,仅更新语音模块参数,保留 LLM 的强大文本理解能力,同时增强语音生成的准确性。实验表明,MoE-TTS 在

AI中国 AI中国
98 0
AI视频 3周前

DINOv3 – Meta开源的通用视觉基础模型

DINOv3是什么DINOv3 是 Meta 推出的通用的、SOTA 级的视觉基础模型。模型通过无标注数据训练,生成高质量的高分辨率视觉特征,适用图像分类、语义分割、目标检测等多任务。DINOv3 拥有 70 亿参数,训练数据量达 17 亿张图像,性能全面超越弱监督模型,模型支持多种模型变体适应不同计算需求。DINOv3 开源的训练代码和预训练模型,为计算机视觉研究和应用开发提供强大支持。

AI中国 AI中国
96 0
AI视频 3周前

Genie Envisioner – 智元推出的机器人世界模型开源平台

Genie Envisioner是什么Genie Envisioner 是智元推出的首个机器人世界模型开源平台。平台通过一个统一的视频生成框架,集成策略学习、评估和仿真功能。核心组件包括 GE-Base(大规模指令条件视频扩散模型)、GE-Act(动作轨迹解码器)、GE-Sim(神经仿真器)和 EWMBench(标准化基准测试套件)。平台支持跨机器人形态的策略泛化,助力机器人在复杂任务中实现精

AI中国 AI中国
125 0
加载更多

推荐文章

英伟达“继承战”来了?黄仁勋子女入局;宇树王兴兴:我们啥都没有时客户就愿直接给钱;GPT-5 滑铁卢,奥特曼被要求下台|AI 周报

英伟达“继承战”来了?黄仁勋子女入局;宇树王兴兴:我们啥都没有时客户就愿直接给钱;GPT-5 滑铁卢,奥特曼被要求下台|AI 周报

3周前 • AI热点
速抢(2核2G)77元/年香港免备案服务器

速抢(2核2G)77元/年香港免备案服务器

0秒前 • AI热点
【合集】Substance Designer中文软件零基础新手快速入门教程,一个教程学会SD不是梦!全B站最新SD材质节点教程!【SD教程 SD材质】

【合集】Substance Designer中文软件零基础新手快速入门教程,一个教程学会SD不是梦!全B站最新SD材质节点教程!【SD教程 SD材质】

2月前 • 视频教程
戴尔推出掌上AI超算!字典大小,1000TOPS峰值算力,能跑2000亿参数模型

戴尔推出掌上AI超算!字典大小,1000TOPS峰值算力,能跑2000亿参数模型

3周前 • AI热点
用AI做历史传奇人物故事解说独白视频,10分钟打造爆款视频

用AI做历史传奇人物故事解说独白视频,10分钟打造爆款视频

1月前 • 图文教程
【AI绘画】Stabel Diffusion入门教程,SD绘图基础实例讲解

【AI绘画】Stabel Diffusion入门教程,SD绘图基础实例讲解

10月前 • 学习教程
GPT-5和Claude 4 Opus谁更强?用这个AI大模型对比工具一眼明了

GPT-5和Claude 4 Opus谁更强?用这个AI大模型对比工具一眼明了

1月前 • AI热点
估值近亿元的割草机器人公司倒下,中小玩家离场潮刚开始

估值近亿元的割草机器人公司倒下,中小玩家离场潮刚开始

3周前 • AI热点

热门标签

AIGC行业分析 AI电商购物助手 餐厅 发现《Rock House Jail》 deepseek写脚本 飞猪 AgentDevelopmentKit(ADK) 赛力斯汽车 AmapVoice 理想汽车

热门作者

作者头像

AI前沿

2.4k 粉丝

作者头像

机器学习实验室

1.8k 粉丝

作者头像

AI创业圈

3.1k 粉丝

AI学习站

用AI颠覆视频创作!学习如何通过AI生成视频脚本、自动剪辑、添加特效与字幕,掌握低成本制作高质量宣传片、短视频、动画的全流程技巧,提升创作效率10倍。

快速链接

  • 首页
  • AI热点
  • AI教程

联系我们

  • gzhcly@qq.com

Copyright © 2025 All rights reserved. AI学习站 黔ICP备2025045649号-2

隐私政策 使用条款 免责声明