AI学习站
首页 AI热点 AI教程
用户头像

标准会员

会员时间

积分 0

历史 通知(0)
首页
AI动态
技术前沿
工具与教程
大模型
AI投资分析
AI落地
AI政策法规

登录账号

忘记密码?

还没有账号? 立即注册

我已阅读并同意用户协议和隐私政策

已有账号? 立即登录

OneCAT – 美团联合上交大推出的统一多模态模型
Top
AI视频 2天前 • 72

OneCAT – 美团联合上交大推出的统一多模态模型

OneCAT是什么OneCAT是美团推出的新型统一多模态模型,采用纯解码器架构,能无缝集成多模态理解、文本到图像生成和图像编辑功能。模型摒弃了传统多模态模型中依赖外部视觉编码器和分词器的设计,通过特定模态的专家混合(MoE)结构和多尺度自回归机制,实现了高效的多模态处理。在处理高分辨率图像输入和输出时表现出色。通过创新的尺度感知适配器和多模态多功能注意力机制,进一步增强了视觉生成能力和跨模态对

AI中国
AI中国

Read more
AI视频 3周前

VeOmni – 字节跳动开源的全模态PyTorch原生训练框架

VeOmni是什么VeOmni 是字节跳动 Seed 团队开源的全模态分布式训练框架,基于 PyTorch 设计。VeOmni 以模型为中心,将分布式并行逻辑与模型计算解耦,支持灵活组合多种并行策略(如 FSDP、SP、EP),能高效扩展至超长序列和大规模 MoE 模型。VeOmni 提供轻量级全模态接口,简化多模态编解码器接入,集成动态批处理、高效算子等优化技术,大幅提升训练效率和稳定性,V

AI中国 AI中国
124 0
AI视频 3周前

OpenDeRisk – 开源的AI原生风险智能管理系统

OpenDeRisk是什么OpenDeRisk是AI原生的风险智能管理系统,支持为应用系统提供7×24小时的全面保护。系统基于深度根本原因分析(DeepResearch RCA),快速定位问题根源,结合可视化证据链,让诊断过程清晰透明。系统基于多智能体协作架构,包括SRE-Agent、Code-Agent等多个智能体协同工作,实现高效的风险诊断与管理。OpenDeRisk基于开源的OpenRC

AI中国 AI中国
95 0
Matrix-3D – 昆仑万维开源的3D世界模型
AI视频 3周前

Matrix-3D – 昆仑万维开源的3D世界模型

Matrix-3D是什么Matrix-3D 是昆仑万维 Skywork AI 团队推出的用在生成可探索全景3D世界的框架。框架结合全景视频生成与3D重建,从单图像或文本提示出发,生成高质量、全向可探索的3D场景。基于轨迹引导的全景视频扩散模型和两种3D重建方法(快速前馈网络与高质量优化方法),Matrix-3D 实现大范围、高一致性的3D场景生成,支持文本和图像输入,具备高效性和强泛化能力。框

AI中国 AI中国
139 0
RynnEC – 阿里达摩院推出的世界理解模型
AI视频 3周前

RynnEC – 阿里达摩院推出的世界理解模型

RynnEC是什么RynnEC是阿里巴巴达摩院推出的世界理解模型 (MLLM),专门用在具身认知任务。模型能从位置、功能、数量等11个维度全面解析场景中的物体,支持物体理解、空间理解以及视频目标分割等功能。RynnEC仅靠视频序列能建立连续的空间感知,无需3D模型,支持灵活交互。RynnEC为具身智能提供强大的语义理解能力,助力机器人更好地理解物理世界。RynnEC的主要功能物体理解:

AI中国 AI中国
196 0
RynnRCP – 阿里达摩院开源的机器人上下文协议
AI视频 3周前

RynnRCP – 阿里达摩院开源的机器人上下文协议

RynnRCP是什么RynnRCP 是阿里达摩院开源的机器人上下文协议(Robotics Context Protocol),能打通具身智能开发全流程。RynnRCP 包含 RCP 框架 和 RobotMotion 两大模块,前者提供机器人本体与传感器的标准化能力接口;后者作为云推理与机器人控制的桥梁,将低频推理命令转换为高频控制信号。RynnRCP 通过标准化协议和工具,降低开发门槛,助力具

AI中国 AI中国
87 0
Matrix-Game 2.0 – 昆仑万维推出的自研世界模型
AI视频 3周前

Matrix-Game 2.0 – 昆仑万维推出的自研世界模型

Matrix-Game 2.0是什么Matrix-Game 2.0 是昆仑万维 SkyWork AI 发布的自研世界模型。是业内首个开源的通用场景实时长序列交互式生成模型,全面开源,推动交互式世界模型领域的发展。模型采用视觉驱动的交互方案,通过 3D 因果变分自编码器和多模态扩散 Transformer 架构,实现低延迟、高帧率的长序列交互性能,能以 25 FPS 的速度生成连续视频内容,支持

AI中国 AI中国
172 0
RynnVLA-001 – 阿里达摩院开源的视觉-语言-动作模型
AI视频 3周前

RynnVLA-001 – 阿里达摩院开源的视觉-语言-动作模型

RynnVLA-001是什么RynnVLA-001 是阿里达摩院推出的视觉-语言-动作模型。模型通过在大量第一人称视角的视频上进行预训练,学习人类操作技能,并隐式迁移到机器人手臂的操控中。模型结合视频生成技术和变分自编码器(VAE),能生成连贯、平滑的动作序列,更接近人类动作。模型将“下一帧预测”和“下一动作预测”统一到一个 Transformer 架构中,显著提升机器人在复杂任务中的成功率和

AI中国 AI中国
186 0
GLM-4.5V – 智谱开源的最新一代视觉推理模型
AI视频 3周前

GLM-4.5V – 智谱开源的最新一代视觉推理模型

GLM-4.5V是什么GLM-4.5V是智谱推出的最新一代视觉推理模型。模型基于106B参数规模构建,拥有12B激活能力,是目前领先的视觉语言模型(VLM)。模型在GLM-4.1V-Thinking的基础上升级而来,继承其优秀架构,结合新一代文本基座模型GLM-4.5-Air进行训练。模型在视觉理解、推理能力上表现卓越,适用网页前端复刻、grounding、图寻游戏、视频理解等场景,有望推动多

AI中国 AI中国
77 0
MiroThinker – 开源的Agent模型系列,基于Qwen3构建
AI视频 3周前

MiroThinker – 开源的Agent模型系列,基于Qwen3构建

MiroThinker 是什么MiroThinker 是开源的智能体模型系列,专为深度研究和复杂、长期问题解决设计。模型基于 Qwen3 构建,具备任务分解、多跳推理、检索增强生成、代码执行、网页浏览和文件处理等能力。MiroThinker v0.1 提供 8B、14B 和 32B 参数规模的 SFT 和 DPO 变体,在 GAIA 基准测试中表现出色。模型配备 MiroFlow 框架,支持多

AI中国 AI中国
194 0
MiroFlow – 多Agent系统开发框架,支持高并发处理
AI视频 3周前

MiroFlow – 多Agent系统开发框架,支持高并发处理

MiroFlow是什么MiroFlow是强大的多智能体系统开发框架,专为构建复杂、高性能的AI智能体而设计,为MiroThinker等模型生成高质量的智能体轨迹数据。框架具备可复现的性能,在GAIA验证集上稳定达到72.2%的通过率。框架支持高并发和容错,内置可观测性和评估工具,方便调试和优化。MiroFlow用模块化设计,支持多轮对话、丰富的工具集成和分层子智能体架构,能灵活处理复杂任务。M

AI中国 AI中国
168 0
Baichuan-M2 – 百川智能推出的开源医疗增强大模型
AI视频 3周前

Baichuan-M2 – 百川智能推出的开源医疗增强大模型

Baichuan-M2是什么Baichuan-M2 是百川智能推出的开源医疗增强大模型。在医疗领域表现卓越,于HealthBench评测中以60.1分超越OpenAI的gpt-oss120b等众多开源模型,登顶世界第一。通过极致轻量化,可在RTX 4090单卡上部署,成本大幅降低。其MTP版本在单用户场景下token速度提升74.9%,适用于急诊、门诊等场景。Baichuan-M2在数学、写作

AI中国 AI中国
142 0
SkyReels-A3 – 昆仑万维推出的数字人视频生成模型
AI视频 3周前

SkyReels-A3 – 昆仑万维推出的数字人视频生成模型

SkyReels-A3是什么SkyReels-A3是昆仑万维推出的先进AI模型,基于DiT(Diffusion Transformer)视频扩散架构,结合插帧、强化学习和运镜控制技术。模型能通过音频驱动,将照片或视频中的人物“激活”,使其开口说话或表演。用户只需上传人像图片和音频,能生成自然流畅的视频内容,支持长达60秒的单分镜输出和无限时长的多分镜创作。模型在口形同步、动作自然性和运镜效果上

AI中国 AI中国
89 0
AionUi – 开源的AI聊天界面,支持Gemini CLI命令行
AI视频 3周前

AionUi – 开源的AI聊天界面,支持Gemini CLI命令行

AionUi是什么AionUi 是基于 Electron 和 React 构建的免费、开源、跨平台桌面应用,支持将 Gemini CLI 的命令行 AI 聊天体验转化为现代化、高效的图形界面。AionUi 提供增强的聊天功能,支持多会话管理、本地持久化历史记录和自然的聊天交互。工具具备强大的文件与项目管理能力,如可视化文件树、文件上传和代码对比视图。AionUi 集成完整的 Gemini AP

AI中国 AI中国
151 0
AI视频 4周前

Free AI Random Image Generator

Free AI Random Image Generator 是什么?Free AI Random Image Generator 是一款零门槛的在线 AI 绘图工具,用户只需点击几下,就能生成独特的数字艺术作品、抽象背景或创意插画。它支持完全随机创作,也允许用户通过关键词、风格和参数定制输出效果。无论你是专业设计师还是零美术基础的小白,都可以轻松产出高质量的视觉素材,并且生成的图片可直接商用

AI中国 AI中国
120 0
AI视频 4周前

Reve AI

我已经帮你把 Reve AI 的详细介绍整理成一份带 SEO优化 TDK 的中英文双版本网页文案,可以直接用于网站发布。Reve AI 是什么?Reve AI 是由 Halfmoon AI 开发的创新型 AI 图片生成平台,利用先进的 Reve Image 1.0 模型 将文字描述精准转换为高质量艺术图像。它的核心优势包括:上下文感知的提示解释器:精准理解文字描述与视觉概念。专用字体渲

AI中国 AI中国
183 0
AI视频 4周前

GrokGhibli

GrokGhibli 是什么?GrokGhibli 是一个基于 Grok AI 技术的 AI 绘图平台,专注于生成 吉卜力(Studio Ghibli)风格的图像。它能将用户的文本提示或上传的照片转换为充满宫崎骏风格的艺术作品,无论是奇幻角色、梦幻风景,还是日常场景,都能精准还原吉卜力的色彩、光影与绘画质感。它的目标是让任何人都能轻松体验到创作吉卜力风格作品的乐趣。GrokGhibli

AI中国 AI中国
105 0
AI视频 4周前

Ghibli AI Generator

Ghibli AI Generator 是什么?Ghibli AI Generator 是一款基于 GPT-4o 与先进图像算法的在线工具,专注于将普通照片转化为 宫崎骏吉卜力风格 的艺术作品。它能够在几分钟内,将你的照片赋予吉卜力电影特有的温暖色彩、柔和光影和手绘质感,非常适合制作个性化插画、壁纸、社交媒体内容,甚至可作为创作灵感参考。Ghibli AI Generator 应用场景

AI中国 AI中国
137 0
AI视频 4周前

Seedance AI Video Generator

Seedance AI Video Generator 是什么?Seedance AI Video Generator 是由 字节跳动(ByteDance) 开源的最新一代 AI 视频生成平台 Seedance 1.0,采用多阶段架构(Multi-Stage Architecture),结合扩散模型与 Transformer 规划,实现了高质量、长时长与高速度兼备的“AI 视频三难平衡”突破。

AI中国 AI中国
96 0
AI视频 4周前

Name Generator

Name Generator 是什么?YMM Name Generator 是一个功能全面的在线取名与创意命名平台,支持从婴儿取名、用户名、品牌名,到奇幻角色、游戏团队、虚拟城市等多种场景的名称生成。它的数据库涵盖全球不同文化和语言的名字,还能根据性别、流行度、出生年份、国家和性格特征等条件进行筛选。无论是现实用途(宝宝取名、团队命名),还是虚构创作(小说角色、游戏世界),YMM Name

AI中国 AI中国
180 0
AI视频 4周前

ASMR Video AI Generator

ASMR Video AI Generator 是什么?ASMR Video AI Generator 是一款基于 Veo3 AI 的在线 ASMR 视频生成平台,可以根据用户描述自动生成带有特定触发元素的 ASMR(自主感觉经络反应) 视频。它不仅能合成高质量的 ASMR 声音(包括双耳环绕音效、低语、敲击、摩擦声等),还可以创建对应的视频画面,用于睡眠辅助、减压、冥想或商业化 ASMR 内

AI中国 AI中国
163 0
WrenAI – 开源的商业AI Agent工具,自然语言生成SQL
AI视频 4周前

WrenAI – 开源的商业AI Agent工具,自然语言生成SQL

WrenAI是什么WrenAI 是 Canner 推出的开源商业智能 AI Agent工具。通过自然语言交互,帮助用户快速查询、分析和可视化结构化数据,无需编写复杂的 SQL 代码。用户只需用普通语言提出问题,WrenAI 能生成精准的 SQL 查询语句,以图表、报告等多种形式输出结果。通过架构嵌入和相关性检索,确保查询的准确性和上下文对齐。支持多种主流数据库(如 PostgreSQL、MyS

AI中国 AI中国
103 0
KittenTTS – KittenML开源的轻量级文本转语音模型
AI视频 4周前

KittenTTS – KittenML开源的轻量级文本转语音模型

KittenTTS是什么KittenTTS 是轻量级开源文本转语音(TTS)模型,由 KittenML 团队开发。以极小的模型体积(仅 25MB)和强大的 CPU 优化为特点,无需 GPU 即可在低功耗设备上运行,KittenTTS 提供 8 种预置音色(4 男 4 女),支持多语言(目前主要支持英语),可通过 ONNX/PyTorch 格式集成到各种应用中。首次运行时会下载权重并缓存到本地,

AI中国 AI中国
78 0
DreamVVT – 字节联合清华推出的视频虚拟试穿技术
AI视频 4周前

DreamVVT – 字节联合清华推出的视频虚拟试穿技术

DreamVVT是什么DreamVVT 是字节跳动和清华大学(深圳)联合推出的视频虚拟试穿(Video Virtual Try-On, VVT)技术,基于扩散 Transformer(DiTs)框架,通过两阶段方法实现高保真且时间连贯的虚拟试穿效果。第一阶段从输入视频中采样关键帧,结合视觉语言模型(VLM)生成语义一致的试穿图像;第二阶段利用骨骼图和运动信息,结合预训练视频生成模型,确保视频的

AI中国 AI中国
165 0
AI视频 4周前

Trenz

Trenz 是什么?Trenz 是一款专注于 TikTok 商业化变现 的 AI 驱动数据分析与创作辅助平台,帮助创作者、机构和电商卖家精准发现 TikTok 热门产品、爆款视频、趋势创意和高转化内容策略。通过 Trenz,用户可以实时追踪 TikTok Shop 上的畅销商品、最受欢迎的创作者、爆款视频脚本和钩子,并利用 AI 工具快速生成高转化视频脚本、内容结构和创意灵感。其目标是让内

AI中国 AI中国
127 0
AI视频 4周前

Runway Aleph

Runway Aleph 是什么?Runway Aleph 是一款基于 先进“上下文视频生成模型(in-context video model)” 的 AI 视频创作与编辑平台。与传统视频生成工具不同,它不仅能从零生成视频,还能理解和编辑已有视频素材,通过自然语言指令实现多任务视觉处理,包括镜头角度变化、物体增删、环境替换、光影调整、艺术风格转换等,且保证运动一致性与电影级画质。它面向创作者

AI中国 AI中国
125 0
AI视频 4周前

AI Silhouette Generator

AI Silhouette Generator 是什么?AI Silhouette Generator 是一款免费的在线 AI剪影生成器,无需注册即可将任何照片快速转化为高质量的剪影艺术作品。它采用先进的机器学习与智能边缘检测算法,能精准识别主体轮廓并自动生成干净、流畅的剪影边界,适用于人像、动物、建筑、产品等多种图片类型。该工具同时提供背景模板库和多种导出格式,适合设计师、营销人员、艺术

AI中国 AI中国
153 0
AI视频 4周前

Reezo AI

Reezo AI 是什么?Reezo AI 是一款专注于 短视频创意提示生成 的 AI 工具,能够根据实时社交媒体趋势(TikTok、Instagram、YouTube 等)生成高病毒传播潜力的视频创作提示(video prompts)。它不仅提供创意,还会基于 2.8M+ 爆款视频数据 进行“病毒预测评分”,并针对不同平台自动优化脚本结构、镜头语言、标签策略等,让创作者从“盲目拍”变成“数

AI中国 AI中国
127 0
Glass – 开源AI桌面助手,实时捕捉屏幕内容和音频识别
AI视频 4周前

Glass – 开源AI桌面助手,实时捕捉屏幕内容和音频识别

Glass是什么Glass 是Pickle 团队推出的开源隐形 AI 桌面助手。Glass能在后台实时捕捉屏幕内容和音频,将其转化为结构化知识。Glass核心功能包括实时会议记录、自动摘要生成、上下文理解及实时问答。Glass 的设计真正隐形,不会出现在屏幕录制、截图或 Dock 中,完全不干扰用户操作。Glass支持 macOS 和 Windows 系统,用户能免费使用,且无需注册。Glas

AI中国 AI中国
113 0
AI视频 4周前

个知AI工作站

个知AI工作站是什么?“个知AI工作站” 是由个推(Getui)推出的一款集软件与硬件为一体的 AI 工具,整合了 DeepSeek 的“满血版大模型”。这款 智算一体机 主打快速落地 AI,适配办公、写作、科研等多种场景,承诺“开箱即用”式体验。应用场景根据宣传,该工作站适用于多种实际需求:日常工作提效(快问快答)深度思考与建议生成(多维建议)科研与专业决策(数据支撑)应用覆盖

AI中国 AI中国
180 0
AI视频 4周前

Boba Anime

Boba Anime 1.3 是什么?Boba Anime 1.3 是由 Boba Labs 推出的前沿 AI 动漫生成模型,能够将文字、图片转化为高质量的动漫短片、静态画面和电影级镜头。它支持从 Text to Video、Text to Image 到 Image to Video 的全流程创作,并内置 声音生成、对白、音效、角色口型同步 等多模态功能,让你的动漫角色在数秒内“活”起来。

AI中国 AI中国
137 0
加载更多

推荐文章

速抢(2核2G)77元/年香港免备案服务器

速抢(2核2G)77元/年香港免备案服务器

0秒前 • AI热点
20瓦就能运行下一代AI?科学家瞄上了神经形态计算

20瓦就能运行下一代AI?科学家瞄上了神经形态计算

2月前 • AI热点
全球最强AI语音克隆实测,哎呦我不赖!

全球最强AI语音克隆实测,哎呦我不赖!

3月前 • 视频教程
美国众议院通过法案,重拳打击 AI 生成非自愿色情内容

美国众议院通过法案,重拳打击 AI 生成非自愿色情内容

4月前 • AI热点
AI之下,资讯平台的重构与价值改写

AI之下,资讯平台的重构与价值改写

1月前 • AI热点
智元机器人获富临精工数千万元订单,近百台远征 A2-W 落地工厂

智元机器人获富临精工数千万元订单,近百台远征 A2-W 落地工厂

3周前 • AI热点
OpenAI 首席研究官再谈 Meta 公司挖人:就像闯入家中偷窃,建议员工严词拒绝

OpenAI 首席研究官再谈 Meta 公司挖人:就像闯入家中偷窃,建议员工严词拒绝

2月前 • AI热点
从赛场到市场:优理奇如何用“两金一银”诠释人形机器人的算法突破与商业落地

从赛场到市场:优理奇如何用“两金一银”诠释人形机器人的算法突破与商业落地

2周前 • AI热点

热门标签

Seedance1.0pro 国家发展和改革委员会 个性化沟通风格 燕麦奶 摄影器材 这很“全身” 谷歌AI 企业检索增强生成(RAG) Claude-4.1-Opus FinRobot

热门作者

作者头像

AI前沿

2.4k 粉丝

作者头像

机器学习实验室

1.8k 粉丝

作者头像

AI创业圈

3.1k 粉丝

AI学习站

用AI颠覆视频创作!学习如何通过AI生成视频脚本、自动剪辑、添加特效与字幕,掌握低成本制作高质量宣传片、短视频、动画的全流程技巧,提升创作效率10倍。

快速链接

  • 首页
  • AI热点
  • AI教程

联系我们

  • gzhcly@qq.com

Copyright © 2025 All rights reserved. AI学习站 黔ICP备2025045649号-2

隐私政策 使用条款 免责声明