AI开发者百宝箱 | 数据集/API/算力平台导航 - AI学习站

钉钉AI表格：产品经理的“反繁琐”神器，把一天琐事压缩到1小时

Top

AI工具集合 5月前 • 738

钉钉AI表格：产品经理的“反繁琐”神器，把一天琐事压缩到1小时

人人都是产品经理

人人都是产品经理

AI视频 6月前

AI阴影去除器

🌤️ AI阴影去除器是什么？AI阴影去除器Remove Shadow From Photo 是一款专业级的 AI照片去阴影工具，通过先进的机器学习算法，自动识别并去除人像、产品或风景照片中的阴影，让图像恢复自然光照和平衡的视觉效果。它能在数秒内完成阴影去除，输出高达4K分辨率的干净照片，无需专业技能或复杂操作。这款工具由AI影像技术驱动，深度学习了数百万张照片的光影特征，因此在“识别阴影

AI中国

AI中国

637 0

AI音频 6月前

音秘AudioMyst

🎧 音秘（AudioMyst）是什么？音秘 AudioMyst 是百度推出的一款 AI播客创作与语音合成工具，以“让创作更聪明，让声音更动人”为核心理念，旨在帮助个人创作者与企业用户轻松制作播客内容。它结合了 UGC（用户原创内容）与 PGC（专业生产内容）模式，通过AI生成脚本、智能配音与音色克隆，全面降低播客制作门槛，打造一个人人可用的全场景音频内容生态平台。无论是自媒体主播、企业品牌

AI中国

AI中国

206 0

AI视频 6月前

酷宣AI

🚀 一、酷宣AI是什么？酷宣AI 是一个集 AI图文排版、AI生图、AI修图、AI视频生成、AI动图制作于一体的超级智能体内容创作平台。它融合了多种先进的AI生成模型，覆盖从文字 → 图片 → 视频 → 动图的全链路内容创作场景，帮助用户在几分钟内完成专业级视觉内容。无论你是自媒体创作者、品牌营销人员、教师、还是设计小白，酷宣AI都能帮助你：快速生成高颜值图文内容一键制作海报、

AI中国

AI中国

660 0

AI视频 6月前

Hailuo 2.3 – MiniMax推出的AI视频生成模型

Hailuo 2.3是什么Hailuo 2.3 是MiniMax推出的先进 AI 视频生成模型，基于 Hailuo 02 升级而来。模型在肢体动作、微表情、风格化表现及物理真实性方面实现显著提升，能生成更加流畅自然且复杂的动态画面，支持多种画风，如动漫、水墨等。模型对运动指令的响应更加精准，画面效果接近实拍。Hailuo 2.3 包含Hailuo 2.3 提供高质量的视频生成效果，适合对细节和

AI中国

AI中国

520 0

AI视频 6月前

Glyph – 智谱联合清华开源的视觉文本压缩框架

Glyph是什么Glyph 是智谱联合清华大学 CoAI 实验室开源的创新框架，能通过视觉 – 文本压缩解决大语言模型（LLM）上下文过长的问题。框架将长文本渲染为图像，用视觉语言模型（VLM）处理图像，实现 3 – 4 倍的上下文压缩。Glyph 显著降低了计算成本和显存占用，同时大幅提升推理速度。Glyph在多模态任务中表现出色，展现出强大的泛化能力。Glyph的主要功能长上下文压

AI中国

AI中国

726 0

AI视频 6月前

GigaBrain-0 – 开源VLA具身模型，基于世界模型生成的数据

GigaBrain-0是什么GigaBrain-0 是新型的视觉-语言-行动（VLA）基础模型，由世界模型生成的数据驱动。模型通过大规模生成多样化数据，减少了对真实机器人数据的依赖，显著提升了跨任务泛化能力。采用 RGB-D 输入建模，增强了空间感知能力，通过具身思维链（Embodied CoT）监督，强化了模型在任务执行中的推理能力。使得 GigaBrain-0 在真实世界中的灵巧操作、长时

AI中国

AI中国

642 0

AI视频 6月前

SoulX-Podcast – Soul推出的多说话人语音合成模型

SoulX-Podcast是什么SoulX-Podcast 是 Soul AI Lab 推出的多说话人文本到语音（TTS）模型，专为生成长篇播客对话设计。模型参数为1.7B，支持普通话、英语及多种汉语方言（如四川话、河南话、粤语等），具备跨方言提示功能，可通过普通话提示生成目标方言语音。模型支持副语言控制（如笑声、叹气等），增强语音合成的真实感。SoulX-Podcast 能生成超过 90 分

AI中国

AI中国

394 0

AI视频 6月前

FlowithOS – Flowith推出的全球首个智能体操作系统

FlowithOS是什么FlowithOS是Flowith推出的全球首个智能体操作系统，使其能像人类一样与数字世界互动。FlowithOS具备浏览器、终端和脚本使用功能，能自动执行复杂任务，如文件管理、游戏操作等。通过在线强化学习和自我进化能力，FlowithOS的智能体能随时间变得更加智能和个性化。在性能评测中，Flowith OS 表现卓越，其“代码 + 视觉”双模态理解框架使其在网页操作

AI中国

AI中国

494 0

AI视频 6月前

Speech 2.6 – MiniMax推出的语音生成模型

Speech 2.6是什么Speech 2.6 是MiniMax推出的全新语音生成模型，专为新一代语音智能体设计，具备超低延时（低于250毫秒），确保实时对话流畅；支持多种语言的网址、邮箱、电话号码等非标准文本格式的直接转换，无需繁琐预处理。模型通过 Fluent LoRA 技术，进一步提升音韵自然度和音色复刻的流利性，原始素材带有口音或不流利，也能生成高质量语音。模型适用智能客服、智能硬件等

AI中国

AI中国

736 0

AI视频 6月前

FIBO – 开源的图像生成模型，首个原生支持JSON

FIBO是什么FIBO 是首个开源的原生支持 JSON 的文本生成图像模型，专为长结构化描述训练而成。模型在超过 1 亿条结构化 JSON 描述（每条约 1,000 字）上训练，能精确、可重复地控制光线、构图、色彩与相机参数。FIBO 支持生成、精修和灵感三种模式，具备特征解耦能力，能单独调整某个属性不破坏整体场景。FIBO使用 100% 授权数据，确保合规性和法律透明性，适合专业工作流。

AI中国

AI中国

437 0

AI视频 6月前

Sonic-3 – Cartesia推出的实时语音对话模型

Sonic-3是什么Sonic-3是Cartesia最新发布的语音AI引擎，是当前市场上速度最快、最自然的实时语音对话模型。采用创新的“状态空间模型”（SSM）架构，非传统的Transformer模型，能更有效地模拟人类思维，记住对话主题和情绪，无需每次都从头分析上下文。使得Sonic-3的延迟低于100毫秒，在实时语音交互行业中处于领先地位。Sonic-3支持42种语言，覆盖全球95%的人口

AI中国

AI中国

746 0

AI视频 6月前

Composer – Cursor推出的自研编码模型

Composer是什么Composer 是Cursor推出的自研编码模型，专为低延迟的智能体式编码设计。模型生成速度极快，每秒可达 250 个 token，是同等智能模型的 4 倍，大多数任务在 30 秒内完成。Composer 通过语义搜索等工具训练，对大型代码库的理解和处理能力显著更强。模型支持调用多种工具，如代码编辑、终端命令和语义搜索，同时具备并行处理能力，可并行运行多个智能体以提升复

AI中国

AI中国

716 0

AI视频 6月前

Firefly Image 5 – Adobe推出的最新图像生成模型

Firefly Image 5是什么Firefly Image 5 是 Adobe 发布的最新图像生成模型。具备原生400万像素输出能力，能直接生成高分辨率图像，细节表现力大幅提升。在人物渲染方面，新模型优化了面部结构、肢体比例和光影逻辑，减少了常见问题，使生成的人物图像更加逼真。Firefly Image 5 引入了图层编辑功能，能智能识别图像中的不同元素并将其作为独立图层处理。创作者可以通

AI中国

AI中国

124 0

AI视频 6月前

LongCat-Video – 美团开源的视频生成模型

LongCat-Video是什么LongCat-Video是美团LongCat团队开源的136亿参数的视频生成模型，在文本到视频（Text-to-Video）、图像到视频（Image-to-Video）和视频续写（Video-Continuation）等任务上表现出色，尤其擅长高效生成高质量的长视频。模型通过多奖励强化学习优化（GRPO），在内部和公共基准测试中展现出与领先开源视频生成模型及最

AI中国

AI中国

133 0

AI视频 6月前

MiniMax M2 – MiniMax推出的Agent编程和优化模型

MiniMax M2是什么MiniMax M2是MiniMax推出的专为编程和Agent工作流优化的大语言模型。模型拥有100亿激活参数和2300亿总参数，支持204,800的上下文窗口和131,072的最大输出Token数。在通用推理、工具使用和多步任务执行方面表现出接近前沿的智能水平，同时保持了低延迟和部署效率。根据Artificial Analysis的基准测试，M2在数学、科学和指令遵

AI中国

AI中国

215 0

AI视频 6月前

Kimi CLI – Moonshot AI推出的命令行通用智能体工具

Kimi CLI是什么Kimi CLI 是 Moonshot AI 推出的命令行通用智能体工具，为开发者提供高效、便捷的编程辅助和文件处理功能。支持 macOS 和 Linux 系统，通过 uv 包管理器安装，安装过程简单快捷。首次使用时，用户需通过 /setup 元命令进行配置，输入 API Key 并选择合适的模型，如 Coding 会员可选择「Kimi For Coding」模型。Kim

AI中国

AI中国

142 0

AI绘画 6月前

Auralume AI

💡 Auralume AI 是什么？Auralume AI 是一个集成多款领先 AI 视频生成模型的全能 AI 视频平台。它允许用户通过文字、图片或创意描述，在几秒钟内生成电影级视觉效果的视频。平台整合了包括 Google Veo、Sora、Kling AI、Luma AI、Seedream、Hunyuan、Vidu AI、Pika AI 等主流 AI 模型，用户无需切换不同平台即可

AI中国

AI中国

797 0

AI视频 6月前

veo3.1

🎥 Veo 3.1 是什么？Veo 3.1 是由 Google 推出的次世代 AI 视频生成平台，基于 Veo 3.1 AI 模型构建，支持从文字、图片或照片自动生成具备声音、对白与精准口型同步的 4K 电影级视频。这款工具将视觉、声音与物理模拟融合在一起，使创作者能在几分钟内完成传统视频制作需要数小时才能完成的工作。无论你是内容创作者、品牌营销人员还是影视制作者，Veo 3

AI中国

AI中国

260 0

Aibrary APP

AI工具集合 6月前

Aibrary APP

Aibrary APP的简介Aibrary是助力个人成长的AI学习应用。基于书籍而非网络碎片信息，以学习科学为基础，为终身学习者和忙碌专业人士设计，将碎片时间转化为成长时间。核心功能包括：Idea Twin Podcasts，AI以你自己的声音思考、提问和成长，像好奇的朋友和专家教练一样，挑战你的假设，激发新想法；AI Growth Team，由Nova、Orion、Atlas组成，分别负责心

AI中国

AI中国

793 0

灵光APP

AI工具集合 6月前

灵光APP

灵光APP的简介灵光是支付宝（杭州）数字服务技术有限公司开发的多模态AI应用，目前已在腾讯应用宝、vivo应用商店等平台上线，并开启了邀约内测。应用的最大亮点是其“AGI相机”功能，能通过相机镜头识别并理解现实世界中的场景与内容，实现拍摄即问、实时理解与回答。灵光APP的主要功能AGI相机：是“灵光”的核心功能，可通过相机镜头识别并理解现实世界中的场景与内容，实现拍摄即问、实时理解与

AI中国

AI中国

139 0

AI视频 6月前

Nof1.ai交易提示词 – 为AI交易系统设计的模板

Nof1.ai交易提示词是什么Nof1.ai交易提示词是为AI交易系统设计的详细输入模板，提供全面的市场数据、技术指标和账户信息。提示词包括多个币种的当前价格、EMA、MACD、RSI等指标，及账户的持仓详情和性能指标。提示词结构化地组织信息，支持AI进行深入分析和交易决策，最终输出每个币种的具体操作建议、置信度和持仓数量，实现优化交易策略。Nof1.ai交易提示词的核心模块 USER

AI中国

AI中国

182 0

AI视频 6月前

VitaBench – 美团推出的大模型Agent评测基准

VitaBench是什么VitaBench 是美团 LongCat 团队发布的面向复杂问题的大模型智能体评测基准。以外卖点餐、餐厅就餐、旅游出行等高频生活场景为载体，构建了包含66个工具的交互式评测环境，设计了跨场景综合任务，从深度推理、工具使用与用户交互三大维度衡量智能体表现。首次量化拆解智能体任务，构建大规模真实环境数据库，引入真实用户模拟器，通过原子化评估准则（Rubric）实现细粒度行

AI中国

AI中国

179 0

AI视频 6月前

KoalaQA – 开源AI售后服务社区，能7×24小时服务

KoalaQA是什么KoalaQA 是AI大模型驱动的开源售后服务社区，支持智能问答、语义搜索和自动运营等功能。KoalaQA 能帮助团队实现 7×24 小时服务，显著降低人工成本，提升客户满意度与响应效率，助力实现零接触解决（ZCR）目标。KoalaQA 适用售后客服、产品答疑、需求反馈等场景，通过知识库管理和 AI 辅助创作，进一步优化用户体验。KoalaQA的主要功能AI 智能回

AI中国

AI中国

261 0

AI视频 6月前

DeepSeek-OCR – DeepSeek团队开源的视觉语言模型

DeepSeek-OCR是什么DeepSeek-OCR 是 DeepSeek 团队推出的视觉语言模型，专注于通过光学压缩技术高效处理长文本内容。模型由 DeepEncoder 编码器和 DeepSeek3B-MoE 解码器组成，能在保持高分辨率输入的同时，显著降低激活内存和视觉标记数量。模型在 10 倍压缩比下 OCR 精度可达 97%，在 20 倍压缩比下仍能保持 60% 的准确率。Deep

AI中国

AI中国

151 0

AI视频 6月前

Dexter – AI金融研究Agent，自动进行金融任务规划

Dexter是什么Dexter 是自主金融研究智能代理（Agent），专为处理复杂金融问题而设计。工具能将复杂查询分解为清晰的分步骤研究计划，通过实时市场数据进行分析。Dexter 用多Agent架构，包括规划Agent（分解任务）、执行Agent（获取数据）、验证Agent（检查结果）和回答Agent（整合答案）。Dexter 支持智能任务规划、自主执行、自我验证，内置安全机制防止无限循环。

AI中国

AI中国

174 0

AI视频 6月前

PaddleOCR-VL – 百度飞桨开源的多模态文档解析模型

PaddleOCR-VL是什么PaddleOCR-VL是百度飞桨团队开源的多模态文档解析模型，参数量仅0.9B，专为低算力设备优化。在国际权威评测OmnidocBench V1.5中以92.6分登顶全球第一，超越GPT-4o等主流模型。模型采用双阶段架构：PP-DocLayoutV2负责版面分析，PaddleOCR-VL-0.9B完成内容识别，支持109种语言，能精准处理表格、公式、图表等复杂

AI中国

AI中国

221 0

AI视频 6月前

Coral NPU – 谷歌推出的全栈开源AI平台

Coral NPU是什么Coral NPU 是谷歌推出的全栈开源AI平台，专为低功耗边缘设备（如智能手表、AR 眼镜等）设计，能解决性能、碎片化和隐私三大挑战。Coral NPU基于 RISC-V 指令集，包含标量核心、向量执行单元和矩阵执行单元，能高效支持机器学习推理任务。Coral NPU 提供统一的开发者体验，支持 TensorFlow、JAX 和 PyTorch 等框架，通过硬件强制的

AI中国

AI中国

203 0

AI视频 6月前

LongCat-Audio-Codec – 美团开源的语音编解码方案

LongCat-Audio-Codec是什么LongCat-Audio-Codec 是美团 LongCat 团队开源的语音编解码方案，专为语音大语言模型（Speech LLM）设计。通过语义和声学双 Token 并行提取机制，兼顾语音的语义理解与声学特征保留，解决了传统方案中语义与声学信息难以平衡的问题。低延迟流式解码器支持实时交互，将解码延迟控制在百毫秒级，满足车载语音助手、实时翻译等场景的

AI中国

AI中国

201 0

AI视频 6月前

RTFM – 李飞飞团队推出的实时生成式世界模型

RTFM是什么RTFM（Real-Time Frame Model）是李飞飞团队推出的实时生成式世界模型。模型能在单块H100 GPU上运行，实时生成3D场景，支持持久交互。RTFM通过观看大量视频数据学习光影、材质和空间关系，将复杂的物理渲染问题转化为基于数据的感知问题。RTFM为每一帧赋予空间坐标，用“上下文腾挪”技术，只关注附近帧生成新画面，实现高效且持久的世界构建。RTFM展示了未来世

AI中国

AI中国

194 0

AI视频 6月前

UniPixel – 香港理工联合腾讯推出的像素级多模态大模型

UniPixel是什么UniPixel是香港理工大学和腾讯ARC Lab团队开发的首个统一像素级多模态大模型，专注于图像/视频的精细理解与交互。能在单个模型中完成对象指代、像素级分割和区域推理三大任务，通过创新设计的”对象记忆机制”和统一视觉编码方式，实现了对视频中目标的精准追踪与语义理解。模型基于Qwen2.5-VL框架，支持点、框、掩码三种交互方式，在9项视觉任务基准测试中超越72B参数的

AI中国

AI中国

176 0

推荐文章

战报：Grok4笑傲AI象棋大赛，DeepSeek败给o4-mini，Kimi K2被喊冤

战报：Grok4笑傲AI象棋大赛，DeepSeek败给o4-mini，Kimi K2被喊冤

8月前 • AI热点

小米米家前置过滤器 Pro 开售：可拦截自来水中泥沙、铁锈等杂质，券后 769 元

小米米家前置过滤器 Pro 开售：可拦截自来水中泥沙、铁锈等杂质，券后 769 元

8月前 • AI热点

NoteGen横空出世：AI驱动跨平台笔记神器，知识管理进入新时代

NoteGen横空出世：AI驱动跨平台笔记神器，知识管理进入新时代

10月前 • AI热点

速抢（2核2G）77元/年香港免备案服务器

速抢（2核2G）77元/年香港免备案服务器

0秒前 • AI热点

【AI电影教程】我用AI做了部电影！小白也能制作AI电影短剧！从0开始全流程讲解，手把手教你用comfyui+GPT+即梦玩转AI影视赛道！（附工具）

【AI电影教程】我用AI做了部电影！小白也能制作AI电影短剧！从0开始全流程讲解，手把手教你用comfyui+GPT+即梦玩转AI影视赛道！（附工具）

9月前 • 视频教程

GPT-5，AI的「登月时刻」来了！奥特曼现场发布，三位一体博士级智能体

GPT-5，AI的「登月时刻」来了！奥特曼现场发布，三位一体博士级智能体

8月前 • AI热点

智元机器人灵犀X2启动合作伙伴招募，目标2026年实现数千台出货

智元机器人灵犀X2启动合作伙伴招募，目标2026年实现数千台出货

11月前 • AI热点

从浏览到交互：DroidRun凭借自我修复机制，打造智能手机自动化标杆

从浏览到交互：DroidRun凭借自我修复机制，打造智能手机自动化标杆

1年前 • AI热点

热门标签

情感表达自监督学习 AI同传 AI播客腾讯元器 ai+工业互联网 AIGR 魅族手机系统 Interbrand 内容创作是做什么的

热门作者

作者头像

AI前沿

2.4k 粉丝

作者头像

机器学习实验室

1.8k 粉丝

作者头像

AI创业圈

3.1k 粉丝