AI开发者百宝箱 | 数据集/API/算力平台导航 - AI学习站

钉钉AI表格：产品经理的“反繁琐”神器，把一天琐事压缩到1小时

Top

AI工具集合 5月前 • 738

钉钉AI表格：产品经理的“反繁琐”神器，把一天琐事压缩到1小时

人人都是产品经理

人人都是产品经理

用155万模拟视频给模型上课！GVE模型一次学会9种视频检索技能

AI工具集合 5月前

用155万模拟视频给模型上课！GVE模型一次学会9种视频检索技能

GVE团队投稿量子位｜公众号 QbitAI当前视频检索研究正陷入一个闭环困境：以MSRVTT为代表的窄域基准，长期主导模型在粗粒度文本查询上的优化，导致训练数据有偏、模型能力受限，难以应对真实世界中细粒度、长上下文、多模态组合等复杂检索需求。要突破这一瓶颈，亟需重构视频检索的范式——从“专用”走向“通用”。在这一“大一统”愿景下，香港科技大学（广州）联合阿里巴巴通义实验室展开系统性探索，首次提出

量子位

量子位

688 0

AI视频 5月前

OmniVinci – NVIDIA推出的全模态大语言模型

OmniVinci是什么OmniVinci是NVIDIA推出的全模态大语言模型，专门处理视觉、听觉、语言和推理的多模态任务。通过独特的OmnialignNet技术实现跨模态语义对齐，Temporal Embedding Grouping机制解决时序同步问题，采用Constrained Rotary Time Embedding优化时间感知能力。在Dailyomni等基准测试中，性能超越Qwen

AI中国

AI中国

724 0

AI视频 5月前

SAIL-Embedding – 抖音联合港中文推出的全模态嵌入模型

SAIL-Embedding是什么SAIL-Embedding是字节跳动抖音SAIL团队和香港中文大学MMLab联合开发的全模态（omni-modal）嵌入基础模型。解决多模态信息检索和推荐系统中的实际应用问题，通过支持任意模态输入（包括文本、视觉和音频），生成统一且信息丰富的表示，支持多模态检索和分类任务。SAIL-Embedding通过动态难负样本挖掘和自适应多源数据平衡等训练策略，增强了

AI中国

AI中国

776 0

AI视频 5月前

FG-CLIP 2 – 360开源的双语细粒度视觉语言对齐模型

FG-CLIP 2是什么FG-CLIP 2是360推出的开源双语细粒度视觉语言对齐模型，专为解决视觉与语言的精准对齐问题而设计。在视觉语言理解领域取得了重大突破，尤其在中英文双语任务上表现出色。模型采用层次化对齐架构，通过全局语义对齐和细粒度视觉语言学习，逐步提升模型对图像细节的理解能力。引入了动态注意力机制，能智能聚焦图像的关键区域，更好地处理复杂的视觉语言任务。FG-CLIP 2在多个权威

AI中国

AI中国

881 0

AI视频 5月前

NavFoM – 银河通用推出的环视导航基座大模型

NavFoM是什么NavFoM（Navigation Foundation Model）是银河通用联合北京大学、阿德莱德大学、浙江大学等团队发布的全球首个跨本体全域环视导航基座大模型。具备全场景支持能力，可同时适用于室内和室外环境，能在未见过的场景中实现零样本运行。NavFoM支持多种导航任务，如自然语言指令驱动的目标跟随和自主导航，能快速适配机器狗、轮式人形机器人、无人机、汽车等不同本体。核

AI中国

AI中国

649 0

AI视频 5月前

Handy – 开源的语音转文字桌面应用，完全离线

Handy是什么Handy 是开源的语音转文字桌面应用，完全离线运行，支持 Windows、macOS 和 Linux 系统。由 Rust 和 React/TypeScript 构建，界面简洁，操作便捷。用户通过快捷键激活录音，语音经本地处理后直接转为文本，无需联网，保护隐私。Handy 提供多种语音识别模型，如 Whisper 和 Parakeet V3，支持 GPU 加速和自动语言检测。

AI中国

AI中国

594 0

AI视频 5月前

UniWorld V2 – 兔展智能联合北大推出的图像编辑模型

UniWorld V2是什么UniWorld V2是兔展智能和北京大学UniWorld团队推出的新一代图像编辑模型。采用创新的UniWorld-R1训练框架，首次将强化学习策略优化应用于图像编辑，通过DiffusionNFT技术实现高效训练。模型使用多模态大语言模型作为奖励模型，提供稳定且细粒度的反馈，同时引入低方差组过滤机制，提升训练稳定性。能精准理解和渲染复杂的中文字体，支持精细化空间控制

AI中国

AI中国

773 0

AI视频 5月前

讯飞星火X1.5 – 科大讯飞推出的深度推理大模型

讯飞星火X1.5是什么讯飞星火X1.5 是科大讯飞推出的基于全国产算力平台的深度推理大模型。模型率先攻克 MoE 模型全链路训练效率问题，端到端性能达到国际竞品效率的 93% 以上。模型在语言理解、文本生成、知识问答、逻辑推理、数学能力、代码能力等多领域对标国际主流大模型，数学能力保持国际领先水平。模型支持 130 + 种语言，整体性能达到 GPT-5 的 95% 以上，为全球用户提供优质服务

AI中国

AI中国

687 0

AI视频 5月前

UNO-Bench – 美团LongCat推出的全模态大模型评测基准

UNO-Bench是什么UNO-Bench是美团LongCat团队推出的全模态大模型评测基准。UNO-Bench针对现有评测体系的不足，通过高质量、多样化的数据构建，精准衡量模型的单模态与全模态能力。基准首次验证了全模态大模型的“组合定律”，揭示单模态与全模态能力的复杂关系。UNO-Bench创新的多步开放式问题和高效的数据压缩算法，提升了评测的区分度与效率，为推动全模态大模型的发展提供科学的

AI中国

AI中国

715 0

AI视频 5月前

Kosmos – FutureHouse 推出的AI科学家系统

Kosmos是什么Kosmos 是新一代 AI 科学家，由 FutureHouse 推出的自动化科研系统 Robin 升级而来。Kosmos采用结构化世界模型，能高效整合海量信息，单次运行可解析 1500 篇论文、执行 42000 行代码，处理规模远超同类系统。Kosmos 能在神经科学、材料科学、统计遗传学等领域快速完成复杂研究任务，一天工作量相当于人类科学家六个月的投入，且 79.4% 的

AI中国

AI中国

656 0

AI视频 5月前

Kimi-k2 Thinking – 月之暗面推出的思考模型

Kimi-k2 Thinking是什么Kimi-k2 Thinking 是月之暗面推出的具备通用 Agentic 能力和深度推理能力的人工智能模型。模型能进行多轮工具调用，支持长达 256k 的上下文处理，适合复杂任务的逐步推理和规划。模型推理过程通过 reasoning_content 字段展示，帮助用户理解思考逻辑。Kimi-k2 Thinking 包含高速版 Kimi-k2 Thinki

AI中国

AI中国

641 0

AI视频 5月前

Open-o3 Video – 北大联合字节开源的视频推理模型

Open-o3 Video是什么Open-o3 Video 是北京大学和字节跳动联合开发的开源视频推理模型，通过整合显式的时空证据（关键时间戳和边界框）来实现精准的视频推理。通过精心策划的 STGR 数据集和两阶段的 SFT-RL 训练策略，实现了在 V-STAR 基准测试中的最佳性能。非代理框架设计，能高效地处理复杂的时空关系，在视频推理任务中表现出色。训练过程包括冷启动初始化和强化学习两个

AI中国

AI中国

647 0

AI写作 5月前

公文宝

公文宝是什么？公文宝是由广州微阿信息技术有限公司开发的一款面向公文、政府机关、事业单位写作场景的 AI 辅助工具。官网介绍其“专注公文写作的 AI 工具，拥有公文内容权威供给、公文内容决策辅助、公文内容自动生成、公文内容 AI 审核四项领域拥有核心能力”。其定位包括：支持各种公文体裁（材料、报告、心得、讲话稿等）自动生成公文初稿，格式规范、用词准确，不易虚构事实。提供写作流程指引，便

AI中国

AI中国

680 0

AI视频 5月前

iTerms

iTerms是法大大集团旗下专业AI法律品牌，基于最先进的大语言模型（LLM）、权威法律知识库和智能体架构，为企业提供智能化法务与合规解决方案。它可自动审查合同、识别法律风险、提供法规问答与决策支持，帮助企业扫清合规障碍、筑牢风控防线。iTerms智能法务顾问可广泛应用于合同管理、企业法务、数据合规、政策解读、纠纷预警等多元场景，成为您企业专属的AI法律顾问。一、iTerms 是什么？iTe

AI中国

AI中国

648 0

AI绘画 5月前

Describe Image & Picture

一、Describe Image & Picture 是什么？Describe Image & Picture 是一款多功能的 AI图像理解与文本转换工具，旨在帮助用户通过人工智能快速识别、描述、提取、转换和生成与图像相关的内容。该平台结合了先进的视觉识别模型（如 gemini_pro_vision）与自然语言生成技术，能够从图片中提取文字、生成详细描述、提炼要点、生成Markdown内容

AI中国

AI中国

788 0

AI视频 5月前

ChatGPT Atlas

ChatGPT Atlas 是什么？ChatGPT Atlas 是由 OpenAI 推出的桌面浏览器（目前仅限 macOS），其特色在于将 ChatGPT 聊天助手深度融入浏览体验。其核心理念是：你浏览网页时，AI 不仅帮你搜索，更能分析、总结、甚至替你动手。官方说明指出：在 Atlas 中，你可以“ask ChatGPT to take action and do things for

AI中国

AI中国

653 0

AI绘画 5月前

ArtAny

ArtAny 是什么？ArtAny 是一个集成多种先进AI艺术模型的多功能创作平台。它支持从文字、图像甚至视频中生成艺术作品，将复杂的AI图像与视频生成技术整合在一个界面中。无论是艺术创作、视频制作、图片编辑还是动画生成，ArtAny都能通过AI让创意变得触手可及。ArtAny整合了多种AI模型，包括：Flux、Seedream、Nano Banana、Veo、Sora、Wan 2.5、

AI中国

AI中国

741 0

AI视频 5月前

Face GPT: AI Face Swap

🧠 Face GPT 是什么？Face GPT 是一款基于人工智能的在线换脸工具，能够通过上传两张照片（源脸与目标图像）自动实现高精度人脸替换（Face Swap）。用户无需安装软件，也不需要任何图像编辑经验，只需几秒钟就能生成自然逼真的换脸照片。Face GPT 利用深度学习与面部识别算法实现：精准捕捉面部特征与表情；智能匹配肤色、光照与角度；实现“几乎真实”的人脸融合效果。

AI中国

AI中国

648 0

AI视频 5月前

JoyPix.ai

🧠 JoyPix.ai 是什么？JoyPix.ai 是一款整合多种生成式AI技术的视频创作平台，主打 AI视频生成（AI Video Generator）与 AI说话头像（Talking Photo）功能。用户只需上传一张照片，即可生成自然流畅的“会说话的视频”，无需相机拍摄，也不需要任何视频剪辑经验。JoyPix 的核心模型 Motion-2 被誉为目前最先进的AI唇形同步技术，能真

AI中国

AI中国

468 0

有医笔记APP

AI工具集合 5月前

有医笔记APP

有医笔记APP的简介有医笔记是百度推出的专为医疗行业设计的智能记录工具。具备图片转文字、语音转文字、医学翻译等功能，可快速将医疗材料如病历、检查报告等转化为文字。还有笔记广场供医疗人员分享知识、讨论问题，以及网页收藏功能，方便整理学习资料。文档管理简单易用，支持多端同步，随时随地查看笔记。有医笔记APP的主要功能图片转文字：依托精准OCR能力，提供五种扫描模式，可快速、准确、结构化地将

AI中国

AI中国

664 0

Bevel APP

AI工具集合 5月前

Bevel APP

Bevel APP的简介Bevel是AI健康伴侣应用，通过科学方法提升用户的健康、表现和寿命。将睡眠、恢复、压力和力量训练等健康数据转化为个性化指导，帮助用户更聪明地运动、更快地恢复、更长久地生活。其功能丰富，包括Bevel Intelligence智能健康引擎、恢复分数、睡眠分数、压力分数、力量训练器、能量银行等，还能通过条形码扫描、图像搜索等方式记录饮食。Bevel APP的主要功能

AI中国

AI中国

728 0

好玩又简单！手把手教你用AI制作VR全景视频

AI工具集合 5月前

好玩又简单！手把手教你用AI制作VR全景视频

人人都是产品经理

人人都是产品经理

790 0

高效又好看！盘点值得收藏的在线海报生成器

AI工具集合 5月前

高效又好看！盘点值得收藏的在线海报生成器

AI中国

AI中国

972 0

科学悟理卡APP

AI工具集合 6月前

科学悟理卡APP

科学悟理卡APP的简介科学悟理卡是鬼谷云（广州）科技有限公司开发的AI拍照问答工具应用。通过拍照功能，让用户能快速获取现实物理现象的解释，AI伙伴还能答疑解惑，引导用户探索生活中的物理学。应用有“拍照悟理”“悟理问问”“每日一悟”等功能，方便用户随时随地学习物理，感受知识与生活的紧密联系。科学悟理卡APP的主要功能拍照悟理：用户可以通过拍照功能，将现实中的物理现象捕捉下来，应用会基于

AI中国

AI中国

797 0

AI视频 6月前

Kimi Linear – 月之暗面开源的新型混合线性注意力架构

Kimi Linear是什么Kimi Linear 是月之暗面推出的新型混合线性注意力架构，专为提升大型语言模型（LLMs）在长序列任务中的效率和性能设计。核心组件 Kimi Delta Attention（KDA）通过精细化的通道级门控机制和高效的块处理算法，显著提升模型的表达能力和硬件效率。Kimi Linear 采用 3:1 的 KDA 与全注意力层（MLA）混合设计，大幅减少 KV 缓

AI中国

AI中国

500 0

AI视频 6月前

Music 2.0 – MiniMax推出的新一代音乐创作模型

Music 2.0是什么Music 2.0 是MiniMax最新推出的先进音乐创作模型。模型能精准捕捉和还原人声的细腻情绪与器乐的动态张力，支持多种唱法和风格切换，如流行、爵士、摇滚等，还能实现男女对唱、阿卡贝拉等效果。模型生成的旋律抓耳且具有完整结构，能独立控制伴奏乐器，打造丰富编曲。音质升级，带来沉浸式体验，生成影视级配乐独白。Music 2.0让音乐创作让每个人都能轻松表达音乐灵感，实现

AI中国

AI中国

836 0

AI视频 6月前

Aardvark – OpenAI推出的漏洞发现与修复智能体

Aardvark是什么Aardvark 是 OpenAI 推出的基于 GPT-5 的智能体，能自动发现和修复代码中的安全漏洞。Aardvark通过不间断地分析源代码仓库，识别漏洞、评估可利用性、划分严重等级，提出针对性修复方案。Aardvark 用多阶段工作流程，包括分析、提交扫描、验证和修复，能像人类安全研究员一样阅读代码、编写测试、验证漏洞。Aardvark能无缝集成 GitHub 和现有

AI中国

AI中国

912 0

AI视频 6月前

WOWService – 美团推出的大模型交互系统技术报告

WOWService是什么WOWService 是美团 LongCat 团队发布的智能交互系统，通过融合大型语言模型（LLMs）和多智能体架构，优化用户体验并降低成本。系统针对智能交互领域的五大挑战：冷启动数据构建、多轮对话性能、业务规则变化、单一 LLM 的局限性以及多轮对话的量化评估难题，提出了创新解决方案。WOWService 采用四阶段训练流水线：持续预训练（CPT）、有监督微调（SF

AI中国

AI中国

738 0

AI绘画 6月前

Lupa AI Upscaler

🧠 Lupa AI Upscaler 是什么？Lupa AI Upscaler 是一款基于人工智能的在线图像高清放大与增强工具，能够将模糊、像素化或低分辨率的图片瞬间转换为高清4K质量。该平台利用深度学习技术智能修复图像细节、增强纹理、减少噪点，让旧照片或普通图片焕发新生。Lupa AI 强调“一键4K高清转换”，无需技术背景即可实现高质量放大。它广泛应用于电商、摄影、社交媒体内容优化、印刷

AI中国

AI中国

814 0

推荐文章

首款专为大规模上下文 AI 设计的 CUDA GPU，英伟达 Rubin CPX 发布

首款专为大规模上下文 AI 设计的 CUDA GPU，英伟达 Rubin CPX 发布

7月前 • AI热点

最强AI语音生成器，彻底解决声音违规，单一互动，非实时，录播真人转无人必备工具，让AI代替主播真人说话

最强AI语音生成器，彻底解决声音违规，单一互动，非实时，录播真人转无人必备工具，让AI代替主播真人说话

11月前 • 视频教程

Meta Ray-Ban智能眼镜全面推送实时翻译功能，支持离线使用

Meta Ray-Ban智能眼镜全面推送实时翻译功能，支持离线使用

1年前 • AI热点

速抢（2核2G）77元/年香港免备案服务器

速抢（2核2G）77元/年香港免备案服务器

0秒前 • AI热点

刚刚，陶哲轩3小时对话流出：AI抢攻菲尔兹奖倒计时

刚刚，陶哲轩3小时对话流出：AI抢攻菲尔兹奖倒计时

10月前 • AI热点

被Meta连挖8人后，OpenAI坐不住了

被Meta连挖8人后，OpenAI坐不住了

10月前 • AI热点

智元远征A2创造纪录，成首个中美欧三区域认证的人形机器人

智元远征A2创造纪录，成首个中美欧三区域认证的人形机器人

11月前 • AI热点

AI笔记又进化了！智能体“入驻”，标签、导图、清单都能自动生成

AI笔记又进化了！智能体“入驻”，标签、导图、清单都能自动生成

8月前 • AI热点

热门标签

machine-learning 可画 VAST AI问答应用 AI进展探索deepseek 山泥若技能评估自用 UI 组件

热门作者

作者头像

AI前沿

2.4k 粉丝

作者头像

机器学习实验室

1.8k 粉丝

作者头像

AI创业圈

3.1k 粉丝