AI学习站
首页 AI热点 AI教程
用户头像

标准会员

会员时间

积分 0

历史 通知(0)
首页
AI动态
技术前沿
工具与教程
大模型
AI投资分析
AI落地
AI政策法规

登录账号

忘记密码?

还没有账号? 立即注册

我已阅读并同意用户协议和隐私政策

已有账号? 立即登录

钉钉AI表格:产品经理的“反繁琐”神器,把一天琐事压缩到1小时
Top
AI工具集合 2月前 • 184

钉钉AI表格:产品经理的“反繁琐”神器,把一天琐事压缩到1小时

人人都是产品经理
人人都是产品经理

Read more
用155万模拟视频给模型上课!GVE模型一次学会9种视频检索技能
AI工具集合 2月前

用155万模拟视频给模型上课!GVE模型一次学会9种视频检索技能

GVE团队 投稿量子位|公众号 QbitAI当前视频检索研究正陷入一个闭环困境:以MSRVTT为代表的窄域基准,长期主导模型在粗粒度文本查询上的优化,导致训练数据有偏、模型能力受限,难以应对真实世界中细粒度、长上下文、多模态组合等复杂检索需求。要突破这一瓶颈,亟需重构视频检索的范式——从“专用”走向“通用”。在这一“大一统”愿景下,香港科技大学(广州)联合阿里巴巴通义实验室展开系统性探索,首次提出

量子位 量子位
106 0
AI视频 2月前

OmniVinci – NVIDIA推出的全模态大语言模型

OmniVinci是什么OmniVinci是NVIDIA推出的全模态大语言模型,专门处理视觉、听觉、语言和推理的多模态任务。通过独特的OmnialignNet技术实现跨模态语义对齐,Temporal Embedding Grouping机制解决时序同步问题,采用Constrained Rotary Time Embedding优化时间感知能力。在Dailyomni等基准测试中,性能超越Qwen

AI中国 AI中国
128 0
AI视频 2月前

SAIL-Embedding – 抖音联合港中文推出的全模态嵌入模型

SAIL-Embedding是什么SAIL-Embedding是字节跳动抖音SAIL团队和香港中文大学MMLab联合开发的全模态(omni-modal)嵌入基础模型。解决多模态信息检索和推荐系统中的实际应用问题,通过支持任意模态输入(包括文本、视觉和音频),生成统一且信息丰富的表示,支持多模态检索和分类任务。SAIL-Embedding通过动态难负样本挖掘和自适应多源数据平衡等训练策略,增强了

AI中国 AI中国
188 0
AI视频 2月前

FG-CLIP 2 – 360开源的双语细粒度视觉语言对齐模型

FG-CLIP 2是什么FG-CLIP 2是360推出的开源双语细粒度视觉语言对齐模型,专为解决视觉与语言的精准对齐问题而设计。在视觉语言理解领域取得了重大突破,尤其在中英文双语任务上表现出色。模型采用层次化对齐架构,通过全局语义对齐和细粒度视觉语言学习,逐步提升模型对图像细节的理解能力。引入了动态注意力机制,能智能聚焦图像的关键区域,更好地处理复杂的视觉语言任务。FG-CLIP 2在多个权威

AI中国 AI中国
167 0
AI视频 2月前

NavFoM – 银河通用推出的环视导航基座大模型

NavFoM是什么NavFoM(Navigation Foundation Model)是银河通用联合北京大学、阿德莱德大学、浙江大学等团队发布的全球首个跨本体全域环视导航基座大模型。具备全场景支持能力,可同时适用于室内和室外环境,能在未见过的场景中实现零样本运行。NavFoM支持多种导航任务,如自然语言指令驱动的目标跟随和自主导航,能快速适配机器狗、轮式人形机器人、无人机、汽车等不同本体。核

AI中国 AI中国
125 0
AI视频 2月前

Handy – 开源的语音转文字桌面应用,完全离线

Handy是什么Handy 是开源的语音转文字桌面应用,完全离线运行,支持 Windows、macOS 和 Linux 系统。由 Rust 和 React/TypeScript 构建,界面简洁,操作便捷。用户通过快捷键激活录音,语音经本地处理后直接转为文本,无需联网,保护隐私。Handy 提供多种语音识别模型,如 Whisper 和 Parakeet V3,支持 GPU 加速和自动语言检测。

AI中国 AI中国
255 0
AI视频 2月前

UniWorld V2 – 兔展智能联合北大推出的图像编辑模型

UniWorld V2是什么UniWorld V2是兔展智能和北京大学UniWorld团队推出的新一代图像编辑模型。采用创新的UniWorld-R1训练框架,首次将强化学习策略优化应用于图像编辑,通过DiffusionNFT技术实现高效训练。模型使用多模态大语言模型作为奖励模型,提供稳定且细粒度的反馈,同时引入低方差组过滤机制,提升训练稳定性。能精准理解和渲染复杂的中文字体,支持精细化空间控制

AI中国 AI中国
215 0
AI视频 2月前

讯飞星火X1.5 – 科大讯飞推出的深度推理大模型

讯飞星火X1.5是什么讯飞星火X1.5 是科大讯飞推出的基于全国产算力平台的深度推理大模型。模型率先攻克 MoE 模型全链路训练效率问题,端到端性能达到国际竞品效率的 93% 以上。模型在语言理解、文本生成、知识问答、逻辑推理、数学能力、代码能力等多领域对标国际主流大模型,数学能力保持国际领先水平。模型支持 130 + 种语言,整体性能达到 GPT-5 的 95% 以上,为全球用户提供优质服务

AI中国 AI中国
138 0
AI视频 2月前

UNO-Bench – 美团LongCat推出的全模态大模型评测基准

UNO-Bench是什么UNO-Bench是美团LongCat团队推出的全模态大模型评测基准。UNO-Bench针对现有评测体系的不足,通过高质量、多样化的数据构建,精准衡量模型的单模态与全模态能力。基准首次验证了全模态大模型的“组合定律”,揭示单模态与全模态能力的复杂关系。UNO-Bench创新的多步开放式问题和高效的数据压缩算法,提升了评测的区分度与效率,为推动全模态大模型的发展提供科学的

AI中国 AI中国
121 0
AI视频 2月前

Kosmos – FutureHouse 推出的AI科学家系统

Kosmos是什么Kosmos 是新一代 AI 科学家,由 FutureHouse 推出的自动化科研系统 Robin 升级而来。Kosmos采用结构化世界模型,能高效整合海量信息,单次运行可解析 1500 篇论文、执行 42000 行代码,处理规模远超同类系统。Kosmos 能在神经科学、材料科学、统计遗传学等领域快速完成复杂研究任务,一天工作量相当于人类科学家六个月的投入,且 79.4% 的

AI中国 AI中国
139 0
AI视频 2月前

Kimi-k2 Thinking – 月之暗面推出的思考模型

Kimi-k2 Thinking是什么Kimi-k2 Thinking 是月之暗面推出的具备通用 Agentic 能力和深度推理能力的人工智能模型。模型能进行多轮工具调用,支持长达 256k 的上下文处理,适合复杂任务的逐步推理和规划。模型推理过程通过 reasoning_content 字段展示,帮助用户理解思考逻辑。Kimi-k2 Thinking 包含高速版 Kimi-k2 Thinki

AI中国 AI中国
126 0
AI视频 2月前

Open-o3 Video – 北大联合字节开源的视频推理模型

Open-o3 Video是什么Open-o3 Video 是北京大学和字节跳动联合开发的开源视频推理模型,通过整合显式的时空证据(关键时间戳和边界框)来实现精准的视频推理。通过精心策划的 STGR 数据集和两阶段的 SFT-RL 训练策略,实现了在 V-STAR 基准测试中的最佳性能。非代理框架设计,能高效地处理复杂的时空关系,在视频推理任务中表现出色。训练过程包括冷启动初始化和强化学习两个

AI中国 AI中国
104 0
AI写作 2月前

公文宝

公文宝是什么?公文宝是由广州微阿信息技术有限公司开发的一款面向公文、政府机关、事业单位写作场景的 AI 辅助工具。官网介绍其“专注公文写作的 AI 工具,拥有公文内容权威供给、公文内容决策辅助、公文内容自动生成、公文内容 AI 审核四项领域拥有核心能力”。其定位包括:支持各种公文体裁(材料、报告、心得、讲话稿等)自动生成公文初稿,格式规范、用词准确,不易虚构事实。提供写作流程指引,便

AI中国 AI中国
154 0
AI视频 2月前

iTerms

iTerms是法大大集团旗下专业AI法律品牌,基于最先进的大语言模型(LLM)、权威法律知识库和智能体架构,为企业提供智能化法务与合规解决方案。它可自动审查合同、识别法律风险、提供法规问答与决策支持,帮助企业扫清合规障碍、筑牢风控防线。iTerms智能法务顾问可广泛应用于合同管理、企业法务、数据合规、政策解读、纠纷预警等多元场景,成为您企业专属的AI法律顾问。一、iTerms 是什么?iTe

AI中国 AI中国
97 0
AI绘画 2月前

Describe Image & Picture

一、Describe Image & Picture 是什么?Describe Image & Picture 是一款多功能的 AI图像理解与文本转换工具,旨在帮助用户通过人工智能快速识别、描述、提取、转换和生成与图像相关的内容。该平台结合了先进的视觉识别模型(如 gemini_pro_vision)与自然语言生成技术,能够从图片中 提取文字、生成详细描述、提炼要点、生成Markdown内容

AI中国 AI中国
223 0
AI视频 2月前

ChatGPT Atlas

ChatGPT Atlas 是什么?ChatGPT Atlas 是由 OpenAI 推出的桌面浏览器(目前仅限 macOS),其特色在于将 ChatGPT 聊天助手深度融入浏览体验。其核心理念是:你浏览网页时,AI 不仅帮你搜索,更能分析、总结、甚至替你动手。官方说明指出:在 Atlas 中,你可以“ask ChatGPT to take action and do things for

AI中国 AI中国
130 0
AI绘画 2月前

ArtAny

ArtAny 是什么?ArtAny 是一个集成多种先进AI艺术模型的多功能创作平台。它支持从文字、图像甚至视频中生成艺术作品,将复杂的AI图像与视频生成技术整合在一个界面中。无论是艺术创作、视频制作、图片编辑还是动画生成,ArtAny都能通过AI让创意变得触手可及。ArtAny整合了多种AI模型,包括:Flux、Seedream、Nano Banana、Veo、Sora、Wan 2.5、

AI中国 AI中国
163 0
AI视频 2月前

Face GPT: AI Face Swap

🧠 Face GPT 是什么?Face GPT 是一款基于人工智能的在线换脸工具,能够通过上传两张照片(源脸与目标图像)自动实现高精度人脸替换(Face Swap)。用户无需安装软件,也不需要任何图像编辑经验,只需几秒钟就能生成自然逼真的换脸照片。Face GPT 利用深度学习与面部识别算法实现:精准捕捉面部特征与表情;智能匹配肤色、光照与角度;实现“几乎真实”的人脸融合效果。

AI中国 AI中国
93 0
AI视频 2月前

JoyPix.ai

🧠 JoyPix.ai 是什么?JoyPix.ai 是一款整合多种生成式AI技术的视频创作平台,主打 AI视频生成(AI Video Generator) 与 AI说话头像(Talking Photo) 功能。用户只需上传一张照片,即可生成自然流畅的“会说话的视频”,无需相机拍摄,也不需要任何视频剪辑经验。JoyPix 的核心模型 Motion-2 被誉为目前最先进的AI唇形同步技术,能真

AI中国 AI中国
152 0
有医笔记APP
AI工具集合 2月前

有医笔记APP

有医笔记APP的简介有医笔记是百度推出的专为医疗行业设计的智能记录工具。具备图片转文字、语音转文字、医学翻译等功能,可快速将医疗材料如病历、检查报告等转化为文字。还有笔记广场供医疗人员分享知识、讨论问题,以及网页收藏功能,方便整理学习资料。文档管理简单易用,支持多端同步,随时随地查看笔记。有医笔记APP的主要功能图片转文字:依托精准OCR能力,提供五种扫描模式,可快速、准确、结构化地将

AI中国 AI中国
137 0
Bevel APP
AI工具集合 2月前

Bevel APP

Bevel APP的简介Bevel是AI健康伴侣应用,通过科学方法提升用户的健康、表现和寿命。将睡眠、恢复、压力和力量训练等健康数据转化为个性化指导,帮助用户更聪明地运动、更快地恢复、更长久地生活。其功能丰富,包括Bevel Intelligence智能健康引擎、恢复分数、睡眠分数、压力分数、力量训练器、能量银行等,还能通过条形码扫描、图像搜索等方式记录饮食。Bevel APP的主要功能

AI中国 AI中国
201 0
好玩又简单!手把手教你用AI制作VR全景视频
AI工具集合 2月前

好玩又简单!手把手教你用AI制作VR全景视频

人人都是产品经理 人人都是产品经理
203 0
高效又好看!盘点值得收藏的在线海报生成器
AI工具集合 2月前

高效又好看!盘点值得收藏的在线海报生成器

AI中国 AI中国
228 0
科学悟理卡APP
AI工具集合 3月前

科学悟理卡APP

科学悟理卡APP的简介科学悟理卡是鬼谷云(广州)科技有限公司开发的AI拍照问答工具应用。通过拍照功能,让用户能快速获取现实物理现象的解释,AI伙伴还能答疑解惑,引导用户探索生活中的物理学。应用有“拍照悟理”“悟理问问”“每日一悟”等功能,方便用户随时随地学习物理,感受知识与生活的紧密联系。科学悟理卡APP的主要功能拍照悟理 :用户可以通过拍照功能,将现实中的物理现象捕捉下来,应用会基于

AI中国 AI中国
236 0
AI视频 3月前

Kimi Linear – 月之暗面开源的新型混合线性注意力架构

Kimi Linear是什么Kimi Linear 是月之暗面推出的新型混合线性注意力架构,专为提升大型语言模型(LLMs)在长序列任务中的效率和性能设计。核心组件 Kimi Delta Attention(KDA)通过精细化的通道级门控机制和高效的块处理算法,显著提升模型的表达能力和硬件效率。Kimi Linear 采用 3:1 的 KDA 与全注意力层(MLA)混合设计,大幅减少 KV 缓

AI中国 AI中国
199 0
AI视频 3月前

Music 2.0 – MiniMax推出的新一代音乐创作模型

Music 2.0是什么Music 2.0 是MiniMax最新推出的先进音乐创作模型。模型能精准捕捉和还原人声的细腻情绪与器乐的动态张力,支持多种唱法和风格切换,如流行、爵士、摇滚等,还能实现男女对唱、阿卡贝拉等效果。模型生成的旋律抓耳且具有完整结构,能独立控制伴奏乐器,打造丰富编曲。音质升级,带来沉浸式体验,生成影视级配乐独白。Music 2.0让音乐创作让每个人都能轻松表达音乐灵感,实现

AI中国 AI中国
233 0
AI视频 3月前

Aardvark – OpenAI推出的漏洞发现与修复智能体

Aardvark是什么Aardvark 是 OpenAI 推出的基于 GPT-5 的智能体,能自动发现和修复代码中的安全漏洞。Aardvark通过不间断地分析源代码仓库,识别漏洞、评估可利用性、划分严重等级,提出针对性修复方案。Aardvark 用多阶段工作流程,包括分析、提交扫描、验证和修复,能像人类安全研究员一样阅读代码、编写测试、验证漏洞。Aardvark能无缝集成 GitHub 和现有

AI中国 AI中国
196 0
AI视频 3月前

WOWService – 美团推出的大模型交互系统技术报告

WOWService是什么WOWService 是美团 LongCat 团队发布的智能交互系统,通过融合大型语言模型(LLMs)和多智能体架构,优化用户体验并降低成本。系统针对智能交互领域的五大挑战:冷启动数据构建、多轮对话性能、业务规则变化、单一 LLM 的局限性以及多轮对话的量化评估难题,提出了创新解决方案。WOWService 采用四阶段训练流水线:持续预训练(CPT)、有监督微调(SF

AI中国 AI中国
224 0
AI绘画 3月前

Lupa AI Upscaler

🧠 Lupa AI Upscaler 是什么?Lupa AI Upscaler 是一款基于人工智能的在线图像高清放大与增强工具,能够将模糊、像素化或低分辨率的图片瞬间转换为高清4K质量。该平台利用深度学习技术智能修复图像细节、增强纹理、减少噪点,让旧照片或普通图片焕发新生。Lupa AI 强调“一键4K高清转换”,无需技术背景即可实现高质量放大。它广泛应用于电商、摄影、社交媒体内容优化、印刷

AI中国 AI中国
233 0
加载更多

推荐文章

xAI元老离职干风投,传奇人物Babuschkin长文追忆与马斯克创业战友情

xAI元老离职干风投,传奇人物Babuschkin长文追忆与马斯克创业战友情

5月前 • AI热点
可做购物建议、旅行规划、研究报告和PPT,纳米AI超级搜索智能体发布

可做购物建议、旅行规划、研究报告和PPT,纳米AI超级搜索智能体发布

7月前 • AI热点
速抢(2核2G)77元/年香港免备案服务器

速抢(2核2G)77元/年香港免备案服务器

0秒前 • AI热点
66天成为AI大神第51天【矢量线性插画上】

66天成为AI大神第51天【矢量线性插画上】

6月前 • 视频教程
机器人界的「Imagenet 时刻」,李飞飞团队官宣全球顶级具身智能挑战赛

机器人界的「Imagenet 时刻」,李飞飞团队官宣全球顶级具身智能挑战赛

4月前 • AI热点
Agent长程搜索的两大痛点被打通了!中科院 DeepMiner用32k跑近百轮,开源领先逼近闭源

Agent长程搜索的两大痛点被打通了!中科院 DeepMiner用32k跑近百轮,开源领先逼近闭源

3月前 • AI热点
Llama惨遭抛弃!Meta内部改用Claude写代码

Llama惨遭抛弃!Meta内部改用Claude写代码

6月前 • AI热点
高考志愿填报带热夸克“深度搜索”,每位考生平均使用4次

高考志愿填报带热夸克“深度搜索”,每位考生平均使用4次

7月前 • AI热点

热门标签

出口管制 二次元副本漫游计划 Pika 数字人技术 高性能计算 自动化测试 科技伦理 SD Web UI 豆包播客模型 AI思维导图

热门作者

作者头像

AI前沿

2.4k 粉丝

作者头像

机器学习实验室

1.8k 粉丝

作者头像

AI创业圈

3.1k 粉丝

AI学习站

精选Llama 3微调数据集、Stable Diffusion插件库与低代码AI开发平台横向评测报告。

快速链接

  • 首页
  • AI热点
  • AI教程

联系我们

  • gzhcly@qq.com

Copyright © 2026 All rights reserved. AI学习站 黔ICP备2025045649号-2

隐私政策 使用条款 免责声明