AI学习站
首页 AI热点 AI教程
用户头像

标准会员

会员时间

积分 0

历史 通知(0)
首页
AI动态
技术前沿
工具与教程
大模型
AI投资分析
AI落地
AI政策法规

登录账号

忘记密码?

还没有账号? 立即注册

我已阅读并同意用户协议和隐私政策

已有账号? 立即登录

OmniVinci – NVIDIA推出的全模态大语言模型
Top
AI视频 1月前 • 99

OmniVinci – NVIDIA推出的全模态大语言模型

OmniVinci是什么OmniVinci是NVIDIA推出的全模态大语言模型,专门处理视觉、听觉、语言和推理的多模态任务。通过独特的OmnialignNet技术实现跨模态语义对齐,Temporal Embedding Grouping机制解决时序同步问题,采用Constrained Rotary Time Embedding优化时间感知能力。在Dailyomni等基准测试中,性能超越Qwen

AI中国
AI中国

Read more
AI视频 1月前

SAIL-Embedding – 抖音联合港中文推出的全模态嵌入模型

SAIL-Embedding是什么SAIL-Embedding是字节跳动抖音SAIL团队和香港中文大学MMLab联合开发的全模态(omni-modal)嵌入基础模型。解决多模态信息检索和推荐系统中的实际应用问题,通过支持任意模态输入(包括文本、视觉和音频),生成统一且信息丰富的表示,支持多模态检索和分类任务。SAIL-Embedding通过动态难负样本挖掘和自适应多源数据平衡等训练策略,增强了

AI中国 AI中国
156 0
AI视频 1月前

FG-CLIP 2 – 360开源的双语细粒度视觉语言对齐模型

FG-CLIP 2是什么FG-CLIP 2是360推出的开源双语细粒度视觉语言对齐模型,专为解决视觉与语言的精准对齐问题而设计。在视觉语言理解领域取得了重大突破,尤其在中英文双语任务上表现出色。模型采用层次化对齐架构,通过全局语义对齐和细粒度视觉语言学习,逐步提升模型对图像细节的理解能力。引入了动态注意力机制,能智能聚焦图像的关键区域,更好地处理复杂的视觉语言任务。FG-CLIP 2在多个权威

AI中国 AI中国
91 0
AI视频 1月前

NavFoM – 银河通用推出的环视导航基座大模型

NavFoM是什么NavFoM(Navigation Foundation Model)是银河通用联合北京大学、阿德莱德大学、浙江大学等团队发布的全球首个跨本体全域环视导航基座大模型。具备全场景支持能力,可同时适用于室内和室外环境,能在未见过的场景中实现零样本运行。NavFoM支持多种导航任务,如自然语言指令驱动的目标跟随和自主导航,能快速适配机器狗、轮式人形机器人、无人机、汽车等不同本体。核

AI中国 AI中国
75 0
AI视频 1月前

Handy – 开源的语音转文字桌面应用,完全离线

Handy是什么Handy 是开源的语音转文字桌面应用,完全离线运行,支持 Windows、macOS 和 Linux 系统。由 Rust 和 React/TypeScript 构建,界面简洁,操作便捷。用户通过快捷键激活录音,语音经本地处理后直接转为文本,无需联网,保护隐私。Handy 提供多种语音识别模型,如 Whisper 和 Parakeet V3,支持 GPU 加速和自动语言检测。

AI中国 AI中国
214 0
AI视频 1月前

UniWorld V2 – 兔展智能联合北大推出的图像编辑模型

UniWorld V2是什么UniWorld V2是兔展智能和北京大学UniWorld团队推出的新一代图像编辑模型。采用创新的UniWorld-R1训练框架,首次将强化学习策略优化应用于图像编辑,通过DiffusionNFT技术实现高效训练。模型使用多模态大语言模型作为奖励模型,提供稳定且细粒度的反馈,同时引入低方差组过滤机制,提升训练稳定性。能精准理解和渲染复杂的中文字体,支持精细化空间控制

AI中国 AI中国
156 0
AI视频 1月前

讯飞星火X1.5 – 科大讯飞推出的深度推理大模型

讯飞星火X1.5是什么讯飞星火X1.5 是科大讯飞推出的基于全国产算力平台的深度推理大模型。模型率先攻克 MoE 模型全链路训练效率问题,端到端性能达到国际竞品效率的 93% 以上。模型在语言理解、文本生成、知识问答、逻辑推理、数学能力、代码能力等多领域对标国际主流大模型,数学能力保持国际领先水平。模型支持 130 + 种语言,整体性能达到 GPT-5 的 95% 以上,为全球用户提供优质服务

AI中国 AI中国
110 0
AI视频 1月前

UNO-Bench – 美团LongCat推出的全模态大模型评测基准

UNO-Bench是什么UNO-Bench是美团LongCat团队推出的全模态大模型评测基准。UNO-Bench针对现有评测体系的不足,通过高质量、多样化的数据构建,精准衡量模型的单模态与全模态能力。基准首次验证了全模态大模型的“组合定律”,揭示单模态与全模态能力的复杂关系。UNO-Bench创新的多步开放式问题和高效的数据压缩算法,提升了评测的区分度与效率,为推动全模态大模型的发展提供科学的

AI中国 AI中国
85 0
AI视频 1月前

Kosmos – FutureHouse 推出的AI科学家系统

Kosmos是什么Kosmos 是新一代 AI 科学家,由 FutureHouse 推出的自动化科研系统 Robin 升级而来。Kosmos采用结构化世界模型,能高效整合海量信息,单次运行可解析 1500 篇论文、执行 42000 行代码,处理规模远超同类系统。Kosmos 能在神经科学、材料科学、统计遗传学等领域快速完成复杂研究任务,一天工作量相当于人类科学家六个月的投入,且 79.4% 的

AI中国 AI中国
114 0
AI视频 1月前

Kimi-k2 Thinking – 月之暗面推出的思考模型

Kimi-k2 Thinking是什么Kimi-k2 Thinking 是月之暗面推出的具备通用 Agentic 能力和深度推理能力的人工智能模型。模型能进行多轮工具调用,支持长达 256k 的上下文处理,适合复杂任务的逐步推理和规划。模型推理过程通过 reasoning_content 字段展示,帮助用户理解思考逻辑。Kimi-k2 Thinking 包含高速版 Kimi-k2 Thinki

AI中国 AI中国
98 0
AI视频 1月前

Open-o3 Video – 北大联合字节开源的视频推理模型

Open-o3 Video是什么Open-o3 Video 是北京大学和字节跳动联合开发的开源视频推理模型,通过整合显式的时空证据(关键时间戳和边界框)来实现精准的视频推理。通过精心策划的 STGR 数据集和两阶段的 SFT-RL 训练策略,实现了在 V-STAR 基准测试中的最佳性能。非代理框架设计,能高效地处理复杂的时空关系,在视频推理任务中表现出色。训练过程包括冷启动初始化和强化学习两个

AI中国 AI中国
80 0
AI视频 1月前

iTerms

iTerms是法大大集团旗下专业AI法律品牌,基于最先进的大语言模型(LLM)、权威法律知识库和智能体架构,为企业提供智能化法务与合规解决方案。它可自动审查合同、识别法律风险、提供法规问答与决策支持,帮助企业扫清合规障碍、筑牢风控防线。iTerms智能法务顾问可广泛应用于合同管理、企业法务、数据合规、政策解读、纠纷预警等多元场景,成为您企业专属的AI法律顾问。一、iTerms 是什么?iTe

AI中国 AI中国
72 0
AI视频 1月前

ChatGPT Atlas

ChatGPT Atlas 是什么?ChatGPT Atlas 是由 OpenAI 推出的桌面浏览器(目前仅限 macOS),其特色在于将 ChatGPT 聊天助手深度融入浏览体验。其核心理念是:你浏览网页时,AI 不仅帮你搜索,更能分析、总结、甚至替你动手。官方说明指出:在 Atlas 中,你可以“ask ChatGPT to take action and do things for

AI中国 AI中国
104 0
AI视频 1月前

Face GPT: AI Face Swap

🧠 Face GPT 是什么?Face GPT 是一款基于人工智能的在线换脸工具,能够通过上传两张照片(源脸与目标图像)自动实现高精度人脸替换(Face Swap)。用户无需安装软件,也不需要任何图像编辑经验,只需几秒钟就能生成自然逼真的换脸照片。Face GPT 利用深度学习与面部识别算法实现:精准捕捉面部特征与表情;智能匹配肤色、光照与角度;实现“几乎真实”的人脸融合效果。

AI中国 AI中国
69 0
AI视频 1月前

JoyPix.ai

🧠 JoyPix.ai 是什么?JoyPix.ai 是一款整合多种生成式AI技术的视频创作平台,主打 AI视频生成(AI Video Generator) 与 AI说话头像(Talking Photo) 功能。用户只需上传一张照片,即可生成自然流畅的“会说话的视频”,无需相机拍摄,也不需要任何视频剪辑经验。JoyPix 的核心模型 Motion-2 被誉为目前最先进的AI唇形同步技术,能真

AI中国 AI中国
127 0
AI视频 1月前

Kimi Linear – 月之暗面开源的新型混合线性注意力架构

Kimi Linear是什么Kimi Linear 是月之暗面推出的新型混合线性注意力架构,专为提升大型语言模型(LLMs)在长序列任务中的效率和性能设计。核心组件 Kimi Delta Attention(KDA)通过精细化的通道级门控机制和高效的块处理算法,显著提升模型的表达能力和硬件效率。Kimi Linear 采用 3:1 的 KDA 与全注意力层(MLA)混合设计,大幅减少 KV 缓

AI中国 AI中国
178 0
AI视频 1月前

Music 2.0 – MiniMax推出的新一代音乐创作模型

Music 2.0是什么Music 2.0 是MiniMax最新推出的先进音乐创作模型。模型能精准捕捉和还原人声的细腻情绪与器乐的动态张力,支持多种唱法和风格切换,如流行、爵士、摇滚等,还能实现男女对唱、阿卡贝拉等效果。模型生成的旋律抓耳且具有完整结构,能独立控制伴奏乐器,打造丰富编曲。音质升级,带来沉浸式体验,生成影视级配乐独白。Music 2.0让音乐创作让每个人都能轻松表达音乐灵感,实现

AI中国 AI中国
212 0
AI视频 1月前

Aardvark – OpenAI推出的漏洞发现与修复智能体

Aardvark是什么Aardvark 是 OpenAI 推出的基于 GPT-5 的智能体,能自动发现和修复代码中的安全漏洞。Aardvark通过不间断地分析源代码仓库,识别漏洞、评估可利用性、划分严重等级,提出针对性修复方案。Aardvark 用多阶段工作流程,包括分析、提交扫描、验证和修复,能像人类安全研究员一样阅读代码、编写测试、验证漏洞。Aardvark能无缝集成 GitHub 和现有

AI中国 AI中国
174 0
AI视频 1月前

WOWService – 美团推出的大模型交互系统技术报告

WOWService是什么WOWService 是美团 LongCat 团队发布的智能交互系统,通过融合大型语言模型(LLMs)和多智能体架构,优化用户体验并降低成本。系统针对智能交互领域的五大挑战:冷启动数据构建、多轮对话性能、业务规则变化、单一 LLM 的局限性以及多轮对话的量化评估难题,提出了创新解决方案。WOWService 采用四阶段训练流水线:持续预训练(CPT)、有监督微调(SF

AI中国 AI中国
198 0
AI视频 1月前

AI阴影去除器

🌤️ AI阴影去除器 是什么?AI阴影去除器Remove Shadow From Photo 是一款专业级的 AI照片去阴影工具,通过先进的机器学习算法,自动识别并去除人像、产品或风景照片中的阴影,让图像恢复自然光照和平衡的视觉效果。它能在数秒内完成阴影去除,输出高达4K分辨率的干净照片,无需专业技能或复杂操作。这款工具由AI影像技术驱动,深度学习了数百万张照片的光影特征,因此在“识别阴影

AI中国 AI中国
83 0
AI视频 1月前

酷宣AI

🚀 一、酷宣AI是什么?酷宣AI 是一个集 AI图文排版、AI生图、AI修图、AI视频生成、AI动图制作 于一体的超级智能体内容创作平台。它融合了多种先进的AI生成模型,覆盖从 文字 → 图片 → 视频 → 动图 的全链路内容创作场景,帮助用户在几分钟内完成专业级视觉内容。无论你是自媒体创作者、品牌营销人员、教师、还是设计小白,酷宣AI都能帮助你:快速生成高颜值图文内容一键制作海报、

AI中国 AI中国
115 0
AI视频 1月前

Hailuo 2.3 – MiniMax推出的AI视频生成模型

Hailuo 2.3是什么Hailuo 2.3 是MiniMax推出的先进 AI 视频生成模型,基于 Hailuo 02 升级而来。模型在肢体动作、微表情、风格化表现及物理真实性方面实现显著提升,能生成更加流畅自然且复杂的动态画面,支持多种画风,如动漫、水墨等。模型对运动指令的响应更加精准,画面效果接近实拍。Hailuo 2.3 包含Hailuo 2.3 提供高质量的视频生成效果,适合对细节和

AI中国 AI中国
91 0
AI视频 1月前

Glyph – 智谱联合清华开源的视觉文本压缩框架

Glyph是什么Glyph 是智谱联合清华大学 CoAI 实验室开源的创新框架,能通过视觉 – 文本压缩解决大语言模型(LLM)上下文过长的问题。框架将长文本渲染为图像,用视觉语言模型(VLM)处理图像,实现 3 – 4 倍的上下文压缩。Glyph 显著降低了计算成本和显存占用,同时大幅提升推理速度。Glyph在多模态任务中表现出色,展现出强大的泛化能力。Glyph的主要功能长上下文压

AI中国 AI中国
185 0
AI视频 1月前

GigaBrain-0 – 开源VLA具身模型,基于世界模型生成的数据

GigaBrain-0是什么GigaBrain-0 是新型的视觉-语言-行动(VLA)基础模型,由世界模型生成的数据驱动。模型通过大规模生成多样化数据,减少了对真实机器人数据的依赖,显著提升了跨任务泛化能力。采用 RGB-D 输入建模,增强了空间感知能力,通过具身思维链(Embodied CoT)监督,强化了模型在任务执行中的推理能力。使得 GigaBrain-0 在真实世界中的灵巧操作、长时

AI中国 AI中国
120 0
AI视频 1月前

SoulX-Podcast – Soul推出的多说话人语音合成模型

SoulX-Podcast是什么SoulX-Podcast 是 Soul AI Lab 推出的多说话人文本到语音(TTS)模型,专为生成长篇播客对话设计。模型参数为1.7B,支持普通话、英语及多种汉语方言(如四川话、河南话、粤语等),具备跨方言提示功能,可通过普通话提示生成目标方言语音。模型支持副语言控制(如笑声、叹气等),增强语音合成的真实感。SoulX-Podcast 能生成超过 90 分

AI中国 AI中国
79 0
AI视频 1月前

FlowithOS – Flowith推出的全球首个智能体操作系统

FlowithOS是什么FlowithOS是Flowith推出的全球首个智能体操作系统,使其能像人类一样与数字世界互动。FlowithOS具备浏览器、终端和脚本使用功能,能自动执行复杂任务,如文件管理、游戏操作等。通过在线强化学习和自我进化能力,FlowithOS的智能体能随时间变得更加智能和个性化。在性能评测中,Flowith OS 表现卓越,其“代码 + 视觉”双模态理解框架使其在网页操作

AI中国 AI中国
143 0
AI视频 1月前

Speech 2.6 – MiniMax推出的语音生成模型

Speech 2.6是什么Speech 2.6 是MiniMax推出的全新语音生成模型,专为新一代语音智能体设计,具备超低延时(低于250毫秒),确保实时对话流畅;支持多种语言的网址、邮箱、电话号码等非标准文本格式的直接转换,无需繁琐预处理。模型通过 Fluent LoRA 技术,进一步提升音韵自然度和音色复刻的流利性,原始素材带有口音或不流利,也能生成高质量语音。模型适用智能客服、智能硬件等

AI中国 AI中国
214 0
AI视频 1月前

FIBO – 开源的图像生成模型,首个原生支持JSON

FIBO是什么FIBO 是首个开源的原生支持 JSON 的文本生成图像模型,专为长结构化描述训练而成。模型在超过 1 亿条结构化 JSON 描述(每条约 1,000 字)上训练,能精确、可重复地控制光线、构图、色彩与相机参数。FIBO 支持生成、精修和灵感三种模式,具备特征解耦能力,能单独调整某个属性不破坏整体场景。FIBO使用 100% 授权数据,确保合规性和法律透明性,适合专业工作流。

AI中国 AI中国
118 0
AI视频 1月前

Sonic-3 – Cartesia推出的实时语音对话模型

Sonic-3是什么Sonic-3是Cartesia最新发布的语音AI引擎,是当前市场上速度最快、最自然的实时语音对话模型。采用创新的“状态空间模型”(SSM)架构,非传统的Transformer模型,能更有效地模拟人类思维,记住对话主题和情绪,无需每次都从头分析上下文。使得Sonic-3的延迟低于100毫秒,在实时语音交互行业中处于领先地位。Sonic-3支持42种语言,覆盖全球95%的人口

AI中国 AI中国
201 0
AI视频 1月前

Composer – Cursor推出的自研编码模型

Composer是什么Composer 是Cursor推出的自研编码模型,专为低延迟的智能体式编码设计。模型生成速度极快,每秒可达 250 个 token,是同等智能模型的 4 倍,大多数任务在 30 秒内完成。Composer 通过语义搜索等工具训练,对大型代码库的理解和处理能力显著更强。模型支持调用多种工具,如代码编辑、终端命令和语义搜索,同时具备并行处理能力,可并行运行多个智能体以提升复

AI中国 AI中国
207 0
加载更多

推荐文章

速抢(2核2G)77元/年香港免备案服务器

速抢(2核2G)77元/年香港免备案服务器

0秒前 • AI热点
Liquid AI发布 LFM2-8B-A1B:8B 参数仅激活1.5B,手机上跑出4B级AI速度!

Liquid AI发布 LFM2-8B-A1B:8B 参数仅激活1.5B,手机上跑出4B级AI速度!

1月前 • AI热点
首发 2199 → 1382 元:小米米家扫拖机器人 5C 再降价,超远机械臂外扩清洁

首发 2199 → 1382 元:小米米家扫拖机器人 5C 再降价,超远机械臂外扩清洁

1月前 • AI热点
Anthropic 发布 LLM Agent 工具编写指南,助力开发者提升效率

Anthropic 发布 LLM Agent 工具编写指南,助力开发者提升效率

2月前 • AI热点
我国自主研发“磐石・科学基础大模型”发布:系统掌握数理化天地生六大学科核心定理

我国自主研发“磐石・科学基础大模型”发布:系统掌握数理化天地生六大学科核心定理

4月前 • AI热点
最新AI产品去哪看?最新AI产品收录网站推荐

最新AI产品去哪看?最新AI产品收录网站推荐

7月前 • AI热点
AI新手福音!AingDesk一键打造智能助手,多模型对话即将引爆

AI新手福音!AingDesk一键打造智能助手,多模型对话即将引爆

6月前 • AI热点
AI伴侣的温柔陷阱:算法虽懂你,但也纵容了人性弱点

AI伴侣的温柔陷阱:算法虽懂你,但也纵容了人性弱点

4月前 • AI热点

热门标签

Grok 4 Heavy ComfyUI插件 永久 创业者 头部 AI隐私保护 发现《Hard Rock Trailer Power No Mel》 PenskeMediaCorporation 测试 挑战

热门作者

作者头像

AI前沿

2.4k 粉丝

作者头像

机器学习实验室

1.8k 粉丝

作者头像

AI创业圈

3.1k 粉丝

AI学习站

用AI颠覆视频创作!学习如何通过AI生成视频脚本、自动剪辑、添加特效与字幕,掌握低成本制作高质量宣传片、短视频、动画的全流程技巧,提升创作效率10倍。

快速链接

  • 首页
  • AI热点
  • AI教程

联系我们

  • gzhcly@qq.com

Copyright © 2025 All rights reserved. AI学习站 黔ICP备2025045649号-2

隐私政策 使用条款 免责声明