多模态大语言模型 - AI学习站

科学家揭示大语言模型 “理解” 世界的新方式，堪比人类！

AI热点 7月前

科学家揭示大语言模型 “理解” 世界的新方式，堪比人类！

据科技日报报道，中国科学院自动化研究所的科研人员近期取得了重要突破。他们首次证实，多模态大语言模型在训练过程中能够自发 “理解” 事物，其理解方式与人类的认知非常相似。这一发现不仅为我们探索人工智能的思维机制开辟了新路径，还为未来开发能够像人类一样理解世界的人工智能系统奠定了基础。这项研究成果已在《自然・机器智能》杂志上发表。理解是人类智能的核心。当我们看到 “狗” 或 “苹果” 时，除了能够识别

AI中国

AI中国

214 0

昆仑万维开源SkyReels-V2：无限时长电影生成模型

AI热点 9月前

昆仑万维开源SkyReels-V2：无限时长电影生成模型

昆仑万维 SkyReels 团队正式发布并开源了 SkyReels-V2，这是全球首个使用扩散强迫（Diffusion-forcing）框架的无限时长电影生成模型。该模型通过结合多模态大语言模型(MLLM)、多阶段预训练、强化学习和扩散强迫框架来实现协同优化，标志着视频生成技术迈入了一个新的阶段。SkyReels-V2的发布旨在解决现有视频生成技术在提示词遵循、视觉质量、运动动态和视频时长协调上的

AI中国

AI中国

315 0

阿里国际数字贸易集团AI团队发布Ovis2.5:经济型视觉推理模型新突破

AI热点 5月前

阿里国际数字贸易集团AI团队发布Ovis2.5:经济型视觉推理模型新突破

阿里国际数字贸易集团（AIDC）的AI团队(AIDC-AI)近日发布全新多模态大语言模型Ovis2.5，提供9B和2B两种参数规模版本。该模型定位为经济型视觉推理解决方案，在其规模内展现出卓越性能，为多模态AI应用树立了新标杆。Ovis2.5的核心特性1. **原生分辨率感知**:Ovis2.5采用NaViT视觉编码器，无需损耗平铺即可保留图像的精细细节和全局结构，确保高质量的视觉处理能力。2.

AI中国

AI中国

228 0

AI热点 9月前

英伟达推多模态LLM Describe Anything：指定特定区域生成详细的描述

NVIDIA AI团队发布了一款革命性的多模态大语言模型——Describe Anything3B（DAM-3B），专为图像和视频的精细化、区域化描述而设计。这款模型凭借创新技术和卓越性能，在多模态学习领域掀起热议，成为AI技术发展的又一里程碑。以下，AIbase为您梳理这款模型的核心亮点与行业影响。区域化描述的突破DAM-3B以其独特的能力脱颖而出:能够根据用户指定的图像或视频区域（如点、框、涂

AI中国

AI中国

264 0

OpenAI没说的秘密，Meta全揭了？华人一作GPT-4o同款技术，爆打扩散王者

AI热点 9月前

OpenAI没说的秘密，Meta全揭了？华人一作GPT-4o同款技术，爆打扩散王者

声明:本文来自微信公众号“新智元”，作者:新智元，编辑:KingHZ，授权站长之家转载发布。自回归模型的新突破:首次生成2048×2048分辨率图像!来自Meta、西北大学、新加坡国立大学等机构的研究人员，提出了TokenShuffle，为多模态大语言模型（MLLMs）设计的即插即用操作，显著减少了计算中的视觉token数量，提高效率并促进高分辨率图像合成。图1:采用新技术的27亿参数自回归模

AI中国

AI中国

281 0

热门标签

美图设计室 Grok4 起点读书 AI应用生成 AIbase 国产Sora 教育材料 AI改变世界这就是AI API密钥 AI视频编辑器

热门作者

作者头像

AI科技前沿

102篇文章

作者头像

机器学习笔记

87篇文章

作者头像

AI绘画大师

64篇文章

热门阅读

1

6种AI声音克隆工具，听说还有99%的人不知道（建议收藏）

808 阅读

2

AI制作ASMR视频也能火爆全网，沉浸式切水果视频教程

616 阅读

3

【SD绘画教程】5月最新StableDiffusion保姆级全套教程+SD必备插件模型——秋叶SD零基础入门到精通 AI绘画出图全流程教学实战（附SD安装包）

614 阅读

4

蛋仔派对：看别人让豆包看图片猜人物，我便让他认一下蛋仔皮肤！

582 阅读

5

AI副业带货轻松变现，0基础3分钟搞定图文全流程！

581 阅读

6

【全108集】2025 最新发布！即梦AI3.0独家保姆级教程来啦！AI绘画+图生视频+脚本+剪辑完整流程详解！设计师必学的首款AI软件，按头就能学会

567 阅读

7

教运营使用DeepSeeK+ECharts画桑吉图

560 阅读

8

【拒绝人工智障！】为什么DeepSeek这么牛逼，到你手里却稀烂？三招教你把deepseek训练成你的私人AI助理，零基础小白轻松搞定大模型，我奶奶都能学会

526 阅读

9

分享4个超简单的DeepSeek提示词公式，让你的DeepSeek秒懂你

467 阅读

10

360 AI 浏览器来了！免费用 AI 还能剪视频？

440 阅读

11

MegaTTS3 V3版 - 去除上传npy限制真开源! 字节高保真语音克隆、文本转语音软件支持50系显卡本地一键整合包下载

430 阅读

12

即梦AI图片3.0智能参考图指南，也能一句话做出爆款设计了

428 阅读

13

【AI绘画】StableDiffusion插件之NSFW审查（瑟瑟审查）安装使用教程

428 阅读

14

Deepseek做表情包！首月变现！电脑操作有手就会~

413 阅读

15

如何免费使用VEO3？绝对不能错过的攻略

410 阅读

16

速抢（2核2G）77元/年香港免备案服务器

408 阅读

17

【AI绘画教程】专为电商设计师打造的StableDiffusion入门教程，从0到1掌握AI绘图+商业落地系列SD教程！基础入门+实战案例，一周掌握SD

400 阅读

18

怎样才能制作出一个数字人？一分钟教你完成AI数字人制作

378 阅读

19

AI都开始“教课”了？秘塔这波操作真的有点狠！

359 阅读

20

突破性更新！Vidu1.5让AI视频保持角色一致性从未如此简单～

357 阅读