AI新词

NVIDIA放大招!Llama-Nemotron-Nano-VL-8B-V1发布,图像视频文本全能,微调王座谁与争锋?

人工智能领域的竞争日趋白热化,NVIDIA再次以其强大的技术实力引领潮流。AIbase从社交媒体平台获悉,NVIDIA最新发布了Llama-3.1-Nemotron-Nano-VL-8B-V1,一款支持图像、视频和文本输入的视觉到文本模型,输出高质量文本并具备图像推理能力。这一模型的发布不仅展示了NVIDIA在多模态AI领域的雄心,也为开发者提供了高效的轻量化解决方案。本文将为您详细解析这款模型的

Ring 门铃与摄像头迎来 AI 升级:提供详细运动事件描述,隐私引关注

亚马逊旗下的智能家居安全公司 Ring 于本周三宣布,将在其门铃和摄像头产品中引入一项创新的人工智能功能。这项新功能将为用户提供其设备检测到的运动活动的具体文本描述,从而显著提升实时通知的清晰度。现在,当用户收到关于房屋周围事件的实时通知时,更新后的信息将更加详细和直观。例如,通知可能显示为“一个人正带着一只黑狗走上台阶”,或者“两个人正盯着停在车道上的一辆白色汽车”。这与以往模糊的通知相比,无疑

OpenAI升级AI智能体开发工具,支持TypeScript 、改进语音对话

OpenAI 宣布对其 AI 智能体开发工具进行了一系列重要升级。此次更新不仅提升了平台的兼容性,还对语音界面进行了优化,同时增强了可观测性(observability),使得开发者在构建 AI 智能体时能更加得心应手。OpenAI 为其 Agents SDK 新增了对 TypeScript 的支持。这一举措让 JavaScript 和 Node.js 环境下的开发者也能参与到智能体的开发中。新版

谷歌重启 AI 驱动的 “Ask Photos” 功能,提升搜索速度!

近日,谷歌宣布其 AI 驱动的 “Ask Photos” 搜索工具将重新开放访问,并对该功能进行了一系列改进。在此之前,谷歌曾悄然暂停了该工具的推出,以便进一步优化用户体验。“Ask Photos” 工具由谷歌的 Gemini AI 模型提供支持,用户可以通过提出复杂的问题来快速找到所需的照片。尽管该功能具有很大的潜力,但在本月初,谷歌照片团队的一位成员在社交媒体平台 X 上表示,当前的工具在延迟

图片巨头Getty Images撤回对 Stability AI 的版权诉讼核心张,英国诉仍在继续

近日,Getty Images公司在伦敦高等法院宣布,已撤回对 Stability AI 的主要版权侵权指控举使得这场备受关注的法律斗争进一步缩小了焦点。此次诉讼的核心是关于 AI 公司如何使用受版权保护的内容来训练其模型的问题。图源备注:图片由AI生成,图片授权服务商Midjourney虽然Getty Images的撤诉并未结束案件,但公司仍在追究其他指控,并在美国提起了独立的诉讼。这一发展突显

米其林星级餐厅用AI设计菜谱引争议:千元晚餐竟是ChatGPT"创作"?

当获奖厨师Grant Achatz宣布使用ChatGPT为其芝加哥米其林星级餐厅Next设计九道菜菜谱时,餐饮界掀起了一场关于AI是否应该介入创意烹饪的激烈辩论。这一争议源于一个看似无害的社交媒体现象。2024年10月,一家名为Ethos的奥斯汀"餐厅"在Instagram上走红,数千粉丝被其展示的无皮披萨球和尘螨面包等奇异菜品吸引。然而,Ethos只存在于虚拟世界——它是一个完全由AI生成内容的

英伟达与MIT合作推出 Fast-dLLM 框架,AI 推理速度提升 27.6 倍

近日,科技巨头英伟达联合麻省理工学院(MIT)与香港大学,发布了名为 Fast-dLLM 的新框架。这一创新的框架旨在显著提高扩散模型(Diffusion-based LLMs)的推理速度,最高可达27.6倍,为人工智能的应用提供了更为强大的技术支持。 扩散模型的挑战与机遇扩散模型被视为传统自回归模型(Autoregressive Models)的有力竞争者。它采用双向注意力机制(Bidirect

Runway AI重磅推出“游戏世界” 大型互动文本冒险来了

近日,AI技术先锋企业Runway宣布即将推出其全新生成式AI平台“游戏世界”(Game Worlds),这一创新产品不仅标志着Runway从影视领域的成功拓展至游戏行业,更为广大创作者和玩家带来了全新的互动体验。“游戏世界”:AI驱动的互动文本冒险Runway的“游戏世界”平台以生成式AI为核心,允许用户通过简单的文字输入即可创建并体验基于文本的冒险游戏。与传统游戏开发需要大量资源和专业技能不同

Gemini 即将取代 Google 助手,隐私保护新模式来袭!

Google 近期宣布,将在7月7日推出一项重大更新,让其全新的 AI 助手 Gemini 成为用户手机的智能助理。这一更新允许 Gemini 在用户的手机上执行多项任务,比如拨打电话、发送信息、使用 WhatsApp 等,且无需开启 Gemini 应用。听起来是不是很方便?不过,随着这一变化,许多用户对隐私问题表示担忧。Google 在与 AndroidPolice 的沟通中表示,用户可以随时选

通义千问正式发布Qwen3-Embedding系列模型

近日,通义千问官方正式发布了Qwen3-Embedding系列模型,作为Qwen模型家族的新成员,该系列模型专为文本表征、检索与排序任务而设计。Qwen3-Embedding系列基于Qwen3基础模型进行训练,充分继承了Qwen3在多语言文本理解能力上的显著优势。该系列模型在多项基准测试中表现出色,特别是在文本表征和排序任务中展现了卓越性能。测试使用了MTEB(包括英文版v2、中文版v1、多语言版