AI学习站
首页 AI热点 AI教程
用户头像

标准会员

会员时间

积分 0

历史 通知(0)
首页
AI动态
技术前沿
工具与教程
大模型
AI投资分析
AI落地
AI政策法规

登录账号

忘记密码?

还没有账号? 立即注册

我已阅读并同意用户协议和隐私政策

已有账号? 立即登录

OneCAT – 美团联合上交大推出的统一多模态模型
Top
AI视频 1天前 • 70

OneCAT – 美团联合上交大推出的统一多模态模型

OneCAT是什么OneCAT是美团推出的新型统一多模态模型,采用纯解码器架构,能无缝集成多模态理解、文本到图像生成和图像编辑功能。模型摒弃了传统多模态模型中依赖外部视觉编码器和分词器的设计,通过特定模态的专家混合(MoE)结构和多尺度自回归机制,实现了高效的多模态处理。在处理高分辨率图像输入和输出时表现出色。通过创新的尺度感知适配器和多模态多功能注意力机制,进一步增强了视觉生成能力和跨模态对

AI中国
AI中国

Read more
AI视频 1天前

剪映

剪映 是什么?**剪映(国际版称 CapCut,中国版称 JianYing)**由字节跳动开发,是一款兼具多平台支持与 AI 智能功能的视频和图像编辑工具。最初于 2019 年上线移动端,随后扩展至网页端与专业版桌面端(Windows/macOS)。剪映 应用场景社交媒体短视频创作:深度整合抖音(Douyin)平台资源,无论是日常记录、Vlog 还是创意视频,都能轻松剪辑并快速发布。

AI中国 AI中国
98 0
AI视频 1天前

InfinityHuman – 字节联合浙大推出的AI数字人视频生成模型

InfinityHuman是什么InfinityHuman 是字节跳动与浙江大学联合团队推出的商用级长时序音频驱动人物视频生成模型,开启 AI 数字人实用化新篇章。模型基于 coarse-to-fine 框架,生成低分辨率的动作表示,通过姿态引导细化器逐步生成高分辨率的长时视频。模型引入手部专属奖励机制,优化手部动作的自然性和同步性,有效解决现有方法中常见的身份漂移、画面不稳定和手部动作生硬等

AI中国 AI中国
109 0
AI视频 1天前

mobile-use – 开源的移动端AI Agents,自然语言控制手机

mobile-use是什么mobile-use是移动端AI Agents工具,支持自然语言控制Android和iOS设备,帮助用户操作手机。用户用日常语言下达指令,工具自动完成任务,如打开应用、填写表单、提取信息等。mobile-use能感知UI界面,智能导航,支持数据抽取和结构化处理。工具具有良好的可扩展性,支持配置不同的语言模型。mobile-use已在GitHub上开源,提供详细的使用指

AI中国 AI中国
134 0
AI视频 1天前

EmbeddingGemma – 谷歌开源的多语言文本嵌入模型

EmbeddingGemma是什么EmbeddingGemma是谷歌开源的多语言文本嵌入模型,专为端侧AI设计,支持在笔记本、手机等设备上部署。模型拥有3.08亿参数,基于Gemma 3架构打造,支持100多种语言,量化后内存占用不到200MB,能在EdgeTPU上15ms内生成嵌入向量。模型在海量文本嵌入基准(MTEB)上表现优异,性能接近尺寸翻倍的Qwen-Embedding-0.6B,能

AI中国 AI中国
158 0
AI视频 2天前

X-All in one

X-All in one 是什么?X-All in one 是由深圳遥声科技有限公司推出的自研型AI API平台,提供高性能、低成本的AI算力服务,特别适用于需要模型推理、高并发处理和跨区域服务的场景。平台依托三大运营商的国家级算力基础设施,具备弹性扩展与智能调度能力,支持从模型选型、优化、部署到运维的一站式服务。它采用分布式架构,自主研发核心引擎,在性能、稳定性、响应速度等方面表现突出。

AI中国 AI中国
82 0
AI视频 2天前

LongCat AI

LongCat 是什么?LongCat AI 是美团自研的大模型AI对话平台,其核心模型为最新开源的 LongCat-Flash-Chat。它基于 Mixture-of-Experts(MoE) 架构构建,总参数量高达 5600亿,但每次推理仅激活 186亿至313亿参数,平均激活约 270亿参数,显著提高了推理效率与算力利用率。LongCat已在多个国际大模型基准评测中名列前茅,表现出卓越的

AI中国 AI中国
152 0
Super Agent Party – 开源3D AI桌面伴侣,全渠道一键部署
AI视频 2天前

Super Agent Party – 开源3D AI桌面伴侣,全渠道一键部署

Super Agent Party是什么Super Agent Party 是开源的3D AI桌面伴侣软件,将桌宠、智能助手、知识库、机器人控制等多种功能集于一体。用户能通过Docker或源码快速部署到Windows、macOS、Linux等系统。Super Agent Party 支持接入微信、QQ、B站直播等平台,具备联网能力、永久记忆、代码执行和多模态交互等功能。软件能作为可爱的桌面宠物

AI中国 AI中国
103 0
AudioStory – 腾讯ARC推出的音频生成模型
AI视频 2天前

AudioStory – 腾讯ARC推出的音频生成模型

AudioStory是什么AudioStory 是腾讯 ARC 实验室发布的音频生成技术,能根据自然语言描述生成高质量的长篇叙事音频。采用分而治之策略,将复杂叙事请求拆解为有序子任务,通过解耦桥接机制,精准协调语义与音效细节。端到端训练方式,提升了模型协同作用,生成的音频具有时序逻辑与情绪层次。AudioStory的主要功能视频自动配音:用户上传无声视频并描述音效风格,AudioSt

AI中国 AI中国
190 0
Open-Fiesta – 开源的AI聊天平台,能同时运行多种模型对比
AI视频 2天前

Open-Fiesta – 开源的AI聊天平台,能同时运行多种模型对比

Open-Fiesta是什么Open-Fiesta 是开源的多模型 AI 聊天平台,基于 Next.js 14 构建。平台支持多种 AI 提供商(如 Gemini、OpenRouter 等)和多种模型,用户能同时选择 5 种模型进行对比。Open-Fiesta具备网页搜索、图片附件(仅 Gemini 支持)等功能,为用户提供简洁的用户界面和流畅的交互体验。基于配置环境变量(如 API 密钥),

AI中国 AI中国
92 0
AgentScope 1.0 – 阿里通义开源的多Agent开发框架
AI视频 2天前

AgentScope 1.0 – 阿里通义开源的多Agent开发框架

AgentScope 1.0是什么AgentScope 1.0 是阿里通义开源的多智能体开发框架,通过三层技术架构,AgentScope核心框架、AgentScope Runtime 和 AgentScope Studio,提供从开发到部署的全生命周期支持。AgentScope核心框架用模块化设计,包含消息、模型、记忆和工具四大组件,支持高效构建基于大语言模型的智能体应用。AgentScope

AI中国 AI中国
177 0
HunyuanWorld-Voyager – 腾讯推出的超长漫游世界模型
AI视频 2天前

HunyuanWorld-Voyager – 腾讯推出的超长漫游世界模型

HunyuanWorld-Voyager是什么HunyuanWorld-Voyager(简称混元Voyager)是腾讯推出的业界首个支持原生3D重建的超长漫游世界模型。是新颖的视频扩散框架,能从单张图片生成用户定义相机路径的3D点云序列,支持沿着自定义相机轨迹进行世界探索的3D一致场景视频生成,可生成对齐的深度和RGB视频,用于高效直接的3D重建。模型包含两个关键组件:世界一致视频扩散和长距离

AI中国 AI中国
62 0
USO – 字节跳动推出的内容与风格解耦与重组统一框架
AI视频 2天前

USO – 字节跳动推出的内容与风格解耦与重组统一框架

USO是什么USO(Unified Style-Subject Optimized)是字节跳动 UXO 团队推出的内容与风格解耦与重组统一框架。能将任何主题与任何风格在任何场景中自由组合,生成具有高度主体一致性、强烈风格保真度且自然、非塑料感的图像。USO 通过构建大规模三元组数据集,采用解耦学习方案同时对齐风格特征并分离内容与风格,引入风格奖励学习(SRL)来进一步提升模型性能。USO 发布

AI中国 AI中国
127 0
Prompt Tools – 开源AI提示词管理工具,支持跨平台运行
AI视频 2天前

Prompt Tools – 开源AI提示词管理工具,支持跨平台运行

Prompt Tools是什么Prompt Tools 是开源的桌面应用程序,能帮助用户高效管理 AI 提示词(Prompt)。工具支持跨平台运行(Windows、macOS、Linux),提供快速、安全的体验。用户能像管理笔记一样轻松创建、编辑、搜索和组织 Prompt,所有数据存储在本地,确保隐私安全。Prompt Tools是一个工具,更是一种高效的工作方式,能将零散的 Prompt 汇

AI中国 AI中国
172 0
编码面试解题助手 – 开源的AI编程辅助工具
AI视频 2天前

编码面试解题助手 – 开源的AI编程辅助工具

编码面试解题助手编码面试解题助手是面向中文用户的编程辅助工具,能通过快捷键抓取屏幕上的编程题目,实时借助AI生成解题思路和代码。在面试或笔试时,工具窗口能半透明置顶,不会导致原页面失焦,支持在屏幕分享时隐身,避免被发现。编码面试解题助手支持多种编程语言,如Python、JavaScript、Java、C++等,简单易用,只需配置API就能使用。编码面试解题助手的主要功能屏幕内容抓取:通

AI中国 AI中国
185 0
RealDevWorld – MetaGPT推出的AI自动化测试工具
AI视频 2天前

RealDevWorld – MetaGPT推出的AI自动化测试工具

RealDevWorld是什么RealDevWorld 是 MetaGPT 团队开发的新一代自动化测试工具。基于多智能体框架,通过模拟真实开发团队的工作流程,将需求分析、测试用例生成、代码调试到最终部署的全流程实现自动化。用户只需用自然语言描述需求,RealDevWorld 能自动生成测试用例,降低技术门槛。具备自愈测试脚本功能,能自动修复因 UI 更新失效的脚本,减少维护成本。RealDev

AI中国 AI中国
150 0
Kimi K2-0905 – 月之暗面推出的最新AI模型
AI视频 2天前

Kimi K2-0905 – 月之暗面推出的最新AI模型

Kimi K2-0905是什么Kimi K2-0905是月之暗面科技有限公司推出的AI大模型最新版本。模型在原有基础上进行增强,特别是在编程能力上,支持高达256K的上下文长度,远超之前的128K。Kimi K2-0905在创意写作、前端功能和与Claude Code的兼容性方面也有所提升,模型目前仍不具备思考或视觉能力,保留K2-0711模型的个性和风格。模型目前处于Beta测试阶段,尚未开

AI中国 AI中国
88 0
Apertus – 瑞士开源的首个大规模语言模型
AI视频 2天前

Apertus – 瑞士开源的首个大规模语言模型

Apertus是什么Apertus是瑞士EPFL、ETH Zurich和瑞士国家超级计算中心(CSCS)联合推出的瑞士首个大规模开放、多语言的大型语言模型,有70B和8B两个参数版本,用大规模语言进行训练,其中40%的数据为非英语,包括瑞士德语、罗曼什语等此前在LLM中被低估的语言。Apertus用解码器仅的Transformer架构,基于新的xIELU激活函数和AdEMAMix优化器。模型完

AI中国 AI中国
103 0
AI视频 2天前

Modor

Modor 是什么?Modor 是一款免费在线的 AI Mockup 生成器,允许用户快速创建专业产品展示图,无需设计技能。它支持从T恤、马克杯、书籍封面到移动设备等多种模板,只需上传设计,几秒钟即可生成高质量的Mockup图像。特别适合电商、品牌设计、社交媒体内容创建者使用。目前 Modor 拥有超过 10,000 个专业模板、支持 100K+ 图片下载、并且已有超 5000+ 用户 在使

AI中国 AI中国
172 0
AI视频 2天前

博简智慧专利

博简智慧专利 是什么?博简智慧专利 是一个强大的 AI 驱动的专利查新检索与撰写平台,接入全球170多个专利数据库,覆盖数据超过 2 亿条,支持语义检索与检索式检索,可实现精准专利文档分析,快速锁定相似与关联内容。它不仅让查新过程大幅提速(10 分钟完成以往需 2 天的工作),还可在3分钟内依据用户提供的创新说明,自动生成结构清晰、逻辑严谨、格式规范的交底书初稿,并智能给出优化建议、帮助拓宽

AI中国 AI中国
90 0
AI视频 2天前

TabTab AI

TabTab 是什么?TabTab 是一款 AI 驱动的全链路数据分析平台,自称为“你身边的 AI 数据分析师”。它不只是辅助你完成数据清洗、处理与可视化,而是模拟“人类分析师的思维”,自动思考、调用工具、生成可视化报告,实现从原始数据到业务洞察的全流程智能化处理。其核心定位是「Data Agent」,以 AI 编程逻辑驱动,通过类 Coding 的方式生成复杂图表与分析结论,彻底简化从数据

AI中国 AI中国
102 0
问小白o4 – 问小白推出的首个并行思考模型
AI视频 1周前

问小白o4 – 问小白推出的首个并行思考模型

问小白o4是什么问小白o4是国内首个并行思考模型,能同时启动8条思考路径,自动筛选最优解,提供精准答案。模型融合Long‑CoT强化学习与过程奖励学习,具备深度推理和高质量思考筛选能力。问小白o4在复杂任务上表现卓越,打字速度比DeepSeek R1提升70%,性能显著优于OpenAI o3-mini-medium和Claude Opus 4。模型适用学科试题、代码编程和搜索场景,能有效降低幻

AI中国 AI中国
160 0
SlowFast-LLaVA-1.5 – 苹果推出的多模态长视频理解模型
AI视频 1周前

SlowFast-LLaVA-1.5 – 苹果推出的多模态长视频理解模型

SlowFast-LLaVA-1.5什么SlowFast-LLaVA-1.5(简称SF-LLaVA-1.5)是专为长视频理解设计的高效视频大语言模型。基于双流(SlowFast)机制,平衡处理更多输入帧与减少每帧令牌数量之间的关系,能捕捉详细的空间特征,且能高效地处理长时序运动信息。模型包含从1B到7B参数规模的模型,基于简化的两阶段训练流程和高质量的公开数据集混合训练而成,模型在长视频理解任

AI中国 AI中国
153 0
FutureX – 字节联合复旦等高校推出的动态实时评估基准
AI视频 1周前

FutureX – 字节联合复旦等高校推出的动态实时评估基准

FutureX是什么FutureX是字节跳动、复旦大学、斯坦福大学和普林斯顿大学的研究团队联合发布的,专为LLM智能体未来预测任务设计的动态实时评估基准。通过半自动化管道从195个高质量网站实时收集未来事件问题,在事件解决后自动获取真实结果进行评分,有效避免了数据污染。FutureX覆盖政治、经济、金融、体育和娱乐等多个领域,包含单选、多选、开放性排名和数值预测等多种类型的问题,分为四个难度层

AI中国 AI中国
161 0
ComoRAG – 华南理工联合微信推出的认知启发式RAG框架
AI视频 1周前

ComoRAG – 华南理工联合微信推出的认知启发式RAG框架

ComoRAG是什么ComoRAG 是华南理工大学未来技术学院、微信 AI 团队等机构联合推出的认知启发式检索增强生成(RAG)框架,专门用在长篇叙事文本的理解和推理。ComoRAG能模拟人类大脑前额叶皮层的功能,基于动态记忆工作空间和迭代推理循环,将碎片化的证据整合为连贯的上下文,实现有状态的长篇叙事推理。在多个长文本叙事基准测试中,ComoRAG 显著优于传统 RAG 方法,在需要全局理解

AI中国 AI中国
100 0
Prompt Optimizer – 开源AI提示词优化工具,支持MCP协议
AI视频 1周前

Prompt Optimizer – 开源AI提示词优化工具,支持MCP协议

Prompt Optimizer是什么Prompt Optimizer 是开源的 AI 提示词优化工具,帮助用户快速编写高质量的提示词,提升 AI 输出的质量。一键优化提示词,支持多轮迭代改进,提升 AI 回复的准确度和相关性。支持系统提示词和用户提示词的优化,满足不同使用场景。支持原始提示词和优化后提示词的实时对比,直观展示优化效果。支持 OpenAI、Gemini、DeepSeek、智谱

AI中国 AI中国
114 0
Grok 2.5 – xAI正式开源的AI模型,前身是Grok 2
AI视频 1周前

Grok 2.5 – xAI正式开源的AI模型,前身是Grok 2

Grok 2.5是什么Grok 2.5 是埃隆·马斯克旗下 xAI 公司开源的人工智能模型。模型文件可在 Hugging Face 下载,包含 42 个文件,总大小约 500GB,需 8 张显存超 40GB 的 GPU 才能运行。开源采用 Grok 2 社区许可证协议,允许非商业与年收入低于 100 万美元的商业使用,禁止用于训练其他基础模型,使用时需标识 “Powered by xAI”。

AI中国 AI中国
178 0
Fun-ASR – 钉钉联合通义推出的语音识别大模型
AI视频 2周前

Fun-ASR – 钉钉联合通义推出的语音识别大模型

Fun-ASR是什么Fun-ASR 是钉钉与通义实验室语音团队联合推出的新一代语音识别大模型。经过海量音频数据训练,能精准识别互联网、科技、家装、畜牧等十多个行业的专业术语,能听懂“黑话”。例如,在保险行业,准确率较以往提升18%,在家装、畜牧等行业也实现了15%-20%的提升。模型能结合钉钉内的企业信息进行推理优化,减少幻觉问题,提供更可靠的转写结果。Fun-ASR支持企业专属模型定制训练,

AI中国 AI中国
123 0
Intern-S1-mini – 上海AI Lab开源的轻量级科学多模态推理模型
AI视频 2周前

Intern-S1-mini – 上海AI Lab开源的轻量级科学多模态推理模型

Intern-S1-mini是什么Intern-S1-mini是上海人工智能实验室推出的轻量级开源多模态推理模型。基于与 Intern-S1 相同的技术构建。模型融合 8B 密集语言模型(Qwen3)和 0.3B 视觉编码器(InternViT),在包含 2.5 万亿科学领域标记的多模态数据上进一步预训练,Intern-S1-mini 具备强大的通用能力,在解释化学结构、理解蛋白质序列和规划化

AI中国 AI中国
170 0
AI视频 2周前

Keeva

Keeva AI 是什么?Keeva AI 是一款多功能 AI 数字人视频创作工具,专为海外中小企业与个人内容创作者打造,提供一站式的脚本生成、语言翻译、数字人口播与视频制作解决方案。用户只需输入视频主题,即可一键生成脚本并自动合成数字人视频,也可上传自定义脚本进行个性化编辑,是营销短视频与教学演示的高效利器。Keeva AI 应用场景跨境电商营销:用数字人生成多语种产品介绍与广告视频

AI中国 AI中国
198 0
加载更多

推荐文章

西部首例:四川大学华西医院顺利完成脊髓损伤患者脑机接口手术,可脑控机械手

西部首例:四川大学华西医院顺利完成脊髓损伤患者脑机接口手术,可脑控机械手

1月前 • AI热点
对话王光熙:具身智能,下一个“汽车时代”?

对话王光熙:具身智能,下一个“汽车时代”?

1月前 • AI热点
DeepSeek可能使用了Google Gemini数据训练新 AI 模型

DeepSeek可能使用了Google Gemini数据训练新 AI 模型

3月前 • AI热点
Luma Labs 发布 Modify Video:AI视频后期一键改风格、换场景

Luma Labs 发布 Modify Video:AI视频后期一键改风格、换场景

3月前 • AI热点
速抢(2核2G)77元/年香港免备案服务器

速抢(2核2G)77元/年香港免备案服务器

0秒前 • AI热点
元宝怎么接入微信?请收下这份超详细使用指南

元宝怎么接入微信?请收下这份超详细使用指南

4月前 • AI热点
27B 显存需求 54 → 14.1GB:谷歌发布 Gemma 3 QAT AI 模型,RTX 3090 显卡可运行

27B 显存需求 54 → 14.1GB:谷歌发布 Gemma 3 QAT AI 模型,RTX 3090 显卡可运行

4月前 • AI热点
谷歌翻译转型“外语教练”:游戏化教学,AI 定制课程帮你突击场景交流

谷歌翻译转型“外语教练”:游戏化教学,AI 定制课程帮你突击场景交流

2周前 • AI热点

热门标签

行业观点 Midjourney 视频生成模型 生产力工具 国家发展和改革委员会 动画教程 批改邦 信息消费 AI评测 STEM教育

热门作者

作者头像

AI前沿

2.4k 粉丝

作者头像

机器学习实验室

1.8k 粉丝

作者头像

AI创业圈

3.1k 粉丝

AI学习站

用AI颠覆视频创作!学习如何通过AI生成视频脚本、自动剪辑、添加特效与字幕,掌握低成本制作高质量宣传片、短视频、动画的全流程技巧,提升创作效率10倍。

快速链接

  • 首页
  • AI热点
  • AI教程

联系我们

  • gzhcly@qq.com

Copyright © 2025 All rights reserved. AI学习站 黔ICP备2025045649号-2

隐私政策 使用条款 免责声明