AI学习站
首页 AI热点 AI教程
用户头像

标准会员

会员时间

积分 0

历史 通知(0)
首页
AI动态
技术前沿
工具与教程
大模型
AI投资分析
AI落地
AI政策法规

登录账号

忘记密码?

还没有账号? 立即注册

我已阅读并同意用户协议和隐私政策

已有账号? 立即登录

OneCAT – 美团联合上交大推出的统一多模态模型
Top
AI视频 3天前 • 74

OneCAT – 美团联合上交大推出的统一多模态模型

OneCAT是什么OneCAT是美团推出的新型统一多模态模型,采用纯解码器架构,能无缝集成多模态理解、文本到图像生成和图像编辑功能。模型摒弃了传统多模态模型中依赖外部视觉编码器和分词器的设计,通过特定模态的专家混合(MoE)结构和多尺度自回归机制,实现了高效的多模态处理。在处理高分辨率图像输入和输出时表现出色。通过创新的尺度感知适配器和多模态多功能注意力机制,进一步增强了视觉生成能力和跨模态对

AI中国
AI中国

Read more
AI视频 1月前

猫眼课题宝

猫眼课题宝是什么?猫眼课题宝 是由见鲸科技(南京)有限公司推出的一款 科研选题与课题申报智能服务平台,基于自主研发的 鲸灵AI科研大模型,依托 828 万+基金数据 与 1.6 亿+文献数据 深度训练,为科研人员提供 智能选题、标书生成、基金分析、文献分析、学科趋势预测、选题订阅 及 科研课程 等全链路服务,助力科研人员精准高效完成课题立项与申报。应用场景智能选题:从海量基金与文献数据

AI中国 AI中国
107 0
AI视频 1月前

AI Change Background

AI Change Background 是什么?AI Change Background 是一款基于人工智能的在线背景替换工具,能够在数秒内精准识别图片主体,并根据用户提供的文本提示生成全新的背景。无需模板库,只需一句话,就能为电商、创作者、设计师和各类专业人士提供高质量的背景更换与创意场景生成服务。无论是白底产品图、艺术写真,还是创意内容制作,都能实现专业化效果。AI Change B

AI中国 AI中国
60 0
AI视频 1月前

Polygraf AI

Polygraf AI 是什么?Polygraf AI 是一款专注于AI生成内容检测、版权保护、数据隐私安全与内容优化的全栈式AI安全工具平台。它利用先进的机器学习和自然语言处理技术,帮助用户快速识别 AI 生成或篡改的文本与媒体内容,同时保护个人和企业的敏感信息不被泄露。该平台不仅能检测 ChatGPT、Gemini、Claude 等 AI 模型生成的内容,还支持深度分析、抄袭检测、人类化

AI中国 AI中国
155 0
Awesome AI Agents – e2b-dev推出的AI Agent大合集GitHub
AI视频 1月前

Awesome AI Agents – e2b-dev推出的AI Agent大合集GitHub

Awesome AI Agents是什么Awesome AI Agents是e2b-dev维护的GitHub仓库,汇集和展示各种人工智能代理(AI Agents)相关的开源项目、闭源项目以及相关公司。仓库内容分为两部分:开源项目和闭源项目及公司。涵盖了从通用目的到特定领域(如编码、数据处理、商业智能等)的各种AI代理工具和框架。为开发者和研究人员提供了一个探索AI代理的平台,鼓励社区通过Pul

AI中国 AI中国
156 0
NeuralAgent – 开源的桌面AI助手,自然语言执行复杂任务
AI视频 1月前

NeuralAgent – 开源的桌面AI助手,自然语言执行复杂任务

NeuralAgent是什么NeuralAgent 是开源的桌面 AI 个人助手,通过自然语言指令自动化执行多种复杂任务,如模拟键盘输入、鼠标点击、浏览器导航、表单填写和邮件发送等。NeuralAgent 支持桌面自动化,在 Windows 平台上支持后台浏览器控制,实现高效任务处理。NeuralAgent 集成 Claude、GPT-4、Azure OpenAI、Bedrock、Ollama

AI中国 AI中国
145 0
self-llm – 专为中国开发者推出的开源大模型教程
AI视频 1月前

self-llm – 专为中国开发者推出的开源大模型教程

self-llm是什么self-llm (开源大模型食用指南)是Datawhale专为国内初学者打造的开源大模型教程,基于Linux平台,提供从环境配置到模型部署、微调的全流程指导,涵盖LLaMA、ChatGLM等主流模型。项目能简化开源大模型的使用流程,帮助学生和研究者快速上手。教程提供多种模型的详细教程、微调方法(如LoRA、ptuning)及应用案例,适合不同层次的学习者。项目鼓励社区参

AI中国 AI中国
194 0
WeKnora – 腾讯开源的文档理解与语义检索框架
AI视频 1月前

WeKnora – 腾讯开源的文档理解与语义检索框架

WeKnora是什么WeKnora 是腾讯开源的基于大语言模型(LLM)的文档理解与语义检索框架。框架基于模块化设计,支持多模态文档解析(如 PDF、Word、图片等),通过 RAG(检索增强生成)机制实现精准问答。WeKnora 提供强大的多模态认知引擎、灵活的检索策略、私有化部署和开箱即用的 Web UI 界面,适用于企业知识管理、科研文献分析、法律合规审查等场景,支持本地化部署和微信生态

AI中国 AI中国
97 0
LandPPT – 开源AI PPT生成工具,简化三步工作流
AI视频 1月前

LandPPT – 开源AI PPT生成工具,简化三步工作流

LandPPT是什么LandPPT 是AI演示文稿生成平台,能将文档内容快速转换为专业的 PPT 演示文稿。LandPPT支持 OpenAI、Claude、Gemini 等多种 AI 模型,兼容 PDF、Word、Markdown 等文件格式,支持智能解析内容,生成结构清晰的大纲和精美的 PPT 页面。平台提供丰富的模板系统和自定义功能,用户基于现代化的 Web 界面进行可视化编辑、实时预览和

AI中国 AI中国
105 0
GitMCP – 开源MCP服务器,可将GitHub仓库转为实时文档中心
AI视频 1月前

GitMCP – 开源MCP服务器,可将GitHub仓库转为实时文档中心

GitMCP是什么GitMCP 是开源的远程 Model Context Protocol (MCP) 服务器,能将 GitHub 仓库(包括代码库和 GitHub 页面)转变为实时文档中心,让 AI 工具(如 Cursor)直接访问最新文档和代码,消除代码幻觉提高代码准确性。GitMCP支持特定仓库和通用服务器两种模式,用户能根据需求选择。GitMCP 无需安装,零配置,支持嵌入式聊天,完全

AI中国 AI中国
169 0
GPT-5 – OpenAI推出的最新最强AI模型
AI视频 1月前

GPT-5 – OpenAI推出的最新最强AI模型

GPT-5是什么GPT-5 是 OpenAI 最新推出的人工智能模型,是目前最强模型,面向所有用户开放。GPT-5是一个统一系统,包括一个基础模型用在解答常见问题,一个深度推理模型(GPT-5 思维模块)用在处理复杂难题,一个实时路由模块根据对话类型、问题复杂度、工具需求和用户指令(如“仔细思考”)智能调度模型。GPT-5 在编程、写作、数学、健康等多个领域表现出色,大幅减少幻觉和错误,回答更

AI中国 AI中国
194 0
AI视频 1月前

无痕AI

🧠 无痕AI 是什么?无痕AI是一款专注于视频水印、字幕、文字、人或物体移除的AI视频处理平台,利用2025年最新深度学习模型,实现真正意义上的“无痕去除”。用户可通过简单上传、框选或选择处理模式,自动完成高质量的视频清理操作。该工具可高效批量处理视频,无需安装软件,广泛应用于短视频再创作、视频清洗、内容分发等场景,支持API接入和企业私有部署,功能已远超传统剪辑软件如PR、剪映等。📌

AI中国 AI中国
168 0
Qwen-Flash – 阿里通义推出的Qwen3系列高性能模型
AI视频 1月前

Qwen-Flash – 阿里通义推出的Qwen3系列高性能模型

Qwen-Flash是什么Qwen-Flash是阿里通义千问推出的Qwen3系列Flash模型,版本号为qwen-flash-2025-07-28。模型在通用能力、推理能力、中英文知识处理及Agent能力上均有显著提升,特别优化主观开放类任务的处理,能更好地满足用户需求。Qwen-Flash支持1M超长上下文,适合处理复杂任务。定价为每百万字符0.00015元,具有速度快、成本低的优势,适合简

AI中国 AI中国
85 0
Speech 2.5 – MiniMax推出的新一代语音生成模型
AI视频 1月前

Speech 2.5 – MiniMax推出的新一代语音生成模型

Speech 2.5是什么Speech 2.5 是 MiniMax 推出的新一代语音生成模型,在多语种表现力、音色复刻和语言覆盖范围上实现重大突破。模型支持40种语言,能精准还原不同语言和口音的细节,复刻音色时保留风格与情绪,跨语种切换依然逼真。Speech 2.5 适用企业多语种客服、创作者全球内容制作和教育者语言教学等场景,助力全球化内容创作与传播。用户可通过MiniMax开放平台和Min

AI中国 AI中国
137 0
dots.vlm1 – 小红书hi lab开源的首个多模态大模型
AI视频 1月前

dots.vlm1 – 小红书hi lab开源的首个多模态大模型

dots.vlm1是什么dots.vlm1 是小红书 hi lab 开源的首个多模态大模型。基于一个从零训练的 12 亿参数视觉编码器 NaViT 和 DeepSeek V3 大语言模型(LLM),具备强大的视觉感知和文本推理能力。模型在视觉理解和推理任务上表现出色,接近闭源 SOTA 模型水平,在文本任务上也保持了竞争力。dots.vlm1 的视觉编码器 NaViT 完全从零开始训练,原生支

AI中国 AI中国
67 0
Genie 3 – 谷歌DeepMind推出的新一代通用世界模型
AI视频 1月前

Genie 3 – 谷歌DeepMind推出的新一代通用世界模型

Genie 3是什么Genie 3是谷歌DeepMind推出的新一代通用世界模型,能实时生成高度动态且连贯的虚拟世界。模型具备模拟物理现象、自然生态系统、奇幻场景和历史场景的能力,支持用文本提示改变世界状态,如天气变化或引入新物体。Genie 3实现了长达数分钟的视觉一致性,视觉记忆能追溯到一分钟前。模型为AI智能体提供训练环境,支持复杂目标的实现,其技术突破为AI研究和应用带来新的可能性。

AI中国 AI中国
101 0
Claude Opus 4.1 – Anthropic推出的最新编程模型
AI视频 1月前

Claude Opus 4.1 – Anthropic推出的最新编程模型

Claude Opus 4.1是什么Claude Opus 4.1 是 Anthropic 公司最新推出的大型语言模型,是 Claude Opus 4 的升级版本。模型在多个方面进行优化和提升,包括推理质量、指令遵循能力及整体性能。在安全性评估中,Claude Opus 4.1 表现优异,拒绝违规请求的无害响应率从 97.27% 提升到 98.76%,同时在处理敏感主题的良性请求时,拒绝率极低

AI中国 AI中国
162 0
Chunkr – Lumina AI 推出的开源文档处理API
AI视频 1月前

Chunkr – Lumina AI 推出的开源文档处理API

Chunkr是什么Chunkr 是 Lumina AI 推出的开源文档处理 API,专为 RAG(检索增强生成)和知识库场景设计。Chunkr 能将复杂文档(如 PDF、PPT、Word、图片等)转换为结构化数据,支持多格式智能解析。Chunkr 核心功能包括高精度 OCR、语义分块、多格式输出(HTML、Markdown、JSON、纯文本)及与多种 LLM(如 OpenAI、Claude、O

AI中国 AI中国
109 0
LangExtract – 谷歌开源的结构化信息提取工具
AI视频 1月前

LangExtract – 谷歌开源的结构化信息提取工具

LangExtract是什么LangExtract 是谷歌开源的用在从非结构化文本中提取结构化信息的 Python 库。LangExtract 用大型语言模型(LLM),自动处理临床笔记、报告等材料,识别并组织关键细节,确保提取的数据与源文本精确对应。LangExtract支持多种 LLM,包括云托管模型(如 Google Gemini)和本地开源模型(通过 Ollama 接口)。LangEx

AI中国 AI中国
107 0
Qwen-Image – 阿里通义千问开源的文生图模型
AI视频 1月前

Qwen-Image – 阿里通义千问开源的文生图模型

Qwen-Image是什么Qwen-Image 是阿里通义千问团队开源的 20B 参数MMDiT模型,是通义千问系列中首个图像生成基础模型,模型在复杂文本渲染和精确图像编辑方面表现出色,支持多行布局、段落级文本生成及细粒度细节呈现,中英文都能实现高保真输出。Qwen-Image 在通用图像生成和编辑任务中展现出强大的能力,支持多种艺术风格和高级编辑操作。目前用户可通过Qwen Chat,图像生

AI中国 AI中国
152 0
AudioGen-Omni – 快手推出的多模态音频生成框架
AI视频 1月前

AudioGen-Omni – 快手推出的多模态音频生成框架

AudioGen-Omni是什么AudioGen-Omni是快手推出的多模态音频生成框架,框架能基于视频、文本等输入生成高质量的音频、语音和歌曲。框架通过统一的歌词-文本编码器和相位对齐各向异性位置注入(PAAPI)技术,实现精准的视听对齐和跨模态同步。框架支持多语言输入,推理速度快,1.91秒能生成8秒音频,且在多种音频生成任务上表现出色,适用视频配音、语音合成和歌曲创作等场景。Audi

AI中国 AI中国
87 0
gpt-oss – OpenAI开源的推理模型系列
AI视频 1月前

gpt-oss – OpenAI开源的推理模型系列

gpt-oss是什么 gpt-oss 是 OpenAI 推出的开源推理模型系列,包含 gpt-oss-120b 和 gpt-oss-20b 两个版本。gpt-oss-120b 拥有1170亿参数,激活参数约51亿,能在单张 80GB GPU 上运行;gpt-oss-20b 拥有210亿参数,激活参数约36亿,能在 16GB 内存的消费级设备(如笔记本或手机)上运行。两者均基于 MoE 架构,支持

AI中国 AI中国
114 0
Wuhr AI Ops – AI运维管理平台,提供一站式运维解决方案
AI视频 1月前

Wuhr AI Ops – AI运维管理平台,提供一站式运维解决方案

Wuhr AI Ops是什么Wuhr AI Ops是智能化运维管理平台,通过AI技术简化复杂的运维任务。平台集成多模态AI助手,支持自然语言交互执行运维命令,能一键切换K8s集群和Linux系统命令环境。平台具备实时监控、日志分析、CI/CD管理、用户权限管理等功能,支持本地和远程主机统一管理。平台用ELK日志分析和Grafana性能监控,提供可视化流水线配置和多环境部署支持,帮助运维团队实现

AI中国 AI中国
135 0
Skywork MindLink – 昆仑万维开源的推理大模型
AI视频 1月前

Skywork MindLink – 昆仑万维开源的推理大模型

Skywork MindLink是什么Skywork MindLink是昆仑万维推出开源的推理大模型。具有自适应推理机制,可根据任务复杂度灵活切换推理模式,简单任务快速生成,复杂任务深度推理,兼顾效率与准确性。计划驱动推理范式去掉了“think”标签,降低了推理成本,提升了多轮对话能力。提出了新的数学分析方法,显著提升了数学推理水平。在性能方面,Skywork MindLink在“人类最后的

AI中国 AI中国
76 0
ScreenCoder – 开源的智能UI截图生成前端代码工具
AI视频 1月前

ScreenCoder – 开源的智能UI截图生成前端代码工具

ScreenCoder是什么ScreenCoder 是开源的智能 UI 截图转代码系统,支持将任何设计截图快速转换为整洁、可编辑的 HTML/CSS 代码。ScreenCoder用模块化多智能体架构,结合视觉理解、布局规划和代码合成技术,生成高精度、语义化的前端代码。用户根据需求轻松修改布局和样式,实现设计与开发的无缝衔接,适用快速原型设计和像素级完美界面构建,大大提升前端开发效率。Scr

AI中国 AI中国
89 0
RedOne – 小红书推出的社交大模型
AI视频 1月前

RedOne – 小红书推出的社交大模型

RedOne是什么RedOne 是小红书推出的首个面向社交网络服务(SNS)领域的定制化大语言模型(LLM)。模型通过三阶段训练策略,注入社交文化知识,强化多任务能力,并对齐平台规范与人类偏好。相较于基础模型,RedOne 在八大社交任务上平均性能提升14.02%,在双语评测基准上提升7.56%。模型在有害内容检测中将曝光率降低11.23%,在浏览后搜索中将点击页面率提升14.95%。RedO

AI中国 AI中国
173 0
Windows-MCP – 开源的AI Agent与Windows系统无缝集成工具
AI视频 1月前

Windows-MCP – 开源的AI Agent与Windows系统无缝集成工具

Windows-MCP是什么Windows-MCP 是轻量级、开源的 AI Agent与 Windows 系统集成工具。Windows-MCP作为 MCP 服务器,让大语言模型(LLM)能直接操作 Windows,实现文件浏览、应用控制、UI 交互、QA 测试等功能。Windows-MCP支持任何 LLM,无需依赖传统计算机视觉或特定微调模型,具备丰富的 UI 自动化工具集,操作延迟低(1.5

AI中国 AI中国
193 0
Animated Drawings – Meta AI推出的AI手绘作品转动画工具
AI视频 1月前

Animated Drawings – Meta AI推出的AI手绘作品转动画工具

Animated Drawings是什么Animated Drawings是Meta AI推出的开源工具,基于AI技术将手绘人物绘画自动转化为动画。Animated Drawings提供一套完整的工具和算法,能检测、分割绘画中的人物,为其生成动画效果。用户能通过配置文件灵活控制动画的场景、动作和角色。工具提供自动注释生成工具,帮助用户快速创建动画所需的注释文件。Animated Drawing

AI中国 AI中国
173 0
MiDashengLM – 小米开源的高效声音理解大模型
AI视频 1月前

MiDashengLM – 小米开源的高效声音理解大模型

MiDashengLM是什么MiDashengLM是小米开源的高效声音理解大模型,具体参数版本为MiDashengLM-7B 。模型基于 Xiaomi Dasheng 音频编码器和 Qwen2.5-Omni-7B Thinker 解码器构建,用通用音频描述对齐策略,实现对语音、环境声音和音乐的统一理解。模型性能卓越,推理效率高,首 Token 延迟仅为业界先进模型的 1/4,支持大规模并行处理

AI中国 AI中国
62 0
Coze Loop – 字节Coze推出的AI Agent开发与调试平台
AI视频 1月前

Coze Loop – 字节Coze推出的AI Agent开发与调试平台

Coze Loop是什么Coze Loop(扣子罗盘)是字节跳动旗下Coze平台开源的专注于AI智能体(Agent)开发与运维的管理平台,为开发者提供从开发、调试、评估到监控的全生命周期管理能力。包括提示词工程、Agent效果评测、性能监控与调优、透明决策监控以及多模型对比。支持提示词的编写、优化和版本管理,提供AI辅助优化功能,显著提升提示词开发效率。Coze Loop通过系统化的评估体系,

AI中国 AI中国
154 0
Qwen3-235B-A22B-Thinking-2507 – 阿里推出的最新推理模型
AI视频 1月前

Qwen3-235B-A22B-Thinking-2507 – 阿里推出的最新推理模型

Qwen3-235B-A22B-Thinking-2507是什么Qwen3-235B-A22B-Thinking-2507 是阿里巴巴发布的全球最强开源推理模型。基于2350亿参数的稀疏混合专家(MoE)架构,每次激活220亿参数,拥有94层Transformer网络和128个专家节点。模型专为复杂推理任务设计,支持256K原生上下文处理能力,可应对长文本和深度推理链。在性能方面,Qwen3-

AI中国 AI中国
73 0
加载更多

推荐文章

Heygem本地安装失败?免费的AI数字人Heygem部署,仙宫云一键使用教程

Heygem本地安装失败?免费的AI数字人Heygem部署,仙宫云一键使用教程

1月前 • 图文教程
【comfyUI教程】火爆全网的AICG动画,只需3步!小白也能分分钟Get大佬同款神作!!

【comfyUI教程】火爆全网的AICG动画,只需3步!小白也能分分钟Get大佬同款神作!!

2月前 • 视频教程
向假医疗广告宣战!蚂蚁AQ上线AI打假功能,四大举措狙击“江湖郎中”

向假医疗广告宣战!蚂蚁AQ上线AI打假功能,四大举措狙击“江湖郎中”

3周前 • AI热点
OpenAI重磅升级Agents SDK:支持TypeScript和语音打断,2026年将淘汰Assistants API

OpenAI重磅升级Agents SDK:支持TypeScript和语音打断,2026年将淘汰Assistants API

3月前 • AI热点
零员工公司的崛起:一个人+AI如何打造独角兽

零员工公司的崛起:一个人+AI如何打造独角兽

1月前 • AI热点
​百度 2025 年第二季度财报发布:AI收入超100亿,核心净利润大增 35%

​百度 2025 年第二季度财报发布:AI收入超100亿,核心净利润大增 35%

2周前 • AI热点
特朗普发动的“关税战”,开始波及美国的 AI 业了!

特朗普发动的“关税战”,开始波及美国的 AI 业了!

5月前 • AI热点
速抢(2核2G)77元/年香港免备案服务器

速抢(2核2G)77元/年香港免备案服务器

0秒前 • 视频教程

热门标签

操作系统发布 量化交易 沙雕迷惑行为 ai照片 隔夜VC水 AI在电商中的应用 视频平台 Digg 语音模式 UCM技术

热门作者

作者头像

AI前沿

2.4k 粉丝

作者头像

机器学习实验室

1.8k 粉丝

作者头像

AI创业圈

3.1k 粉丝

AI学习站

用AI颠覆视频创作!学习如何通过AI生成视频脚本、自动剪辑、添加特效与字幕,掌握低成本制作高质量宣传片、短视频、动画的全流程技巧,提升创作效率10倍。

快速链接

  • 首页
  • AI热点
  • AI教程

联系我们

  • gzhcly@qq.com

Copyright © 2025 All rights reserved. AI学习站 黔ICP备2025045649号-2

隐私政策 使用条款 免责声明