AI热点 5小时前 69 阅读 0 评论

前OpenAI、DeepMind研究员领衔,50+位专家谈AI编程、Agent与具身智能,2025全球机器学习技术大会议程首发!

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

你还记得上次被大模型产品 amazing 的瞬间吗?

如今,AI 已经从惊艳的 Demo 转向一场关乎架构、系统、数据与商业闭环的硬核攻坚战。真正的考题摆在眼前:如何让技术突破成为可持续的产业能力?

10 月 16–17 日,由 CSDN&奇点研究院联合举办的 2025 全球机器学习技术大会将在北京威斯汀酒店隆重举行,汇聚来自高校科研工作者、顶会论文作者与一线科技产业技术实践派的 50+ 位重量级嘉宾。他们将以实战经验与前沿洞察,带来关于智能体工程与实践、AI 编程、多模态大模型、具身智能、开源模型与框架等领域的深度解读与破局思路。

官网: https://ml-summit.org/

从顶尖议题看 AI 落地真径,首批嘉宾阵容重磅揭晓

为了系统性地回答这一时代命题,本次大会精心设计了一份 AI “全栈作战地图”。围绕技术深度与应用价值的双重驱动,共设置了大语言模型技术演进、智能体工程与实践、多模态与世界模型、AI 赋能软件研发与氛围编程、大模型应用开发实践、GenAI 产品创新与探索、具身智能与智能硬件、大模型+行业落地实践、开源模型与框架、大模型系统架构、AI Infra 大模型基础设施、算力基建与性能优化这 12 大核心专题,旨在穿透喧嚣,直击要害。

这不仅是一份议题列表,更是一份导航图。接下来,我们将逐一揭晓那些站在浪潮之巅的领航者,聆听他们带来的破局之声。

赵健:AI 安全与治理

赵健是中国电信人工智能研究院多媒体认知学习实验室主任、资深研究科学家。他长期专注于 AI 治理与临地安防研究,博士毕业于新加坡国立大学(师从颜水成教授),发表 CCF-A 类论文 40 余篇,其中多篇发表于 T-PAMI、IJCV 等国际顶刊,谷歌学术引用超 4900 次。作为多项国家级及企业合作项目负责人,其成果已在中国电信等多家领军企业落地,取得显著效益。赵健曾获吴文俊人工智能优秀青年奖、吴文俊人工智能自然科学奖一等奖等重要荣誉,并在国内外科技赛事中 8 次夺冠,是国内外公认的青年学者与技术领军人才。

在 2025 ML-Summit 上,赵健将从多个维度介绍在 AI 治理方面的思考探索与创新实践,并给出未来展望。

周盼:理想同学实时语音对话大模型 MindGPT-4o-Audio 技术实践

周盼,理想汽车基座模型部多模态大模型算法专家,博士毕业于中国科学技术大学,长期深耕语音识别与交互领域。先后在科大讯飞、搜狗、腾讯从事算法研发工作,积累了丰富的一线经验。如今,他的研究重心转向语音与视觉的融合,致力于推动多模态大模型在智能出行场景中的落地。

他本次在 2025 ML-Summit 大会上将分享理想同学实时语音对话大模型 MindGPT-4o-Audio。该模型是一款全双工、低延迟的端到端语音系统,可实现像人类一样“边听边说”的自然对话,并在语音知识问答、多角色高表现力语音生成、多样风格控制及外部工具调用等方面表现出色,达到了媲美真人对话的自然交互水平。

冷大炜:FG-CLIP—面向大规模搜广推的高精度图文对齐与向量化

冷大炜是 360 人工智能研究院副院长、多模态方向负责人,中国图象图形学学会理事,长期专注于多模态与跨模态学习、大模型与 zero/few-shot 学习。他带领团队在中文图文跨模态学习、开放世界目标检测、视频分析、AIGC 图像生成及多模态大模型等领域持续创新,并将成果大规模落地于安全大数据、信息分发、企业数字化与 AIoT 等业务,服务亿级用户。

在本次演讲中,他将分享 FG-CLIP 针对传统 CLIP 模型“整体语义优先、细节缺失”的瓶颈提出突破方案,并在保证高并发、低延迟的前提下,显著提升对齐精度与落地可行性,展示多模态大模型走向产业级应用的关键路径。

张恒:国星宇航 AI 技术 CTO

张恒现任国星宇航 AI 技术 CTO,同时也是北京航空航天大学人工智能讲席教授。他长期专注于将前沿学术研究转化为成熟的算法产品,博士毕业于英国伦敦帝国理工学院,带领团队连续两年斩获 5 项 CVPR 赛事冠军。作为欧盟玛丽居里学者与深圳市海外高层次人才,他在大规模数字孪生、GenAI 及多模态大模型等领域拥有深厚积累,是兼具顶尖学术背景与产业落地经验的复合型专家。

在本次分享中,张恒将以「AI 视觉算法产品落地研究」为题,结合其在计算机视觉领域十余年的产学研经验,系统性地剖析从实验室原型到亿级用户产品的全周期研发流程。报告将聚焦如何将顶会算法高效转化为成功的商业应用,并分享在数据工程优化、模型轻量化部署以及算法性能与用户体验平衡上的核心方法论与实战策略,旨在帮助参会者构建“技术-产品-场景”三位一体的落地思维。

张军:文心 4.5 开源大模型及关键训练技术

现任百度资深工程师,还是飞桨(PaddlePaddle)开源社区的核心维护者之一的张军长期深耕开源生态建设,并曾担任开放原子开源基金会技术监督委员会成员。在自然语言处理、云计算、深度学习等方向拥有五十余件发明专利。

随着文心 4.5 系列大模型的开源,如何在保持性能的同时提升推理与部署效率成为关键议题。他将基于飞桨框架,分享文心大模型的整体进展,以及 ERNIEKit 与 FastDeploy 在模型精调与高效推理中的技术突破,深入解析训练与部署过程中的核心挑战与解决思路。

张道鑫: 多模态大模型在小红书搜索中的应用

张道鑫是小红书多模态搜索及国际化算法负责人,硕士毕业于浙江大学。他长期专注于多模态理解与检索领域,曾在阿里巴巴、现于小红书主导搭建了视觉搜索、商品理解、视频结构化等多个核心多模态系统,拥有丰富的业界落地经验。同时,其研究成果亦发表于 ICCV、SIGIR 等国际顶会,兼具深厚的学术背景与产业视野。

本次分享将首先介绍小红书作为 UGC 内容平台在搜索业务上面临的独特场景与挑战。随后,他将聚焦多模态搜索,从以图搜图、图片搜索、视频搜索到多模态 AI 搜索,系统介绍大模型在四大核心场景的应用进展。最后,他将深入算法细节,重点探讨多模态大模型在内容理解及 RAG 系统中的实践,并分享其在大规模业务场景中落地的宝贵经验与思考。

韩艾:OxyGent——京东零售开源的多智能体协作框架

作为京东集团算法总监,韩艾博士不仅是京东零售数据与算法通道委员,同时也是 OxyGent 开源项目的架构师与核心开发者。他拥有中科院与康奈尔大学联合博士学位及北大双学士背景,长期专注于多智能体动态规划与联合训练,并主导了京东商家智能助手的多智能体系统框架。除产业研发外,他还积极投身学术合作,担任多所高校的硕士企业导师与客座教授。

本次分享将介绍京东零售开源的多智能体协作框架 OxyGent。这一框架于今年 7 月正式开源,核心思路是将工具、模型和智能体抽象为可插拔模块(Oxy),开发者可以像“搭积木”一样灵活组合,构建高扩展性、多样化的智能体系统。凭借全链路决策追溯能力,OxyGent 为产业级多智能体应用提供了高效而透明的解决方案。

王沛雨:多模态推理和统一模型

作为昆仑万维多模态大模型 Tech Lead,长期负责多模态推理、多模态 reward model、理解与生成一体化等核心研究工作。他主导的 Skywork-r1v 系列模型在 Hugging Face 上单月下载量近 10 万次,其中 r1v 作为全球首个工业界多模态思维链推理模型,实现了将文本推理能力迁移至视觉任务,并奠定了统一多模态推理的基础。

在本次分享中,王沛雨将系统介绍 r1v 到 r1v3 的演进路径,从轻量化视觉投影器与混合优化框架的结合,到创新强化学习策略(如 SSB、MPO 融合)、跨模态因果建模与效率优化,最终实现推理速度提升 6 倍、MMMU 达 76.0,超越部分闭源模型,接近人类初级专家水平。 这一系列突破展示了开源多模态推理模 型的前沿探索与产业潜力。

崔程:飞桨 PaddleOCR 最新技术与产业实践

崔程,百度飞桨 PaddleOCR 与 PaddleX 套件技术负责人,长期负责视觉与 OCR 类模型研发,参与开发飞桨 PP 系列模型 80 余个,包括 PP-LCNet、PP-OCR、PP-YOLO、RT-DETR 等系列, 并在公司多个计算机视觉项目中积累丰富经验,申请国内外专利 30 余项。曾获得 10 余项国际 AI 竞赛金牌或冠军,其中包含 CVPR、ICCV 等 WorkShop 奖项,其项目“濒危物种 AI 守护官 2.0”获 2025 年爱迪生奖银奖。

本次分享将介绍 OCR 当前的挑战及 PaddleOCR 3.0 系列的新特性,包括新一代通用文字识别模型 PP-OCRv5、文档解析工具 PP-StructureV3 以及 OCR+LLM 的关键信息抽取方案 PP-ChatOCRv4。同时,他将展示 PaddleOCR 的 MCP 工具如何与大模型结合,为各行业提供效率提升方案,并分享实际落地案例。

肖朝军:MiniCPM——高效端侧大模型

肖朝军是清华大学计算机系博士后、MiniCPM4 主要作者,长期专注于高效大模型架构研究,在人工智能顶级会议发表论文十余篇,谷歌学术引用 3000 余次,曾获钱伟长中文信息处理科学技术奖一等奖、清华大学水木学者、腾讯犀牛鸟精英人才计划杰出奖学金等荣誉。

他主导研发的 MiniCPM 是面向端侧设备的高效大模型,在模型架构、训练算法、数据策略与推理系统四个维度实现系统性突破:通过稀疏注意力机制加速长上下文处理,UltraClean 提升数据质量,BitCPM 三值量化实现极致压缩,并配合 CPM.cu 推理引擎优化效率。在典型端侧芯片上,MiniCPM 实现了 5 倍以上推理加速,为大模型轻量化与产业落地开辟了新路径。

陈赢峰:具身智能技术在工程机械智能化中的应用

网易灵动技术&网易伏羲机器人算法负责人陈赢峰长期专注于具身智能与智能硬件的结合。近年来,他带领团队探索具身智能技术在工程机械智能化中的应用——这一领域既是制造业的“皇冠明珠”,也是验证具身智能真实价值的最佳场景。

在本次分享中,他将以人机协作挖掘机器人自动装车为案例,介绍远控挖掘机的技术实现与难点,解析如何构建基于远控设备的具身智能数据闭环,并分享团队在基于 VLA 的端到端挖掘机自动装车模型上的最新进展。

张少博:LLM Agent 在软件工程领域的应用

张少博是智谱 AI CodeGeeX 算法研究员,2017 年硕士毕业于德州大学软件工程专业,长期专注于 NLP 及模型训练与应用落地。

在本次分享中,张少博将带来 LLM Agent 在软件工程领域的应用分享,聚焦如何让大语言模型不仅理解代码,还能自主规划、调用工具并完成复杂任务。他将展示 LLM Agent 解决真实开发问题的典型案例,并探讨 AI 开发助手的未来形态与应用前景。

张丹:AI 大模型助力驭势科技打破 L4 级自动驾驶的「99分困局」

自 2016 年加入以来,带领团队在 L4 级自动驾驶全栈技术上持续创新,探索大模型在自动驾驶中的应用与最佳实践。他们不仅在算法、框架与系统架构上取得突破,还成功构建了高安全性的自动驾驶系统,推动驭势科技率先实现多场景、全天候、真无人驾驶的商业化落地。

在本次分享中,张丹将聚焦如何通过 AI 大模型打破自动驾驶的「99 分困局」,加速行业从单一场景走向规模化与全场景应用,并揭示背后的工程化经验与未来趋势。

韩宗博:不确定性建模,迈向可靠的人工智能

韩宗博是北京邮电大学助理教授,在 ICML、NeurIPS、ICLR、CVPR、ICCV、ECCV 等国际顶级会议和期刊发表论文数十篇,并受邀为 IEEE TPAMI、NeurIPS 等高水平期刊及会议审稿。其论文谷歌学术被引 2000 余次,曾获腾讯犀牛鸟精英科研人才、WAIC 青年优秀论文提名奖及天津市自然科学一等奖,并主持国家自然科学基金青年学生基础研究项目。

在本次大会上,韩宗博将探讨深度学习模型在刻画真实世界不确定性方面的挑战,介绍预测不确定性的校准方法,以及对偶然不确定性、分布不确定性和认知不确定性三类关键来源的系统性分析。最终,他将提出相应的消减策略,以提升人工智能模型在复杂场景中的可靠性和安全性,为可持续部署和应用提供理论与实践指导。

演讲嘉宾与议题动态,请关注官网:https://ml-summit.org/。

更多议题确认中:来自产学研顶尖力量的深度洞察

前面我们聚焦了 AI 赋能软件研发、 多模态、大模型、具身智能等领域的核心议题及技术分享,接下来大会还将邀请更多来自学界、产业巨头、明星创业公司及 开源社区的领军人物。他们或是定义了某个技术框架的架构师,或是推动了数亿用户产品落地的算法负责人,或是在顶级学术殿堂中探索 AI 边界的先锋学者。

  • 李建忠 奇点智能研究院院长,CSDN 高级副总裁

  • 吴翼 清华大学交叉信息研究院助理教授,前 OpenAI 研究员

  • Jianan Wang Astribot 副总裁,前 DeepMind 研究员

  • 张俊林 新浪微博首席科学家,AI 研发部负责人,中国中文信息学会理事

  • 陈旭 中国人民大学高瓴人工智能学院准聘副教授,国家优青项目主持人

  • 唐睿 群核科技首席科学家,英国巴斯大学博士,图形学与具身智能领域专家

  • 何万青 清程极智副总裁,前英特尔 DCAI 首席工程师、阿里云 HPC 负责人

  • 蒋宇东 哔哩哔哩智能创作技术负责人、算法专家,复旦大学硕士

  • 王召德 阿里淘天集团技术专家、MNN 团队架构师,中科院计算所硕士

  • 郑茂 腾讯混元技术专家、混元应用算法负责人,哈工大硕士

  • 杨晨 扣子(Coze)& 扣子罗盘服务端技术负责人,字节跳动 AI Platform 技术专家

  • 陈卓 腾讯高级研究员,中科院自动化所博士

  • 陆承镪 小红书 AI 搜索生成算法负责人

  • 陈一言 百度 Comate 团队编码智能体策略研发负责人

  • 李亚飞 ClackyAI 创始人&CEO,旗下拥有 ShowMeBug 与 ClackyAI。

  • 李升桂 SGLang 核心开发者,新加坡南洋理工大学博士生

更多演讲嘉宾与议题动态,请关注官网:https://ml-summit.org/。

共赴 AI 变革前沿,携手探索未来可能

2025 全球机器学习技术大会(ML Summit 2025)不仅是技术领域的深度交流平台,更是推动 AI 生态融合、促进行业协同创新的重要契机。本次大会汇聚全球顶尖专家与一线技术领军者,共同探讨 AI 技术的突破与落地,为企业、开发者和研究者搭建高效沟通与合作的平台。

我们诚邀全球 AI 产业参与者积极加入,共同捕捉前沿趋势,探索产业升级路径,推动 AI 走向更广阔的应用场景。期待在 ML Summit 2025,与每一位同行者携手见证 AI 时代的新篇章 !

提前预约 2025 全球机器学习技术大会全套 PPT 资料

官方网站:www.ml-summit.org

-821-5876

购票咨询:service@boolan.com

企业合作:partner@boolan.com

演讲申请:hemiao@csdn.net

媒体联系:media@boolan.com

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!