前OpenAI、DeepMind研究员领衔，50+位专家谈AI编程、Agent与具身智能，2025全球机器学习技术大会议程首发！

你还记得上次被大模型产品 amazing 的瞬间吗？

如今，AI 已经从惊艳的 Demo 转向一场关乎架构、系统、数据与商业闭环的硬核攻坚战。真正的考题摆在眼前：如何让技术突破成为可持续的产业能力？

10 月 16–17 日，由 CSDN&奇点研究院联合举办的 2025 全球机器学习技术大会将在北京威斯汀酒店隆重举行，汇聚来自高校科研工作者、顶会论文作者与一线科技产业技术实践派的 50+ 位重量级嘉宾。他们将以实战经验与前沿洞察，带来关于智能体工程与实践、AI 编程、多模态大模型、具身智能、开源模型与框架等领域的深度解读与破局思路。

官网： https://ml-summit.org/

从顶尖议题看 AI 落地真径，首批嘉宾阵容重磅揭晓

为了系统性地回答这一时代命题，本次大会精心设计了一份 AI “全栈作战地图”。围绕技术深度与应用价值的双重驱动，共设置了大语言模型技术演进、智能体工程与实践、多模态与世界模型、AI 赋能软件研发与氛围编程、大模型应用开发实践、GenAI 产品创新与探索、具身智能与智能硬件、大模型+行业落地实践、开源模型与框架、大模型系统架构、AI Infra 大模型基础设施、算力基建与性能优化这 12 大核心专题，旨在穿透喧嚣，直击要害。

这不仅是一份议题列表，更是一份导航图。接下来，我们将逐一揭晓那些站在浪潮之巅的领航者，聆听他们带来的破局之声。

赵健：AI 安全与治理

赵健是中国电信人工智能研究院多媒体认知学习实验室主任、资深研究科学家。他长期专注于 AI 治理与临地安防研究，博士毕业于新加坡国立大学（师从颜水成教授），发表 CCF-A 类论文 40 余篇，其中多篇发表于 T-PAMI、IJCV 等国际顶刊，谷歌学术引用超 4900 次。作为多项国家级及企业合作项目负责人，其成果已在中国电信等多家领军企业落地，取得显著效益。赵健曾获吴文俊人工智能优秀青年奖、吴文俊人工智能自然科学奖一等奖等重要荣誉，并在国内外科技赛事中 8 次夺冠，是国内外公认的青年学者与技术领军人才。

在 2025 ML-Summit 上，赵健将从多个维度介绍在 AI 治理方面的思考探索与创新实践，并给出未来展望。

周盼：理想同学实时语音对话大模型 MindGPT-4o-Audio 技术实践

周盼，理想汽车基座模型部多模态大模型算法专家，博士毕业于中国科学技术大学，长期深耕语音识别与交互领域。先后在科大讯飞、搜狗、腾讯从事算法研发工作，积累了丰富的一线经验。如今，他的研究重心转向语音与视觉的融合，致力于推动多模态大模型在智能出行场景中的落地。

他本次在 2025 ML-Summit 大会上将分享理想同学实时语音对话大模型 MindGPT-4o-Audio。该模型是一款全双工、低延迟的端到端语音系统，可实现像人类一样“边听边说”的自然对话，并在语音知识问答、多角色高表现力语音生成、多样风格控制及外部工具调用等方面表现出色，达到了媲美真人对话的自然交互水平。

冷大炜：FG-CLIP—面向大规模搜广推的高精度图文对齐与向量化

冷大炜是 360 人工智能研究院副院长、多模态方向负责人，中国图象图形学学会理事，长期专注于多模态与跨模态学习、大模型与 zero/few-shot 学习。他带领团队在中文图文跨模态学习、开放世界目标检测、视频分析、AIGC 图像生成及多模态大模型等领域持续创新，并将成果大规模落地于安全大数据、信息分发、企业数字化与 AIoT 等业务，服务亿级用户。

在本次演讲中，他将分享 FG-CLIP 针对传统 CLIP 模型“整体语义优先、细节缺失”的瓶颈提出突破方案，并在保证高并发、低延迟的前提下，显著提升对齐精度与落地可行性，展示多模态大模型走向产业级应用的关键路径。

张恒：国星宇航 AI 技术 CTO

张恒现任国星宇航 AI 技术 CTO，同时也是北京航空航天大学人工智能讲席教授。他长期专注于将前沿学术研究转化为成熟的算法产品，博士毕业于英国伦敦帝国理工学院，带领团队连续两年斩获 5 项 CVPR 赛事冠军。作为欧盟玛丽居里学者与深圳市海外高层次人才，他在大规模数字孪生、GenAI 及多模态大模型等领域拥有深厚积累，是兼具顶尖学术背景与产业落地经验的复合型专家。

在本次分享中，张恒将以「AI 视觉算法产品落地研究」为题，结合其在计算机视觉领域十余年的产学研经验，系统性地剖析从实验室原型到亿级用户产品的全周期研发流程。报告将聚焦如何将顶会算法高效转化为成功的商业应用，并分享在数据工程优化、模型轻量化部署以及算法性能与用户体验平衡上的核心方法论与实战策略，旨在帮助参会者构建“技术-产品-场景”三位一体的落地思维。

张军：文心 4.5 开源大模型及关键训练技术

现任百度资深工程师，还是飞桨（PaddlePaddle）开源社区的核心维护者之一的张军长期深耕开源生态建设，并曾担任开放原子开源基金会技术监督委员会成员。在自然语言处理、云计算、深度学习等方向拥有五十余件发明专利。

随着文心 4.5 系列大模型的开源，如何在保持性能的同时提升推理与部署效率成为关键议题。他将基于飞桨框架，分享文心大模型的整体进展，以及 ERNIEKit 与 FastDeploy 在模型精调与高效推理中的技术突破，深入解析训练与部署过程中的核心挑战与解决思路。

张道鑫：多模态大模型在小红书搜索中的应用

张道鑫是小红书多模态搜索及国际化算法负责人，硕士毕业于浙江大学。他长期专注于多模态理解与检索领域，曾在阿里巴巴、现于小红书主导搭建了视觉搜索、商品理解、视频结构化等多个核心多模态系统，拥有丰富的业界落地经验。同时，其研究成果亦发表于 ICCV、SIGIR 等国际顶会，兼具深厚的学术背景与产业视野。

本次分享将首先介绍小红书作为 UGC 内容平台在搜索业务上面临的独特场景与挑战。随后，他将聚焦多模态搜索，从以图搜图、图片搜索、视频搜索到多模态 AI 搜索，系统介绍大模型在四大核心场景的应用进展。最后，他将深入算法细节，重点探讨多模态大模型在内容理解及 RAG 系统中的实践，并分享其在大规模业务场景中落地的宝贵经验与思考。

韩艾：OxyGent——京东零售开源的多智能体协作框架

作为京东集团算法总监，韩艾博士不仅是京东零售数据与算法通道委员，同时也是 OxyGent 开源项目的架构师与核心开发者。他拥有中科院与康奈尔大学联合博士学位及北大双学士背景，长期专注于多智能体动态规划与联合训练，并主导了京东商家智能助手的多智能体系统框架。除产业研发外，他还积极投身学术合作，担任多所高校的硕士企业导师与客座教授。

本次分享将介绍京东零售开源的多智能体协作框架 OxyGent。这一框架于今年 7 月正式开源，核心思路是将工具、模型和智能体抽象为可插拔模块（Oxy），开发者可以像“搭积木”一样灵活组合，构建高扩展性、多样化的智能体系统。凭借全链路决策追溯能力，OxyGent 为产业级多智能体应用提供了高效而透明的解决方案。

王沛雨：多模态推理和统一模型

作为昆仑万维多模态大模型 Tech Lead，长期负责多模态推理、多模态 reward model、理解与生成一体化等核心研究工作。他主导的 Skywork-r1v 系列模型在 Hugging Face 上单月下载量近 10 万次，其中 r1v 作为全球首个工业界多模态思维链推理模型，实现了将文本推理能力迁移至视觉任务，并奠定了统一多模态推理的基础。

在本次分享中，王沛雨将系统介绍 r1v 到 r1v3 的演进路径，从轻量化视觉投影器与混合优化框架的结合，到创新强化学习策略（如 SSB、MPO 融合）、跨模态因果建模与效率优化，最终实现推理速度提升 6 倍、MMMU 达 76.0，超越部分闭源模型，接近人类初级专家水平。这一系列突破展示了开源多模态推理模型的前沿探索与产业潜力。

崔程：飞桨 PaddleOCR 最新技术与产业实践

崔程，百度飞桨 PaddleOCR 与 PaddleX 套件技术负责人，长期负责视觉与 OCR 类模型研发，参与开发飞桨 PP 系列模型 80 余个，包括 PP-LCNet、PP-OCR、PP-YOLO、RT-DETR 等系列，并在公司多个计算机视觉项目中积累丰富经验，申请国内外专利 30 余项。曾获得 10 余项国际 AI 竞赛金牌或冠军，其中包含 CVPR、ICCV 等 WorkShop 奖项，其项目“濒危物种 AI 守护官 2.0”获 2025 年爱迪生奖银奖。

本次分享将介绍 OCR 当前的挑战及 PaddleOCR 3.0 系列的新特性，包括新一代通用文字识别模型 PP-OCRv5、文档解析工具 PP-StructureV3 以及 OCR+LLM 的关键信息抽取方案 PP-ChatOCRv4。同时，他将展示 PaddleOCR 的 MCP 工具如何与大模型结合，为各行业提供效率提升方案，并分享实际落地案例。

肖朝军：MiniCPM——高效端侧大模型

肖朝军是清华大学计算机系博士后、MiniCPM4 主要作者，长期专注于高效大模型架构研究，在人工智能顶级会议发表论文十余篇，谷歌学术引用 3000 余次，曾获钱伟长中文信息处理科学技术奖一等奖、清华大学水木学者、腾讯犀牛鸟精英人才计划杰出奖学金等荣誉。

他主导研发的 MiniCPM 是面向端侧设备的高效大模型，在模型架构、训练算法、数据策略与推理系统四个维度实现系统性突破：通过稀疏注意力机制加速长上下文处理，UltraClean 提升数据质量，BitCPM 三值量化实现极致压缩，并配合 CPM.cu 推理引擎优化效率。在典型端侧芯片上，MiniCPM 实现了 5 倍以上推理加速，为大模型轻量化与产业落地开辟了新路径。

陈赢峰：具身智能技术在工程机械智能化中的应用

网易灵动技术&网易伏羲机器人算法负责人陈赢峰长期专注于具身智能与智能硬件的结合。近年来，他带领团队探索具身智能技术在工程机械智能化中的应用——这一领域既是制造业的“皇冠明珠”，也是验证具身智能真实价值的最佳场景。

在本次分享中，他将以人机协作挖掘机器人自动装车为案例，介绍远控挖掘机的技术实现与难点，解析如何构建基于远控设备的具身智能数据闭环，并分享团队在基于 VLA 的端到端挖掘机自动装车模型上的最新进展。

张少博：LLM Agent 在软件工程领域的应用

张少博是智谱 AI CodeGeeX 算法研究员，2017 年硕士毕业于德州大学软件工程专业，长期专注于 NLP 及模型训练与应用落地。

在本次分享中，张少博将带来 LLM Agent 在软件工程领域的应用分享，聚焦如何让大语言模型不仅理解代码，还能自主规划、调用工具并完成复杂任务。他将展示 LLM Agent 解决真实开发问题的典型案例，并探讨 AI 开发助手的未来形态与应用前景。

张丹：AI 大模型助力驭势科技打破 L4 级自动驾驶的「99分困局」

自 2016 年加入以来，带领团队在 L4 级自动驾驶全栈技术上持续创新，探索大模型在自动驾驶中的应用与最佳实践。他们不仅在算法、框架与系统架构上取得突破，还成功构建了高安全性的自动驾驶系统，推动驭势科技率先实现多场景、全天候、真无人驾驶的商业化落地。

在本次分享中，张丹将聚焦如何通过 AI 大模型打破自动驾驶的「99 分困局」，加速行业从单一场景走向规模化与全场景应用，并揭示背后的工程化经验与未来趋势。

韩宗博：不确定性建模，迈向可靠的人工智能

韩宗博是北京邮电大学助理教授，在 ICML、NeurIPS、ICLR、CVPR、ICCV、ECCV 等国际顶级会议和期刊发表论文数十篇，并受邀为 IEEE TPAMI、NeurIPS 等高水平期刊及会议审稿。其论文谷歌学术被引 2000 余次，曾获腾讯犀牛鸟精英科研人才、WAIC 青年优秀论文提名奖及天津市自然科学一等奖，并主持国家自然科学基金青年学生基础研究项目。

在本次大会上，韩宗博将探讨深度学习模型在刻画真实世界不确定性方面的挑战，介绍预测不确定性的校准方法，以及对偶然不确定性、分布不确定性和认知不确定性三类关键来源的系统性分析。最终，他将提出相应的消减策略，以提升人工智能模型在复杂场景中的可靠性和安全性，为可持续部署和应用提供理论与实践指导。

演讲嘉宾与议题动态，请关注官网：https://ml-summit.org/。