AI

对话智源研究院王仲远:做具身智能的“安卓系统”,而非专用的“iOS”

大模型的发展正在遭遇瓶颈。随着互联网文本数据被大规模消耗,基于数字世界训练的AI模型性能提升速度明显放缓。与此同时,物理世界中蕴藏着数字世界数百倍甚至千倍的多模态数据,这些数据远未被有效利用,成为AI发展的下一个重要方向。在2025北京智源大会上,智源研究院发布了“悟界”系列大模型,试图推动AI从数字世界迈向物理世界,实现所谓的物理AGI。这一系列包含原生多模态世界模型Emu3、脑科学多模态通用

真实场景文档理解:字节发布的WildDoc基准数据集向OCR提出了什么挑战?

最近,字节跳动团队联合华中科技大学发布的基准数据集 WildDoc 引起了对 OCR 能力的再衡量。WildDoc是首个专为评估自然环境中文档理解能力而设计的基准,它融合了一系列反映真实世界条件的人工捕获的文档图像,选取了 3 个常用的具有代表性的文档场景作为基准(Document/Chart/Table), 包含超过 12,000 张手动拍摄的图片,覆盖了环境、光照、视角、扭曲和拍摄效果等五个