AI

对话智源研究院王仲远:做具身智能的“安卓系统”,而非专用的“iOS”

大模型的发展正在遭遇瓶颈。随着互联网文本数据被大规模消耗,基于数字世界训练的AI模型性能提升速度明显放缓。与此同时,物理世界中蕴藏着数字世界数百倍甚至千倍的多模态数据,这些数据远未被有效利用,成为AI发展的下一个重要方向。在2025北京智源大会上,智源研究院发布了“悟界”系列大模型,试图推动AI从数字世界迈向物理世界,实现所谓的物理AGI。这一系列包含原生多模态世界模型Emu3、脑科学多模态通用

真实场景文档理解:字节发布的WildDoc基准数据集向OCR提出了什么挑战?

最近,字节跳动团队联合华中科技大学发布的基准数据集 WildDoc 引起了对 OCR 能力的再衡量。WildDoc是首个专为评估自然环境中文档理解能力而设计的基准,它融合了一系列反映真实世界条件的人工捕获的文档图像,选取了 3 个常用的具有代表性的文档场景作为基准(Document/Chart/Table), 包含超过 12,000 张手动拍摄的图片,覆盖了环境、光照、视角、扭曲和拍摄效果等五个

AI疯狂进化6个月,一张天梯图全浓缩!30+模型混战,大神演讲爆火

半年之期已到,AI龙王归位!(AI卷成啥样了?)就在刚刚,AI圈大神Simon Willison在旧金山AI工程师世博会(AI Engineer World’s Fair)上带来爆笑又干货满满的主题演讲:「过去六个月中的LLM——由骑自行车的鹈鹕来解释」。大神本来想回顾过去一年的发展,但这半年「发生了太多事情」,只好改成过去6个月。事后看来,这依然有些愚蠢——AI领域的发展速度之快,以至于即便要