不是视频模型“学习”慢,而是LLM走捷径|18万引大牛Sergey Levine
为什么语言模型能从预测下一个词中学到很多,而视频模型却从预测下一帧中学到很少?这是UC伯克利大学计算机副教授Sergey Levine最新提出的灵魂一问。他同时是Google Brain的研究员,参与了Google知名机器人大模型PALM-E、RT1和RT2等项目。Sergey Levine在谷歌学术的被引用次数高达18万次。“柏拉图洞穴”是一个很古老的哲学比喻,通常被用来说明人们对世界认知的局