产品评测 1月前 125 阅读 0 评论

AI大模型权威评测:豆包中文对话最强,OpenAI o1推理和数学占优

作者头像

AI技术专栏作家 | 发布了 246 篇文章

国产AI模型多点开花。



还有不到一周就2025年了,各大社交音娱平台相继自动弹出“年度报告”的搜索选项。身处AI元年,AI模型这份年终答卷,自然也少不了。 


智东西12月25日报道,智源研究院12月19日发布了FlagEval“百模”评测结果,今年国产大模型与海外大模型战况焦灼。 


在其闭源大模型评测能力总榜中,字节跳动的豆包通用模型pro拿到主观评测最高分,OpenAI的o1-mini拿到客观评测最高分;多模态模型评测总榜前三名依次是OpenAI的GPT-4o、字节跳动的豆包视觉理解模型、Anthropic的Claude 3.5 Sonnet。 


▲大语言模型评测能力榜单前三名(图片来源:智源研究院)


此次评测包含国内外累计100多个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型,新增了对于AI模型任务解决能力、真实金融量化交易场景应用能力、辩论能力的考量标准。 


同时,为了尽可能降低数据集泄露风险,并减少数据集饱和度问题,本次评测吸纳了近期发布的数据集、持续动态更新评测数据、替换了98%的题目以及提升了题目的难度。 


其实去年6月,智源研究院就上线了大模型评测平台FlagEval,到现在该平台已有基于AI的辅助评测模型FlagJudge、多模态评测框架FlagEvalMM和针对大模型新能力的评测集。其与北京大学共建的HalluDial是目前全球规模最大的、对话场景下的幻觉评测集,包含超18000个轮次对话和超14万个回答。 


从智源评测最新结果可以看出,今年下半年大模型发展更侧重综合能力提升与实际应用;多模态模型快速发展,该领域内涌现了不少新厂商与新AI模型;语言模型的发展则相对放缓。 


得益于多模态能力的提升,AI模型最新K12学科测验综合得分相较于半年前提升了12.86%,但是仍与北京海淀学生平均水平存在差距。不过,AI模型普遍存在“文强理弱”的偏科情况,在英语和历史文科试题的表现上,已有AI模型超越了人类考生的平均分。 


谷歌Gemini 1.5 Pro、阿里巴巴Qwen-VL-Max、Anthropic Claude 3.5 Sonnet、阶跃星辰Step 1V、南洋理工大学LLaVA-Onevision等7家AI模型的英语学科综合得分高于人类考生;阶跃星辰Step 1V、阿里巴巴Qwen-VL和Qwen-VL-Max、谷歌Gemini 1.5 Pro、南洋理工大学LLaVA-Onevision等12家AI模型的历史学科综合得分高于人类考生。 


▲大模型K12学科测验历史学科卷面分数榜单前五名(图片来源:智源研究院)


01.豆包中文对话能力最强,OpenAI o1系列推理水平断层领先


基于智源评测结果,今年多款国产大模型综合能力超过海外知名大模型。 


在闭源大模型主观评测中,豆包通用模型pro和百度ERNIE 4.0 Turbo的综合评分均领先于OpenAI的o1-preview、o1-mini、GPT-4o;而在开源大模型主观评测中,阿里巴巴Qwen2.5的综合评分高于Meta Llama 3.3和Llama 3.1。 


主观评测更偏重考察大模型中文能力,而国产大模型在中文语言能力上具有普遍优势。 


因此,从实际综合评分可以看出,国产大模型占据了闭源大模型主观评测榜单的大半壁江山。其前20名中共有15款国产大模型,占比75%,包括豆包通用模型pro、百度ERNIE 4.0 Turbo、阿里巴巴Qwen-Max、智谱华章GLM-4-Plus、阶跃星辰Step 2等。 


▲大语言模型评测能力榜单主观评测前五名(图片来源:智源研究院)


不过,如果把大模型放在客观评测池子里比较,国产大模型的表现仍与海外大模型有着一定差距。 


OpenAI的o1-mini获得客观评测的最高分64.57,同样属于o1系列的o1-preview,以60.36的综合评分位列榜单第二。该项评测中阿里巴巴的Qwen-Max和豆包通用模型pro各自的综合评分为57.60和56.49,与o1-mini之间大概有7分的分差,与o1-preview之间大概有3分的分差。 


▲大语言模型评测能力榜单客观评测前五名(图片来源:智源研究院)


结合各项细分能力的评分来看,国产大模型更“重文轻理”,主要在推理、数学、代码等方面落后于OpenAI的大模型。例如,即便是侧重中文语境,OpenAI o1-preview仍拿到主观评测任务解决板块的最高分85.37,与第二名的79.52分和第三名的77.41分相比领先优势较为明显。 


02.多模态评测,国产大模型各擅胜场


据智源研究院调研,今年市面上头部模型的多模态能力得到大幅提升,上半年参评的模型普遍无法生成正确的中文文字,但年末参评的头部模型已经具备中文文字生成能力。 


从此次多模态模型评测数据来看,视觉语言模型平均排名前三分别是OpenAI的GPT-4o、豆包视觉理解模型和Anthropic的Claude 3.5 Sonnet。这三者中豆包的通用知识、文字识别等中文能力与其他两家拉开了较大差距,若单看英文图表理解表现则Claude的排名最靠前。 


▲视觉语言模型排行榜前三名(图片来源:智源研究院)


面对文本、图片、视频、语音等多模态数据的处理时,豆包文生图模型、豆包视频生成模型“即梦P2.0 pro”分别在相应测试中位列全球第二,腾讯Hunyuan Image文生图水平全球第一,快手可灵1.5(高品质版)文生视频水平全球第一,阿里巴巴Qwen2-Audio语音语言水平全球第一。 


▲文生视频模型排行榜前三名(左),文生图模型排行榜前三名(右)(图片来源:智源研究院)


目前,AI文生图的技术整体趋于成熟,但AI文生视频领域仍有较多挑战。现阶段,热门的AI文生视频模型有可灵1.5(高品质版)、即梦P2.0 pro、爱诗科技PixVerse V3、Minimax海螺AI、Pika同名AI模型Pika 1.5等。 


其中,位列榜单第一、二名的可灵和即梦均可生成时长10s的视频,所生成的视频在图文一致性上也打成平手,但前者在AI视频真实性和视频质量略胜一筹,后者则在AI视频美学质量和分辨率上实现反超。 


上述几家多模态模型中,只有阿里巴巴的走开源路线。对于多模态开源模型的实际效果,智源研究院方面称,虽然开源模型架构趋同,即通常采用语言塔和视觉塔的架构,但具体表现不一。其中较好的开源模型,在图文理解任务上正在缩小与头部闭源模型的能力差距,而长尾视觉知识与文字识别,以及复杂图文数据分析能力仍有提升空间。 


03.AI模型更擅长反驳辩题,还可任职金融行业初级岗位


智源研究院在AI模型的年末评测中,新设置了对其辩论能力和金融量化交易能力的考核维度。 


不到3个月前,智源研究院推出了一个名为FlagEval Debate的AI模型辩论平台。该平台主要从逻辑推理、观点理解和语言表达等核心能力维度,深入评估AI语言模型的能力差异。 


据最新评测结果,一方面AI大模型普遍缺乏辩论框架意识,不具备围绕辩题、以整体逻辑综合阐述的能力;另一方面AI大模型在辩论中仍然存在“幻觉”问题,给出的论据通常经不起推敲。 


相比于“正方”,AI大模型似乎更适合做辩论赛的“反方”。此次评测结果表明AI大模型更擅长反驳,各个模型所突出的辩论维度趋同。不过,遇到不同的辩题时AI模型间的表现差距会较为显著。 


总体来看,在FlagEval Debate评测中,Anthropic Claude 3.5 Sonnet、零一万物Yi-Lighting、OpenAI o1-preview的综合水平排行前三。 


而在金融量化交易领域,此次评测发现大模型已具备生成有回撤收益的策略代码的能力,能开发量化交易典型场景里的代码,头部AI模型能力已接近初级量化交易员的水平。 


该榜单前5名依次是深度求索的DeepSeek-V2.5、OpenAI的GPT-4o、OpenAI的o1-mini、谷歌的Gemini 1.5 Pro和智谱华章的GLM-4-Plus。此外,百度、腾讯、字节跳动、商汤、阿里巴巴、百川智能和零一万物等7家国产大模型开发商均有产品上榜。 


▲金融量化交易评测榜单前五名(图片来源:智源研究院)


智源研究院主要用知识问答、交易策略的跑通率和夏普指数、指标计算的跑通率和准确率、计算性能的跑通率这6项指标,来比较AI模型的金融量化交易能力。 


其中,在知识问答方面,AI模型整体差异较小且整体分数偏高,大部分得分介于0.97到1之间,最低分为Meta Llama 3.1的0.69。然而,面对实际代码生成任务时,各AI模型差异较大,并且整体能力偏弱。 


04.结语:国产大模型竞争加剧,下半场比拼商用质量


在这场“百家争鸣”中,国产大模型开发商们不仅巩固了其AI模型的中文能力优势,还进一步开发了文生图、文生视频、文生语音等多模态模型潜力。 


过去一年,大模型领域也迎来了诸多新拐点,Scaling Law相对放缓、AI模型的数学能力从中学生水平跃升到博士生水平、OpenAI 12月底刚发布的推理模型o3性能接近甚至超过了人类水平、背靠AI模型的AI Agent概念和产品热度攀升。 


下一步,AI模型将从卷参数量迈向卷应用场景,催熟商业化落地的效率和效益。


文章来自微信公众号 “智东西”,作者“徐 豫”


作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!