AI评测

AI大模型权威评测:豆包中文对话最强,OpenAI o1推理和数学占优

国产AI模型多点开花。还有不到一周就2025年了,各大社交音娱平台相继自动弹出“年度报告”的搜索选项。身处AI元年,AI模型这份年终答卷,自然也少不了。 智东西12月25日报道,智源研究院12月19日发布了FlagEval“百模”评测结果,今年国产大模型与海外大模型战况焦灼。 在其闭源大模型评测能力总榜中,字节跳动的豆包通用模型pro拿到主观评测最高分,OpenAI的o1-mini拿到客观评测最

谷歌放大招!LMEval开源评测框架上线,AI模型比拼从此更透明

近日,谷歌正式发布了开源框架 LMEval,旨在为大语言模型(LLM)和多模态模型提供标准化的评测工具。这一框架的推出,不仅简化了跨平台模型性能比较,还支持文本、图像和代码等多领域的评估,展现了谷歌在AI评测领域的最新突破。AIbase为您整理了LMEval的最新动态及其对AI行业的影响。标准化评测:跨平台模型比较更简单LMEval的推出标志着AI模型评测进入了一个新阶段。该框架基于LiteLLM