拒绝刷题刷榜，智源研究院测了下140多个大模型的真实水平

蜜兔 · 发表于 2024-5-18 00:01:56

21世纪经济报道记者白杨北京报道
5月17日，智源研究院正式推出智源评测体系，并发布了覆盖国内外140余个大模型的评测结果。
据了解，智源研究院的此次评测分别从主观、客观两个维度考察了语言模型的简单理解、知识运用、推理能力、数学能力、代码能力、任务解决、安全与价值观七大能力；针对多模态模型则主要评估了多模态理解和生成能力。
评测结果显示，在中文语境下，国内头部语言模型的综合表现已接近国际一流水平，但存在能力发展不均衡的情况。
在多模态理解图文问答任务上，国产模型表现突出。国产多模态模型在中文语境下的文生图能力与国际一流水平差距较小；而多模态模型的文生视频能力上，对比各家公布的演示视频长度和质量，Sora有明显优势。
具体而言，语言模型主观评测结果显示，在中文语境下，字节跳动豆包Skylark2、OpenAI GPT-4排名前两位。在语言模型客观评测中，OpenAI GPT-4、百川智能Baichuan3分别位列第一、第二。百度文心一言4.0、智谱华章GLM-4和月之暗面Kimi均进入语言模型主客观评测前五。
多模态理解模型客观评测结果显示，图文问答方面，阿里巴巴通义Qwen-vl-max与上海人工智能实验室InternVL-Chat-V1.5先后领先于OpenAI GPT-4，LLaVA-Next-Yi-34B和上海人工智能实验室Intern-XComposer2-VL-7B紧随其后。
多模态生成模型文生图评测结果显示，OpenAI DALL-E3位列第一，智谱华章CogView3、Meta-Imagine分居第二、第三，百度文心一格、字节跳动doubao-Image次之。多模态生成模型文生视频评测结果显示，OpenAI Sora、Runway、爱诗科技PixVerse、Pika、腾讯VideoCrafter-V2位列前五。
这里需要指出的是，Mdjourney因为基本无法理解中文提示词，因此排名靠后；而Sora仅能使用其官方公布的prompts和视频片段与其他模型生成的视频进行对比评测，评测结果存在一定的偏差。
智源研究院院长王仲远在接受21世纪经济报道记者采访时表示，“现在整个行业百花齐放，但也面临非常多挑战。作为一名AI的研究者，我自己都分不清楚哪家模型强哪家模型弱。所以行业需要一家对大模型技术有深刻理解以及充足经验，并且是一家中立、客观、公正的第三方机构来做一次全面评测。”
资料显示，成立于2018年的智源研究院，是一家非营利研究机构，旨在推动人工智能领域发展政策、学术思想、理论基础、顶尖人才与产业生态的创新。
2020年10月，智源研究院就启动了大模型的研发工作，其2021年3月发布的悟道1.0，是当时中国首个以及世界最大的大模型。
此前，智源研究院也牵头成立了IEEE大模型评测标准小组P3419，组织20余家企业及学者参与大模型标准建设，同时作为《人工智能预训练模型评测指标与方法》国家标准草案的共建单位，智源此次的模型评测也借鉴了该标准，并采取客观评测统一规则与主观评测多重校验打分相结合的方法。
王仲远表示，现在市面上绝大多数的评测都是开卷考，这让很多大模型可以去刷榜、刷题，导致评测结果无法客观公正地反映这些模型的真实水平。“这不利于行业的发展，我们尤其担心出现劣币驱逐良币。”
所以，智源研究院此次评测做了非常严格的限制，以确保评测过程中不受到任何干扰，同时，此次评测使用20余个数据集、超8万道考题。其中主观题4000余道，均来源于智源自建原创未公开并保持高频迭代的主观评测集。
另外对于这次评测，王仲远也坦言，评测结果仍会有一定的局限性。比如本次评测主要集中于通用大模型的评测，未覆盖到垂直领域大模型，并且是侧重于在中文语境下的评估。
除此之外，这次评测各模型厂商发布的最新版本截至2024年4月20日，所以不代表各个厂商最新发布的模型性能表现。
“科学权威公正开放，是智源评测的最高纲领。接下来，智源将携手生态合作伙伴继续共建完善评测体系，促进模型性能的优化以及在多元复杂场景下的产业落地。”王仲远说。

晨报：《巫师3》迎来第二春 卡普空承诺复兴

拒绝刷题刷榜，智源研究院测了下140多个大模型的真实水平

晨报：《巫师3》迎来第二春卡普空承诺复兴