Generated with sparks and insights from 4 sources

img6

img7

img8

img9

img10

img11

Introduction

评测基准 [1]

  • MMLU(5-shot):用于测量文本模型的多任务准确性,涵盖57个任务。

  • AI2推理挑战(25-shot):一组小学科学问题。

  • HellaSwag(10-shot):测试常识推理的任务,对人类来说很容易,但对SOTA模型具有挑战性。

  • TruthfulQA(0-shot):测量模型复制在线常见虚假信息的倾向性。

  • MuSR:多步推理任务。

  • GPQA:知识问答。

  • MATH:启发式数学。

  • IFEval:指令遵循能力。

最新排名 [2]

img6

模型表现 [3]

  • Qwen 2-72B:在各项基准的平均表现为43.02。

  • Meta Llama 3-70B:平均表现为36.67。

  • Falcon 40B:在多个基准测试中表现出色。

  • LLaMA 65B:在 MMLU 基准测试中得分较低。

  • GPT-NeoX 20B:在多个基准测试中表现一般。

  • RedPajama-INCITE-7B-Base:在多个基准测试中表现一般。

  • Gemma 2-27B:被认为是市场上最好的开源模型之一。

  • Yi-1.5-34B:在多个基准测试中表现优异。

评测方法 [3]

  • Open LLM 排行榜基于 Eleuther AI Language Model Evaluation Harness 进行评测。

  • 评测基准包括 MMLU、AI2推理挑战、HellaSwag、TruthfulQA 等。

  • MMLU 基准测试涵盖57个任务,包括基本数学、美国历史、计算机科学、法律等。

  • 评测方法包括获取特定词元的输出概率和生成的文本。

  • 不同实现方式可能导致模型得分和排名的差异。

  • 使用少样本方法提高评测准确性。

  • 评测结果保存在 Hugging Face Hub 上的一个数据集中。

  • 评测基准的实现细节可能影响最终得分。

社区讨论 [3]

  • Falcon 模型在排行榜上的表现引发了广泛讨论。

  • 社区发现 LLaMA 模型在 Open LLM 榜单上的 MMLU 得分比 LLaMA 论文中宣称的数字要低很多。

  • 讨论主要围绕排行榜上的四个评测基准之一:大规模多任务语言理解(MMLU)基准。

  • Hugging Face 共同创办人 Clement Delangue 表示,Qwen 2-72B 在多个基准测试中表现优异。

  • Delangue 还发现,开发者越来越注重主要的测试基准,而忽略或牺牲了其他基准。

  • 社区对不同评测实现方式导致的得分差异进行了深入讨论。

  • 斯坦福大学基础模型研究中心(CRFM)开发了一个全面的评估基准:语言模型整体评估(HELM)。

  • 社区认为需要开放、标准化、可重复的基准测试。

Related Videos

<br><br>

<div class="-md-ext-youtube-widget"> { "title": "LMSYS\u6700\u65b0\u5168\u7403\u5927\u8bed\u8a00\u6a21\u578b\u6392\u884c\u699c\uff1agpt4\u593a\u5f97\u699c\u9996\uff0cvicuna33b ...", "link": "https://www.youtube.com/watch?v=kjSB-1D8bqk", "channel": { "name": ""}, "published_date": "Jun 26, 2023", "length": "" }</div>

<div class="-md-ext-youtube-widget"> { "title": "\u3010\u4eba\u5de5\u667a\u80fd\u3011\u5f00\u6e90\u591a\u6a21\u6001\u5927\u8bed\u8a00\u6a21\u578b\u54ea\u5bb6\u5f3a\uff1f| TOP 12 \u6392\u884c\u699c ...", "link": "https://www.youtube.com/watch?v=jMVzOgp5f5k", "channel": { "name": ""}, "published_date": "Jul 8, 2023", "length": "" }</div>