Generated with sparks and insights from 4 sources
Introduction
-
Open LLM 排行榜是由 Hugging Face 设立的一个用于评测开放大语言模型的公开榜单。
-
该排行榜基于 Eleuther AI Language Model Evaluation Harness 进行评测。
-
最近,Falcon 模型在排行榜上表现出色,引发了广泛讨论。
-
阿里巴巴的 Qwen 2-72B 在最新的排行榜中名列前茅,表现优异。
评测基准 [1]
-
MMLU(5-shot):用于测量文本模型的多任务准确性,涵盖57个任务。
-
AI2推理挑战(25-shot):一组小学科学问题。
-
HellaSwag(10-shot):测试常识推理的任务,对人类来说很容易,但对SOTA模型具有挑战性。
-
TruthfulQA(0-shot):测量模型复制在线常见虚假信息的倾向性。
-
MuSR:多步推理任务。
-
GPQA:知识问答。
-
MATH:启发式数学。
-
IFEval:指令遵循能力。
最新排名 [2]
-
第一名:阿里巴巴 Qwen 2-72B,平均表现为43.02。
-
第二名:Meta Llama 3-70B,平均表现为36.67。
-
第四名:零一万物 Yi-1.5-34B。
-
第六名:Abacus.AI Smaug-72B。
-
第七名:Qwen 1.5-110B。
模型表现 [3]
-
Qwen 2-72B:在各项基准的平均表现为43.02。
-
Meta Llama 3-70B:平均表现为36.67。
-
Falcon 40B:在多个基准测试中表现出色。
-
LLaMA 65B:在 MMLU 基准测试中得分较低。
-
GPT-NeoX 20B:在多个基准测试中表现一般。
-
RedPajama-INCITE-7B-Base:在多个基准测试中表现一般。
-
Gemma 2-27B:被认为是市场上最好的开源模型之一。
-
Yi-1.5-34B:在多个基准测试中表现优异。
评测方法 [3]
-
Open LLM 排行榜基于 Eleuther AI Language Model Evaluation Harness 进行评测。
-
评测基准包括 MMLU、AI2推理挑战、HellaSwag、TruthfulQA 等。
-
MMLU 基准测试涵盖57个任务,包括基本数学、美国历史、计算机科学、法律等。
-
评测方法包括获取特定词元的输出概率和生成的文本。
-
不同实现方式可能导致模型得分和排名的差异。
-
使用少样本方法提高评测准确性。
-
评测结果保存在 Hugging Face Hub 上的一个数据集中。
-
评测基准的实现细节可能影响最终得分。
社区讨论 [3]
-
Falcon 模型在排行榜上的表现引发了广泛讨论。
-
社区发现 LLaMA 模型在 Open LLM 榜单上的 MMLU 得分比 LLaMA 论文中宣称的数字要低很多。
-
讨论主要围绕排行榜上的四个评测基准之一:大规模多任务语言理解(MMLU)基准。
-
Hugging Face 共同创办人 Clement Delangue 表示,Qwen 2-72B 在多个基准测试中表现优异。
-
Delangue 还发现,开发者越来越注重主要的测试基准,而忽略或牺牲了其他基准。
-
社区对不同评测实现方式导致的得分差异进行了深入讨论。
-
斯坦福大学基础模型研究中心(CRFM)开发了一个全面的评估基准:语言模型整体评估(HELM)。
-
社区认为需要开放、标准化、可重复的基准测试。
Related Videos
<br><br>
<div class="-md-ext-youtube-widget"> { "title": "LMSYS\u6700\u65b0\u5168\u7403\u5927\u8bed\u8a00\u6a21\u578b\u6392\u884c\u699c\uff1agpt4\u593a\u5f97\u699c\u9996\uff0cvicuna33b ...", "link": "https://www.youtube.com/watch?v=kjSB-1D8bqk", "channel": { "name": ""}, "published_date": "Jun 26, 2023", "length": "" }</div>
<div class="-md-ext-youtube-widget"> { "title": "\u3010\u4eba\u5de5\u667a\u80fd\u3011\u5f00\u6e90\u591a\u6a21\u6001\u5927\u8bed\u8a00\u6a21\u578b\u54ea\u5bb6\u5f3a\uff1f| TOP 12 \u6392\u884c\u699c ...", "link": "https://www.youtube.com/watch?v=jMVzOgp5f5k", "channel": { "name": ""}, "published_date": "Jul 8, 2023", "length": "" }</div>