评测数据集
- LiveBench
- LiveCodeBench
- GPQA-Diamond
- MMLU-Pro
长文本
- RULER
- LV-Eval
- LongbenchChat
RULER
RULER 是一种新的合成基准测试方法,旨在全面评估长文本语言模型的能力。它扩展了传统的检索测试,涵盖了四类任务:
-
增强的大海捞针(NIAH):评估模型在长文本中检索特定信息的能力,包括单一检索、多键值对检索等。
-
变量跟踪(VT):测试模型在长上下文中识别并跟踪多跳连接的实体或变量的能力。
-
信息聚合(CWE、FWE):评估模型跨长上下文聚合常见信息的能力。
-
问答(QA):在长文本中插入干扰信息,测试模型的问答准确性。
RULER 通过生成合成示例,以可配置的序列长度和任务复杂度,评估模型在长上下文中的表现。
LV-Eval
LV-Eval 是一个具有五个长度级别(16k、32k、64k、128k 和 256k)的长文本评测基准,最长支持 256k 的文本长度。其平均文本长度约为 102,380 字,最小和最大文本长度分别为 11,896 和 387,406 字。LV-Eval 主要包含两类评测任务:单跳问答(Single-hop QA)和多跳问答(Multi-hop QA),共计 11 个涵盖中英文的评测数据子集。该基准引入了干扰事实插入(CFI)、关键词和短语替换(KPR)以及基于关键词召回的评测指标(AK)等技术,以提高评测的挑战性和客观性。
LongbenchChat
LongbenchChat 是 LongBench 基准测试的一部分,专注于评估长文本场景下的对话能力。LongBench 涵盖六大类任务,包括单文档问答、多文档问答、摘要、小样本学习、合成任务和代码补全等,共包含 21 个中英双语数据集。其中,LongbenchChat 主要测试模型在长上下文对话中的理解和生成能力,评估其在多轮对话和长文本上下文中的表现。
这些测试集为研究人员和开发者提供了多维度的评估工具,帮助深入了解和提升长文本语言模型在不同任务和场景下的性能。
Arena 这个榜单可不是学术测试集,模型不仅无法提前知道题目,甚至参与测试的人员都无法提前知道在测的是哪个模型。
Arena 榜单采用匿名方式将大模型两两组队,交给用户进行盲测,用户根据真实对话体验对 模型能力进行投票。因此,Chatbot Arena LLM Leaderboard 成为业界公认的最公正、最权 威榜单之一,也是全球顶级大模型的最重要竞技场。
参考
- https://lmarena.ai/
- LMSYS Chatbot Arena (Multimodal): Benchmarking LLMs and VLMs in the Wild https://chat.lmsys.org/
- func call Berkeley Function Calling Leaderboard V3 (aka Berkeley Tool Calling Leaderboard V3)