LLM评测指标相关总结

imoldpan · 2025 年2 月 18 日 13:27

评测数据集

LiveBench
LiveCodeBench
GPQA-Diamond
MMLU-Pro

长文本

RULER
LV-Eval
LongbenchChat

RULER

RULER 是一种新的合成基准测试方法，旨在全面评估长文本语言模型的能力。它扩展了传统的检索测试，涵盖了四类任务：

增强的大海捞针（NIAH）：评估模型在长文本中检索特定信息的能力，包括单一检索、多键值对检索等。
变量跟踪（VT）：测试模型在长上下文中识别并跟踪多跳连接的实体或变量的能力。
信息聚合（CWE、FWE）：评估模型跨长上下文聚合常见信息的能力。
问答（QA）：在长文本中插入干扰信息，测试模型的问答准确性。

RULER 通过生成合成示例，以可配置的序列长度和任务复杂度，评估模型在长上下文中的表现。

LV-Eval

LV-Eval 是一个具有五个长度级别（16k、32k、64k、128k 和 256k）的长文本评测基准，最长支持 256k 的文本长度。其平均文本长度约为 102,380 字，最小和最大文本长度分别为 11,896 和 387,406 字。LV-Eval 主要包含两类评测任务：单跳问答（Single-hop QA）和多跳问答（Multi-hop QA），共计 11 个涵盖中英文的评测数据子集。该基准引入了干扰事实插入（CFI）、关键词和短语替换（KPR）以及基于关键词召回的评测指标（AK）等技术，以提高评测的挑战性和客观性。

LongbenchChat

LongbenchChat 是 LongBench 基准测试的一部分，专注于评估长文本场景下的对话能力。LongBench 涵盖六大类任务，包括单文档问答、多文档问答、摘要、小样本学习、合成任务和代码补全等，共包含 21 个中英双语数据集。其中，LongbenchChat 主要测试模型在长上下文对话中的理解和生成能力，评估其在多轮对话和长文本上下文中的表现。

这些测试集为研究人员和开发者提供了多维度的评估工具，帮助深入了解和提升长文本语言模型在不同任务和场景下的性能。

Arena 这个榜单可不是学术测试集，模型不仅无法提前知道题目，甚至参与测试的人员都无法提前知道在测的是哪个模型。

Arena 榜单采用匿名方式将大模型两两组队，交给用户进行盲测，用户根据真实对话体验对模型能力进行投票。因此，Chatbot Arena LLM Leaderboard 成为业界公认的最公正、最权威榜单之一，也是全球顶级大模型的最重要竞技场。

参考

https://lmarena.ai/
LMSYS Chatbot Arena (Multimodal): Benchmarking LLMs and VLMs in the Wild https://chat.lmsys.org/
func call Berkeley Function Calling Leaderboard V3 (aka Berkeley Tool Calling Leaderboard V3)