LLM评测指标相关总结

评测数据集

长文本

  • RULER
  • LV-Eval
  • LongbenchChat

RULER

RULER 是一种新的合成基准测试方法,旨在全面评估长文本语言模型的能力。它扩展了传统的检索测试,涵盖了四类任务:

  1. 增强的大海捞针(NIAH):评估模型在长文本中检索特定信息的能力,包括单一检索、多键值对检索等。

  2. 变量跟踪(VT):测试模型在长上下文中识别并跟踪多跳连接的实体或变量的能力。

  3. 信息聚合(CWE、FWE):评估模型跨长上下文聚合常见信息的能力。

  4. 问答(QA):在长文本中插入干扰信息,测试模型的问答准确性。

RULER 通过生成合成示例,以可配置的序列长度和任务复杂度,评估模型在长上下文中的表现。

LV-Eval

LV-Eval 是一个具有五个长度级别(16k、32k、64k、128k 和 256k)的长文本评测基准,最长支持 256k 的文本长度。其平均文本长度约为 102,380 字,最小和最大文本长度分别为 11,896 和 387,406 字。LV-Eval 主要包含两类评测任务:单跳问答(Single-hop QA)和多跳问答(Multi-hop QA),共计 11 个涵盖中英文的评测数据子集。该基准引入了干扰事实插入(CFI)、关键词和短语替换(KPR)以及基于关键词召回的评测指标(AK)等技术,以提高评测的挑战性和客观性。

LongbenchChat

LongbenchChat 是 LongBench 基准测试的一部分,专注于评估长文本场景下的对话能力。LongBench 涵盖六大类任务,包括单文档问答、多文档问答、摘要、小样本学习、合成任务和代码补全等,共包含 21 个中英双语数据集。其中,LongbenchChat 主要测试模型在长上下文对话中的理解和生成能力,评估其在多轮对话和长文本上下文中的表现。

这些测试集为研究人员和开发者提供了多维度的评估工具,帮助深入了解和提升长文本语言模型在不同任务和场景下的性能。

Arena 这个榜单可不是学术测试集,模型不仅无法提前知道题目,甚至参与测试的人员都无法提前知道在测的是哪个模型。

Arena 榜单采用匿名方式将大模型两两组队,交给用户进行盲测,用户根据真实对话体验对 模型能力进行投票。因此,Chatbot Arena LLM Leaderboard 成为业界公认的最公正、最权 威榜单之一,也是全球顶级大模型的最重要竞技场。

参考