这里汇总一下关于code gen的大语言模型。
评价标准
代码生成的评价指标称为pass@x
。pass@1
就是greedy生成结果的测例通过率。大家一定很好奇模型的水平到底如何,可以看下面这张图。总的来说,通过率还是挺低的,而且从上面的例子看问题也不算复杂。有意思的地方是pass@100
是远高于pass@1
的,pass@100
是概率采样生成100次能通过的概率,这还真有点像我们写程序,多试几次总是能跑通的。。
榜单
收集一些榜单:
更新
1110
0825
Meta 刚刚开源了号称是编程领域 “最先进的大语言模型”——Code Llama,可根据代码和自然语言提示生成代码和有关代码的自然语言,支持多种主流编程语言,包括 Python、C++、Java、PHP、Typescript (Javascript)、C# 和 Bash。
0615
“WizardCoder-15B-v1.0 model achieves 57.3 pass@1 on the HumanEval Benchmarks … 22.3 points higher than the SOTA open-source Code LLMs.”
相关工具
类似于GitHub的Copilot