Code Gen 大语言模型

这里汇总一下关于code gen的大语言模型。

评价标准

代码生成的评价指标称为pass@xpass@1就是greedy生成结果的测例通过率。大家一定很好奇模型的水平到底如何,可以看下面这张图。总的来说,通过率还是挺低的,而且从上面的例子看问题也不算复杂。有意思的地方是pass@100是远高于pass@1的,pass@100是概率采样生成100次能通过的概率,这还真有点像我们写程序,多试几次总是能跑通的。。

榜单

收集一些榜单:

更新

1110

0825

Meta 刚刚开源了号称是编程领域 “最先进的大语言模型”——Code Llama,可根据代码和自然语言提示生成代码和有关代码的自然语言,支持多种主流编程语言包括 Python、C++、Java、PHP、Typescript (Javascript)、C# 和 Bash

0615

“WizardCoder-15B-v1.0 model achieves 57.3 pass@1 on the HumanEval Benchmarks … 22.3 points higher than the SOTA open-source Code LLMs.”

相关工具

类似于GitHub的Copilot

参考