Code Gen 大语言模型

imoldpan · 2023 年4 月 28 日 11:48

这里汇总一下关于code gen的大语言模型。

评价标准

代码生成的评价指标称为pass@x。pass@1就是greedy生成结果的测例通过率。大家一定很好奇模型的水平到底如何，可以看下面这张图。总的来说，通过率还是挺低的，而且从上面的例子看问题也不算复杂。有意思的地方是pass@100是远高于pass@1的，pass@100是概率采样生成100次能通过的概率，这还真有点像我们写程序，多试几次总是能跑通的。。

榜单

收集一些榜单：

https://huggingface.co/spaces/bigcode/multilingual-code-evals

更新

1110

0825

https://about.fb.com/news/2023/08/code-llama-ai-for-coding/

Meta 刚刚开源了号称是编程领域 “最先进的大语言模型”——Code Llama，可根据代码和自然语言提示生成代码和有关代码的自然语言，支持多种主流编程语言，包括 Python、C++、Java、PHP、Typescript (Javascript)、C# 和 Bash。

0615

“WizardCoder-15B-v1.0 model achieves 57.3 pass@1 on the HumanEval Benchmarks .. 22.3 points higher than the SOTA open-source Code LLMs.”

参考

https://mp.weixin.qq.com/s/gWY9BQNWnjqSnx8kK0PfQw

Code Gen 大语言模型

评价标准

榜单

更新

1110

0825

0615

相关工具

参考