查看原文
其他

最新大模型排名!中文大模型评测基准SuperCLUE发布6月榜单


中文通用大模型综合性评测基准SuperCLUE 

2023年6月榜单

6月19日,SuperCLUE发布大模型6月榜单。

SuperCLUE: A Benchmark for Foundation Models in Chinese

SuperCLUE评测榜单

6月榜单由4部分组成:总排行榜、基础能力榜单、中文特性榜单、70亿参数量级榜单。

2023年6月SuperCLUE中文大模型总排行榜:

2023年6月SuperCLUE基础能力榜单:

2023年6月SuperCLUE中文特性榜单:

2023年6月SuperCLUE-70亿参数量级榜单:

SuperCLUE认为榜上有名的都是英雄。
温馨提醒,此榜单仅用于学术研究,不作为投资建议。
排行榜会定期更新,可访问:

https://www.cluebenchmarks.com

https://github.com/CLUEbenchmark/SuperCLUE


SuperCLUE6月评测变动及后续计划

6月榜单有一些重要变动:

1. 增加了百度文心一言百川智能baichuan-7B智源研究院Aquila-7B港中文大学凤凰phoenix-7B这4个模型的评测。
具体模型来源及版本信息,请访问:

https://github.com/CLUEbenchmark/SuperCLUE

2. 6月评测数据集与5月评测数据集完全独立,数量级扩大至3714道测试题。

3. 新设立SuperCLUE-70亿参数量级榜单

后续计划:
1. CLUE团队会于本次榜单发布后一周内,公布一定数量的评测集。
2. 继续扩充测试题,后续每个月会持续使用新测试题进行模型测评。

2. 增加更丰富的多维度评测,如主观题、行业、特色任务等。


SuperCLUE是什么?

中文通用大模型基准(SuperCLUE),是针对中文可用的通用大模型的一个测评基准。

它主要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况。包括但不限于:这些模型不同任务的效果情况、相较于国际上的代表性模型做到了什么程度、 这些模型与人类的效果对比如何?

它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。SuperCLUE是中文语言理解测评基准(CLUE)在通用人工智能时代的进一步发展。

多个维度能力考察(3大类70+子能力)着眼于综合评价大模型的能力,使其能全面地测试大模型的效果,又能考察模型在中文上特有任务的理解和积累。我们对能力进行了划分, SuperCLUE从三个不同的维度评价模型的能力:基础能力、专业能力和中文特性能力,共七十余项任务。

SuperCLUE具有独特的优势
  • 保密性高:
SuperCLUE数据集保密性高,减少模型训练数据混入评测数据的可能性
  • 月考制:
SuperCLUE按照月考的形式进行评测,基于国内大模型研发机构的模型训练进度,模型月考与模型研发节奏保持同步。
  • 自动测评:
通过自动化测评方式以相对客观形式测试不同模型的效果,可以一键对大模型进行测评。
  • 模型范围宽泛:
选取了多个国内外有代表性的可用的模型进行测评,以反映国内大模型的发展现状并了解与国际领先模型的差距或相对优劣势。
  • 人类基准:

在通用人工智能发展的情况下,也提供了模型相对于人类效果的指标对比。

SuperCLUE不足与局限
  1. 客观考察的不足:我们以相对客观形式考察模型能力,但一些主观、开放性问题的模型能力的考察可能存在不足。


  2. 选取模型的不完全:我们测试了一部分模型,但还存在着更多的可用中文大模型。需要后续进一步添加并测试;有的模型由于没有广泛对外提供服务,我们没能获取到可用的测试版本。


  3. 选取的能力范围:我们尽可能的全面、综合衡量模型的多维度能力,但是可能有一些模型能力没有在我们的考察范围内。后续也存在扩大考察范围的可能。


SuperCLUE基准计划按照月度进行更新,会纳入更多可用中文大模型,欢迎大模型研发机构联系与交流,可在下方申请评测。
SuperCLUE榜单大模型评测申请:https://wj.qq.com/s2/12305633/a73d/
模型内测需求收集(非公开):https://wj.qq.com/s2/12307825/2ae0/
Github地址:https://github.com/CLUEbenchmark/SuperCLUE
CLUE官网:https://www.cluebenchmarks.com


 (二维码失效可以在公众号后台回复SuperCLUE加入)
  


往期推荐



大模型对战平台「SuperCLUE琅琊榜」排名首发,国内大模型首超GPT3.5

RWKV、IDEA姜子牙、西湖大模型上榜SuperCLUE基准

中文模型评测基准SuperCLUE更新,新增360智脑大模型

中文通用大模型评测基准SuperCLUE发布更新,新增Claude、清华GLM千亿模型


继续滑动看下一个
CLUE中文语言理解测评基准
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存