字节扣子搭建大模型擂台：匿名PK效果，用户当裁判，跑分时代要结束了

Original AI尼克 AI说热点

2024-09-05

点这里 👇 关注我，获取更多的AIGC资讯～

文章摘要

【关键词】 AI竞技、模型对比、互动娱乐、能力评估、创新模式

在字节跳动的AI应用开发平台“扣子”上，出现了一种新颖的模型竞技方式——“模型广场”。这个概念类似于国外权威的大模型擂台“Chatbot Arena”，用户可以参与其中，观看两个匿名的大型语言模型（大模型）针对同一问题进行PK，并根据生成内容的表现进行投票。这些模型间的对战不仅测试了它们在任意业务场景下的文本生成、技能和知识调用等能力，还提供了直观的对比，让人工智能的评估变得更加直接和刺激。

在这种模式下，两个大模型为一组，匿名参与PK，用户提问后，模型们实时生成答案。参与者可以根据答案的速度、内容侧重点等因素进行投票，投票选项包括认为哪一个模型表现更好，或者两个都好/差。这种形式不仅考验模型的实际应用能力，还增加了互动性和娱乐性。

“模型广场”设有三种对战模式：随机Bot对战、指定Bot对战和纯模型对战。在随机Bot对战模式中，扣子从已上架的Bot中随机挑选进行对战；指定Bot对战允许用户挑选一个特定的场景进行模型对比；而纯模型对战则是直接评估两个模型的文本生成能力，忽略其他配置影响。文章举例说明了这种竞技方式的应用，如提问高考题目、数学问题，甚至是包含梗的问题，让模型们生成答案并进行对比。

结果显示，模型们在速度和内容上有明显差异，用户投票后，模型的真实身份会被揭晓。这种方式得到了AI界人士的高度认可，并被认为是一种可靠的评价基准。

这种创新的模型评估方式不仅为用户提供了深入了解AI模型性能的窗口，同时也为模型开发者和研究者提供了一种新的测试和改进途径。这种方式得到了AI界人士的高度认可，并被认为是一种可靠的评价基准。

原文信息

【原文链接】 阅读原文 [ 3244字 | 13分钟 ]
【原文作者】 量子位

国产光刻机进展太慢？重点不是这个

桐城一派｜突发！湖南省财政厅厅长刘文杰坠楼身亡

光刻机，官宣了！

湖南省财政厅厅长刘文杰遇害，警方最新通报！

99起伯希和大促，国产「始*鸟」，价格配置杀疯了！

字节扣子搭建大模型擂台：匿名PK效果，用户当裁判，跑分时代要结束了

推荐阅读

您可能也对以下帖子感兴趣

国产光刻机进展太慢？重点不是这个

桐城一派｜突发！湖南省财政厅厅长刘文杰坠楼身亡

光刻机，官宣了！

湖南省财政厅厅长刘文杰遇害，警方最新通报！

99起伯希和大促，国产「始*鸟」，价格配置杀疯了！

生成图片，分享到微信朋友圈

字节扣子搭建大模型擂台：匿名PK效果，用户当裁判，跑分时代要结束了

推荐阅读

您可能也对以下帖子感兴趣