查看原文
其他

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代要结束了

AI尼克 AI说热点
2024-09-05

 点这里 👇 关注我,获取更多的AIGC资讯~



01
文章摘要

【关 键 词】 AI竞技、模型对比、互动娱乐、能力评估、创新模式

在字节跳动的AI应用开发平台“扣子”上,出现了一种新颖的模型竞技方式——“模型广场”。这个概念类似于国外权威的大模型擂台“Chatbot Arena”,用户可以参与其中,观看两个匿名的大型语言模型(大模型)针对同一问题进行PK,并根据生成内容的表现进行投票。这些模型间的对战不仅测试了它们在任意业务场景下的文本生成、技能和知识调用等能力,还提供了直观的对比,让人工智能的评估变得更加直接和刺激。

在这种模式下,两个大模型为一组,匿名参与PK,用户提问后,模型们实时生成答案。参与者可以根据答案的速度、内容侧重点等因素进行投票,投票选项包括认为哪一个模型表现更好,或者两个都好/差。这种形式不仅考验模型的实际应用能力,还增加了互动性和娱乐性。

“模型广场”设有三种对战模式:随机Bot对战、指定Bot对战和纯模型对战。在随机Bot对战模式中,扣子从已上架的Bot中随机挑选进行对战;指定Bot对战允许用户挑选一个特定的场景进行模型对比;而纯模型对战则是直接评估两个模型的文本生成能力,忽略其他配置影响。文章举例说明了这种竞技方式的应用,如提问高考题目、数学问题,甚至是包含梗的问题,让模型们生成答案并进行对比。

结果显示,模型们在速度和内容上有明显差异,用户投票后,模型的真实身份会被揭晓。这种方式得到了AI界人士的高度认可,并被认为是一种可靠的评价基准。

这种创新的模型评估方式不仅为用户提供了深入了解AI模型性能的窗口,同时也为模型开发者和研究者提供了一种新的测试和改进途径。这种方式得到了AI界人士的高度认可,并被认为是一种可靠的评价基准。

02
原文信息

【原文链接】 阅读原文 [ 3244字 | 13分钟 ]
【原文作者】 量子位


推荐阅读

继续滑动看下一个
AI说热点
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存