一群顶尖搜索人才如何2个月出货，还把GPU利用率干到60%！揭秘百川智能研发大模型这一年

Original Milan写技术 AI说热点

2024-09-05

文章摘要

【关键词】 大模型、百川智能、技术团队、模型研发、系统工程

去年，百川智能迅速推出了70亿参数量的中英文预训练大模型Baichuan 7B，并在一年多的时间里迭代至Baichuan 4。

在大模型冷启动阶段，百川智能选择了从头开始的冷启动，而非基于现有模型的热启动。他们通过构建小、中、大三种参数的模型，观察不同参数之间的线性关系，验证了scaling law，并在此基础上进行数据实验和训练框架调优。

在大模型训练方面，百川智能关注训练效率、稳定性和容错性。他们通过提升机器利用率、并行策略和调优等手段提高训练效率。同时，百川智能也在探索如何在相同的推理成本下提升模型能力上限，例如通过训练多个模型并整合成一个模型来解决能力平衡问题。

随着大模型的发展，行业对推理成本的关注逐渐增加。百川智能正在研究如何降低推理成本，包括算法层面的优化和算子层或框架层的优化。他们认为，提升模型本身的能力是降低推理成本的最有效方式。

在数据方面，百川智能认为合成数据的价值在于用最少的数据描述整个世界。尽管合成数据可能带来噪声问题，但大模型具有一定的抗噪能力。然而，目前合成数据的方法尚未能给大模型能力带来显著提升。

百川智能在迭代过程中，关注模型的智力水平和应用层的差异。他们认为，基座模型的迭代应该在智力水平上产生代差，并在应用层找到差异化的功能。例如，Baichuan 3在医疗领域的应用上进行了加强。

随着模型规模的增加，大模型研发的周期可能会延长。百川智能表示，未来的发布节奏将不再以月为单位，而是以季度为单位，以专注于长线发展。

在大模型时代，技术人才的画像发生了变化。百川智能更倾向于招聘具有发现和解决问题能力的新人和年轻人。目前，百川智能的技术人员占公司总人数的70%-80%，包括来自搜狗和其他知名科技公司的AI人才，以及研发新星。

《大模型领航者》是InfoQ推出的一档访谈栏目，聚焦大模型领域的最新动态和思考。同时，InfoQ将于8月18日至19日在上海举办AICon全球人工智能开发与应用大会，探讨端侧AI、大模型训练等前沿话题。

原文信息

【原文链接】 阅读原文 [ 5269字 | 22分钟 ]
【原文作者】 AI前线