(相关资料图)
7月11日,百川智能发布了其最新的大模型Baichuan-13B,这是一款拥有130亿参数的开源可商用大规模语言模型。据官方介绍,Baichuan-13B在中英文基准测试中取得了同尺寸模型中最好的效果。此次发布的模型包含预训练(Baichuan-13B-Base)和对齐(Baichuan-13B-Chat)两个版本。 百川智能表示,Baichuan-13B具有以下特点:首先,它在Baichuan-7B的基础上进一步扩大了参数量到130亿,并在高质量的语料上训练了1.4万亿tokens,超过了LLaMA-13B的40%,成为当前开源13B尺寸下训练数据量最多的模型。其次,它支持中英双语,使用ALiBi位置编码,上下文窗口长度为4096。此外,项目中同时开源了预训练和对齐模型,预训练模型是适用开发者的“基座”,而对齐模型(Baichuan-13B-Chat)具有很强的对话能力,开箱即用,几行代码即可简单地部署。 为了支持更广大用户的使用,项目中同时开源了int8和int4的量化版本,相对非量化版本在几乎没有效果损失的情况下大大降低了部署的机器资源门槛,可以部署在如英伟达RTX3090这样的消费级显卡上。最后,Baichuan-13B不仅对学术研究完全开放,开发者也仅需邮件申请并获得官方商用许可后,即可以免费商用。 目前,该模型已经在多个平台公布,感兴趣的人可以前往了解。