abab 模型进展|MiniMax 发布万亿 MoE 模型abab 6.5

讨论 MiniMax
Lv1 居士
发布在 人工智能   43   0
讨论 MiniMax   43   0

abab 模型进展|MiniMax 发布万亿 MoE 模型abab 6.5

2024 年 4 月 17 日,MiniMax 正式推出abab 6.5 系列模型。在 MoE 还没有成为行业共识时,MiniMax 花了 80% 以上的精力下注 MoE,并于今年 1 月,发布了国内首个基于 MoE 架构的 abab 6。在过去的三个月里,我们进一步地挖掘了 MoE 架构的潜力,研发出了更强大的 abab 6.5。

这个过程中,我们找到了越来越多加速实现 Scaling Laws 的途径,包括改进模型架构,重构数据 pipeline,训练算法及并行训练策略优化等。今天发布的 abab 6.5 和 abab 6.5s 是我们加速 Scaling Laws 过程的阶段性成果。

abab 6.5 系列包含两个模型:abab 6.5 和 abab 6.5s。abab 6.5 包含万亿参数,支持 200k tokens 的上下文长度;abab 6.5s 跟 abab 6.5 使用了同样的训练技术和数据,但是更高效,支持 200k tokens 的上下文长度,可以 1 秒内处理近 3 万字的文本。

在各类核心能力测试中,abab 6.5开始接近 GPT-4、 Claude-3、 Gemini-1.5 等世界上最领先的大语言模型。

核心能力测试

我们用业界标准的开源测试集来测试两个模型,在知识、推理、数学、编程、指令遵从等维度上和行业领先的语言模型进行了对比。

我们在 200k token 内进行了业界常用的“大海捞针”测试,即在很长的文本中放入一个和该文本无关的句子(针),然后通过自然语言提问模型,看模型是否准确将这个针回答出来。在 891 次测试中,abab 6.5 均能正确回答。

abab 6.5 和 abab 6.5s 会滚动更新到 MiniMax 旗下的产品中,包括生产力产品海螺 AI 和 MiniMax 开放平台上。欢迎大家使用。

详情可参考:https://mp.weixin.qq.com/s/xBoAP-6fZVQA9cEWT8gyfw

更多咨询详见官网

minimaxi.com

商务合作请联系

open-platform@minimaxi.com

版权声明:作者保留权利,不代表意本站立场。如需转载请联系本站以及作者。

参与讨论

回复《 abab 模型进展|MiniMax 发布万亿 MoE 模型abab 6.5

EditorJs 编辑器

沙发,很寂寞~
反馈
to-top--btn