MiniMax 稀宇科技发布万亿MoE模型 abab 6.5,核心能力

2024-04-17 15:27:27

  国内 AI 初创企业MiniMax 稀宇科技今日正式推出MoE 混合专家模型架构的 abab 6.5 系列模型,核心能力开始接近GPT-4、 Claude-3、 Gemini-1.5。

  abab 6.5 系列包含两个模型:

  abab 6.5:包含万亿参数,支持 200k tokens 的上下文长度;abab 6.5s:与 abab 6.5 使用了同样的训练技术和数据,但是更高效,支持 200k tokens 的上下文长度,可以 1 秒内处理近 3 万字的文本。自一月发布国内首个基于 MoE 架构的 abab 6 模型后,MiniMax 通过改进模型架构,重构数据 pipeline,训练算法及并行训练策略优化等,在加速 Scaling Laws 过程上取得阶段性成果。

  附abab 6.5 系列模型测试结果如下:

  官方在 200k token 内进行了业界常用的“大海捞针”测试,即在很长的文本中放入一个和该文本无关的句子,然后通过自然语言提问模型,看模型是否准确将这个针回答出来。

  ▲海螺 AI 页面

  abab 6.5 与 abab 6.5s 模型将滚动更新至 MiniMax 旗下产品,包括海螺 AI 与 MiniMax 开放平台。

下一篇:EKWB 推出 Quantum Convection D5 D-RGB 水泵盖,69.9 欧元
上一篇:新款红旗 H9 北京车展上市,提供三种动力可选
返回顶部小火箭