两大可商用开源大模型同时发布，性能不输LLaMA，羊驼家族名字都不够用了

2023-05-08 11:52:09 来源：IT之家阅读量：4731

从 Meta 的 LLaMA 发展出的羊驼家族一系列大模型，已成为开源 AI 重要力量。

但 LLamA 开源了又没全开，只能用于研究用途，还得填申请表格等，也一直被业界诟病。

好消息是，两大对标 LLaMA 的完全开源项目同时有了新进展。

可商用开源大模型来了，还一下来了俩:

MosaicML 推出 MPT 系列模型，其中 70 亿参数版在性能测试中与 LLaMA 打个平手。

Together 的 RedPajama系列模型，30 亿参数版在 RTX2070 游戏显卡上就能跑。

对于这些进展，特斯拉前 AI 主管 Andrej Karpathy 认为，开源大模型生态有了寒武纪大爆发的早期迹象。

MPT，与 LLaMA 五五开

MPT 系列模型，全称 MosaicML Pretrained Transformer，基础版本为 70 亿参数。

MPT 在大量数据上训练，与 LLaMA 相当，高于 StableLM，Pythia 等其他开源模型。

支持 84k tokens 超长输入，并用 FlashAttention 和 FasterTransformer 方法针对训练和推理速度做过优化。

在各类性能评估中，与原版 LLaMA 不相上下。

除了 MPT-7B Base 基础模型外还有三个变体。

MPT-7B-Instruct，用于遵循简短指令。

MPT-7B-Chat，用于多轮聊天对话。

MPT-7B-StoryWriter-65k+，用于阅读和编写故事，支持 65k tokens 的超长上下文，用小说数据集微调。

MosaicML 由前英特尔 AI 芯片项目 Nervana 负责人 Naveen Rao 创办。

该公司致力于降低训练神经网络的成本，推出的文本和图像生成推理服务成本只有 OpenAI 的 1/15。

RedPajama，2070 就能跑

RedPajama 系列模型，在 5TB 的同名开源数据上训练而来。

除 70 亿参数基础模型外，还有一个 30 亿参数版本，可以在 5 年前发售的 RTX2070 游戏显卡上运行。

目前 70 亿版本完成了 80% 的训练，效果已经超过了同规模的 Pythia 等开源模型，略逊于 LLamA。

预计在完成 1T tokens 的训练后还能继续改进。

背后公司 Together，由苹果前高管 Vipul Ved Prakash，斯坦福大模型研究中心主任 Percy Liang，苏黎世联邦理工大学助理教授张策等人联合创办。

开源模型发布后，他们的近期目标是继续扩展开源 RedPajama 数据集到两倍规模。

One More Thing

来自南美洲的无峰驼类动物一共 4 种，已被各家大模型用完了。

Meta 发布 LLaMA 之后，斯坦福用了 Alpaca，伯克利等单位用了 Alpaca，Joseph Cheung 等开发者团队用了 Guanaco。

以至于后来者已经卷到了其他相近动物，比如 IBM 的单峰骆驼 Dromedary，Databricks 的 Dolly 来自克隆羊多莉。

国人研究团队也热衷于用古代传说中的神兽，如 UCSD 联合中山大学等推出的白泽。

港中文等推出的凤凰……

最绝的是哈工大基于中文医学知识的 LLaMA 微调模型，命名为华驼。

参考链接:

声明：本网转发此文章，旨在为读者提供更多信息资讯，所涉内容不构成投资、消费建议。文章事实如有疑问，请与有关方核实，文章观点非本网观点，仅供读者参考。