苹果卷开源大模型,公开代码权重训练全 - 肝硬化

TUhjnbcbe - 2024/8/18 21:29:00

机器之心报道

编辑：陈萍、大盘鸡

苹果发布基于开源训练和推理框架的高效语言模型族OpenELM。

要说ChatGPT拉开了大模型竞赛的序幕，那么Meta开源Llama系列模型则掀起了开源领域的热潮。在这当中，苹果似乎掀起的水花不是很大。

不过，苹果最新放出的论文，我们看到其在开源领域做出的贡献。

近日，苹果发布了OpenELM，共四种变体（参数量分别为M、M、1.1B和3B），这是一系列基于公开数据集进行预训练和微调的模型。OpenELM的核心在于逐层缩放，即OpenELM中的每个Transformer层都有不同的配置（例如，头数和前馈网络维度），导致模型每层的参数数量不同，从而实现了更有效的跨层参数分配。

值得一提的是，苹果这次发布了完整的框架，包括数据准备、训练、微调和评估程序，以及多个预训练的checkpoint和训练日志，以促进开源研究。

论文

肝硬化病论坛