生成数据智能

Apple 发布 OpenELM,一个稍微更准确的 LLM

日期:

苹果公司通常不以开放性着称,但它发布了一种名为 OpenELM 的生成式人工智能模型,该模型显然优于在公共数据集上训练的一组其他语言模型。

与相比,这并不算多 OLMo于二月份首次亮相, 开放ELM 使用的预训练标记数量减少了 2.36 倍,准确率提高了 2%。但这也许足以提醒人们,苹果不再满足于在行业人工智能狂欢中充当壁花。

苹果声称开放,因为它决定不仅发布模型,还发布其训练和评估框架。

“与之前仅提供模型权重和推理代码以及在私有数据集上进行预训练的做法不同,我们的版本包括在公开数据集上训练和评估语言模型的完整框架,包括训练日志、多个检查点和预训练框架。 - 训练配置,”十一名苹果研究人员在相关研究中解释道。 技术论文.

与学术实践不同的是,作者的电子邮件地址没有列出。这归因于苹果对开放性的诠释,这在某种程度上类似于不太开放的 OpenAI。

随行 软件发布 不是公认的开源许可证。它并没有过度限制,但它确实明确表明,如果任何基于 OpenELM 的衍生作品被认为侵犯了其权利,Apple 保留提出专利索赔的权利。

OpenELM 利用一种称为逐层缩放的技术在变压器模型中更有效地分配参数。因此,OpenELM 的转换器层不是具有相同的参数集,而是具有不同的配置和参数。结果比较好 ,以基准测试中模型的正确预测百分比显示。

我们被告知 OpenELM 是使用以下方法进行预训练的 红色睡衣 来自 GitHub、大量书籍、维基百科、StackExchange 帖子、ArXiv 论文等的数据集,以及 卓玛 来自 Reddit、Wikibooks、古腾堡计划等的集合。该模型可以按照您的预期使用:您给它一个提示,它会尝试回答或自动完成它。

该版本的一个值得注意的方面是它附带了“将模型转换为 MLX 库的代码,以便在 Apple 设备上进行推理和微调”。

MLX 是去年发布的一个用于在 Apple 芯片上运行机器学习的框架。在 Apple 设备上本地操作(而不是通过网络)的能力应该会让 OpenELM 对开发人员更感兴趣。

人工智能服务公司 Aquant 的首席执行官兼联合创始人 Shahar Chen 表示:“Apple 的 OpenELM 发布标志着人工智能社区的重大进步,它提供了高效的设备端人工智能处理,非常适合计算能力有限的移动应用程序和物联网设备。” 注册。 “这使得快速的本地决策成为可能,这对于从智能手机到智能家居设备的一切都至关重要,从而扩大了人工智能在日常技术中的潜力。”

苹果热衷于展示其自主研发的机器学习芯片架构的优点,自从库比蒂诺推出其芯片架构以来,该架构在硬件上得到了特别支持。 神经引擎 2017 年。尽管如此,OpenELM 虽然在准确性基准测试中得分更高,但在性能方面却表现不佳。

“尽管 OpenELM 对于类似的参数计数具有更高的精度,但我们观察到它比 OLMo 慢,”该论文解释道,并引用了在 Linux 上使用 Nvidia CUDA 以及在 Apple Silicon 上使用 MLX 版本的 OpenELM 运行的测试。

苹果公司的研究人员表示,表现不佳的原因是他们“天真地实施了 均方根标准值”,一种用于机器学习中数据标准化的技术。未来,他们计划探索进一步的优化。

OpenELM 可用于具有 270 亿、450 亿、1.1 亿和 3 亿个参数的预训练和指令调整模型。警告那些使用它的人在尝试该模型进行任何有意义的事情之前要进行尽职调查。

论文称:“OpenELM 模型的发布旨在通过提供最先进的语言模型来增强和丰富开放研究社区。” “这些模型是在公开数据集上进行训练的,没有任何安全保证。” ®

现货图片

最新情报

现货图片

在线答疑

你好呀! 我怎么帮你?