Генеративный анализ данных

Meta представляет большую языковую модель Llama третьего поколения

Дата:

Meta представила свою новейшую модель большого языка (LLM) под названием Llama 3 и утверждает, что она бросит вызов гораздо более крупным моделям, таким как Google, Mistral и Anthropic.

Раскрыто в длинном объявление В четверг Llama 3 доступна в версиях от восьми до более чем 400 миллиардов параметров. Для справки: параметры крупнейших моделей OpenAI и Google приближаются к двум триллионам.

На данный момент мы получаем доступ только к восьми миллиардам и 3 миллиардам текстовых вариантов параметров Llama 70. Meta еще не закончила обучение своих самых крупных и сложных моделей, но намекает, что они будут многоязычными и мультимодальными – то есть они собираются из множества более мелких моделей, оптимизированных для предметной области.

Мета утверждает, что даже имея всего лишь 70 миллиардов параметров, Llama 3 более чем способна конкурировать с гораздо более крупными моделями.

Meta утверждает, что Llama3-8B и 70B могут превзойти гораздо более крупные модели, включая Gemini Pro и Claude 3 от Antrhopic.

Meta утверждает, что Llama3-8B и 70B могут превзойти гораздо более крупные модели, включая Gemini Pro и Claude 3 от Antrhopic. Нажмите, чтобы увеличить.

Лучшие данные, лучшая модель

По мнению Meta, одно из самых больших преимуществ связано с использованием токенизатора со словарем в 128,000 XNUMX токенов. В контексте LLM токены могут представлять собой несколько символов, целые слова или даже фразы. ИИ разбивает вводимые человеком данные на токены, а затем использует словари токенов для генерации результатов.

Meta объяснила, что ее токенизатор помогает более эффективно кодировать язык, значительно повышая производительность. Дополнительный выигрыш был достигнут за счет использования наборов данных более высокого качества и дополнительных шагов по точной настройке после обучения для повышения производительности и общей точности модели.

В частности, Meta сообщила, что Llama 3 была предварительно обучена на более чем 15 триллионах токенов, собранных из общедоступных источников.

Набор обучающих данных Llama 3 более чем в семь раз больше и содержит в четыре раза больше кода, чем Llama 2, который запустили всего девять месяцев назад. Но, как говорится, «мусор на входе — мусор на выходе» — поэтому Meta утверждает, что разработала ряд конвейеров фильтрации данных, чтобы гарантировать, что Llama 3 обучалась на как можно меньшем количестве неверной информации.

Эти средства контроля качества включали как эвристические фильтры, так и фильтры NSFW, а также дедупликацию данных и классификаторы текста, используемые для прогнозирования качества информации перед обучением. Meta даже использовала свою старую модель Llama 2, которая, по ее словам, «на удивление хороша в определении высококачественных данных» — чтобы отделить зерна от плевел.

Пять процентов обучающих данных поступили из более чем 30 языков, что, по прогнозам Меты, в будущем поможет привнести в модель более существенные многоязычные возможности. На данный момент в Социальной сети™️ заявляют, что пользователям не следует ожидать такой же производительности на других языках, кроме английского.

Обучение небольших моделей на таком большом наборе данных обычно считается пустой тратой вычислительного времени и даже приводит к снижению точности. Идеальное сочетание обучающих данных для вычисления ресурсов называется «Шиншилла оптимальная[PDF] сумма. По данным Meta, для модели с восемью миллиардами параметров, такой как Llama3-8B, это будет около 200 миллиардов токенов.

Однако в ходе тестирования Meta обнаружила, что производительность Llama 3 продолжает улучшаться даже при обучении на больших наборах данных. «Наши модели с восемью миллиардами и 70 миллиардов параметров продолжали улучшаться лог-линейно после того, как мы обучили их на 15 триллионах токенов», — пишет компания.

В результате, похоже, получилась относительно компактная модель, способная давать результаты, сравнимые с гораздо более крупными моделями. Компромисс в вычислениях, вероятно, был сочтен целесообразным, поскольку модели меньшего размера, как правило, легче выводить и, следовательно, их легче развертывать в масштабе.

При 8-битной точности для модели с восемью миллиардами параметров требуется всего 8 ГБ памяти. Переход к 4-битной точности — либо с использованием оборудования, которое ее поддерживает, либо с использованием квантования для сжатия модели — снизит требования к памяти примерно вдвое.

Meta обучила модель на паре вычислительных кластеров, каждый из которых содержит 24,000 XNUMX графических процессоров Nvidia. Как вы можете себе представить, обучение на таком большом кластере, хотя и быстрее, также создает некоторые проблемы — вероятность того, что что-то выйдет из строя в середине тренировочного прогона, возрастает.

Чтобы смягчить это, в Meta объяснили, что они разработали обучающий стек, который автоматизирует обнаружение, обработку и обслуживание ошибок. В гиперскейлер также добавлены системы мониторинга сбоев и хранения данных, чтобы уменьшить накладные расходы на контрольную точку и откат в случае прерывания обучающего запуска. После завершения работы Meta подвергла модели серии посттренировочных испытаний и этапов тонкой настройки.

Помимо Llama3-8B и 70B, Meta также представила новые и обновленные инструменты доверия и безопасности, в том числе Llama Guard 2 и Cybersec Eval 2, чтобы помочь пользователям защитить модель от злоупотреблений и/или атак с быстрым внедрением. Code Shield — еще одно дополнение, которое обеспечивает ограждения, помогающие отфильтровывать небезопасный код, генерируемый Llama 3.

Как мы уже сообщали ранее, генерация кода с помощью LLM привела к некоторым интересным векторы атаки которого Мета старается избежать.

Доступность

В течение следующих нескольких месяцев Meta планирует развернуть дополнительные модели, в том числе одну, превышающую 400 миллиардов параметров и поддерживающую дополнительные функции, языки и большие контекстные окна. Последнее позволит пользователям задавать более крупные и сложные запросы – например, суммировать большой блок текста.

Llama3-8B и 70B в настоящее время доступны для загрузки с сайта Meta. веб-сайт. Amazon Web Services, Microsoft Azure, Google Cloud, Hugging Face и другие также планируют предложить эту модель для развертывания на своих платформах.

Если вы хотите протестировать Llama3 на своем компьютере, вы можете ознакомиться с нашим руководством по запуску локальных LLM. здесь. После того, как вы его установили, вы можете запустить его, запустив:

оллама беги лама3

Развлекайтесь и дайте нам знать, как все прошло. ®

Spot_img

Последняя разведка

Spot_img

Чат с нами

Всем привет! Могу я чем-нибудь помочь?