Первая большая языковая модель LLM Llama от Meta более или менее официально распространилась на просторах интернета, теперь представлена модель второго поколения Llama 2, причем сразу с открытым исходным кодом. Ее можно бесплатно использовать и для исследований, и для коммерческих сценариев. Здесь Meta следует по стопам специалиста по оптимизации софта MosaicML, который не так давно тоже выпустил модель с открытым исходным кодом.
Модели Llama-2 доступны с 7, 13 и 70 млрд. параметров. Для тренировки использовались 2 трлн. токенов с контекстной длиной 4.096. То есть контекстная длина в два раза больше по сравнению с первыми моделями Llama.
Подробности модели и партнерства между Meta и Microsoft приведены в посте.
Сеть уже прошла тренировку, к ней также добавлено более миллиона аннотаций от пользователей (Reinforcement Learning from Human Feedback или RLHF), которые существенно сказались на качестве чата новой модели (Llama 2 Chat). Все остальные технические подробности можно прочитать напрямую на сайте Meta.
Модели Llama2 доступны в Microsoft Azure, Amazon Web Services и Hugging Face.
Подписывайтесь на группу Hardwareluxx ВКонтакте и на наш канал в Telegram (@hardwareluxxrussia).