LLM: большие языковые модели — что это, как работают, примеры

Вы пишете чат-боту: «составь меню на неделю из курицы». Он отвечает рецептами, списком покупок и даже калориями. Откуда он знает, что курица — это еда, а не птица на заборе? Всё дело в LLM.

LLM — модель, которая читала весь интернет

LLM (Large Language Model) — это нейросеть, обученная на огромном массиве текстов. Она не «понимает» слова в человеческом смысле. Она знает, какие слова обычно стоят рядом. После «курица» чаще идёт «рецепт», чем «карбюратор».

Представьте библиотеку, в которой прочитали каждую книгу. А потом запомнили, какие фразы встречаются вместе. LLM — это и есть такая библиотека, только в виде математической модели.

Как работает LLM

Модель разбивает текст на токены — кусочки слов. «Нейросеть» может стать двумя токенами: «нейро» и «сеть». Каждый токен превращается в числа — векторы. Модель обрабатывает эти векторы через слои трансформера и предсказывает следующий токен.

Кстати, GPT-4 обучалась на триллионах слов. Параметры модели — это «настройки», которые определяют, как именно модель связывает слова. У GPT-4 их около 1,8 триллиона.

Какие LLM существуют

ChatGPT (OpenAI), Claude (Anthropic), Gemini (Google), LLaMA (Meta) — самые известные. Каждая имеет свои сильные стороны: GPT-4 лучше в рассуждениях, Claude — в работе с длинными текстами, Gemini — в мультимодальных задачах.

LLaMA и Mistral можно запустить локально через Ollama. Нужен компьютер с 16+ ГБ оперативной памяти и хорошей видеокартой. Зато данные не уходят в облако.