Вы пишете чат-боту: «составь меню на неделю из курицы». Он отвечает рецептами, списком покупок и даже калориями. Откуда он знает, что курица — это еда, а не птица на заборе? Всё дело в LLM.
LLM — модель, которая читала весь интернет
LLM (Large Language Model) — это нейросеть, обученная на огромном массиве текстов. Она не «понимает» слова в человеческом смысле. Она знает, какие слова обычно стоят рядом. После «курица» чаще идёт «рецепт», чем «карбюратор».
Представьте библиотеку, в которой прочитали каждую книгу. А потом запомнили, какие фразы встречаются вместе. LLM — это и есть такая библиотека, только в виде математической модели.
Как работает LLM
Модель разбивает текст на токены — кусочки слов. «Нейросеть» может стать двумя токенами: «нейро» и «сеть». Каждый токен превращается в числа — векторы. Модель обрабатывает эти векторы через слои трансформера и предсказывает следующий токен.
Кстати, GPT-4 обучалась на триллионах слов. Параметры модели — это «настройки», которые определяют, как именно модель связывает слова. У GPT-4 их около 1,8 триллиона.
Какие LLM существуют
ChatGPT (OpenAI), Claude (Anthropic), Gemini (Google), LLaMA (Meta) — самые известные. Каждая имеет свои сильные стороны: GPT-4 лучше в рассуждениях, Claude — в работе с длинными текстами, Gemini — в мультимодальных задачах.
LLaMA и Mistral можно запустить локально через Ollama. Нужен компьютер с 16+ ГБ оперативной памяти и хорошей видеокартой. Зато данные не уходят в облако.