Токенизация: почему ИИ сложно считать буквы «r» в «strawberry»?
Купить в 1 клик

Не хватает прав доступа к веб-форме.

Спасибо за заказ!
Ошибка!
В ближайшее время наш менеджер свяжется с вами.

Мы работаем для Вас!

Время работы:  Пн-Пт   10 -17; Сб.-Вск  выходной

1280x800 532x281
07.мая.2026

Токенизация: почему ИИ сложно считать буквы «r» в «strawberry»?

Пока мы воспринимаем свои промпты как обычный текст из символов, для LLM они в виде токенов «выглядят» совсем иначе. И если не осознавать этого, порой можно наткнуться на проблемы. Поэтому полезно (и интересно) понимать: что вообще представляют собой токены? По какому алгоритму текст преобразуют в них и обратно? Какие важные нюансы при этом возникают?Возможно, подробнее и понятнее всех объяснил пару лет назад ИИ-рисерчер Андрей Карпатый, записав двухчасовое видео на английском. А теперь мы решили сделать хабрапост, который и пересказывает на русском главное из этого видео, и делает поправку на прошедшее время, и учитывает другие источники (вроде книги «Build a Large Language Models from Scratch»). Описанное применимо к мейнстримовым LLM вроде GPT, в других моделях возможны отличия. Читать далее

Название: Токенизация: почему ИИ сложно считать буквы «r» в «strawberry»?
Ссылка на источник:  https://habr.com/ru/companies/gazprombank/articles/1032406/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1032406

Возврат к списку