Сколько стоит внедрить AI: считаем по LCOAI

2026-05-22 · 6 мин

Самый частый вопрос, который мне задают на первой встрече с заказчиком, звучит не «а можно сделать чат-бота по нашим документам» и даже не «насколько это будет точно». Он звучит так: «во сколько это обойдётся за три года». И вот тут начинается самое интересное, потому что честно ответить на него куда сложнее, чем кажется. Цена API за тысячу токенов — это вершина айсберга, под которой прячутся железо, дообучение, данные, дежурства команды и переобучение моделей раз в квартал.

Мы недавно в Raft разобрали этот вопрос системно и оформили подход, который назвали LCOAI. В моей команде он уже стал рабочим инструментом: когда приходит запрос на оценку, мы не машем руками, а считаем по одной формуле, которую можно показать финансистам заказчика и не краснеть. Делюсь логикой — мне кажется, она полезна любому, кто принимает решение о том, как разворачивать AI.

Что такое LCOAI и откуда он взялся

LCOAI — это Levelized Cost of Artificial Intelligence, приведённая стоимость искусственного интеллекта. Идею мы честно подсмотрели у энергетиков: в их мире есть LCOE — Levelized Cost of Energy, метрика, которая сводит все затраты на электростанцию к одной понятной цифре «сколько стоит киловатт-час за весь срок службы». Солнечная панель, газовая турбина и АЭС стоят по-разному на старте и в эксплуатации, но LCOE позволяет сравнивать их в одних единицах.

AI-решения ровно так же: облачный API, аренда виртуалок с GPU и своё железо в стойке — это три совершенно разные кривые затрат во времени. LCOAI сводит их к одной величине — стоимости одного валидного инференса, то есть одного успешно обработанного запроса пользователя.

Формула

Сама формула предельно простая, и в этом её сила:

LCOAI = (Total CAPEX + Total OPEX) / Total Valid Inferences

Всё держится на трёх слагаемых. CAPEX — капитальные затраты: закупка GPU и серверов, первичное обучение или fine-tuning модели, построение data-пайплайнов и разметка, лицензии, работа команды на внедрении. OPEX — операционные расходы: инференс, потребление облачных ресурсов, поддержка, периодическое переобучение, DevOps и аудиты безопасности. И в знаменателе — валидные инференсы, суммарное число запросов, которые система реально успешно обслужила за горизонт расчёта.

Главная ценность LCOAI не в том, что он даёт «правильную» цифру, а в том, что заставляет положить рядом все три варианта развёртывания в одних единицах — и спор «облако против своего железа» перестаёт быть вопросом веры.

Три сценария на одном примере

В разборе мы прогнали через формулу гипотетическую модель уровня Qwen 3.5 35B на горизонте трёх лет со стартовыми вложениями около 5 млн рублей. Сравнивали три варианта.

Облачный API (на примере Yandex Cloud): порядка 0,3 ₽ за 1000 токенов. При 10 млн запросов в год это около 3 млн ₽ OPEX, при 50 млн — уже 15 млн ₽. CAPEX почти нулевой.
Аренда облачных VM: две машины с A100 80GB, примерно 900 тыс. ₽ в месяц, то есть около 10,8 млн ₽ в год — и эта цифра слабо зависит от объёма трафика.
Своё железо on-premises: два сервера и две карты L40S, капитальные затраты около 12 млн ₽, но операционка — всего ~800 тыс. ₽ в год.

Вывод предсказуемо неоднозначный, и это правильно. На пилотах и малых объёмах API выигрывает с запасом — выходит дешевле альтернатив в два с лишним раза. А вот на больших устойчивых объёмах своё железо оказывается дешевле API уже втрое: высокий CAPEX размазывается по огромному числу инференсов, и цена запроса падает. Точка перелома у каждого проекта своя, и именно её LCOAI помогает нащупать.

Почему одной цифры всё равно мало

Здесь я добавлю свою практическую ремарку. LCOAI — отличный калькулятор, но он не должен превращаться в автопилот для решений. В реальных проектах поверх экономики всегда лежат вещи, которые в формулу не влезают: политики безопасности (часть данных просто нельзя выпускать в публичное облако), наличие в команде людей, которые умеют эксплуатировать GPU-парк, срочность запуска и — что важнее всего — волатильность спроса. Своё железо выгодно ровно до тех пор, пока оно загружено; купить два сервера под нагрузку, которая может и не прийти, — это не экономия, а замороженный CAPEX.

Поэтому у нас LCOAI работает как первый слой разговора, а не как вердикт. Он быстро отсекает заведомо невыгодные варианты и переводит обсуждение из «нравится / не нравится» в конкретные цифры. Дальше уже включаются ограничения по безопасности, команде и рискам. Но когда финансовый директор спрашивает «во сколько это обойдётся», у меня теперь есть не разведённые руки, а таблица с тремя кривыми и понятной точкой, где они пересекаются.

Полный разбор — в нашей статье на Хабре: Сколько стоит внедрить AI? Отвечаем с LCOAI.