Добавить в календарь 15.01.2026 11:00 15.01.2026 12:00 Europe/Moscow Запуск LLM: как сократить расходы на инференс

Вебинар "Запуск LLM: как сократить расходы на инференс" состоится 15 января 2026 года в 11:00 (мск).

Запуск крупных языковых моделей приводит к неэффективным расходам: мощный GPU используется не полностью, а расчеты памяти для запуска модели не совпадают с реальностью. В результате приходится платить за ресурсы, которые не используются, или сталкиваться с ошибками из-за нехватки vRAM.

На вебинаре разберут, как точно рассчитывать конфигурацию для запуска LLM и настраивать параметры инференса для экономии без потери в качестве.

Вы узнаете:

  • из чего складывается потребление vRAM;
  • как точно рассчитать необходимую конфигурацию GPU для выбранной модели, включая форматы квантования (BF16, FP8);
  • какие параметры LLM сильнее всего влияют на стоимость и производительность;
  • как с помощью Evolution ML Inference автоматически масштабировать ресурсы и переводить модели в serverless-режим, чтобы платить только за активную работу.

В практической части покажем запуск LLM с оптимальными параметрами в сервисе Evolution ML Inference и наглядно сравним разные конфигурации по производительности и стоимости.

Вебинар будет полезен дата-сайентистам, DevOps-инженерам и руководителям, которые хотят оптимизировать затраты на ML-инфраструктуру.

Онлайн,

Запуск LLM: как сократить расходы на инференс

Screenshot 2026-01-12 at 21.14.33.png

Дата проведения: 15.01.2026. Начало в 11:00

Место проведения: Онлайн

Организатор: Cloud.ru
Будь в курсе всех мероприятий по теме ИТ-инфраструктура
  • Анонс
  • Программа
  • Участники
  • Спикеры

Вебинар "Запуск LLM: как сократить расходы на инференс" состоится 15 января 2026 года в 11:00 (мск).

Запуск крупных языковых моделей приводит к неэффективным расходам: мощный GPU используется не полностью, а расчеты памяти для запуска модели не совпадают с реальностью. В результате приходится платить за ресурсы, которые не используются, или сталкиваться с ошибками из-за нехватки vRAM.

На вебинаре разберут, как точно рассчитывать конфигурацию для запуска LLM и настраивать параметры инференса для экономии без потери в качестве.

Вы узнаете:

  • из чего складывается потребление vRAM;
  • как точно рассчитать необходимую конфигурацию GPU для выбранной модели, включая форматы квантования (BF16, FP8);
  • какие параметры LLM сильнее всего влияют на стоимость и производительность;
  • как с помощью Evolution ML Inference автоматически масштабировать ресурсы и переводить модели в serverless-режим, чтобы платить только за активную работу.

В практической части покажем запуск LLM с оптимальными параметрами в сервисе Evolution ML Inference и наглядно сравним разные конфигурации по производительности и стоимости.

Вебинар будет полезен дата-сайентистам, DevOps-инженерам и руководителям, которые хотят оптимизировать затраты на ML-инфраструктуру.