15 мая 2024 г. в Москве состоится митап Tinkoff.AI Speech Meetup #3. Тема: платформа голосовых технологий VoiceKit.
В Тинькофф есть своя платформа голосовых технологий VoiceKit, которая используется не только для оптимизации внутренних процессов компании, но и для запуска продуктов, которыми пользуются миллионы клиентов.
При разработке такой платформы возникают разные задачи: от генерации гипотез и ML-исследований до построения эффективных пайплайнов обработки данных и интеграции моделей в высоконагруженные сервисы. И на каждом этапе мы сталкиваемся со сложными инженерными задачами, находим компромиссы и принимаем архитектурные решения.
На митапе поделямся некоторыми из них и расскажем:
- какие алгоритмы лежат в основе text normalization — важного компонента NLP-пайплайна синтеза речи;
- почему обновление модели, обрабатывающей десятки тысяч часов речи в сутки, — это сложно. Как ускорить релизный цикл, избавить инженеров от рутины и не обвалить продуктовые метрики команд-клиентов;
- как при конвертации голоса добиться максимальной похожести на целевой голос, сохранив всю лингвистическую информацию исходной речи.
Tinkoff.AI Speech Meetup #3
Дата проведения: 15.05.2024. Начало в 19:00
Место проведения: Москва , Грузинский Вал, д.7, Tinkoff Space
- Анонс
- Программа
- Участники
- Спикеры
15 мая 2024 г. в Москве состоится митап Tinkoff.AI Speech Meetup #3. Тема: платформа голосовых технологий VoiceKit.
В Тинькофф есть своя платформа голосовых технологий VoiceKit, которая используется не только для оптимизации внутренних процессов компании, но и для запуска продуктов, которыми пользуются миллионы клиентов.
При разработке такой платформы возникают разные задачи: от генерации гипотез и ML-исследований до построения эффективных пайплайнов обработки данных и интеграции моделей в высоконагруженные сервисы. И на каждом этапе мы сталкиваемся со сложными инженерными задачами, находим компромиссы и принимаем архитектурные решения.
На митапе поделямся некоторыми из них и расскажем:
- какие алгоритмы лежат в основе text normalization — важного компонента NLP-пайплайна синтеза речи;
- почему обновление модели, обрабатывающей десятки тысяч часов речи в сутки, — это сложно. Как ускорить релизный цикл, избавить инженеров от рутины и не обвалить продуктовые метрики команд-клиентов;
- как при конвертации голоса добиться максимальной похожести на целевой голос, сохранив всю лингвистическую информацию исходной речи.
Программа:
- 19:00 – 19:40 Структурированная нормализация текста с использованием недетерминированных FST
- 19:40 – 20:20 Как улучшить похожесть голосов при конвертации голоса
- 20:35 – 21:15 MLOps in Speech Recognition