Энергетический след синтеза речи: сколько в действительности «стоит» в киловаттах создание одного часа аудио от запроса до готового файла
Когда обсуждают «цену» искусственного голоса, чаще спорят о качестве тембра и ударениях, а не о счетчике электроэнергии. Между тем энергетический след синтеза речи легко превращается из абстрактной экологической темы в вполне прикладной показатель: сколько киловатт-часов уходит на один час аудио — от первого запроса до файла в папке проекта.
Что именно «жрёт» электричество в голосовом конвейере
Производство аудио похоже на небольшую фабрику. Сначала текст приводится к форме, которую понимает система: раскрываются числа, даты, сокращения, ставятся паузы, иногда добавляется разметка ударений. Затем акустическая часть рассчитывает параметры будущего голоса, а вокодер превращает их в звуковую волну. После генерации вступает «полиграфия»: нормализация громкости, склейка фраз, кодирование в нужный формат, проверка на клиппинг и выгрузка в хранилище.
На счётчике это выглядит как сумма двух статей. Первая — вычислительная: CPU/GPU в момент работы. Вторая — инфраструктурная: охлаждение, блоки питания, сетевое оборудование и потери в распределении. В офисном компьютере эти потери почти незаметны, в дата-центре они могут добавить ощутимую долю к затратам.
Почему час готового голоса редко равен часу вычислений
Главный сюрприз для новичков: синтез не обязан идти «в реальном времени». Если система генерирует в 50 раз быстрее, то час аудио считается примерно за минуту с небольшим. Тогда энергозатраты тоже сжимаются — не потому что «магия нейросети», а потому что железо работает недолго.
Но встречается и обратная картина: на слабом процессоре или при неудачной настройке вокодера генерация идёт медленно, иногда медленнее звучания. В этом режиме электричество уходит уже не на создание голоса как таковое, а на длительное поддержание нагрузки, нагрев и обдув. Разница между быстрым и медленным конвейером даёт не проценты, а десятки раз.
Прикидка в киловатт-часах
Сценарий «быстрый». Сервер под нагрузкой потребляет около 0,4–0,7 кВт в момент синтеза (в зависимости от видеокарты, процессора и настроек). Пусть среднее — 0,5 кВт. Если система выдаёт звук в 60 раз быстрее реального времени, то на час аудио потребуется 1/60 часа вычислений, то есть 0,0167 часа. Энергия: 0,5 × 0,0167 ≈ 0,008 кВт·ч. Это величина «почти незаметная» — сравнимая с работой небольшой лампы в течение короткого времени.
Сценарий «медленный». Те же 0,5 кВт, но скорость близка к 1×. Тогда на час звука уходит примерно 0,5 кВт·ч. Если добавить накладные расходы площадки и длительную постобработку на CPU, цифра легко подбирается к 0,6–0,8 кВт·ч. И вот это уже чувствуется при потоковой генерации сотен часов.
Важно: обе оценки не претендуют на универсальность, но хорошо показывают, где живёт основная разница — в скорости и в организации процесса.
Скрытые потребители
Первая ловушка — лишние прогоны. Ошибка в тексте, неправильное чтение чисел, поздняя правка сценария — и система пересчитывает материал заново. Вторая — тяжёлая «косметика»: агрессивное шумоподавление, многополосная компрессия, эквализация под разные платформы. Когда постобработка запускается по одному файлу и последовательно, её время внезапно становится сравнимым с генерацией.
Третья — простой инфраструктуры. Голосовой сервис может быть быстрым, но держать постоянно включённые машины «на всякий случай». Тогда стоимость часа аудио расползается: часть электричества тратится не на синтез, а на ожидание. Четвёртая — хранение вариантов. В проектах любят «на всякий случай» сохранять сырые промежуточные файлы, несколько кодеков и десятки дублей. Диски и передача данных редко доминируют, но при масштабах превращаются в заметную строку.
Как считать честно, а не по ощущениям
Самый практичный подход — измерять по этапам. Сколько времени заняла нормализация текста, сколько — генерация на ускорителе, сколько — кодирование и доставка. Для каждого этапа фиксируется средняя мощность оборудования. Затем суммы складываются и приводятся к кВт·ч на час готового материала.
Полезно вести «паспорт конвейера»: средняя скорость генерации (во сколько раз быстрее реального времени), доля перерасчётов из-за правок, среднее число форматов на один релиз, процент простаивания серверов. Такой паспорт быстро показывает, где экономия даёт результат, а где она косметическая.
Что реально уменьшает расход, не ухудшая голос
Батчинг — обработка пачек фраз вместо одиночных запросов — повышает загрузку ускорителей и уменьшает пустые паузы между задачами. Кэширование текстовой нормализации избавляет от повторного расчёта стандартных дат, сумм и шаблонов. Оптимизация вокодера и переход на более эффективные режимы инференса часто дают кратный выигрыш в скорости, а значит и в киловатт-часах.
Ещё один рабочий приём — разделение «черновика» и «мастера». Черновые озвучки можно делать в лёгком формате и с минимальной постобработкой, а финальные — только после утверждения текста. Так исчезает главная причина перерасхода: бесконечные пересчёты ради правок.
Как киловатт-часы превращаются в деньги и углерод
Одинаковый расход энергии может означать разный след для климата: всё решает источник электричества в конкретный час. В одном регионе преобладает газ, в другом — ветер, и «стоимость» киловатт-часа в выбросах меняется в разы. Для продакшена это становится управляемым параметром: пакетную генерацию удобно запускать в окна, когда сеть чище и тариф ниже, а срочные короткие задачи оставлять в онлайне.
В денежном выражении математика тоже проста. Если час аудио обходится, например, в 0,05 кВт·ч, то даже при заметной цене электроэнергии это копейки на единицу контента. Но при тысячах часов и постоянных перерасчётах «копейки» складываются в бюджет, который уже требует контроля — ровно так же, как расходы на хранение или трафик.
Сколько «стоит» час аудио на самом деле
В типичном проекте цена часа синтезированного голоса определяется не одним числом, а дисциплиной. Быстрый конвейер с редкими перерасчётами и разумной постобработкой укладывается в сотые доли кВт·ч на час результата. Медленный, распухший от дублей и простоев, легко уходит в десятые доли и выше. Электричество в голосовых технологиях — это история про скорость, повторяемость и архитектуру пайплайна, а не про мистическую «прожорливость ИИ».