Yandex Cloud представил масштабные обновления речевых технологий в Казахстане

Yandex Cloud обновил свои сервисы на базе речевых технологий и расширил их возможности для казахстанского бизнеса. Сервис речевой аналитики Yandex SpeechSense теперь работает с казахским языком, а в сервисе синтеза и распознавания речи Yandex SpeechKit появились голоса Сауле и Жанар.
Часть этих обновлений Yandex Cloud анонсировал на Yandex Scale Kazakhstan. В этой статье Елена Белоброва, руководитель направления по развитию речевых технологий Yandex Cloud, подробнее рассказывает о новых функциях, а также об особенностях развития речевых технологий в Казахстане и о том, что они дают бизнесу.
Зачем SpeechKit новые голоса
У бизнеса в Казахстане две основных задачи при работе с голосовыми помощниками. Первая – такая же, как и у бизнеса в любой другой стране: чтобы помощник общался естественно, в соответствии с ситуацией, то есть был эмпатичным. Вторая задача вытекает из локальных особенностей: в стране говорят по сути на трёх языках – казахском, русском и их смеси. Помощник должен бесшовно переключаться между языками в зависимости от того, на каком языке говорит клиент.
SpeechKit работает с казахским языком с 2021 года. Первым голосом была Амира. Она знает только казахский и общается нейтральным тоном. Вторым появился Мади. Он говорит и на русском, и на казахском, его амплуа – серьёзное, брутальное. Сейчас Мади используют более 100 организаций в Казахстане.
Компании просили создать и женский голос – более мягкий и улыбчивый, тоже владеющий двумя языками. Так в конце 2024 года появилась Сауле, а в марте 2025-го – Жанар.
Они обе говорят на русском и казахском и поддерживают разные сценарии коммуникаций с клиентом. Например, при продаже услуг и поддержке уместен голос «с улыбкой». Но когда обращение связано с негативом, такой тон может восприниматься как насмешка над проблемой клиента. Для этого есть более серьёзный вариант голоса. А медицинские организации могут напоминать клиентам о записи эмпатичным тоном, так как обращение к врачу – чувствительная тема.
Для всех этих ситуаций у Сауле и Жанар доступно три амплуа:
- нейтральное, доброжелательное;
- «с улыбкой»;
- эмпатичное и серьёзное.
Голоса могут говорить шёпотом. Эта опция нужна, например, когда клиент звонит поздно вечером или сам обращается шёпотом, чтобы не мешать кому-то рядом.
А если компания хочет говорить уникальным голосом, мы делаем кастомный синтез речи в рамках сервиса SpeechKit Brand Voice. Заказчик может выбрать голос актёра, сотрудника и любой другой. Мы запишем его и на основе записи создадим модель синтеза речи.

Вместе с добавлением новых голосов мы совершили ещё один важный шаг по локализации SpeechKit – развернули его в дата-центре в Караганде. Это позволяет хранить и обрабатывать данные на территории Казахстана. Раньше компании и госучреждения, которым требуется обрабатывать данные внутри страны, могли использовать только специализированные on-premise-версии.
В чём особенность разработки речевых технологий в Казахстане
Казахский стал вторым языком в SpeechKit – мы добавили его сразу после русского. И столкнулись с новой для себя ситуацией, когда модели должны одинаково хорошо синтезировать речь на русском, казахском и смешанном. И распознавать диалоги на любом из этих языков.
Нам пришлось переработать подход к обучению нейросетей. Сейчас в сервисе есть модель, которая понимает только казахскую речь, а есть та, которая сама определяет язык и исходя из этого распознает речь. И синтез должен работать в соответствии с двуязычным сценарием.
Это еще больше повышает требования к дикторам, которые озвучивают новые голоса синтеза. Процесс выбора дикторов устроен достаточно сложно. Сначала мы проверяем голос примерно по 20 техническим критериям. В частности, диктор должен иметь отличную артикуляцию и правильно дышать, чтобы не было слышно вдохов между словами.
Далее оцениваем эмоциональную составляющую: голос должен быть приятным. На основе всех этих параметров составляем скоринговую таблицу, расставляем баллы по каждому пункту и делаем выбор. В Казахстане мы делаем это отдельно для русского и казахского языков, что сокращает количество успешных кандидатов.
Как технологии синтеза и распознавания речи помогают бизнесу
Традиционно речевые технологии наиболее популярны в сферах телекома, финансов и ритейла (на эти отрасли приходится более 65% доли рынка по данным нашего исследования). Другие крупные направления – государственные компании и компании-разработчики, которые поставляют решения на основе наших технологий.
Среди основных сценариев использования — автоматизация колл-центров, помощники в приложениях и на сайтах, а также озвучка аудиокниг.
Автоматизация колл-центров актуальна в ситуациях, когда нужно отвечать на однотипные запросы, например о балансе средств, готовности документов, записи на приём. Голосовой робот, интегрированный с базой данных компании, может получать из неё всю необходимую информацию и полноценно помогать пользователям.
Также голосовые роботы позволяют справляться с резким масштабированием, когда количество звонков увеличивается в разы и освобождают операторов от рутинной работы и неприятных сценариев, при которых сотрудники быстро выгорают. Например, это напоминания об оплате и холодные продажи.
Голосовые помощники в мобильных приложениях и на сайтах используются для упрощения работы пользователей в приложениях банков, ритейлеров и др.
Озвучка аудиокниг – менее очевидный, но уже очень распространённый сценарий. Это быстрее и дешевле, чем озвучка с помощью чтецов. Слова и разделы в книге можно выделять с помощью отдельных амплуа. Есть возможность менять скорость речи: для сносок – быстрее, для диалогов – размереннее. Например, сервис «Литрес» использует синтезированные голоса на основе SpeechKit в своём проекте «Чтец».
Как реагируют пользователи
Взаимодействие с роботом и реакция на него различается для входящих и исходящих звонков.
При входящем звонке пользователь сам хочет получить информацию, и чем лучше робот ему помог, тем вероятнее человек захочет обратиться к нему в следующий раз.
Важно не скрывать, что это ИИ: при общении с роботом человек формулирует мысли более конкретно, и помощник лучше его понимает.
По исходящим звонкам в холодных продажах ситуация иная. Их конверсия в целом невысокая, и если человек понимает, что звонит робот, чаще всего сразу кладёт трубку. Поэтому робота делают максимально похожим на живого оператора и начинают с цепляющей фразы.
Если собеседник заинтересовался, звонок переводят либо на помощника с синтезом речи, который учитывает различные детали разговора, либо на оператора.
Что даёт бизнесу речевая аналитика на казахском
С марта 2025 года сервис речевой аналитики Yandex SpeechSense поддерживает казахский язык. SpeechSense позволяет анализировать любые виды коммуникаций: диалоги в контакт-центрах, чаты, отзывы клиентов, записи разговоров в точках продаж.
Теперь вне зависимости от языка – казахский, русский или их смесь – технология распознаёт контекст и выявляет тему диалога, проблемы клиента и делает резюме разговора.
Речевая аналитика позволяет контролировать работу контакт-центров гораздо эффективнее, чем вручную. При обычном контроле супервизор прослушивает порядка 5% разговоров и не может выявить диалоги, после которых нужно срочно перезвонить клиенту, чтобы допродать услугу, извиниться и т.п.
Также супервизоры практически не могут делать выводы из отзывов клиентов – например, понять, что клиенты жалуются на работу конкретной функции в приложении. А ещё даже в крупных организациях зачастую нет точной разбивки по категориям входящих звонков, либо она очень трудозатратна. Так что компания может не знать, на какие зоны роста обратить внимание, чтобы сократить число обращений в контактный центр.
Речевая аналитика позволяет:
- контролировать качество всех коммуникаций за счёт анализа 100% диалогов;
- сократить бюджет на проверку качества;
- исключить ошибки, связанные с человеческим фактором, при анализе;
- узнать, что клиенты говорят про продукт, чего им не хватает, что работает не так;
- увеличить конверсию в продажи;
- повысить удовлетворённость пользователей.
Клиент получает более качественный сервис за счёт того, что повышается контроль поддержки, а вместе с ним и соблюдение стандартов. Плюс информация из обращений передаётся команде продукта, так что руководители продуктов лучше понимают боли и потребности пользователей.
По нашим данным, покрытие речевой аналитики в сегменте крупных компаний составляет 50-60%, а в средних – 20-30%. Так что огромное количество информации, которая помогла бы повысить качество обслуживания и увеличить конверсию в продажи, не доходит от пользователей к компании.
Как определить эффективность
Чем больше у бизнеса однотипных звонков, тем выше будет эффект от автоматизации.
Голосовые роботы повышают эффективность колл-центров численностью от 50 операторов. Это порог, с которого автоматизация позволяет экономить на коммуникациях.
Например, IT-компания Kolesa Group за счёт голосового робота на базе SpeechKit вдвое сократила нагрузку на колл-центр. Робот обзванивает 80% пользователей по заданному сценарию, а конверсия из звонка в действие выросла на 20%. Казахстанская сеть электробытовой и компьютерной техники Technodom Operator с помощью робота сократила время обработки обращений с нескольких дней до 3 часов.
Речевая аналитика экономически выгодна уже от пяти операторов, так что её сфера применения ещё шире. Причём автоматизацию контакт-центра не всегда используют вместе с аналитикой: не всем компаниям выгодно и то, и другое.
Например, бизнесу со сложными диалогами в контакт-центрах трудно полагаться на роботов. Зато такие компании ускоряют оценку качества и другие процессы за счёт аналитики. Допустим, в IT-поддержке технических продуктов, где большинство вопросов требует экспертных знаний, автоматизировать колл-центр с помощью голосовых роботов будет невыгодно. При этом там, как и в любой поддержке, важно соблюдать критерии качества, поэтому нужна речевая аналитика.
«Мы начали использовать систему речевой аналитики Yandex SpeechSense, так как нам нужно было повысить контроль качества консультаций в фармацевтической сфере. Важно было найти такое решение, которое поможет анализировать диалоги, отслеживать корректность предоставляемой информации и выявлять точки роста для улучшения клиентского сервиса. Сервис позволяет нам систематизировать работу с чатами и получать ценные инсайты для развития процессов», – делится Арысбек Анель, руководитель компании Aq Niet Group.
Очень хороший экономический эффект дает применение речевой аналитики в продажах. Даже простое соблюдение всех этапов продаж, таких как выявление потребностей, презентация предложения, отработка возражений и закрытие сделки, ощутимо повышает конверсию. В речевой аналитике очень быстро можно выявить лучшие практики продаж и масштабировать их на других менеджеров. А также определить, какие тезисы и приемы приводят к потере сделки и больше их не использовать.
Важно понимать, что автоматизация меняет роль оператора и повышает его значимость. В автоматизированном колл-центре у специалиста нет задачи рассказывать, как активировать карту. От него требуется помощь в сложных вопросах и другой уровень экспертности. Учет разных сценариев при роботизированном общении повышает комфорт пользователя и, как следствие, – качество клиентского сервиса и доверие к голосовым помощникам. Вместе с речевой аналитикой это позволяет существенно менять пользовательский опыт, при этом с экономией для бизнеса.