Инвестиции

Google игнорирует казахский язык?

В компании заявили, что, по большому счету, не делают ничего, чтобы добавить менее распространенные языки в системы Google

В статье, опубликованной на портале Techradar, американский журналист Джэйми Картер пишет об отношении технологических гигантов, вроде Google и Amazon, к менее распространенным языкам и, в частности, к казахскому языку.

«Представьте, если бы английский язык не был универсальным языком интернета. Что делать, если вы не можете прочитать эту статью в интернете, кроме как в версии, искаженной Google-переводчиком? Теперь представьте, что вы связались с корпорацией Google и попросили их добавить английский в свои системы, а они сказали: «Нет, спасибо, сделайте это сами», – пишет журналист.

В статье Картер приводит в пример казахский язык. По его словам, технологические гиганты вроде Google часто не берут в расчет Казахстан, так как несмотря на внушающие размеры республики, ее население составляет лишь 18 млн человек.

«Как коммерческий рынок, Казахстан не очень интересен для Google, потому что он не генерирует правильную сумму денег из рекламы», – говорит Рауан Кенжеханулы, основатель и руководитель некоммерческого общественного фонда WikiBilim, который также создал в 2011 году Википедию на казахском языке. С тех пор он стал движущей силой в попытке повысить уровень казахского языка в онлайн-системах машинного перевода. 

«Для малых языков очень важно иметь доступ к любому веб-сайту, а также переводить сайты и статьи на родной язык», – говорит он. 

Неоднозначное отношение Google к разным народам и их языкам – довольно стандартное и, в целом, понятное поведение, пишет американский журналист. К примеру, несколько лет назад компания добавила Фарерские острова, где проживает всего 30 тыс. человек, на Google Street View, только после их прямого обращения.

Справедливости ради, стоит отметить, что Казахстаном были предприняты некоторые решительные шаги навстречу мировому сообществу. Достигнув результата в 7 тыс. статей на казахском языке в Википедии, Кенжеханулы возглавил проект, призванный увеличить это количество до 210 тыс., чтобы угодить Google.

«Мы начали сотрудничество с Google, но они объяснили, что действительно не делают ничего, чтобы включить менее распространенные языки в переводческую систему Google. Они сказали: «Это зависит от вас, вы должны предоставить много текста», и попросили 10 тыс. статей», – рассказывает казахстанский эксперт.

После достижения намного большего объема текста, чем было необходимо для зеркальных переводов с казахского на английский (и обратно), система Google смогла создать свои первые переводы. 

Благодаря работе 350 волонтеров, казахский язык теперь доступен как простая текстовая система в Google Translate, хотя она все еще не будет переводить целые сайты, говорить на казахском языке и осуществлять перевод через камеру с помощью приложения.

Еще один довольно радикальный шаг, который Казахстан предпринял для упрощения интеграции своего языка в мире – изменение своего алфавита. 

Помимо лингвистических уступок Казахстана технологическому миру, успехи в механическом переводе уменьшат проблемы перевода в ближайшем будущем.

Если наличие Википедии на казахском языке и Google Translate помогают сохранить этот язык живым и развивающимся, то как обстоят дела с голосовыми помощниками Alexa (Алекса), Google Assistant и Siri? 

До сих пор глобальный рост распознавания речи шел в аппаратных средствах голосовой связи, а не в программном обеспечении, при этом все крупные игроки были ограничены в том, с какими языками они справляются. К примеру:

Alexa распознает английский, немецкий и японский;

Google Assistant – английский, французский, немецкий, итальянский, японский и испанский; 

Siri – английский, арабский, китайский, датский, голландский, финский, французский, немецкий, иврит, итальянский, японский, корейский, малайский, норвежский, португальский, русский, испанский, шведский, тайский и турецкий.

«Мы хотим быть частью этих технологий и сейчас мы работаем над тем, чтобы добавить казахский язык в систему распознавания речи. Дело не в потакании своим желаниям попробовать новинки гаджетов, такие как, например, установка голосом таймера на кухне. Ставки на много выше, – заявляет глава фонда. Речь идет о доступе к будущему технологий. Например, беспилотные автомобили будущего наверняка станут общаться со своими пассажирами, в первую очередь, голосом, но если доверить их разработку только производителям автомобилей и технологическим компаниям, то в разработке, скорее всего, будут задействованы только самые распространенные в мире языки – мандаринский, китайский, английский и испанский».

В Казахстане будет активно продолжаться работа по слиянию казахского языка с интернетом и, в частности, с Google Translate, потому что Кенжеханулы убежден в его важном значении для современной эпохи.