Инвестиции

Что должен уметь специалист по большим данным — девушки о работе в Data Science

Рассказываем, как устроен рынок аналитики

От математики и статистики к аналитике, программированию и машинному обучению. Как справляются с задачами и работают над собой, выстраивают коммуникации с командой, о чём мечтают и как попали в профессию, рассказывают специалистки из компаний «Газпромнефть» и Kolesa Group.

«Я успела поработать 3 месяца Data Science интерном в стартапе Mezzobit в Нью-Йорке (платформа помогает собирать данные аудитории, уделяя внимание их конфиденциальности, обмениваться ими и использовать для оптимизации в маркетинговых целях — «Курсив») отказавшись от оффера из Силиконовой долины. И получила письмо от министерства образования с требованием вернуться в Казахстан», — рассказывает Назым Сатбекова, специалист по машинному обучению (Machine Learning) в Kolesa Group и выпускница Carnegie Mellon University по программе «Болашак».

Data Science, или наука о данных, использует большие массивы данных (Big Data или Dataset) для понимания связей между явлениями, выявления закономерностей и их анализа. Data Science — междисциплинарная отрасль, объединяющая статистику, математику, информатику и, опционально, другие сферы (экономику, маркетинг, медицину, телеком и другие) — в зависимости от конкретных задач. Отрасль довольно молодая: современная концепция появилась в начале 2000-х. 

Data Science — прикладная наука, она помогает решать очень прагматические проблемы: прогнозировать периоды роста и спада спроса в бизнесе или возможные природные катаклизмы, модерировать объявления и фильтровать спам, проводить первичную клиническую диагностику у пациентов.

«В новый DS-отдел одна томская компания посадила одинокого программиста с многолетним опытом коммерческой разработки, а в пару ему искала математика. В качестве тестового задания мне предложили написать на Python алгоритм умножения матриц: я писала его всё воскресенье в текстовом редакторе, потому что не знала о существовании среды разработки. Разумеется, мне отказали», — говорит Виолетта Гайдак, аналитик по технологиям в «Газпромнефти» в Санкт-Петербурге.

У Назым и Виолетты разные истории о том, как они попали в Data Science, и работают они над разными задачами. Но обе подчеркивают, что их работа — это большая ответственность и постоянное обучение новому. Эти требования никак не привязаны к полу, хотя женщин в сфере действительно гораздо меньше. 

От статистики к Data Science

Назым родилась в городе Сатпаев в Карагандинской области, а позже с семьёй переехала в Караганду и закончила там школу с уклоном в физику и математику. Хотела поступать в филиал МГУ на экономиста, как большинство знакомых сверстников. Но отбор не прошла: сдала математику с отличием и завалила сочинение. Поначалу растерялась и не знала, что теперь делать. Старшая сестра училась тогда по программе «Болашак» в Москве — по её примеру Назым решила тоже попытаться и подалась на специальность «Статистика», которая показалась более близкой к экономике. К тому же, статистика была приоритетной специальностью и шансов поступить туда было больше. 

Практически весь следующий год пришлось готовиться, сдавать экзамены по английскому, казахскому, писать мотивационное сочинение, проходить тесты на психологическую устойчивость и готовность к обучению. В апреле 2009 года девушка узнала о зачислении на обучение по программе. 7 месяцев заняло обучение на языковых курсах, во время которого Назым стала подаваться в зарубежные университеты. Её приняли в американский Carnegie Mellon University — частный университет в Питтсбурге, Пенсильвания. Учиться там не слишком хотелось, потому что считала это учебное заведение слишком крутым для себя. Carnegie Mellon University — один из топовых технологических университетов по статистике и программированию. На втором курсе она решила параллельно изучать политику и менеджмент, чтобы точно найти работу по окончанию университета (стипендиаты программы «Болашак» обязаны вернуться в Казахстан и отработать обучение: в городах республиканского значения в течение 5 лет, в регионе — 3 года, 2 года в сфере образования — «Курсив»)

Назым Сатбекова / фото из личного архива

«Я много грузилась тем, что потом буду делать в реальном мире. Думала, что вот со знаниями политики и менеджмента смогу пригодиться в Казахстане: вот приеду, всё поменяю, всё сделаю круто и как надо! Прошла стажировку в министерстве экономики. Полтора месяца: принеси кофе, сделай справки, напиши письмо. Я поняла, что не хочу работать в этой сфере, а хочу найти реальное применение своим знаниям — и стала размышлять о техническом применении статистики», — говорит Назым.

Молодой человек рассказал Назым, что собирается на Data Science, предложив тоже податься, ведь все её изученные курсы подходили для такой работы. Девушка гуглит, чтобы понять, что это вообще такое. И чувствует, словно звёзды сошлись: эта работа выглядит очень интересной и подходящей для неё! До окончания университета остаётся 4 месяца, и Назым должна вернуться в Казахстан. Но понимает, что в стране в тот момент просто нет работы в выбранной сфере. Решает, что не хочет заниматься чем-то ещё, и остаётся в Америке ненадолго на свой страх и риск ради реального опыта.

948691fc-1dc3-4f3a-85e2-535cbf2c0571.png

Kolesa Group опросили 308 респондентов, работающих в сфере Data Science в Казахстане, чтобы составить портрет специалиста. По данным опроса 97% — с высшим образованием

e8db90a3-a5ff-4675-8fb9-5c94b2167fc5.png

Большинство специалистов в сфере учились в казахстанских вузах

Поработав в стартапе 3 месяца, девушка возвращается в страну. В 2014 году никакой работы для специалиста по Data Science в Казахстане не было. Пришлось устроиться в обычное ТОО, заниматься клиентской аналитикой — хотелось хотя бы работать с данными. Затем устраивается в 2дэй телеком, Халык банк и Kaspi банке, где появилась возможность снова стать Data Science-специалистом. В Kolesa Group, где она работает, захотелось попасть ради классной команды, того самого окружения, которое многому учит и вдохновляет. В анализе данных Назым Сатбекова — 5,5 лет, из них 3,5 года — в Data Science.

313a2174-b2c6-4b2b-a109-b930bdf2f182.png

На рынке Казахстана распределение специалистов в сферах в пользу IT, финансов и банков

От чистой математики к Data Science

Виолетта Гайдак закончида школу в селе Успенка Павлодарской области. Мечтала поступить в Алматы на радиотехнику, но не хватило баллов на ЕНТ — 108, четверка в аттестате по физике. В итоге поступила в Павлодарский государственный университет на специальность «Актуарная математика» со специализацией в оценке рисков в страховании. На тот момент в ПГУ был сильный преподавательский состав старой закалки: кандидаты физико-математических и педагогических наук с дипломами из Санкт-Петербурга, Новосибирска, Алматы. Опыта в страховании никто не имел, да и с преподаванием информатики было туго: на первом курсе писали QBasic. Зато классическая программа мехмата давалась на высоком уровне. Университет окончила с красным дипломом и получила распределение на работу в лучшую школу города — лицей №8 для одаренных детей. 

Чтобы продолжить обучение в магистратуре, приняла участие в университетской олимпиаде Томского политехнического университета и сдала выездной экзамен в Томский государственный университет. Поступила в оба университета на бюджет, но выбрала классический вуз, так как стремилась к чистой, а не прикладной математике. В Томске устроилась учителем математики в школу, чтобы обеспечить себя и совмещать работу с очным обучением в магистратуре. Когда заканчивала магистратуру, увидела возле деканата объявление о наборе в Школу программирования: несколько томских IT-компаний предлагали студентам пройти стажировку. Подала заявление и написала, что учиться программировать нужно в первую очередь тем, кто не умеет, но очень хочет. На стажировку не взяли — пригласили сразу на собеседование.

В качестве тестового задания нужно было написать на Python алгоритм умножения матриц. Компания отказала — алгоритм в текстовом редакторе не впечатлил. Но через 10 дней позвонили, на звонок она ответила прямо в ЗАГСе: пригласили на работу.

Виолетта Гайдак / Фото из личного архива

«В течение испытательного срока я прошла два курса на Coursera: «Основы программирования на Python» от ВШЭ и «Основы машинного обучения» от Яндекса. Коллега-разработчик научил меня всему, начиная от философии чистого кода Роберта Мартина, заканчивая написанием кастомных функций для нейронных сетей. Я всегда буду ему бесконечно благодарна за его терпение и доброту. Через 3 месяца работы у меня появилось ощущение, что бывает, когда учишь иностранный язык и в какой-то момент начинаешь читать без словаря. Потрясающее чувство», — делится Виолетта Гайдак.

9aae8a5b-f886-44cf-8722-4f99280d53b8.png

Согласно опросу Kolesa Group в Data Science чаще приходят из технических и точных наук

Виолетта рассказывает, что часто приходилось работать «в стол». Занималась проектами в сфере здравоохранения, образования, недвижимости, нефтяной промышленности, но ничтожный процент доходил до этапа продакшна. Причины были разные: отдел маркетинга не мог продать прототип, модель не давала необходимого порога по метрикам, обнаруживались критичные погрешности в данных. Всё это способствовало выгоранию. В какой-то момент Виолетта ушла из DS-отдела в команду Java-разработки. Команда работала над продуктом в сфере здравоохранения почти 10 лет, и она стала первой девушкой в коллективе. 

«С шестью мужчинами было приятно работать: ко мне относились как к сестрёнке, всегда очень корректно указывали на ошибки и тщательно объясняли детали проекта, ведь 10-летний проект — это та ещё махина. При этом между собой ребята не всегда выбирали выражения во время код-ревью, порой переходя на личности, и я взяла на себя роль человека, улаживающего конфликты в команде», — рассказывает Виолетта.

Спустя полгода работы её пригласили на собеседование в филиал «Газпромнефти». Всё с трудоустройством решили онлайн, а в марте 2019 года она переехала в Санкт-Петербург. В «Газпромнефти» Виолетта Гайдак работает аналитиком по технологиям: отвечает за автоматизацию и оптимизацию внутренних процессов компании с использованием технологий машинного обучения, блокчейна, видеоаналитики. Часть работы — экспертиза решений подрядчиков, но всё же большую часть времени она занимается разработкой внутренних продуктов. Здесь её радует более короткий путь к реализации: если модель успешно рассчитывает оптимальную цену топлива, то буквально через несколько дней она сможет работать на всех заправках города. В Data Science Виолетта работает 3 года.

1ce2b069-864a-4cb5-aae7-3cc357f2eef2.png

По данным опроса Kolesa Group только пятая часть специалистов работает в сфере более 3-х лет

Девушек в Data Science меньше

Виолетта Гайдак рассказывает, что на одной конференции компания решила рассказать о проекте, которым она на тот момент занималась полгода. За месяц до конференции к проекту присоединился коллега-мужчина. Когда речь зашла о том, кто будет выступать на конференции, непосредственный начальник назначил выступающим коллегу, только пришедшего в проект. А Виолетте поручил подготовить для коллеги презентацию. Она прямо спросила, почему бы тогда ей и не выступить. Услышала: «Ты будешь следующей». 

«Для меня это была довольно унизительная ситуация. Встать в позу и отказаться от подготовки презентации я не смогла, потому что подставила бы коллегу. Теперь понимаю, что он мог и сам отказаться от выступления, но не стал. Это выглядело как сексизм, хотя я до конца в этом не уверена: могла быть просто личная неприязнь. Больше ни с чем подобным я не сталкивалась за всё время работы», — говорит Виолетта.

9c9790b5-b151-4ed8-b77d-bb1535529396.png

Чуть меньше четверти респондентов в опросе Kolesa Group — женщины

Назым Сатбекова говорит, что в Казахстане, да и в мире вообще, в IT женщин пока меньшинство. Когда она поступила в Carnegie Mellon University, там очень радовались, что в департаменте Computer Science набрали 25% девушек — беспрецедентное количество.

В стартапе Mezzobit она была единственной девушкой, но там не то что не было предвзятого отношения, — для нее это идеал компании. Там был очень проактивный подход: они постоянно спрашивали всё ли окей, что нужно, чем помочь. В какой-то момент менеджер подошёл и сказал, что она хорошо работает, поэтому они поднимают ставку почасовой оплаты. В DS-отделе Kolesa Group, где она работает, соотношение девушек и парней примерно 50/50. Все относятся друг к другу очень доброжелательно и уважительно. Подчеркивает, что ей с этим всегда везло: за всё время ни разу не попала в ситуацию, чтобы кто-то относился предвзято только потому, что она девушка.

Что думают о работе в Data Science

И Назым, и Виолетта отмечают: учиться приходится каждый день. Это просто неизбежно, потому что только так можно решить каждую новую задачу, а информацию и знания приходится актуализировать постоянно. В этом помогает среда, потому что если ты не готов работать над собой постоянно, ты просто не задержишься в этой сфере. 

«В DS сложно провести черту, когда лично ты не справился, а когда — плохие данные, не готовы методы. С этим часто возникают проблемы, порой и целые команды не справляются. И ты сидишь и думаешь: то ли лыжи не едут, то ли ты не очень специалист», — говорит Виолетта Гайдак.

Девушка рассказывает, что страдает от синдрома самозванца. Потому что у неё нет специализированного образования, а сама область DS настолько обширна, что в ней выделились профильные специалисты. Каждый день приходится сталкиваться с тем, чего не знает. Объем информации, которую нужно постоянно актуализировать, пугает. Но она понимает, что нужно делать, чтобы совершенствоваться в профессии: проходить курсы, выступать на конференциях, писать свои статьи на Хабр, участвовать в соревнованиях, работать над личным проектом и присоединиться к open-source проекту (проекты с открытым исходным кодом, что позволяет изучать и изменять его, убеждать в отсутствии уязвимостей и дорабатывать проекты совместно с другими специалистами — «Курсив»). Кажется, что после работы нужно всё время учиться, чтобы не оказаться на обочине рынка труда. Непонятно, когда в таком случае жить остальной жизнью — это ведь тоже требует времени. Не всегда всё получается, но лучше делать хоть немного, чем не делать ничего. 

6dae979f-f623-4e22-9951-632db754dc47.png

Зарплаты специалистов на казахстанском рынке сильно колеблятся

«Расстраивает, когда работа уходит «в стол», и когда надежды на искусственный интеллект не оправдываются на практике. Но я думаю, что за Data Science — будущее. Многие сервисы используют технологии машинного обучения, и мы не представляем своей жизни без них. Построить маршрут, послушать подходящую музыку, найти вещи, похожие на понравившиеся, распознать преступника по камере видеонаблюдения. С каждым днём будут осуществляться всё более амбициозные планы», — говорит Виолетта.

91f1fc29-dc2c-426e-a1eb-197b38dd5fca.png

«Хороший специалист постоянно учится. Кто-то в силу характера предпочитает учиться самостоятельно, кто-то — больше у других. У нас в отделе действительно прекрасная среда, где каждый горит задачами, каждый учится. Коммуникации в команде выстроены так, что мы работаем эффективно и постоянно обмениваемся опытом. Каждая новая задача — это вызов себе, и это мне очень нравится», — говорит Назым.

Поскольку команда по большей части работает над улучшением готовых продуктов и на старте обсуждает, какую минимальную версию они должны сделать, то запуск обычно не затягивается. Небольшие проекты занимают 1-2 месяца, затем реализуются, а после сбора обратной связи могут дорабатываться дальше. Самый длительный в работе проект команда делала полгода.

Назым делится, что хочет двигаться к позиции тимлида (руководитель команды — «Курсив»), стать специалистом, который работает не над одним проектом, а видит общую картину всего, помогает другим как наставник. Но когда думает об этом, постоянно возникает ощущение, что она недостаточно хороша для таких стремлений. 

«Хочу работать и дальше, применять инструменты Data Science в сфере своих интересов, например, в проектах о спорте и путешествиях. Я хочу не просто самореализоваться в профессии, а делать что-то полезное для людей, улучшающее их жизни. Мой фокус — на женщинах. У женщин есть голос, но нам нужно сделать так, чтобы его услышали. Как говорила Шерил Сэндберг: не так важно на какой именно должности, главное приносить пользу», — говорит Назым Сатбекова.

Хотя Data Science и называют «самой сексуальной профессией XXI века», эта сфера требует от специалистов внимательной работы, решения нетипичных и новых задач, непрерывного саморазвития, постоянного обновления знаний и навыков. Удержаться здесь позволяет искренний интерес и большой труд. Который по силам как мужчинам, так и женщинам, верящим, что за их профессией — будущее.