IT-дегі жаңа мамандықтардың бірі — Data Scientist (дата-сайентист). Ол — бизнестегі мәселелерді шешуге көмектесетін құралдар жасайтын маман. Ол үшін деректерге анализ жасап, машинаны үйрету (ағылш. Machine Learning) модельдерін құрастырады. Data Scientist үш түрлі саланы қамтиды: статистика, машинаны үйрету және бағдарламалау. Мұндай маман қазір барлық дерлік индустрияда сұранысқа ие. Мейлі өндіріс болсын, мейлі стримиң сервистерде болсын аса қажет.
Айталық, ретейл саласында дата-сайентист сатып алушылардың өзін-өзі қалай ұстайтынына қатысты деректерді талдайды. Сөйтіп ең оңтайлы баға қою моделін жасайды. Осылайша орташа чек көтеріледі де, компания табысы артады. Жалпы алғанда Data Science маманы жұмысында оған дейін ойлап табылған алгоритмдерді пайдаланып, олардың ішінде қайсысын қашан қолданған дұрыс екенін анықтайды. Мәселен сериалдар мен фильмдер қарауға арналған Netflix сервисін алайық. Мұның жасанды интеллектісі адамдарға ұнауы мүмкін келесі туындыларды ұсынып отырады. Ал ол үшін қолданушылардың көп қарап, лайк басқан дүниелері негізге алынады. Дата-сайентистің жұмысының бір мысалы осындай.
Data Scientist деректер ғылымы тәсілін үлкен көлемді ақпаратты өңдеу үшін қолданады. Сол деректерге қатысты әрекеттердің математикалық модельдерін құрап, сынақтан өткізеді. Сол арқылы белгілі бір заңдылықтарды тауып, болашақтағы әрекеттерге қатысты болжам жасауға көмектеседі. Айталық, тауардың былтыр қалай өткеніне қатысты деректерді пайдаланып, дата-сайентист келесі жылы қалай өтетіне қатысты болжау жасайды. Мұндай модельдер машинаны үйрету алгортимінің көмегімен құрастырылады. Ал деректер базасымен SQL арқылы жұмыс істейді.
Дата-сайентист қайда жұмыс істейді?
Айтқанымыздай, data scientist үлкен көлемді ақпарат бар кез келген салаға керек. Көбіне ірі бизнестер, стартаптар мен ғылыми ұйымдарда істейді. Жалпы алғанда деректермен жұмыс тәсілдері әмбебап болғандықтан, бөлшек саудада да, банктер мен метерологияда да қажет. Әсіресе, ғылым саласында маңызды жаңалықтардың ашылуына көмектеседі. Ол үшін күрделі зерттеулер жасалады. Мысалы молекулалық биологияда пайдалану үшін нейрон желілерін құрастырып, үйретеді.
Ірі компанияларда барлық салаға керек маман — дата-сайентист. Атап айтқанда:
- Маркетологтарға лоял карта деректеріне қатысты анализ жасап, қай клиентке қандай жарнама жіберу керегін анықтауға көмектеседі;
- Логистерге GPS-трекерлердегі деректерді алып, жол маршрутын оңтайлы етіп құрастырып береді;
- HR-бөлімге қызметкерлердің жұмыс күнінде өзін-өзі қалай ұстағанына қарай анализ жасап, қайсысы жақында жұмыстан шығып кетуі мүмкін екеніне болжам жасауға көмектеседі.
- Sales-те маусымға қарай тауарларға сұраныстың қалай өзгеретініне болжам жасайды;
- Заңгерлерге мәтіндерді оптикалық оқу технологиясының көмегімен құжаттарда не жазылғанын оқып, анықтап береді;
- Өндіріс саласында датчиктердегі деректерді негізге ала отырып, жабдықтарға қатысты болжам жасап отырады.
- Стартаптарда болса, өнімді жаңа деңгейге шығаратын технологияларды жасауға көмектеседі. Мысалы TikTok желісінде машинаны үйрету тәсілдерін пайдаланып, кімге қандай контент көрсету керегіне қатысты ұсыныстар жасалады. Ал MSQRD болса — бет-әлпет танитын технология мен жасанды интеллект.
Data Scientist жұмысына бір мысал
Мәселен маманға жаңа көйлектер коллекциясының қаншалықты өтімді болатынына қатысты болжам жасау керек делік. Ол үшін алдымен кейінгі бірнеше жылда көйлектердің қаншалықты өткеніне қатысты деректерді алады. Сөйтіп болжам жасауға келетін машинаны үйрету моделін таңдайды. Одан соң модельдің сапасын бағалауға көмектесетін метрикаларды алып, модельге арнап код жазады. Бұрынғы сауда деректеріне қарап, машинаны үйрету алгоритмін қолданады да, сол арқылы болжам мән алады. Сол алынған болжамды менеджерлерге береді. Олар болса, жаңа коллекцияда қанша дана көйлек шығару керегіне қатысты шешім қабылдайды. Жұмысы барысы шамамен осылай жүреді.
Дата-сайентист айналысатын шаруалар белгілі бір тәртіппен жүреді. Алдыңғысын бітірмей жатып, жаңасын бастап кете алмайды. Деректер дайын болмайынша, модель де құрастыру мүмкін емес. Сонымен Data Science маманы тапсырмаларының негізгі тізімін жасап көрелік.
- Бизнес-тапсырма талаптарын нақтылап, оны математикалық тәсілге ауыстырады;
- Сол тапсырманы орындау үшін деректерді дайындайды. Оның ішінде, жұмыс істеу мүмкін болуы үшін деректерді қайдан алатынын, қалай өңдейтінін анықтайды;
- Алған деректеріне талдау жасап, бір құрылымға келтіреді;
- Сол тапсырманы шешетін машинаны үйрету моделін құрастырады;
- Жасалған модельдің жұмысы дұрыс жүретінін тексеріп көреді. Ол үшін белгілі бір қолданушыларға сынақ жасатады не A/B тестілеу жүргізеді. Егер осы әдіс жұмыс істемесе, онда деректерді жинау бөліміне не үйрету моделіне қайта оралып, реттейді.
Мысал үшін клиент маркетиң жөнелтімдерінен түсетін табысты арттырғысы келеді дейік. Осы мәселені шешу үшін дата-сайентист алдымен табысқа әсер ететін көрсеткіштерді анықтап алуы керек. Ол деректер жөнелтімдер жіберетін маркетологтардың базасында немесе Excel-кестеде болады. Сол алынған мәліметтерді дата-сайентист бір жерге жинақтап, ұсынысты қабылдағандарды бір бөлек, еш реакция білдірмегендерді бір бөлек сегментке бөледі. Одан соң қолдағы деректердің модель жасауға жеткілікті не жеткіліксіз екеніне баға береді. Егер жеткілікті болса, алгоритм жазуға кіріседі. Яғни әр қолданушыға сай келетін хат жіберіледі. Осыдан кейін жөнелтімді белгілі бір қолданушы тобына жолдап, сынақ жасалады. Сол арқылы қаншалықты тиімді екені анықталады. Егер жақсы нәтиже көрінсе, бәрі тамаша өткені. Ал әсері аз болса, онда басына қайта оралып, тізім бойынша жұмысты қайта істеуге тура келеді.
Дата-сайентист пен аналитик жұмысының айырмашылығы неде?
Көбіне Data Science маманын деректер талдаушысымен шатастырып жатады. Өйткені бір қарағанда екеуінің де атқаратын жұмысы бір секілді көрінеді. Екеуінде де көлемді ақпаратпен жұмыс істеледі. Екеуі де нарық пен индустриядан жақсы хабардар болуы керек. Дегенмен екеуінің ара-жігін ажырата білген жөн. Аналитиктің міндеті — сұрақтарға жауап алып, мәселелерді шешу үшін статистикалық анализ жасау. Ол үшін деректерді жинап, заңдылықтарды анықтап, жоба жетекшілеріне не бизнеске стратегиялық шешім қабылдауға көмектесетін есептер әзірлейді. Ал дата-сайентинст болса, деректерге анализ жасап, визуалдап қана қоймай, соларды негізгі ала отырып модельдер құрастыра алады. Ол үшін машинаны үйрету және тереңдетіп оқытуға (ағылш. Deep Learning) қатысты білім қажет.
ML-инженерден қандай айырмашылығы бар?
ML-инженер (ағылш. Machine Learning Engineer) Data Science маманының жұмысы жемісті болып, жақсы нәтиже көрсетсе, әрмен қарай жалғастырады. Яғни дата-сайентист деректерге анализ жасап, модель құрастырып, тестілеумен айналысады. Ал ML-инженер міндеті — модельдердің жұмысын автоматтандыру, сапалы жұмыс істеп тұруын қадағалау және қателер бола қалса, дереу жөндеу. Егер модель жұмысында нақтылық төмендеп кетсе, инженер оның себебіне үңіліп, алгоритмді қайта үйретеді.
Data Scientist не білуі керек?
Дата-сайентистің жұмысында мынадай екі машық керек: техникалық және кәсіби. Алғашқыларды профильдік пәндерді оқуға қатысты болса, екіншісі — психилогиялық қабілеттер, басқаруға қатысты. Мұндай машық кез келген саладағы маманға керегі белгілі. Data Science маманына керек машықтың дені техникалық бағытта. Өйткені оның жұмысының көп бөлігі адамдармен қарым-қатынас орнатудан гөрі деректерге байланысты. Сонымен қандай техникалық машық керегіне тоқталайық:
- Python, SQL тілдерінде бағдарламалай алуы керек;
- Математика, статистика, машинаны үйрету бойынша білім;
- Деректермен жұмыс істей алуы қажет;
- Apache Spark және Hadoop Mapreduce секілді көлемді деректерді өңдеу құралдарымен жұмыс істей білуі керек.
- Модельдерді продуктивизациялай алуға тиіс;
- Техникалық әдебиеттерді оқуы үшін Advanced Proficiency деңгейінде ағылшын тілін білу сұралады;
- Бизнес пен домендік саланы жақсы түсінуі керек;
Кәсіби машықтар
- Әріптестерімен байланыс орнату білуге тиіс;
- Өзі атқарған жұмысқа презентация жасай алуы керек.
Әр деңгейдегі маманға қойылатын талаптар
Junior Data Scientist білуге тиіс:
- Машинаны үйрету және статистика бойынша базалық білім. Басты алгоритмдерді және олардың қолданылатын салаларын түсінуі керек.
- Тәжірибесі қатысты айтсақ, міндеттелмейді. Оқу орнында жасаған жобалары жеткілікті.
- Python тілін жақсы біліп, SQL-ді базалық деңгейде білсе болды.
Middle Data Scientist білуге тиіс:
- Тереңдетілген математикалық білім;
- 2-3 сәтті жасалған жоба;
- Бағдарламалау тілдеріне қатысты: Python-ды «беске» білуі керек, модельдердң продуктивизациялап, оңтайландыру тұрғысынан бағдарламалау тілінің барлық ерекшелігінен хабардар болуы қажет.
- Тәжірибе жүргізу, әлдебір құралдарды енгізу, gitLFS, MLFlow, DVC сынды машинаны үйрету құралдарымен емін-еркін жұмыс істей алуы керек. Сонымен бірге А/В тестілеу жасай алуы керек.
- Тапсырманы тим-лид не аға маманды араластырмай-ақ, өзі бастан-аяқ орындай алуы қажет.
Senior Data Scientist білуге тиіс:
- Математика және статистика бойынша бәрін білуі керек;
- Кемінде бес жобаны жүргізген тәжірибе сұралады;
- Python, SQL тілдерін шемішкіше шағуы керек;
- Өз саласында эксперт ретінде шыңдалған болуға тиіс;
- Тапсырма беруден бастап, оны продакшенге жолдағанға дейінгі барлық жұмысты өздігімен жүргізе білуі керек;
- Өзінен деңгейі төмен мамандарды оқытып, оларға ментор бола алатын қабілеті болуы қажет.
Қазақстанда дата-сайентист қанша табады?
2022 жылы data science мамандарының орташа айлығы айына 763 мың теңге болған. Жалпы алғанда жылдық орташа өсім 10 пайызға тең деген статистика бар. Дата-сайентистер Data Engineer және Data Analyst секілді мамандарға қарағанда жоғырарық жалақы алады.