Lifestyle

Әлемді дүр сілкіндірген DeepSeek қалай жұмыс істейді?

Әлемді дүр сілкіндірген DeepSeek қалай жұмыс істейді?
Әлемді дүр сілкіндірген DeepSeek қалай жұмыс істейді? / фото: kursiv.media, бильд-редактор Ахтам Зиперов

Былтыр қарашада қытайлық DeepSeek компаниясы DeepSeek V3 деген көлемді тіл моделін баршаға ашық қылып ұсынған еді. Бағдарламалаушылардың айтуынша, бұл модель базасында үйретілген чат-боттың ChatGPT-мен иық тіресе алатындай шамасы бар екен. Ал компанияның негізін қалаушылар одан да басып озамыз деп отыр. Мұнда қандай ерекшеліктер бар, қалай жұмыс істейді — осы туралы айтайық. 

DeepSeek V3 деген не?   

DeepSeek V3 — коды ашық үлкен тілдік модель. Мұнда 671 млрд параметр бар, 14, трлн токен арқылы үйретілген. Осыған қарап-ақ, оның қанша ақпарат білетінін бағамдай беріңіз. Жасанды интеллект мәтіндерге анализ жасай алады, аударып береді. Оған қоса шығарма мен код жазуға да шамасы келеді. Бұл модельдің ерекшеліктері оның архитектурасы мен үйретілген әдістерінде жатыр. Олай болса, оның қолданатын тәсілдеріне тоқталайық:

  • Multi-token Prediction (MTP) архитектурасын пайданалады. Сол арқылы бұл модель бір сөздің орнына бірнеше сөздің нұсқасын ұсынып, сөйлемнің әр бөлігіне бір уақытта анализ жасап үлгеріп жатады. Соның арқасында модель нақтырақ әрі өнімдірек жұмыс істейді. 
  • Mixture of Experts (MoE) архитектурасы. Мұнда бірнеше арнаулы әрі алдын-ала үйретілген эксперт-нейрон желілері қолданылады. Демек, енгізілген неше түрлі дерекке анализ жасай алады деген сөз. Осылайша жасанды интеллект жылдам үйреніп, өнімділігі арта түседі. DeepSeek V3 осындай 256 нейрон желісімен жұмыс істейді. Ал әр токенді өңдеу үшін сегіз нейрон желісі іске қосылады.  
  • Multi-head Latent Attention (MLA) технологиясы қолданылады. Бұл бірқатар алпауыт тілдік модельде қолданылатын назар механизмі десек болады. Яғни сөйлемнің ең маңызды бөліктерін тануға көмектеседі. MLA арқылы мәтіннің маңызды жерлерін бір емес, бірнеше рет бөліп ала аламыз. Бұл дегеніміз жасанды интеллект керек деректі өткізіп алмайды деген сөз.  

Міне, осы ерекшеліктердің арқасында модель бар болғаны екі ай немесе 2,788 млн сағат ішінде Nvidia H800 графикалық процессорларында үйреніп, оқып шыққан. Ал оған кеткен шығын 5,5 млн доллар дейді. OpenAI-мен салыстыратын болсақ, GPT-ті үйретуге олар 78 млн доллар жұмсаған еді. Бағдарламалаушылардың сөзіне сүйенсек, DeepSeek V3 бағдарламалау мен мәтін өңдеуге қатысты жасалған сынақтарда GPT-4о (OpenAI), Llama 3 (Meta), Claude 3.5 Sonnet(Anthropic) ЖИ-ларынан асып түскен деседі. Бұл жаңа модельдің ерекшелігі — коды толықтай ашық. Яғни бағдарламалаушылар технологияны коммерциялық мақсаттарға ғана емес, жасанды интеллект саласындағы басқа да тапсырмаларды шешу үшін өзіне бейімдеп, үйретіп ала алады деген сөз.      

DeepSeek V3 не істей алады?

DeepSeek V3-тің мәнмәтін терезесі GPT-4o сияқты 128 мың токеннен тұрады. Яғни олар 300 бетке дейінгі мәтінге анализ жасай алады. Оның қолынан не келетінін тізіп көрелік:

  • Көлемі әр түрлі, жанры да түрліше мәтіндерді генерациялай алады;
  • Интернеттен ақпарат іздеп табады;
  • Диаграммалардағы ақпаратты, суреттерді түсіндіре алады;
  • Код жазып, оны форматтап, C++, Go, Java, JavaScript, Python және Rust тілдеріндегі қиын тапсырмаларды шеше алады. Бұл модель код редакторларымен жақсы интеграция жасайды;
  • DeepThink режимінде тұрғанда GPT-o1 мен o1-mini сияқты терең пайымдай алады; 
  • DeepSeek V3 өте көп тіл біледі. Қытай мен ағылшын тілдерін өте жақсы меңгергендіктен, мәтінмен мықты жұмыс істейді. Қазақша түсінеді. 
  • Кемшілігі сол — нейрон желісі әзірге сілтеме арқылы жіберілген мәтіндерге анализ жасай алмайды. Мәтінді не жазып жібересіз, не файл қылып жүктейсіз. 

Тегін нұсқасын қалай пайдалануға болады?

  • DeepSeek сайтына кіріп, Start Now деп басыңыз. 
  • Тіркеліңіз. Google аккаунтыңыз арқылы жылдам кіруге болады. Поштаңызға растайтын код келеді. 
  • Тіркелген соң чат-ботпен диалог терезе ашылады. Ол жерде қарапайым сұрақ-жауаптан бөлек, терең пайым жасағыңыз келсе DeepThink режимін таңдасаңыз болады. Оған қоса интернеттен ақпарат іздесін десеңіз, Search режимін іске қоса аласыз. Анализ жасау үшін форматы әр түрлі, әрқайсының салмағы 100 МБ-дан аспайтын 50 файлды жүктеп салуға мүмкіндік береді.   

Мобайл қолданбасын қалай пайдалануға болады?

2024 жылдың қарашасында DeepSeek өзінің чат-ботына арнап тегін мобайл қолданба жасап шығарған еді. Ол  App Store және Google Play дүкендерінде бар. Сонымен бірге қолданбаны бағдарламалаушылар сайтынан жүктеп ала аласыз. Ол үшін Get DeepSeek App деп басып, QR-кодты скандасаңыз жеткілікті. Аппликейшнді жүктеп алған соң, ашыңыз. Алдыңызда оны пайдалануға қатысты шарттарға келісіміңізді сұрайды, Agree деп басып, қабылдаңыз. Тіркелу өте оңай. Бәрі болған соң чат-боттың диалог терезесі ашылады. Жұмысты бастап кетсеңіз болады.   

Еске сала кетейік, бұған дейін DeepSeek компаниясының жаcанды интеллектіге арналған қосымшасы AppStore дүкенінде Қытай, АҚШ, Ұлыбритания және БАӘ елдерінде көш бастағанын жазған едік. Биыл 20 қаңтарда шыққан жаңа R1 нұсқасына әлем назары ерекше түскен еді.