Çin texnologiya startapı “DeepSeek” ABŞ-nin texnologiya nəhənglərinin məhsulları ilə rəqabət aparan iki böyük dil modelini təqdim edərək bu sahədə böyük səs-küy yaradıb.
“Azərbaycan müəllimi” xəbər verir ki, 20 yanvar tarixində Çinin Hançjou şəhərində “DeepSeek” “DeepSeek-R1” adlı hissə-hissə açıq mənbəli düşünmə (reasoning) modelini təqdim etdi. Bu model “OpenAI”nin ən inkişaf etmiş dil modeli olan “o1” ilə müqayisədə bəzi elmi problemləri oxşar keyfiyyətdə həll edə bilir. Bundan əlavə, şirkət “Janus-Pro-7B” adlı digər bir modelini də istifadəyə verdi. Bu model “OpenAI”nin “DALL-E 3” və “Stability AI”nin “Stable Diffusion” modelləri kimi mətn tələblərindən şəkillər yarada bilir.
“DeepSeek”in uğuru Çində gözlənilən bir haldır. Çin hökumətinin süni intellekt (AI) sahəsində dünya lideri olma məqsədinə uyğun olaraq, “LLM”lərin inkişafına və AI ilə bağlı ixtisaslaşmış təhsilin genişləndirilməsinə böyük sərmayələr yatırılmaqdadır. Çinin Dövlət Elmlər Akademiyasının kompüter alimlərindən Yunji Çen belə bir şirkətin yaranmasının qaçınılmaz olduğunu bildirir.
29 yanvar tarixində Çin texnologiya nəhəngi “Alibaba” “DeepSeek”in V3 modelini üstələdiyini iddia edən ən inkişaf etmiş LLM modeli olan “Qwen2.5-Max” modelini təqdim etdi. Eyni zamanda “Moonshot AI” və “ByteDance” şirkətləri də yeni reasoning modelləri olan “Kimi 1.5” və “1.5-pro”nu təqdim edərək “OpenAI”nin “o1” modelini bəzi testlərdə geridə qoyduqlarını açıqladılar.
Çin hökumətinin 2030-cu ilə qədər AI sahəsində liderlik məqsədini ortaya qoyması bu inkişafda əsas rol oynayıb. 2022-ci ildə dünyadakı ən aparıcı AI tədqiqatçılarının təxminən yarısı Çindən olub. Çin hökumətinin AI təhsili və istedad inkişafı sahəsində həyata keçirdiyi təşəbbüslər “Baidu” kimi texnologiya şirkətləri ilə əməkdaşlıqlar bu inkişafı dəstəkləyib.
“DeepSeek”in ən təəccüblü tərəfi ABŞ-nin tətbiq etdiyi ixrac məhdudiyyətlərinə baxmayaraq yüksək texnologiyalı AI modellərini inkişaf etdirməsi olub. Şirkət “Nvidia”nın “H800” çiplərindən istifadə edərək daha az güclü modellərlə də məhsullarını daha ucuz və səmərəli inkişaf etdirə bilib.
Həmçinin “DeepSeek”in model təlimində “mixture-of-experts” (mütəxəssislərin qarışığı) arxitekturasını və çoxbaşlı latent diqqət (multi-head latent attention) üsulunu tətbiq etməsi, modellərin daha sürətli və az resursla inkişaf etdirilməsinə kömək edir.
Bu həftə media xəbərlərinə görə, “OpenAI” “DeepSeek”in öz modelini təlim etmək üçün “OpenAI” modellərindən istifadə edib-etmədiyini araşdırır. Lakin mütəxəssislər “DeepSeek”in "düşünmə" qabiliyyətlərini bir dil modelinə əlavə etməsi sahəsindəki irəliləyişlərinin böyük bir uğur olduğunu bildirirlər.
“DeepSeek”in uğurları, maliyyə resursları və avadanlıq çatışmazlığı olan ölkələr üçün böyük dil modelləri inkişaf etdirmək üçün bir nümunə ola bilər. Bu, yeni modellərin yaranmasını təşviq edə bilər.
Digər xəbərlər
Digər xəbərlər tapılmadı
Qəzetimizə abunəlik
"Azərbaycan müəllimi" qəzetindən ən son xəbərləri və xüsusi təklifləri əldə etmək üçün abunə olun
Bölmələrimiz
2024 © "Azərbaycan müəllimi" qəzeti. Bütün müəllif hüquqları qorunur. Məlumatdan istifadə zamanı istinad mütləqdir. Məlumat internet səhifələrində istifadə edildikdə hiperlink qoyulmalıdır.
Şərhlər (0)