
ului chinezesc care a cutremurat piața de inteligență artificială
Vrei să înțelegi mai bine această știre?
Folosește comentatorii AI pentru a obține perspective diferite și creează-ți propria interpretare personalizată sau obține o analiză detaliată cu AI.
Dezvoltatorul chinez de IA DeepSeek a declarat că a cheltuit 294.000 de dolari pentru antrenarea modelului său R1, o sumă mult mai mică decât sumele anunțate de rivalii americani, informație ce probabil va reaprinde dezbaterea privind locul Beijingului în cursa pentru dezvoltarea inteligenței artificiale, scrie Reuters. Informația actualizată a companiei cu sediul în Hangzhou – prima estimare pe care a publicat-o cu privire la costurile de instruire ale modelului R1 – a apărut într-un articol revizuit în revista academică Nature, publicat miercuri. Lansarea de către DeepSeek a ceea ce a numit sisteme de IA cu costuri mai mici în luna ianuarie a determinat investitorii globali să vândă acțiuni din domeniul tehnologic, deoarece se temeau că noile modele ar putea amenința dominația liderilor din domeniul IA, inclusiv Nvidia. De atunci, compania chineză și fondatorul acesteia, Liang Wenfeng, au dispărut în mare parte din spațiul public, cu excepția lansării câtorva actualizări de produse noi. Articolul din Nature, care îl menționa pe Liang ca unul dintre coautori, afirma că modelul R1 al DeepSeek, axat pe raționament, a costat 294.000 de dolari pentru antrenare și a utilizat 512 cipuri Nvidia H800.
O versiune anterioară a articolului publicat în ianuarie nu conținea aceste informații. Costurile de antrenare pentru modelele lingvistice de mari dimensiuni care alimentează chatbot-urile AI se referă la cheltuielile ocazionate de funcționarea unui cluster de cipuri puternice timp de săptămâni sau luni pentru a procesa cantități uriașe de text și cod. OpenAI, costuri de peste 100 de milioane de dolari Sam Altman, CEO al gigantului american OpenAI, a declarat în 2023 că antrenarea modelelor fundamentale a costat „mult mai mult” de 100 de milioane de dolari, deși compania sa nu a furnizat cifre detaliate pentru niciuna dintre lansările sale. Unele dintre declarațiile DeepSeek cu privire la costurile de dezvoltare și tehnologia utilizată au fost puse sub semnul întrebării de către companii și oficiali americani. Cipurile H800 menționate au fost proiectate de Nvidia pentru piața chineză după ce, în octombrie 2022, SUA au interzis companiei să exporte cipurile AI H100 și A100, mai puternice, în China. Oficialii americani au declarat pentru Reuters în iunie că DeepSeek are acces la „volume mari” de cipuri H100 care au fost achiziționate după implementarea controalelor americane asupra exporturilor.
Nvidia a declarat pentru Reuters la momentul respectiv că DeepSeek a utilizat cipuri H800 achiziționate legal, nu cipuri H100. Într-un document informativ suplimentar care însoțește articolul din Nature, compania a recunoscut pentru prima dată că deține cipuri A100 și a declarat că le-a utilizat în etapele pregătitoare de dezvoltare. „În ceea ce privește cercetarea noastră privind DeepSeek-R1, am utilizat GPU-urile A100 pentru a pregăti experimentele cu un model mai mic”, au scris cercetătorii.
După această fază inițială, R1 a fost antrenat timp de 80 de ore pe clusterul de 512 cipuri H800, au adăugat ei. Reuters a relatat anterior că unul dintre motivele pentru care DeepSeek a reușit să atragă cele mai strălucite minți din China a fost faptul că era una dintre puținele companii autohtone care opera un cluster de supercalculatoare A100. „Distilarea” modelelor OpenAI DeepSeek a răspuns, de asemenea, pentru prima dată, deși nu în mod direct, la afirmațiile unui consilier de vârf al Casei Albe și ale altor personalități din domeniul IA din SUA, care au susținut în ianuarie că ar fi „distilat” în mod deliberat modelele OpenAI în propriile sale modele. DeepSeek a apărat în mod constant „distilarea”, susținând că aceasta oferă o performanță mai bună a modelelor, fiind în același timp mult mai ieftină de antrenat și de rulat, permițând un acces mai larg la tehnologiile bazate pe IA, datorită cerințelor de resurse energetice intense ale acestor modele. Termenul se referă la o tehnică prin care un sistem de IA învață de la un alt sistem de IA, permițând modelului mai nou să beneficieze de investițiile de timp și putere de calcul care au fost necesare pentru construirea modelului anterior, dar fără costurile asociate. DeepSeek a declarat în ianuarie că a utilizat modelul Llama AI open-source al Meta pentru unele versiuni „distilate” ale propriilor modele. DeepSeek a declarat în Nature că datele de antrenare pentru modelul său V3 se bazau pe pagini web indexate care conțineau „un număr semnificativ de răspunsuri generate de modelul OpenAI, ceea ce poate determina modelul de bază să dobândească indirect cunoștințe de la alte modele puternice”. Însă a precizat că acest lucru nu a fost intenționat, ci mai degrabă întâmplător.
Vrei să înțelegi mai bine această știre?
Folosește comentatorii AI pentru a obține perspective diferite și creează-ți propria interpretare personalizată sau obține o analiză detaliată cu AI.