Deepseek logo

DeepSeek-V3 – az új kínai LLM

A kínai DeepSeek AI által fejlesztett DeepSeek-V3 jelentős áttörést hozott a nyílt forráskódú mesterséges intelligencia világában. A modell 671 milliárd paraméterével és innovatív Mixture-of-Experts (MoE) architektúrájával új szintre emeli a nyelvi modellek teljesítményét.

A rendszer különlegessége, hogy bár hatalmas paraméterkészlettel rendelkezik, működése során csak 37 milliárd paramétert aktivál egyszerre, ami jelentősen növeli hatékonyságát. Ez a “szakértői rendszer” megközelítés lehetővé teszi, hogy minden feladathoz csak a legmegfelelőbb neurális hálózatokat használja.

A DeepSeek-V3 kiemelkedően teljesít szövegalkotásban, fordításban és programozásban, több esetben felvéve a versenyt olyan zárt forráskódú modellekkel is, mint a GPT-4. A Hugging Face platformon szabadon elérhető, és használható. Ez persze biztonsági aggályokat is felvet jogosan.

Azonban a modellnek vannak korlátai is: csak szöveges tartalmakkal dolgozik, és időnként előfordul, hogy tévesen azonosítja magát más AI rendszerekként. Ennek ellenére a DeepSeek-V3 megjelenése jelentős lépés az AI technológia fejlődésében és hozzáférhetőségében.

A DeepSeek-V3 összehasonlítása más LLM rendszerekkel:

ModellParaméterek számaTeljesítmény jellemzőkKépzési költségNyílt/Zárt forrás
DeepSeek-V3671B– Kiemelkedő kódolás és fordítás
– 60 token/mp sebesség
– 128K kontextus ablak
~$5.5MNyílt forrás
GPT-4Nem publikus– Erős általános képességek
– Multimodális
– Magas pontosság
~$100M+Zárt forrás
Llama 3.1405B– Jó általános teljesítmény
– Kisebb kontextus ablak
~$500MNyílt forrás
Claude 3.5Nem publikus– Kiemelkedő érvelés
– Magas pontosság
– Etikus működés
Nem publikusZárt forrás
Qwen 2.572B– Jó kínai nyelvi képességek
– Költséghatékony működés
Nem publikusNyílt forrás

Bizonyos források szerint (ismeretlen) az OpneAI kb. 100 millió, míg a Deepseek mindössze 10.000 GPU-val biztosítja a kiszolgálást a userek felé, amit mondanom se kell, hogy környezetszennyező hatását tekintve is jelentős – OpenAI kárára. Szóval ez is jól mutatja, hogy bizony az új kor, új technológiája bizony szennyezőbb a saját környezetünkre nézve, mint például a villanyautók előállításához szükséges gyárak…

* Magyarázat:

Multimodális AI:

  • Olyan AI rendszer, amely több különböző típusú adatot (modalitást) képes egyszerre feldolgozni és integrálni
  • Főbb modalitások: szöveg, kép, hang, videó és egyéb érzékelési adatok
  • A különböző adattípusokat együttesen elemzi és használja fel a pontosabb megértéshez és válaszadáshoz
  • Például egy multimodális chatbot képes szöveget és képet is értelmezni egyszerre

Kontextus ablak (Context window):

  • Az a maximális tokenszám/szövegmennyiség, amit az AI modell egyszerre képes feldolgozni és figyelembe venni
  • Meghatározza, hogy mennyi korábbi információt tud a modell egyszerre kezelni és felhasználni a válaszadáshoz
  • Nagyobb kontextus ablak = több előzményt tud figyelembe venni, pontosabb válaszok

Hasznos infók:

DeepSeek-V3:

  • Legerősebb területei: kódolás, fordítás, szövegalkotás
  • Kiemelkedően költséghatékony (5.5M USD fejlesztési költség)
  • 671B paraméterrel rendelkezik, de egyszerre csak 37B-t használ (MoE architektúra)
  • Nyílt forráskódú, szabadon használható
  • Háromszor gyorsabb, mint elődje (V2)
  • Korlátja: csak szöveges tartalmakat kezel

GPT-4:

  • Általános AI feladatokban kiemelkedő
  • Multimodális képességek (szöveg, kép, hang feldolgozás)
  • Rendkívül pontos válaszadás
  • Nagy méretű kontextus ablak
  • Magas fejlesztési költség (100M+ USD)
  • Zárt forráskódú, csak API-n keresztül elérhető

Llama 3.1:

  • 405B paraméterrel működik
  • Meta által fejlesztett nyílt forráskódú modell
  • Jó általános teljesítmény
  • Kisebb kontextus ablak mint versenytársai
  • Magas képzési költség (~500M USD)
  • Közösségi fejlesztésre optimalizált

Claude 3.5:

  • Anthropic fejlesztése
  • Kiemelkedő érvelési és elemzési képességek
  • Magas pontosságú válaszadás
  • Etikus AI működésre tervezve
  • Részletes dokumentum-elemzési képességek
  • Zárt forráskódú, vállalati felhasználásra optimalizált

Qwen 2.5:

  • Alibaba fejlesztése
  • 72B paraméterrel működik
  • Kiváló kínai nyelvi képességek
  • 18 trillió tokenen tanítva
  • 128K tokenes kontextus ablak
  • Specializált verziók matematikához és kódoláshoz
  • 29 nyelv támogatása
  • Költséghatékony működés
  • Nyílt forráskódú

Te melyiket használod?

Csatlakozz díjmentesen az első magyar AI közösséghez!
Kattints IDE

1 Hozzászólások

Vélemény, hozzászólás?