
DeepSeek-V3.2-Exp ha llegado ca o iterație experimentală care se concentrează pe eficiență la scară largă și în contexte lungi, cu o trimitere clară la comunitate: open source, kerneluri publicate și o API mai ieftină.
Dincolo de zgomot, cheia este că acest model, bazat pe V3.1-Terminus, lansează un mecanism de atenție dispersă detaliat, numit DeepSeek Sparse Attention (DSA), care accelerează antrenamentul și inferența, menținând în același timp calitatea. Compania l-a lansat deja în Aplicație, Web și APIși a redus prețurile de utilizare cu peste 50%, o mișcare agresivă care, sincer, apasă concurența.
Noile caracteristici cheie ale DeepSeek-V3.2-Exp
Inovația vedetă este DSA, care permite atentie selectiva asupra părților relevante ale contextului, fără a parcurge exhaustiv întreaga secvență. Conform companiei însăși, impactul asupra calității este foarte scăzut, în timp ce creșterea eficienței Într-un context lung este tangibil.
În disponibilitate, modelul este operațional în aplicație, web și API încă din prima zi, însoțită de o scădere semnificativă a prețului (cu peste 50%) pentru a facilita testarea și adoptarea. Pentru cei care doresc să compare, DeepSeek menține o punct final temporar de la V3.1-Terminus până pe 15 octombrie 2025, ora 15:59 UTC.
Performanța și testele de performanță DeepSeek-V3.2-Exp: paritate cu V3.1-Terminus
DeepSeek a căutat paritate cu V3.1-Terminus pe o gamă largă de teste, tocmai pentru a izola efectul introducerii atenției dispersate. În practică, acest lucru are ca rezultat valori comparabile în raționament, de codificare și utilizarea instrumentelor de tip agent.
Diverse surse oferă cifre care ajută la stabilirea așteptărilor: V3.2-Exp este descris ca un model cu 685 de miliarde de parametri și performanțe similare sau cu mici variații în funcție de domeniu. În raționamentul fără instrumente, sunt citate numere precum 85.0 MMLU-Pro și 89.3 în ȚINTĂ 2025; în scenariile cu agenți, 40.1 apare în RăsfoireComp și 67.8 în SWE verificatAcestea sunt rezultate care se potrivesc cu narațiunea oficială a validarea eficienței în loc să urmărească un salt brut în precizie.
Există chiar și comparații subtile: în sarcinile de codare, o creștere a 2121 în Codeforces comparativ cu 2046, în timp ce în testele mai umaniste se observă scăderi ușoare (de exemplu, 19.8 (comparativ cu 21.7 în ultimul examen al umanității). Per total, tabelul sugerează echilibru: îmbunătățiri specifice și mici concesii, cu viteza ca accent principal.
DSA: Atenție dispersată, cu granulație fină, exprimată clar
Îngrijirea clasică devine costisitoare în contexte largi; DSA Minimizează lucrul acolo unde acesta contribuie puțin. Prin aplicarea rarității cu control fin, modelul concentrează calculul acolo unde găsește de fapt semnalul, îmbunătățind latență și reducerea consumului, fără a distorsiona producția.
La nivelul experienței reale, acest lucru este observabil în sarcinile care necesită mult context: rezumate lungi ale documentelor, analize de jurnale, agenți care poartă dialoguri lungi sau canale care combină recuperarea și generarea. Chiar acolo, eficiență Nu este un lux: este diferența dintre a fi sau nu utilizabil la scară largă.
Disponibilitatea, prețurile și comparațiile pentru DeepSeek-V3.2-Exp
DeepSeek a anunțat că V3.2-Exp este acum disponibil pe Aplicație, Web și APIÎn plus, a redus prețul API-ului cu peste 50% cu efect imediat, o decizie care vizează extinderea adoptării și încurajarea teste comparative.
Pentru cei care doresc să compare cu modelul anterior, V3.1-Terminus este menținut într-o punctul final temporar până la 15.10.2025, ora 15:59 (UTC). Compania invită, de asemenea, la trimiterea de propuneri. feedback-ul printr-o formă publică, consolidând o dinamică de îmbunătățire continuă împreună cu comunitatea.
Status open source: ponderi, raport tehnic și nuclee
DeepSeek publică modelul în Hugging Face, împreună cu o Raportul tehnic care documentează schimbările și rezultatele. Există un angajament clar față de transparență și promovarea cercetării aplicate pe termen lung cu costuri mai mici.
La nivel de kernel, există două metode: TileLang pentru citire și prototipare mai accesibil și CUDA pentru performanță maximă. Nucleele de index Logit (inclusiv variantele paginate) sunt în DeepGEMM, în timp ce cele cu atenție dispersată sunt publicate în FlashMLAAceastă separare facilitează găsirea locului potrivit pentru comunitățile orientate spre cercetare și cele orientate spre producție.
Execuție locală a DeepSeek-V3.2-Exp și demonstrații de inferență
DeepSeek oferă un depozit de deducere cu o demonstrație actualizată pentru a începe rapid și a inspecta arhitectura. Primul pas este convertirea ponderilor Hugging Face în formatul așteptat de demonstrație, definind numărul de experți și paralelismul modelului.
Exemple de comenzi pentru conversie și generare interactivă (setați EXPERTS=256 și MP la numărul de GPU-uri): poate fi folosit ca atare într-un mediu pregătit.
cd inferență export EXPERȚI=256 python convert.py --hf-ckpt-path ${HF_CKPT_PATH} --save-path ${SAVE_PATH} --n-experți ${EXPERȚI} --model-parallel ${MP} export CONFIG=config_671B_v3.2.json torchrun --nproc-per-node ${MP} generate.py --ckpt-path ${SAVE_PATH} --config ${CONFIG} --interactiv
Pentru cei care preferă SGLang, există imagini pregătite și o comandă de boot. Asistența include GPU-uri NVIDIA (H200), AMD (MI350) și anumite NPU-uri, cu etichete specifice.
# H200 docker pull lmsysorg/sglang:dsv32 # MI350 docker pull lmsysorg/sglang:dsv32-rocm # NPU-uri docker pull lmsysorg/sglang:dsv32-a2 docker pull lmsysorg/sglang:dsv32-a3 python -m sglang.launch_server --model deepseek-ai/DeepSeek-V3.2-Exp --tp 8 --dp 8 --page-size 64
Dacă preferi vLLM, are suport din prima zi. Este recomandabil să consultați rețetele oficiale pentru parametrii actualizați și optimizări prin hardware.
API: Puncte finale, compatibilitate și expirări
API-ul DeepSeek respectă convențiile standard și este compatibil cu SDK-urile populare. În mod implicit, utilizarea adresei URL de bază https://api.deepseek.com vizați versiunea V3.2-Exp, ceea ce simplifică integrarea inițială și accesul la rată redusă.
Pentru benchmarking, există un endpoint temporar pentru V3.1-Terminal: https://api.deepseek.com/v3.1_terminus_expires_on_20251015Rețineți data și ora de expirare (15 octombrie 2025, 15:59 UTC) pentru a planifica valori de referință.
În plus, există compatibilitate cu ecosistemul AntropicăPuteți folosi baza https://api.deepseek.com/anthropic pentru interacțiuni în stil Claude sau varianta asociată cu punctul final temporar, dacă trebuie să comparați cu modelul anterior.
Autentificare și gestionare a cheilor
Cererile sunt autentificate de Purtător în antetul Autorizare. Generați cheia din tabloul de bord DeepSeek și stocați-o în siguranță, de exemplu, în variabile de mediu sau manageri de fișiere. secrete ca manager de secrete AWS.
Panoul afișează utilizarea și facturarea pentru a controla consumul de jetoaneDeși prețurile au scăzut, este recomandabil să se aplice limitarea ratei și rotația periodică a cheilor pe computere, pe lângă revocarea oricărei cheie compromisă Fără întârziere.
Completări de chat, șabloane și solicitări de bază
Punctul final central este /chat/completări, care procesează dialoguri multi-turn și menține contextul între apeluri, un scenariu ideal pentru punctele forte ale V3.2-Exp pentru context lung. Există două moduri tipice de modelare: deepseek-chat y deepseek-rationer.
Un corp simplu de cerere ar putea arăta astfel, folosind un caracter JSON escaped (reprezentat aici ca " pentru claritate): include un prompt de sistem și un prompt pentru utilizator.
{ "model": "deepseek-chat", "messages": [ { "role": "system", "content": "Sunteți expert tehnic." }, { "role": "user", "content": "Explicați atenția redusă." } ], "stream": false }
Când doriți răspunsuri în timp real, activați flux=adevăratAnteturile trebuie să includă Content-Type: application/json și token-ul de autorizare: Bearer ${DEEPSEEK_API_KEY}. Dacă lucrați cu raționament explicit, puteți controla comportamentul cu ajutorul steagului raționament.activat.
Structura răspunsului și fluxul SSE
Răspunsurile care nu sunt în flux continuu includ câmpuri precum id, obiect, creat, model, opțiuni și utilizare. În opțiuni, veți găsi conținutul generat (rol: „asistent”), iar în utilizare, detaliile despre prompt_tokens, jetoane_de_completare și jetoane_totale.
În modul de streaming, API-ul trimite Evenimente trimise de serverFiecare fragment ajunge ca un eveniment de date cu o delta pe care trebuie să o acumulați. Aceasta este opțiunea ideală pentru interfeţe interactive sau terminale cu ieșire incrementală.
Apelarea funcțiilor și ieșirea acestora în JSON strict
Puteți defini Unelte deci modelul decide când să apeleze o funcție, de exemplu, pentru a recupera date sau a executa acțiuni. Acest lucru se potrivește bine cu fluxurile și integrările agenților. backend.
Dacă aveți nevoie de o ieșire structurată, forțați modul JSON folosind response_format. Acest lucru este util pentru extragerea datelor sau validare automat în conducte.
Exemple Python cu SDK în stil OpenAI
Cu Python, curba de intrare este foarte lină. Setați api_base La fel ca DeepSeek, definește cheia și lansează cererile; poți comuta între modul standard și cel de streaming în funcție de cazul tău de utilizare.
import openai openai.api_base = "https://api.deepseek.com" openai.api_key = "cheia_ta_api_aici" response = openai.ChatCompletion.create( model="deepseek-chat", messages=[ {"role": "system", "content": "Sunteți asistent de codare."}, {"role": "user", "content": "Scrieți o funcție Python pentru a calcula numerele Fibonacci."} ], stream=False ) print(response.choices[0].message.content) # Streaming stream = openai.ChatCompletion.create(model="deepseek-chat", messages=[...], stream=True) for chunk in stream: if chunk.choices[0].delta.content is not None: print(chunk.choices[0].delta.content, end="") # Apelarea funcției (definiția instrumentului) tools = [ { "type": "function", "function": { "name": "get_weather", "descriere": "Obțineți vremea curentă", "parametri": { "tip": "obiect", "proprietăți": { "locație": {"tip": "șir"} }, "required": [ "locație" ] } } } ]
Pentru ieșire JSON strictă, setați format_răspuns un {"type": "json_object"}. Și dacă veți avea dialoguri lungi, nu uitați să mergeți restrângerea contextului pentru a vă menține în limite și a maximiza eficiența.
Integrare cu Apidog
Apidog accelerează prototipare Callback: Importați specificații, salvați variabile de mediu (cum ar fi cheia), construiți POST-uri și testați din mers. Simulatorul său de răspuns facilitează testarea cazurilor extreme fără costuri suplimentare. jetoane.
De asemenea, generează fragmente de cod în diferite idiomuri și oferă o vizualizare cronologică pentru depanarea autentificării sau a parametrilor. Deoarece V3.2-Exp gestionează contexte largi, Apidog este o modalitate excelentă de a experimenta cu solicitări lungi și vezi performanța.
Bune practici pentru a profita la maximum de aceasta
Definiți solicitările de sistem clar și concis care delimitează comportamentul. Pentru problemele complexe, modul de raționament poate ajuta, combinându-l cu tehnici de structurare a gândirii adecvate cazului dumneavoastră.
Gestionați context cu antet: Deși V3.2-Exp tolerează contextul lung (sunt citate cazuri de până la 128K), istoricul excesiv poate penaliza eficiența. Implementează trunchierea inteligentă, ascuns pentru interogări frecvente și în lot, acolo unde are sens.
În ceea ce privește securitatea, dezinfectează datele de intrare pentru a preveni injecțiile prompte și înregistrează interacțiunile pentru a auditAjustați temperatura și top_p în funcție de obiectivul dvs.: valori mici pentru determinism, valori mari pentru creativitate.
Efectuați teste A/B între deepseek-chat y deepseek-rationer pentru a alege modul optim. Și rețineți limita de viteză pentru a evita surprizele în facturare.
Comparație cu V3.1-Terminus
Introducerea DSA aduce îmbunătățiri în latență care, în unele scenarii, se apropie de o viteză de 3x fără a sacrifica paritatea generală a calității. Este o evoluție axată pe relația putere/eficiență mai mult decât în înregistrările de acuratețe.
Micile creșteri ale numărului de programe și ușoarele scăderi în domeniile umaniste reflectă reglarea fină a unui model care, prin design, este experimentalPunctul final temporal V3.1 permite comparații directe care arată câștigurile DSA pe termen lung.
Implementare locală avansată
Pentru implementări cu caracter confidențial sau offline, descărcați pesos Utilizarea scripturilor oficiale de conversie din Hugging Face este cea mai bună opțiune. Setați numărul de experți (de exemplu, 256) și ajustați paralelismul modelului în funcție de nevoile dvs. unități de procesare grafică.
Demonstrația de inferență permite testarea în mod interactiv, iar nucleele din TileLang sau CUDA vă va ajuta să optimizați performanța în funcție de priorități: viteza de prototipare sau randament maxim in productie.
Nuclee deschise și performanță
TileLang prioritizează lizibilitate și design pentru cercetare, astfel încât să puteți itera rapid asupra ideilor noi. Este perfect dacă explorați variante de îngrijire. risipit sau optimizări ale memoriei.
Pentru a stoca fiecare milisecundă, intră în joc nucleele CUDA: indicii logit (cu versiuni paginate) sunt în DeepGEMM, în timp ce cei cu atenție dispersată trăiesc în FlashMLAAceastă segmentare permite fiecărei echipe să aleagă stivui optim fără a relua lucrările.
Licență DeepSeek-V3.2-Exp, Programare și Contact
Depozitul și pesos Modelul este publicat sub licența MIT. Aceasta deschide calea către utilizări comerciale cu o mare flexibilitate, încurajând adoptarea și inovație în ecosistem.
Pentru a face referire la V3.2-Exp în joburi, DeepSeek oferă un intrarea programării de tip @misc cu titlul «DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention» și autorul «DeepSeek-AI» (anul 2025). Pentru întrebări sau incidente, adresa de e-mail de contact este service@deepseek.com.
Resurse oficiale și linkuri utile despre DeepSeek-V3.2-Exp
Dacă doriți să descărcați modelul, îl aveți în Fata îmbrățișatăDocumentul informativ este disponibil pe GitHub, împreună cu detaliile de implementare și evaluări.
Pentru teste comparative între V3.2-Exp și V3.1-Terminus, consultați Ghid oficialȘi dacă doriți să trimiteți sugestii, aveți un canal de feedback-ul public la https://feedback.deepseek.com/dsa.
Cu V3.2-Exp, DeepSeek prioritizează o idee simplă: eficiență fără a sacrifica calitateaDSA deschide calea pentru modele care suportă contexte masive la un cost rezonabil, API-ul simplificat aduce aceste capabilități la mai multe echipe, iar deschiderea stivei (greutăți, kerneluri și documentație) facilitează cercetarea, compararea și construirea de produse reale de către comunitate, fără dificultăți.