I modelli distillati di DeepSeek R1 possono sfruttare in locale la NPU dei PC Copilot+

Effettua la tua ricerca

More results...

Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
Filter by Categories
#finsubito

Assistenza per i sovraindebitati

Saldo e stralcio

 


Microsoft sta portando l’elaborazione IA in locale dei modelli DeepSeek R1 distillati e ottimizzati per NPU nei dispositivi Copilot+ PC.

La tabella di marcia prevede il rilascio graduale di tre versioni del modello – da 1.5 a 14 miliardi di parametri (DeepSeek-R1-Distill-Qwen-1.5B, 7B e 14B) – attraverso l’ecosistema Azure AI Toolkit; il tutto con un’attenzione particolare all’efficienza energetica e alle prestazioni in ambienti edge computing.

Prestito personale

Delibera veloce

 

I requisiti minimi includono dispositivi Copilot+ PC equipaggiati con la NPU dei Qualcomm Snapdragon X e, in seguito, i PC con le NPU integrate nei processori Intel Core Ultra 200V.

I principali beneficiari di questa innovazione sono soprattutto gli sviluppatori software che necessitano di integrare capacità di ragionamento IA in applicazioni locali, oltre ad aziende e professionisti del settore. Ma è un passo importante per dare ancora più libertà alle NPU integrate nei nuovi processori e, un giorno, renderle molto più sfruttabili dagli utenti comuni.

Come evidenziato dal comunicato di Microsoft, l’ottimizzazione per NPU consente esecuzioni dei modelli semi-continue senza compromettere l’autonomia della batteria, grazie a tecniche come la quantizzazione 4-bit e l’uso del formato ONNX QDQ per garantire compatibilità cross-platform, quindi con la possibilità di adattarsi sia alla NPU dei Qualcomm Snapdragon X sia, in futuro, a quelle degli Intel Core Ultra 200V.

Questa cosa va spiegata un po’ meglio per capire il vantaggio dell’uso della NPU. Se prendiamo per esempio gli Snapdragon X, l’implementazione nelle app della NPU Hexagon da 45 TOPS è stata comprensibilmente progressiva.

Assistenza per i sovraindebitati

Saldo e stralcio

 

Oggi la NPU di Snapdragon X può essere usata, tra gli altri, per i Sottotitoli in tempo reale, l’Auto Super Resolution e Cocreator per Paint di Windows 11 ma, per esempio, anche per alcune funzioni del programma di editing video di DaVinci Resolve con incrementi nella velocità degli strumenti IA come Magic Mask, Smart Reframe e Ultra NR che possono arrivare quasi a 5x. In Affinity Photo la NPU viene usata per velocizzare la selezione oggetto, il denoise e l’esportazione batch. Sia DaVinci che Affinity Photo per interfacciarsi con la NPU degli Snapdragon X sfruttano le API DirectML di Microsoft.

Tornando all’elaborazione in locale dei modelli distillati di R1 sui PC Copilot+, si è parlato della quantizzazione 4-bit e dell’uso del formato ONNX QDQ.

Infatti, sebbene la versione Qwen 1.5B di DeepSeek R1 disponga già di una variante int4, essa non è direttamente compatibile con la NPU a causa della presenza di forme e comportamenti dinamici dell’input, che quindi hanno richiesto a Microsoft ottimizzazioni per essere compatibili ed estrarre la migliore efficienza.

Richiedi prestito online

Procedura celere

 

Microsoft si è quindi servita del formato ONNX (Open Neural Network Exchange), sviluppato in modo congiunto a partire dal 2017 da Facebook (oggi Meta) e Microsoft, ma al quale hanno successivamente aderito anche aziende come IBM, Intel, AMD, Qualcomm, NVIDIA e AWS.

ONNX è un formato usato per rappresentare modelli di machine learning, ed è in grado di scalare tra le varie NPU presenti nell’ecosistema Windows, siano esse quelle integrate negli Snapdragon X o quelle degli Intel Core Ultra 200V. Sostanzialmente ONNX è dunque un formato che può dirsi “agnostico” rispetto alla NPU che deve gestire, mentre altri formati sono legati a specifici chip, come per esempio il CoreML di Apple ottimizzato per l’hardware della Mela.

Oltre alla sua natura cross-platform e agnostica, uno dei vantaggi di ONNX è che può avere un deployment ibrido tra CPU e NPU, in particolare per la tecnica QDQ (Quantize-DeQuantize) usata da Microsoft per implementare in locale i modelli distillati di DeepSeek R1.

Prestito personale

Delibera veloce

 

ONNX DQD può infatti distribuire tra CPU e NPU i layer dei modelli DeepSeek R1 distillati, con le parti meno intensive destinate alla CPU, e quelle computazionalmente pesanti con quantizzazione 4-bit inviate alla NPU. Il risultato è un compromesso vincente tra velocità (16 token/secondo) e consumo energetico.

Come accedere ai modelli R1 da usare in locale

Per accedere alle funzionalità, gli utenti devono inizialmente installare l’estensione AI Toolkit in Visual Studio Code, accedere al catalogo modelli di Azure AI Foundry e selezionare la versione “DeepSeek-R1-Distill-Qwen-1.5B” per il download locale. Una volta scaricato, il modello viene testato tramite l’ambiente Playground integrato usando l’identificativo deepseek_r1_1_5, permettendo così di valutare le performance attraverso l’invio di prompt testuali. Parallelamente rimane comunque disponibile l’opzione cloud tramite il pulsante “Try in Playground” associato a “DeepSeek R1” nel portale Azure.

Infatti, per concludere, Microsoft è stata anche lesta a integrare il modello DeepSeek R1 in Azure AI Foundry e GitHub.

L’LLM cinese è diventato quindi parte di un catalogo di oltre 1.800 modelli che possono essere usati dagli sviluppatori per sperimentare e integrare rapidamente l’IA nei loro flussi di lavoro, con strumenti di valutazione integrati. Microsoft afferma inoltre che DeepSeek R1 ha superato rigorosi test di sicurezza.





Source link

Contributi e agevolazioni

per le imprese

 

***** l’articolo pubblicato è ritenuto affidabile e di qualità*****

Visita il sito e gli articoli pubblicati cliccando sul seguente link

Source link