ACE: Intel și AMD pregătesc noi instrucțiuni x86 pentru AI

Intel și AMD au publicat specificațiile complete pentru ACE (Advanced Compute Extensions), un nou set de instrucțiuni destinat accelerării sarcinilor de inteligență artificială pe procesoarele x86. Noua tehnologie promite performanțe mai bune, consum redus de energie și o integrare mai simplă pentru dezvoltatorii de aplicații AI.

Deși majoritatea modelelor de inteligență artificială rulează pe plăci video, există numeroase scenarii în care procesorul rămâne soluția mai eficientă.

De ce este nevoie de ACE

În ultimii ani, GPU-urile au devenit principalele motoare pentru aplicațiile AI. Totuși, nu toate sarcinile necesită o placă video dedicată.

Modelele de dimensiuni reduse și operațiunile sensibile la latență pot rula mai eficient pe procesor. În plus, multe sisteme nu dispun de un GPU performant.

ACE vine să rezolve această problemă prin introducerea unor unități hardware dedicate operațiilor de înmulțire matricială, elementul de bază al majorității algoritmilor de inteligență artificială.

O abordare bazată pe AVX10

Noua extensie utilizează registrele existente AVX10, dar adaugă logică hardware specializată pentru calculele matriciale.

Avantajul principal este compatibilitatea cu arhitecturile actuale. Dezvoltatorii nu trebuie să creeze metode complet noi de introducere a datelor.

Soluția permite folosirea intrărilor pe 512 biți deja disponibile în AVX, ceea ce simplifică integrarea în viitoarele procesoare.

ACE – De până la 16 ori mai multe operații

Înmulțirea matricială reprezintă fundamentul sarcinilor AI. Practic, aceasta presupune executarea repetată a unor operații de înmulțire și adunare asupra unor volume mari de date.

Procesoarele moderne pot realiza aceste calcule și astăzi, însă eficiența energetică nu este întotdeauna optimă.

Potrivit specificațiilor, ACE poate executa de până la 16 ori mai multe operații pentru același număr de vectori de intrare comparativ cu AVX10.

Acest lucru nu înseamnă automat o creștere de 16 ori a performanței. Rezultatul final va depinde de implementarea fiecărui producător.

Totuși, reducerea numărului de instrucțiuni necesare poate aduce câștiguri importante de eficiență și poate diminua traficul către memoria RAM.

Beneficii pentru dezvoltatori

Una dintre cele mai importante caracteristici ale ACE este independența față de implementarea hardware.

Biblioteci populare precum PyTorch sau TensorFlow vor putea utiliza o singură cale de cod pentru procesoarele compatibile. Astfel, dezvoltatorii nu vor mai fi nevoiți să optimizeze separat pentru fiecare nivel de suport AVX.

Această abordare simplifică dezvoltarea și reduce timpul necesar pentru optimizare.

Suport extins pentru tipurile de date AI

ACE oferă suport nativ pentru majoritatea formatelor utilizate în aplicațiile de învățare automată.

Printre acestea se numără INT8, INT32, FP8, FP16, FP32 și BF16. În plus, extensia este compatibilă și cu formatele MX block-scaled dezvoltate de Open Compute Project.

Această compatibilitate lipsește în prezent din AVX10.

Un concurent pentru sarcinile executate pe NPU

Noua tehnologie poate prelua și o parte dintre operațiunile care rulează în prezent pe procesoarele neuronale dedicate, cunoscute sub numele de NPU.

În situațiile în care este nevoie de răspuns rapid, procesorul va putea executa direct anumite sarcini AI fără a mai depinde de un accelerator separat.

Pentru dezvoltatori, acest lucru înseamnă o platformă unificată și predictibilă pe toate sistemele x86 compatibile.

Prin ACE, Intel și AMD încearcă să transforme procesorul clasic într-o soluție mai atractivă pentru aplicațiile moderne de inteligență artificială, într-o perioadă în care cererea pentru astfel de sarcini continuă să crească.

Source link