AI klasteriai visiškai pakeitė srauto srautus duomenų centruose. Didžiąją laiko dalį srautas dabar juda rytų–vakarų kryptimis tarp GPU modelio mokymo ir patikros taško metu, o ne šiaurės–pietų kryptimi tarp programų ir interneto. Tai rodo pokytį, kur atsiranda kliūčių. CPU, kurie kažkada buvo atsakingi už inkapsuliavimą, srauto valdymą ir saugumą, dabar yra kritiniame kelyje. Tai padidina delsą ir kintamumą, todėl sunkiau naudoti GPU.

Dėl šios našumo ribos DPU/SmartNIC iš neprivalomo greitintuvo tapo būtina infrastruktūra. „Duomenų centras yra naujas skaičiavimo vienetas“, – per GTC 2021 sakė NVIDIA generalinis direktorius Jensenas Huangas.. „Jokiu būdu to nepadarysite su centriniu procesoriumi. Taigi turite išjungti tinklo dėklą. Norite pašalinti saugos krūvą ir duomenų apdorojimo bei duomenų judėjimo krūvą.” Jensen Huang, interviu su Kita platforma. NVIDIA teigia, kad jos „Spectrum-X“ eterneto audinys (apima perkrovos valdymą, adaptyvųjį maršruto parinkimą ir telemetriją) gali užtikrinti iki 48 % didesnį atminties skaitymo pralaidumą dirbtinio intelekto darbo krūviams.

Tinklo sąsaja dabar yra sluoksnis, apdorojantis dalykus. Brandos klausimas nebėra, ar iškrovimas būtinas, o tai, kokie iškrovimai šiuo metu užtikrina išmatuojamą veiklos IG.

Kur AI audinio srautas ir patikimumas tampa reikšmingi

AI darbo krūviai veikia sinchroniškai: kai vienas mazgas patiria perkrovą, visi klasterio GPU laukia. „Meta“ praneša, kad dėl maršruto sukeltų srautų susidūrimų ir netolygaus eismo pasiskirstymo ankstyvojo RoCE diegimo metu „mokymo našumas pablogėjo iki daugiau nei 30 proc.“, todėl buvo pakeistas maršrutas ir kolektyvinis derinimas. Šie klausimai nėra vien tik architektūriniai; jie atsiranda tiesiai iš rytų–vakarų srautų mastelio.

„InfiniBand“ jau seniai teikia kreditais pagrįstą nuorodos lygio srauto valdymą (per-VL), kad garantuotų be nuostolių ir apsaugotų nuo buferio viršijimo, ty aparatūros mechanizmą, įmontuotą į nuorodų sluoksnį. „Ethernet“ vystosi panašiai per „Ultra Ethernet“ konsorciumą (UEC): „Ultra Ethernet Transport“ (UET) darbuose pristatomas galutinio taško / pagrindinio kompiuterio perdavimas, perkrovos valdymas, pagrįstas grįžtamuoju laiku realiuoju laiku, ir galinių taškų bei jungiklių koordinavimas, aiškiai perkeliant daugiau perkrovos valdymo ir telemetrijos į NIC / galinį tašką.

„InfiniBand“ išlieka deterministinio audinio elgesio etalonu. Eternetu pagrįsti dirbtinio intelekto audiniai sparčiai vystosi dėl UET ir SmartNIC naujovių.

Tinklo specialistai turi įvertinti silicio galimybes, o ne tik ryšio greitį. Patikimumą dabar lemia telemetrija, perkrovos valdymas ir iškrovimo palaikymas NIC/DPU lygiu.

Taip pat skaitykite: Išmanesni kūrėjai su aitvarais: AI atitinka Kubernetes

Iškrovimo modelis: inkapsuliavimas ir bevalis vamzdynų apdorojimas

AI klasteriai debesies ir įmonės mastu remiasi perdangomis, tokiomis kaip VXLAN ir GENEVE, kad segmentuotų srautą tarp nuomininkų ir domenų. Tradiciškai šios inkapsuliavimo užduotys vykdomos CPU.

DPU ir SmartNIC perkelia inkapsuliavimą, maišą ir srauto suderinimą tiesiai į aparatūros vamzdynus, sumažindami drebėjimą ir atlaisvindami procesoriaus ciklus. NVIDIA dokumentuoja VXLAN aparatinės įrangos iškrovimus savo NIC / DPU ir tvirtina, kad Spectrum-X suteikia reikšmingą AI audinio naudą, įskaitant iki 48% didesnį atminties skaitymo pralaidumą partnerių testuose ir daugiau nei 4 kartus mažesnę delsą, palyginti su tradiciniu Ethernet, naudojant Supermicro etaloną.

NVIDIA BlueField, AMD Pensando Elba ir Marvell OCTEON 10 platformų iškrovimas, skirtas VXLAN ir srauto apdorojimui be būsenos, palaikomas.

Iš konkurencijos perspektyvos:

  • NVIDIA pagrindinis dėmesys skiriamas glaudžiui integravimui su duomenų centro infrastruktūra luste (DOCA), kad būtų galima atlikti GPU pagreitintą AI darbo krūvį.
  • AMD Pensando siūlo P4 programuojamumą ir integraciją su Cisco Smart Switches.
  • Intel IPU siūlo rankoms pritaikytas konstrukcijas, skirtas transportavimo programavimui.

Inkapsuliacijos iškrovimas nebėra našumo gerinimo priemonė; tai yra nuspėjamo AI audinio elgsenos pagrindas.

Iškrovimo modelis: vidinis šifravimas ir Rytų–Vakarų apsauga

Dirbtinio intelekto modeliams peržengus suverenias ribas, o kelių nuomininkų klasteriai tampa įprasti, rytų–vakarų srauto šifravimas tapo privalomas. Tačiau užšifravus šį srautą pagrindiniame CPU, atsiranda išmatuojamų našumo nuobaudų. Atliekant bendrą VMware–6WIND–NVIDIA patvirtinimą, „BlueField-2“ DPU išsiuntė IPsec 25 Gbps bandymo sistemai (2 × 25 GbE BlueField-2), parodydami didesnį pralaidumą ir mažesnį pagrindinio procesoriaus naudojimą 6WIND vSecGW sistemoje vSphere 8.

Paveikslas: NVIDIA dėka

„Marvell“ savo OCTEON 10 DPU pozicionuoja, kad būtų galima saugiai iškrauti dirbtinio intelekto duomenų centruose, remdamasi integruotais šifravimo spartintuvais, galinčiais 400+ Gbps IPsec/TLS („Marvell OCTEON 10 DPU Family Media Deck“); Bendrovė taip pat pabrėžia augančią AI infrastruktūros paklausą savo investuotojų komunikacijoje. Šifravimo iškrovimas pereina nuo neprivalomo prie privalomo, nes AI tampa reguliuojama infrastruktūra.

Iškrovimo modelis: mikrosegmentavimas ir paskirstyta ugniasienė

GPU serveriai dažnai yra diegiami didelio patikimumo zonose, tačiau vis dar yra šoninio judėjimo rizika, ypač aplinkoje, kurioje daug nuomininkų arba kai daroma išvada apie bendrą infrastruktūrą. Tradicinės ugniasienės konfigūruojamos už GPU ribų ir nukreipia srautą iš rytų į vakarus per centralizuotus droselio taškus. Ši kliūtis padidina delsą ir sukuria akląsias vietas operacijose.

DPU ir SmartNIC dabar leidžia nustatyti L4 ugniasienes tiesiogiai NIC, įgyvendinant politiką šaltinyje. „Cisco“ pristatė N9300 serijos „Smart Switches“, turinčius programuojamus DPU, kurie prideda būsenos paslaugas tiesiai į duomenų centro struktūrą, kad pagreitintų operacijas. NVIDIA BlueField DPU taip pat palaiko mikrosegmentavimą, leidžiantį operatoriams taikyti Zero Trust principus GPU darbo apkrovoms neįtraukiant pagrindinio procesoriaus.

Iškrovimo modelis Mikrosegmentavimas ir paskirstyta ugniasienė

Nors ugniasienės iškrovimas yra paruoštas gamybai virtualizuotoje ir konteinerinėje aplinkoje, jos taikymas pliko metalo dirbtinio intelekto audinyje vis dar tobulinamas.

Tinklo inžinieriai įgyja naują vykdymo tašką pačiame serveryje. Šis iškrovimo modelis įgauna trauką reguliuojamuose ir nepriklausomuose DI diegimuose, kur reikalingas rytų ir vakarų izoliavimas.

Taip pat skaitykite: Agentinis AI vs AI agentai: pagrindiniai skirtumai ir poveikis AI ateičiai

Atvejo momentinė nuotrauka: Ethernet AI audinio operacijos gamyboje

Siekdama įveikti audinio nestabilumą, „Meta“ kartu sukūrė transporto sluoksnį ir kolektyvinę biblioteką, įdiegdama patobulintą ECMP eismo inžineriją, eilių poros mastelį ir imtuvu pagrįstą priėmimo modelį. Dėl šių pakeitimų AllReduce užbaigimo delsa pagerėjo iki 40 %, o tai rodo, kad audinio našumą dabar lemia tiek NIC transporto logika, tiek jungiklio architektūra.

Kitame pavyzdyje bendras VMware–6WIND–NVIDIA patvirtinimas, „BlueField-2 DPU“ perkėlė IPsec 6WIND vSecGW „vSphere 8“. Laboratorijos sąranka (ribojama dviejų „BlueField-2“ 25 GbE prievadų) buvo nukreipta ir parodyta. bent jau 25 Gbps bendras IPsec pralaidumas ir parodė, kad iškrovimas padidino pralaidumą ir pagerino programos atsaką, kartu atlaisvindamas pagrindinio kompiuterio procesoriaus branduolius.

Realus diegimas patvirtina našumo padidėjimą. Tačiau nepriklausomų gairių, lyginančių pardavėjus, yra nedaug. Tinklo architektai turėtų įvertinti pardavėjų pretenzijas naudodamiesi paskelbtais diegimo įrodymais, o ne pasikliauti rinkodaros skaičiais.

Pirkėjo kraštovaizdis: silicis ir SDK branda

Konkurencinę aplinką keičia DPU ir SmartNIC strategijos. Toliau pateiktoje lentelėje pabrėžiami pagrindiniai įvairių pardavėjų aspektai ir skirtumai.

Pardavėjas Diferenciatorius Branda Pagrindiniai svarstymai
NVIDIA Griežta integracija su GPU, DOCA SDK ir pažangia telemetrija Aukštas Didžiausias našumas; susirūpinimą kelia ekosistemų blokavimas
AMD Pensando P4 pagrindu veikiantis dujotiekis, Cisco integracija Aukštas Stiprus įmonėse ir hibridiniuose diegimuose
Intel IPU Programuojamas transportas, kriptovaliutų spartinimas Atsiranda Numatomas išleidimas 2025 m.; paremta „Google“ diegimo istorija
Marvell OCTEON Energiją taupantis, į saugyklą orientuotas iškrovimas Vidutinis Stiprumas krašto ir išskaidytos saugyklos AI

Pirkėjai pirmenybę teikia ne tik neapdorotam greičiui ir pašarams. „Omdia“ pabrėžia, kad veiksmingos operacijos dabar priklauso nuo dirbtinio intelekto valdomos automatikos ir veiksmingos telemetrijos, o ne tik nuo didesnio ryšio spartos.

Viešųjų pirkimų sprendimai turi būti suderinti ne tik su našumo tikslais, bet ir su SDK veiksmų plano branda ir ilgalaike platformos blokavimo rizika.

Konkurenciniai ir architektūriniai pasirinkimai: ką turi nuspręsti operatoriai

Dirbtinio intelekto audiniams pereinant nuo ankstyvo diegimo prie mastelio gamybos, infrastruktūros lyderiai susiduria su keliais strateginiais sprendimais, kurie ateinančiais metais lems išlaidas, našumą ir veiklos riziką.

DPU prieš SuperNIC ir aukščiausios klasės NIC

DPU suteikia jums ginklų branduolius, šifravimo blokus ir saugojimo / tinklo iškrovimo galimybes. Jie geriausiai veikia dirbtinio intelekto aplinkoje, kurioje yra keli nuomininkai, kurios yra reguliuojamos arba jautrios saugumui. SuperNIC, kaip ir NVIDIA Spectrum-X adapteriai, yra sukurti dirbti su jungikliais su labai mažu delsos laiku ir gilia telemetrijos integracija, tačiau jiems trūksta bendrosios paskirties procesorių.

Aukščiausios klasės NIC (be iškrovimo galimybių) vis tiek gali aptarnauti vieno nuomininko arba nedidelio masto AI grupes, tačiau joms trūksta ilgalaikio daugiafunkcinio dirbtinio intelekto audinių gyvybingumo.

„Ethernet“ ir „InfiniBand“, skirta dirbtinio intelekto audiniams

„InfiniBand“ vis dar yra geriausias spūsčių kontrolės ir nuspėjamo delsos srityje. Tačiau Ethernet greitai populiarėja, nes pardavėjai standartizuoja „Ultra Ethernet Transport“ ir prideda „SmartNIC“ / DPU iškrovimą. „InfiniBand“ yra geriausias pasirinkimas hiperscale diegimui, kai sutinkate su tiekėjo užraktu.

„Kai 2023 m. pabaigoje pirmą kartą pradėjome aprėpti dirbtinio intelekto tinklus, rinkoje dominavo „InfiniBand“, valdanti daugiau nei 80 procentų akcijų… Kadangi pramonė pereina prie 800 Gbps ir daugiau, tikime, kad Ethernet dabar yra tvirtai pasirengusi aplenkti „InfiniBand“ šiuose didelio našumo diegimuose. Sameh Boujelbene, „Dell’Oro Group“ viceprezidentas.

SDK ir ekosistemų valdymas

Pardavėjo programinės įrangos ekosistemų kontrolė tampa pagrindiniu skirtumu. NVIDIA DOCA, AMD P4 pagrindu sukurta sistema ir „Intel“ IPU SDK reiškia skirtingus plėtros kelius. Šiandien efektyviai pasirinkti tiekėją reiškia pasirinkti programavimo modelį ir ilgalaikę integravimo strategiją.

Taip pat skaitykite: Kaip AI pokalbių robotai gali padėti supaprastinti jūsų verslo operacijas?

Kai pieštukai išnyks ir ką žiūrėti toliau

DPU ir SmartNIC nebėra būsimi įgalintojai. Jie tampa būtina AI masto tinklų infrastruktūra. Verslo atvejis skaidriausias klasteriuose, kur:

  • Dominuoja rytų–vakarų eismas
  • GPU išnaudojimui įtakos turi mikrobūrio perkrova
  • Reguliavimo arba kelių nuomininkų reikalavimai įpareigoja šifruoti arba izoliuoti
  • Saugyklos srautas trukdo skaičiavimui

Ankstyvieji naudotojai praneša apie išmatuojamą IG. NVIDIA atskleidė pagerėjusį GPU panaudojimą ir 48 % didesnį nuolatinį saugyklos pralaidumą Spectrum-X diegimuose, kuriuose derinama telemetrija ir perkrovos iškrovimas. Tuo tarpu „Marvell“ ir AMD praneša apie didėjančius DPU prijungimo rodiklius dirbtinio intelekto projektavimo srityje, kai operatoriai reikalauja duomenų kelio autonomijos nuo pagrindinio procesoriaus.

Per ateinančius 12 mėnesių tinklo specialistai turėtų atidžiai stebėti:

  • NVIDIA „BlueField-4“ ir „SuperNIC“ patobulinimų planas
  • AMD Pensando Salina DPU integruoti į Cisco Smart Switches
  • UEC 1.0 specifikacija ir tiekėjo priėmimo terminai
  • Pirmieji „Intel“ gamybiniai E2200 IPU diegimai
  • Nepriklausomi etalonai, palyginantys „Ethernet Ultra Fabric“ ir „InfiniBand“ našumą esant kolektyvinei AI apkrovai

AI tinklų ekonomika dabar priklauso nuo to, kur vyksta apdorojimas. Vyksta strateginis poslinkis nuo į centrinį procesorių orientuotų architektūrų prie audinių, kuriuose DPU ir SmartNIC apibrėžia našumą, patikimumą ir saugumą.

Nuoroda į informacijos šaltinį

Draugai: - Marketingo agentūra - Teisinės konsultacijos - Skaidrių skenavimas - Klaipedos miesto naujienos - Miesto naujienos - Saulius Narbutas - Įvaizdžio kūrimas - Veidoskaita - Teniso treniruotės - Pranešimai spaudai - Kauno naujienos - Regionų naujienos - Palangos naujienos