Urychlovač AI - AI accelerator

AI urychlovač je třída specializovaného hardwarového akcelerátoru nebo počítačový systém navržen tak, aby urychlila umělé inteligence a strojového učení aplikace, včetně umělých neuronových sítí a strojového vidění . Mezi typické aplikace patří algoritmy pro robotiku , internet věcí a další úlohy náročné na data nebo senzory. Často se jedná o mnohojádrové návrhy a obecně se zaměřují na aritmetiku s nízkou přesností , nové architektury toku dat nebo výpočetní kapacitu v paměti . Od roku 2018, typická AI integrovaný obvod čip obsahuje miliardy z MOSFET tranzistorů. Pro zařízení v této kategorii existuje řada termínů specifických pro dodavatele a jedná se o nově vznikající technologii bez dominantního designu .

Dějiny

Počítačové systémy často doplňovaly CPU speciálními akcelerátory pro specializované úkoly, známými jako koprocesory . Pozoruhodné aplikačně specifické hardwarové jednotky obsahují grafické karty pro grafiky , zvukové karty , GPU a signálových procesorů . Vzhledem k tomu, že v roce 2010 vzrostla pracovní zátěž hlubokého učení a umělé inteligence na výsluní, byly vyvinuty nebo adaptovány specializované hardwarové jednotky ze stávajících produktů, které tyto úkoly urychlují .

Počáteční pokusy

První pokusy jako Intel ETANN 80170NX zahrnovaly analogové obvody pro výpočet neurálních funkcí. Dalším příkladem čipů této kategorie je ANNA, akcelerátor neuronové sítě CMOS vyvinutý společností Yann LeCun . Později následovaly všechny digitální čipy jako Nestor/Intel Ni1000 . Již v roce 1993 byly procesory digitálního signálu používány jako urychlovače neuronových sítí, např. K akceleraci softwaru pro optické rozpoznávání znaků . V 90. letech došlo také k pokusům o vytvoření paralelních vysoce výkonných systémů pro pracovní stanice zaměřených na různé aplikace, včetně simulací neuronových sítí. Urychlovače na bázi FPGA byly také poprvé prozkoumány v 90. letech, a to jak pro odvozování, tak pro školení. Smartphony začaly obsahovat akcelerátory AI počínaje Qualcomm Snapdragon 820 v roce 2015.

Heterogenní výpočetní technika

Heterogenní výpočetní technika znamená začlenění řady specializovaných procesorů do jednoho systému nebo dokonce do jednoho čipu, každý optimalizovaný pro konkrétní typ úlohy. Architektury, jako je mikroprocesor Cell, mají funkce, které se výrazně překrývají s akcelerátory AI, včetně: podpory balené aritmetiky s nízkou přesností, architektury toku dat a upřednostňování „propustnosti“ před latencí. Mikroprocesor Cell byl následně aplikován na řadu úkolů včetně AI.

V roce 2000 CPU také získaly stále širší jednotky SIMD , poháněné pracovním vytížením videa a her; stejně jako podpora pro zabalené datové typy s nízkou přesností . Vzhledem ke zvyšujícímu se výkonu CPU jsou také používány ke spouštění úloh AI. CPU jsou lepší pro DNN s DNN s malým nebo středním paralelismem, pro řídké DNN a ve scénářích s malou dávkou.

Použití GPU

Jednotky pro zpracování grafiky nebo GPU jsou specializovaný hardware pro manipulaci s obrázky a výpočet vlastností místních obrázků. Matematický základ neurálních sítí a manipulace s obrázky jsou podobné, trapně paralelní úlohy zahrnující matice, což vede k tomu, že se GPU stále častěji používají pro úlohy strojového učení. Od roku 2016 jsou GPU oblíbené pro práci s umělou inteligencí a stále se vyvíjejí tak, aby usnadňovaly hluboké učení, a to jak pro školení, tak pro odvozování v zařízeních, jako jsou samořiditelná auta . Vývojáři grafických karet, jako je Nvidia NVLink, vyvíjejí další možnosti připojení pro druh pracovního vytížení toku dat, z něhož AI těží. Jako GPU byly zvýšeně aplikována na AI zrychlení výrobci GPU byly začleněny neuronové sítě - specifický hardware k dalšímu urychlení těchto úkolů. Tensorová jádra mají zrychlit trénink neuronových sítí.

Použití FPGA

Hluboké vzdělávací rámce se stále vyvíjejí, takže je těžké navrhnout vlastní hardware. Rekonfigurovatelná zařízení, jako jsou pole programovatelná hradlová pole (FPGA), usnadňují vývoj hardwaru, rámců a softwaru vedle sebe .

Společnost Microsoft použila čipy FPGA k urychlení odvozování .

Vznik specializovaných ASIC akcelerátorů AI

Zatímco GPU a FPGA fungují pro úkoly související s AI mnohem lépe než CPU, u konkrétnějšího designu lze dosáhnout efektivity až 10 prostřednictvím integrovaného obvodu specifického pro aplikaci (ASIC). Tyto akcelerátory využívají strategie, jako je optimalizované využití paměti a použití aritmetiky s nižší přesností k urychlení výpočtu a zvýšení propustnosti výpočtu. Některé přijaté formáty s nízkou přesností s plovoucí desetinnou čárkou, které používají akceleraci AI, jsou poloviční přesností a formát s plovoucí desetinnou čárkou bfloat16 . Společnosti jako Google, Qualcomm, Amazon, Apple, Facebook, AMD a Samsung navrhují vlastní AI ASIC.

Výpočtové architektury v paměti

V červnu 2017 vědci IBM oznámili architekturu na rozdíl od architektury Von Neumann založenou na výpočetních procesech v paměti a paměťových polích s fázovou změnou aplikovanou na detekci časové korelace s úmyslem zobecnit přístup k heterogenním výpočetním a masivně paralelním systémům. V říjnu 2018 oznámili vědci IBM architekturu založenou na zpracování v paměti a modelovanou na synaptické síti lidského mozku, aby urychlili hluboké neurální sítě . Systém je založen na paměťových polích s fázovou změnou .

Výpočet v paměti s analogovými odporovými pamětmi

V roce 2019 vědci z Politecnico di Milano našli způsob, jak vyřešit systémy lineárních rovnic během několika desítek nanosekund pomocí jediné operace. Jejich algoritmus je založen na počítání v paměti s analogovými odporovými pamětmi, které pracuje s vysokou účinností času a energie, prostřednictvím násobení maticových vektorů v jednom kroku pomocí Ohmova zákona a Kirchhoffova zákona. Vědci ukázali, že obvod zpětné vazby s odporovými pamětmi s křížovým bodem může vyřešit algebraické problémy, jako jsou systémy lineárních rovnic, maticových vlastních vektorů a diferenciálních rovnic v jediném kroku. Takový přístup ve srovnání s digitálními algoritmy drasticky zlepšuje výpočetní časy.

Atomicky tenké polovodiče

V roce 2020 Marega a kol. publikované experimenty s velkoplošným aktivním kanálovým materiálem pro vývoj zařízení s logickou pamětí a obvodů založených na tranzistorech s efektem plovoucí brány (FGFET). Takové atomicky tenké polovodiče jsou považovány za slibné pro energeticky účinné aplikace strojového učení , kde se pro logické operace i ukládání dat používá stejná základní struktura zařízení. Autoři použili dvourozměrné materiály, jako je polovodivý disulfid molybdenu .

Integrované fotonické tenzorové jádro

V roce 2021 J. Feldmann a kol. navrhl integrovaný fotonický hardwarový akcelerátor pro paralelní konvoluční zpracování. Autoři identifikují dvě klíčové výhody integrované fotoniky oproti jejím elektronickým protějškům: (1) masivně paralelní přenos dat multiplexováním s dělením vlnových délek ve spojení s frekvenčními hřebeny a (2) extrémně vysoké rychlosti modulace dat. Jejich systém dokáže za sekundu provést biliony operací násobení a akumulace, což naznačuje potenciál integrované fotoniky v aplikacích umělé inteligence náročných na data.

Nomenklatura

Od roku 2016 je pole stále v pohybu a prodejci prosazují své vlastní marketingové termíny pro „AI akcelerátor“ v naději, že se jejich návrhy a API stanou dominantním designem . Neexistuje shoda na hranici mezi těmito zařízeními ani na přesné podobě, jakou budou mít; nicméně několik příkladů má jasně za cíl zaplnit tento nový prostor se značným překrýváním schopností.

V minulosti, kdy se objevily spotřebitelské grafické akcelerátory , průmysl nakonec přijal vlastní termín Nvidie , „GPU“, jako souhrnné jméno pro „grafické akcelerátory“, které mělo mnoho podob, než se usadilo na celkovém kanálu implementujícím model představil Direct3D .

Potenciální aplikace

Viz také

Reference

externí odkazy