在古典工匠技藝的時(shí)代,揮鞭前進(jìn)的是英特爾及其所發(fā)揚(yáng)的摩爾定律。 年后,為了追求技術(shù),進(jìn)入了深度學(xué)習(xí)的新時(shí)代,但1993年創(chuàng)立的NVIDIA成為了強(qiáng)大的黑馬。
NVIDIA經(jīng)過工藝深度培訓(xùn)平臺(tái)取得的立場(chǎng)差異,很多已經(jīng)成為世界標(biāo)準(zhǔn)。 我們以遠(yuǎn)遠(yuǎn)超出摩爾定律的速度迅速增加了護(hù)理功能,促進(jìn)了安康、交通、科學(xué)探索等無數(shù)規(guī)模的突破。 在一次演講中,創(chuàng)始人兼首席執(zhí)行官黃仁勛( jensen huang )對(duì)孤高、成千上萬不雅觀的觀眾說。
去年,站在統(tǒng)一的舞臺(tái)上,黃仁勛說想找到摩爾定律之后的道路。 以神經(jīng)收集為基礎(chǔ)的人工智能,爆炸式增長經(jīng)過一年已經(jīng)有五年了。 在這五年中,gpgpu (通用圖形處理器)成為了人工智能研發(fā)的利器,因在意密集型的進(jìn)修使命而獨(dú)步全國。 據(jù)NVIDIA稱,與5年前的ferml gpu架構(gòu)相比,新一代volta gpu架構(gòu)的浮點(diǎn)護(hù)理提升了25倍。
摩爾定律是十年五倍,黃仁勛說這是超越摩爾定律的說明。
NVIDIA開發(fā)者社區(qū)的擴(kuò)大很敏捷,印證了黃仁勛大膽的聲明。 據(jù)該企業(yè)統(tǒng)計(jì),gpu開發(fā)者今年將達(dá)到82萬人,比5年前增加5倍。 使用NVIDIA GPU開發(fā)所需的并行護(hù)理體系結(jié)構(gòu)套件cuda下載量達(dá)到800萬,其中約一半在曩昔的一年間下載。 不僅如此,該公司提供的gpu加速技術(shù)也被世界許多超級(jí)機(jī)器接受,其volta gpu在美國summit和sierra兩大超級(jí)計(jì)算中增加了約100 pflops萬億次的浮點(diǎn)計(jì)算才能)。
在美國時(shí)間3月27日的NVIDIAGPU工匠技藝大會(huì)( gtc )上,該公司帶來了許多在深度學(xué)習(xí)、主動(dòng)駕駛、機(jī)器人規(guī)模上掀起足夠浪潮的新產(chǎn)物。 其中重要的是一年一度的新型核彈級(jí)顯卡,這次不是gtx 11系列,也不是傳言中非常嘈雜的礦卡,而是黃仁勛被稱為桌面超市等熱門機(jī)器的事務(wù)所nvidia dgx-2。
dgx-2是專門用于人工智能練習(xí)和推理任務(wù)的臺(tái)式機(jī)護(hù)理機(jī)。
這是其內(nèi)部結(jié)構(gòu):
如你所見,圖中1和2的位置看起來像良多芯片。 其實(shí)他們是NVIDIA的tesla v100 volta架構(gòu)gpgpu,單一的計(jì)算力達(dá)到雙精度7.8 tflops (兆次浮點(diǎn)計(jì)算)、單精度15.7tflops、深度研修125tflops。
另一方面,dgx-2單機(jī)箱搭載16枚v100,整體功能達(dá)到了驚人的2pflops行業(yè)首款擁有1萬億次浮點(diǎn)計(jì)算能力的單機(jī)箱計(jì)算機(jī),將其稱為超級(jí)計(jì)算機(jī)也許并不夸張。
但是,dgx-2的計(jì)算能力不是堆棧,如果在它們之間不能實(shí)現(xiàn)高帶寬的數(shù)據(jù)相互通用的例子就沒有意義了。
時(shí)間回到兩年前,NVIDIA提出在經(jīng)過深入培訓(xùn)的設(shè)備市場(chǎng)直接挑戰(zhàn)英特爾,推出了pascal架構(gòu)的p100 gpgpu。 當(dāng)時(shí),主流辦公設(shè)備pcie總線接口的帶寬和延遲已經(jīng)不能滿足NVIDIA的訴求。 因此,我們開發(fā)了一種新的設(shè)備內(nèi)互聯(lián)標(biāo)準(zhǔn)nvlink,并將帶寬提高到300 gb/s。 在1個(gè)8枚gpgpu的體系中,nvlink大致如下。
但是,nvlink的標(biāo)準(zhǔn)拓?fù)浣Y(jié)構(gòu)理論上支持8塊顯卡,不足以滿足NVIDIA支持新系統(tǒng)中內(nèi)置的越來越多的顯卡的必要性。 因此,作為nvlink的根本,NVIDIA開發(fā)了在名為nvswitch的顯卡之間完成nvlink使命的協(xié)處理器。 該元件在dgx-2上,在16枚gpgpu中的2個(gè)之間實(shí)現(xiàn)了nvlink互通,總帶寬超過了14.4 tb。
這個(gè)數(shù)字創(chuàng)造了桌面級(jí)計(jì)算機(jī)內(nèi)總線接口帶寬的新記錄,但實(shí)現(xiàn)這個(gè)的目的不是跑步,而是dgx-2要1 )更快地練習(xí)高度復(fù)雜的神經(jīng)收集,2 )以及許多非結(jié)構(gòu)的神經(jīng)收集
NVIDIA的黃仁勛,背景是NV開關(guān)的形象
n卡之所以被稱為核彈,是因?yàn)橛幸粋€(gè)替代的解釋編排。 其多焦點(diǎn)架構(gòu)在基于這個(gè)焦點(diǎn)數(shù)論凹凸不平的時(shí)代,看起來像是聚焦了成百上千個(gè)cuda的焦點(diǎn),很不可思議。 另一方面,在dgx-2上,16枚v100的cuda核數(shù)達(dá)到了瘋狂的81,920焦點(diǎn)。 這個(gè)現(xiàn)實(shí)與NV交換機(jī)的技術(shù)、512gb的現(xiàn)有、30TB的nvmeSSD、2個(gè)XeonplatimumCPU、最大1.5tb的主機(jī)存儲(chǔ)器相連接
黃仁勛以gpu深度培訓(xùn)里程碑式的杰作alexnet為例。 研究人員alex krizhevsk在NVIDIAGPU上練習(xí)了Alex網(wǎng)絡(luò)6天。 該研究在首次的抓取梯度下降法和卷積神經(jīng)采集停止護(hù)理機(jī)圖像識(shí)別中,明顯優(yōu)于以往的手動(dòng)參數(shù)法,獲得了imagenet圖像識(shí)別比賽。 alexnet讓alex世界聞名,這六天可以說是值得的。
但是,同樣是8層的卷積神經(jīng)收集,我用dgx-2跑了一下,只花了18分鐘就達(dá)到了同樣的效果。 黃仁勛說,五年,前進(jìn)了五百倍。
這說了很多工具。 其一,在這五年中,NVIDIA的技術(shù)前進(jìn)節(jié)奏無法用摩爾定律來表達(dá)。
dgx-2的主要應(yīng)用場(chǎng)景是明顯加快高端科學(xué)研究和商業(yè)人工智能產(chǎn)物的研發(fā)和上市。 那顯然不是喪的產(chǎn)品,達(dá)到了150萬美元的售價(jià)
開玩笑的。 售價(jià)為40萬美元
但是,即使是40萬美元的不含稅成本,也壓倒了手頭拮據(jù)的工業(yè)顧客。 不要擔(dān)心。 dgx-2只是被今天的人工智能規(guī)模所NVIDIA的幾個(gè)新產(chǎn)物之一。 其他包括:。
1 ) dgx機(jī)箱中的v100 gpgpu升級(jí)版,內(nèi)存升級(jí)到了32 gb。 只需要單一或少量顯卡的研究者們,可以致力于獲得體臭,練習(xí)更多復(fù)雜的神經(jīng)收集:
2 )為囊括電影視覺、建筑設(shè)計(jì)等創(chuàng)意產(chǎn)業(yè)而發(fā)售的quadro gv100顯卡產(chǎn)品。 quadro gv100是事務(wù)所的顯卡,里面有兩張v100 gpu。 該顯卡支持NVIDIA的新光線跟蹤技術(shù)nvidia rtx :
3 ) nvidia rtx )如上所述,NVIDIA開發(fā)的極其復(fù)雜且集中的光效技術(shù)。 簡單地說,像現(xiàn)實(shí)世界一樣,由于許多光源混雜,許多復(fù)雜的狀況,光照射到材質(zhì)不符的物體上而導(dǎo)致的散失,或者物體對(duì)光源或其他物體,由于曲面、球面乃至犯警規(guī)則的概況而產(chǎn)生的反射,或者光源照射到玻璃上
4 ) tensorrt 4、新一代tensorflow推理工具gpu與美國科技企業(yè)去年發(fā)布的深度學(xué)習(xí)兼容框架標(biāo)準(zhǔn)onnx兼容終于可以用Kubernetes(k8s )處理NVIDIAGPU了,aws、NVIDIAGPU
5 )新的活動(dòng)驅(qū)動(dòng)器汽車解決方案orin。
6 )駕駛偽裝模仿工匠藝drive sim constellation。 這是一項(xiàng)很幽默的技術(shù),可以模仿NVIDIA和其他開放平臺(tái)的科技企業(yè)在gpu主動(dòng)駕駛汽車進(jìn)行練習(xí),從而明顯降低開放式實(shí)訓(xùn)的危險(xiǎn)性。 這個(gè)工匠技能還有一個(gè)奇怪的用例。 訪問這個(gè)平臺(tái)的汽車將來可以進(jìn)行長距離駕駛。 黃仁勛示范司機(jī)在會(huì)場(chǎng),用vr頭和方向盤長途駕駛,車躲起來停滯不前,停車成功。 硅星人之后將停止對(duì)這項(xiàng)技術(shù)進(jìn)行秘密探索。
7 )機(jī)器人開發(fā)了開放式平臺(tái)issac,擁有高精度地圖制作等NVIDIA集成在主動(dòng)駕駛中的技術(shù)。
8 )項(xiàng)目Clara,云醫(yī)療診斷的項(xiàng)目。 該項(xiàng)目很幽默,簡單地說,NVIDIA醫(yī)院提供了基于云的醫(yī)療圖像識(shí)別超算。 一個(gè)場(chǎng)景是進(jìn)入心臟b超的實(shí)時(shí)視頻流,云顯卡可以使用練習(xí)的神經(jīng)收集,將畫面變?yōu)槿S體積圖像,實(shí)時(shí)高亮器官,生成更自由難看的三維畫面。 現(xiàn)場(chǎng)演示的影像中還出現(xiàn)了內(nèi)臟器官功能的實(shí)時(shí)數(shù)據(jù),囊括了每次搏動(dòng)的泵出血量等,加深了印象。
硅谷是t恤和拖鞋控制的地方,但NVIDIA創(chuàng)始人黃仁勛在這里變化很大。 穿著皮夾克的他以技術(shù)人員的身份負(fù)責(zé)市場(chǎng)。 演講一開始,沒有其他許多科技大佬特有的空虛氣氛。
在gtc,你可能會(huì)覺得自己的氣氛還不夠,但他直接站在椅子上接受了記者的提問; 雖然他參加過公關(guān)練習(xí),但回答問題時(shí)的懇切程度依然在科技大佬中很奇怪,直接問旁邊的公關(guān)是不是也想打斷我? 但是我已經(jīng)結(jié)束了。 被稱為核彈教父的黃仁勛,名副其實(shí)。
他沖進(jìn)常見的x86框架服務(wù)堆棧,一個(gè)機(jī)柜有幾十臺(tái)工作人員,十幾個(gè)機(jī)柜的總本錢高達(dá)幾百萬美元。 而且,要獲得同樣深度學(xué)習(xí)的練習(xí)局,幾臺(tái)、十幾臺(tái)v100、或者一臺(tái)dgx-2,至少需要6位數(shù)的成本。 所以,他在演講中頻繁地對(duì)臺(tái)下不雅觀的觀眾說:“多買一些比較劃算?!?( the more you buy,the more you save.) ) gpu工匠技藝前沿的演講幾乎變成了電視購物。
watch now cause here i come .是黃仁勛上臺(tái)前溫馨歌曲的歌詞。
至少在今天,以摩爾定律為基礎(chǔ),黃仁勛和他的NVIDIA看起來沒有勢(shì)頭。
標(biāo)題:“英偉達(dá)發(fā)布8萬核桌面機(jī)!核彈教父勢(shì)不可擋”
地址:http://www.norahsark.com/lyzx/32453.html