近幾年來,人工智能作為自互聯(lián)網(wǎng)誕生以來的第二次技術(shù)形態(tài)的體現(xiàn),隨著智能產(chǎn)品的落地應(yīng)用,不同場景的算法持續(xù)涌現(xiàn),計算數(shù)據(jù)呈爆炸式增長。不少廠商為了追求產(chǎn)品多樣化,不斷推出新功能,在產(chǎn)品中提到的“人機交互”、“智能識別”等新鮮的概念詞匯,以此吸引消費者的購買欲望。
與此同時,AI芯片作為人工智能技術(shù)的硬件基礎(chǔ)和產(chǎn)業(yè)落地的載體,吸引了眾多巨頭和創(chuàng)企入局,各類AI芯片相繼面世。在近日胡潤研究院發(fā)布的《2020胡潤中國芯片設(shè)計10強民營企業(yè)》榜單中,按照企業(yè)市值或估值列出了中國10強本土芯片設(shè)計民營企業(yè),分別為:韋爾股份、匯頂科技、兆易創(chuàng)新、卓盛微電子、君正集成電路、圣邦微電子、比特大陸、瑞芯微、晶晨半導體、地平線、寒武紀科技。11家芯片設(shè)計企業(yè)中比特大陸、地平線、寒武紀科技3家都是AI芯片公司,占據(jù)了將近1/3的比重,足以見得AI芯片發(fā)展的重要性。
從架構(gòu)說起,AI芯片走了怎樣一條路
其實最早AI芯片的出現(xiàn)并不是為了執(zhí)行指令,而是為了進行大量的數(shù)據(jù)訓練和應(yīng)用的計算。由于傳統(tǒng)CPU在解決深度學習任務(wù)時效率不夠高,且耗費的成本昂貴,因此催生了專門解決特定任務(wù)的新硬件——AI芯片。
當前AI芯片的設(shè)計方案繁多,市面上對于AI芯片其實也沒有明確統(tǒng)一的定義,廣義上來說所有面向人工智能的芯片都叫做AI芯片。
指令級架構(gòu)是主流
從芯片架構(gòu)來看,目前市場上絕大多數(shù)AI芯片都是采用傳統(tǒng)的指令集架構(gòu)。
傳統(tǒng)的指令集架構(gòu)采用馮·諾依曼計算方式,通過指令執(zhí)行次序控制計算順序,并通過分離數(shù)據(jù)搬運與數(shù)據(jù)計算提供計算通用性。在本質(zhì)上還是所謂的“計算優(yōu)先”模式,需要通過擴展并行計算單元來提升芯片處理性能。
目前,市場上傳統(tǒng)的通用指令集架構(gòu)主要包括人們熟知的X86架構(gòu)、ARM架構(gòu)、RISC-V開源架構(gòu),以及SIMD架構(gòu)。
雖然指令級架構(gòu)憑借其通用性和廣泛的應(yīng)用,成為了AI芯片的主流架構(gòu),但是在AI芯片進行算法處理的過程中,涉及到大量的計算、并行處理、低時延等要求,給芯片存儲器帶來了巨大的挑戰(zhàn),這也就是馮·諾依曼計算方式下共享內(nèi)存模式導致的存儲性能瓶頸問題,我們又稱其為“數(shù)據(jù)墻”、“內(nèi)存墻”或者“馮·諾伊曼瓶頸”。
如何通過硬件體系架構(gòu)的創(chuàng)新,克服存儲性能瓶頸問題,進一步提升AI芯片深度學習算法運算效率,成為了當前AI芯片架構(gòu)創(chuàng)新和發(fā)展的一大難題。
(基于馮諾依曼的典型指令集架構(gòu)示意圖)
另一條路:數(shù)據(jù)流AI芯片
要想解決內(nèi)存性能跟得上計算單元算力提升的問題,就要打破馮·諾依曼架構(gòu)的內(nèi)存墻阻礙。由此也衍生出AI芯片架構(gòu)的另一條路——數(shù)據(jù)流芯片。
相信很多人對“數(shù)據(jù)流AI芯片”了解甚少。在近日鯤云科技舉辦的新品發(fā)布會上,據(jù)鯤云科技創(chuàng)始人和CEO牛昕宇博士介紹,與傳統(tǒng)指令集架構(gòu)相比,數(shù)據(jù)流架構(gòu)沒有概念上的指令計數(shù)器,它是依托數(shù)據(jù)流流動次序控制計算次序,采用計算流和數(shù)據(jù)流重疊運行方式消除空閑計算單元,并采用動態(tài)配置方式保證對于人工智能算法的通用支持,突破指令集技術(shù)對于芯片算力的限制。
數(shù)據(jù)流架構(gòu)采用了數(shù)據(jù)流引擎的計算架構(gòu),以實現(xiàn)更高的吞吐量和更低的延遲,最大優(yōu)點在于大幅提升芯片利用率。目前,數(shù)據(jù)流架構(gòu)在數(shù)字信號處理、網(wǎng)絡(luò)路由、圖形處理、遙感檢測、以及數(shù)據(jù)庫處理,以及當今許多軟件體系結(jié)構(gòu)中占據(jù)著重要地位。
當然,數(shù)據(jù)流架構(gòu)AI芯片的研發(fā)難度遠遠大于指令集架構(gòu),目前全球基于數(shù)據(jù)流方式研究AI芯片的企業(yè)少之又少,主要有鯤云科技、Wave Computing、Sambanova、Groq,而目前能夠?qū)崿F(xiàn)數(shù)據(jù)流AI芯片量產(chǎn)的僅有國內(nèi)的鯤云科技一家??傮w而言,數(shù)據(jù)流架構(gòu)也不失為未來AI芯片的一條重要發(fā)展路徑。
三種技術(shù)路線,誰是AI芯片的未來
AI芯片目前有3種主流技術(shù)路線,分別為GPU、FPGA以及ASIC。
GPU是最早進行并行加速計算的處理器,得益于高并行結(jié)構(gòu),在處理圖形數(shù)據(jù)和復(fù)雜算法方面它比CPU速度更快;在結(jié)構(gòu)上,CPU大部分面積為控制器和寄存器,而GPU擁有更多ALU(邏輯運算單元)用于數(shù)據(jù)處理,這樣的結(jié)構(gòu)更適合對密集型數(shù)據(jù)進行并行處理。
目前,GPU已經(jīng)發(fā)展到較為成熟的階段。Google、Facebook、微軟、百度等公司都在使用GPU分析圖片、視頻和音頻文件,在無人駕駛技術(shù)上也用到很多GPU芯片。但GPU也有一定的局限性。比如深度學習算法分為訓練和推斷兩部分, GPU在算法訓練上非常高效。但在推斷中,并行計算的優(yōu)勢就不能完全發(fā)揮出來。
FPGA是可編程器件基礎(chǔ)上進一步發(fā)展的產(chǎn)物,用戶可通過多次燒錄FPGA配置文件來定義這些門電路以及存儲器之間的連線。這種方式既解決了定制電路靈活性的不足,又克服了原有可編程器件門電路數(shù)有限的缺點。由于FPGA可同時進行數(shù)據(jù)并行和任務(wù)并行計算,因此在處理特定應(yīng)用時效率更高。
在功耗方面,F(xiàn)PGA每個邏輯單元的功能在燒錄時就已經(jīng)確定,不需要指令,無需共享內(nèi)存,從而可以極大的降低單位執(zhí)行的功耗。
第三種,全定制化的ASIC。這類芯片的計算能力和計算效率都直接根據(jù)特定的算法的需要進行定制,最大的優(yōu)勢在于體積小、功耗低、高可靠性、保密性強、計算性能高、計算效率高等。所以在特定領(lǐng)域,ASIC芯片是遠超GPU、FPGA的。當然,ASIC芯片的缺點也很明顯,因為其是針對特定算法設(shè)計的,一旦芯片設(shè)計完畢,對應(yīng)的算法就是固定的,所以一旦算法發(fā)生變化就可能將會無法使用。
AI芯片崛起的原因
AI芯片之所以能在近幾年快速崛起,無外乎以下幾個原因:
1、市場需求擴張
在人工智能發(fā)展的初期,算法為王,像數(shù)據(jù)中心、大數(shù)據(jù)分析、精準營銷等方面成功實現(xiàn)了商業(yè)落地。隨著智能化變革深入到交通、安防、通信等領(lǐng)域,受功耗、傳輸數(shù)據(jù)、時延等條件限制,僅靠原有的云端計算解決方案難以滿足人工智能本地應(yīng)用落地計算需求,在終端、邊端場景同樣需要人工智能計算,因此催生了AI芯片新硬件的發(fā)展。
“不管有什么好的AI算法,要想最終得到應(yīng)用,就必然要通過芯片來實現(xiàn)。”清華大學微電子所所長魏少軍教授曾這樣表示,作為算法的載體,芯片硬件的提升也為先進的軟件算法帶來了更多的機會,為高性能、高算力AI芯片的出現(xiàn)提供了更多保障。
2、政策支持,資本看好
人工智能正成為國際學術(shù)的新焦點,加快新一代人工智能培養(yǎng),已成為抓住新一輪科技革命和產(chǎn)業(yè)變革機遇的戰(zhàn)略性問題。對此,國家對人工智能的發(fā)展高度重視,并陸續(xù)出臺一系列人工智能產(chǎn)業(yè)發(fā)展政策。目前我國人工智能產(chǎn)業(yè)已基本成型,從中央到各地的政策措施陸續(xù)亮相。在政策扶持下,不僅能加快人工智能產(chǎn)業(yè)政策的落地,還能促進產(chǎn)業(yè)深度融合,加速人工智能應(yīng)用商業(yè)化的發(fā)展。
AI芯片市場引發(fā)了老牌芯片廠商英偉達、英特爾的持續(xù)關(guān)注,像國內(nèi)的百度、阿里、華為等科技巨頭也紛紛加碼AI芯片賽道。除了巨頭的動作,早在2014年國家多部門聯(lián)合多個企業(yè)成立了“國家集成電路產(chǎn)業(yè)投資基金”,一期投資高達1387億元,如今大基金二期完成2000億左右規(guī)模的募資,接下來將重點投資人工智能、5G、物聯(lián)網(wǎng)等終端應(yīng)用產(chǎn)業(yè),進一步推動國產(chǎn)半導體產(chǎn)業(yè)發(fā)展。
3、技術(shù)門檻稍低
為什么有大量廠商都開始轉(zhuǎn)型研發(fā)AI芯片,很重要的一點原因是其技術(shù)門檻稍低。很多人工智能學習都要求的是完成簡單而大量地重復(fù)輸入,且AI芯片針對某一類特定場景進行開發(fā),不像傳統(tǒng)CPU一樣要求“十項全能”。其次,很多時候所謂的AI芯片并不是獨立研發(fā)的一塊芯片,不必耗費大量精力去完成各類IP(知識產(chǎn)權(quán))內(nèi)核,而是針對一些AI功能進行加速優(yōu)化,以釋放更多計算資源跟其他模塊去處理復(fù)雜場景。這也是科技企業(yè)為什么蜂擁做AI芯片的原因之一。
AI芯片群雄逐鹿,國產(chǎn)崛起正當時
據(jù)OFweek電子工程網(wǎng)不完全統(tǒng)計,自2014年AI芯片創(chuàng)業(yè)潮以來,國內(nèi)AI芯片企已超過數(shù)百家,公開宣布推出AI芯片產(chǎn)品的企業(yè)包括傳統(tǒng)芯片廠商華為海思、紫光展銳、聯(lián)發(fā)科、瑞芯微等,也有憑借自己在互聯(lián)網(wǎng)領(lǐng)域深厚實力進軍AI芯片的科技巨頭百度、阿里巴巴,還有諸如寒武紀、地平線、云天勵飛等大批專注AI芯片細分領(lǐng)域“后起之秀”。
光是在2019年,就有阿里巴巴、百度、寒武紀等多家廠商推出了性能領(lǐng)先的AI芯片產(chǎn)品,覆蓋圖像識別、智慧城市、云計算、自動駕駛等多個領(lǐng)域。
縱觀全球AI芯片發(fā)展,中美兩國成為了主要競爭對手。根據(jù)烏鎮(zhèn)全球人工智能申請專利數(shù)量統(tǒng)計,美國、中國位列前二,且數(shù)量級接近;在知名專利檢索公司QUESTEL發(fā)布的《芯片行業(yè)專利分析及專利組合質(zhì)量評估》報告指出:中國近10年芯片專利增長驚人,已成為芯片專利申請第一大國。
眾所周知,“無芯之痛”一直是國內(nèi)半導體產(chǎn)業(yè)發(fā)展的最大不足,AI芯片正是國內(nèi)企業(yè)發(fā)展的絕佳機會,國內(nèi)企業(yè)已經(jīng)初步具備了和國際企業(yè)競爭合作的技術(shù)基礎(chǔ)和知識產(chǎn)權(quán)基礎(chǔ),彰顯出中國軍團在AI芯片領(lǐng)域的彎道超車之勢。
但是國產(chǎn)AI芯片快速崛起的態(tài)勢也并非一帆風順,雖然我國在在偏向于設(shè)備端的AI 芯片開發(fā)領(lǐng)域,以及類腦芯片領(lǐng)域都有所建樹,但在FPGA、GPU領(lǐng)域依然缺乏有競爭力的原創(chuàng)產(chǎn)品,大多數(shù)只是只是基于FPGA/GPU做二次開發(fā)。這主要與我國在芯片領(lǐng)域一直缺乏關(guān)鍵核心自主技術(shù)有關(guān),想要突破技術(shù)壁壘,還要踏實走好每一步。
市場趨于理性,“夠?qū)嵙?rdquo;才能存活
據(jù)OFweek電子工程網(wǎng)觀察近幾年來媒體熱度以及各家公司新品發(fā)布消息,以及結(jié)合百度指數(shù)對“人工智能”、“芯片”等關(guān)鍵詞的趨勢研究來看,2017-2018年尤其是2018下半年相關(guān)的熱度達到了高點。
(數(shù)據(jù)源自百度指數(shù)-趨勢研究)
如同任何新興技術(shù)的發(fā)展曲線一樣,AI芯片行業(yè)在一輪創(chuàng)業(yè)及融資熱潮之后,也經(jīng)歷了一輪大洗牌。從信息流的角度來看,AI芯片熱潮從2019年至今已經(jīng)退卻了不少,目前保持相對平穩(wěn)的曲線正向發(fā)展。
早期AI芯片概念一出,就如同iPhone10的劉海屏一般,各家友商一見到立馬跟風模仿,不管本質(zhì)是不是AI芯片,總之先掛個名號上去。由于消費者對于AI的理解也不充分,就方便了部分不良商家渾水摸魚,整個AI產(chǎn)品市場也受到了不少混亂影響。
隨著AI芯片細分領(lǐng)域的成熟,大批AI芯片產(chǎn)品的問世,市場開始對各廠商的產(chǎn)品和技術(shù)進行檢驗,大量沒有營收、產(chǎn)品不具備市場競爭力的AI初創(chuàng)公司不得不退出競爭。唯有真正具備核心技術(shù)研發(fā)實力的企業(yè),才有存活下來的資本。雖然如今AI芯片的熱度不像之前那么火爆,但難保接下來不會再次爆發(fā)一波行業(yè)熱潮,AI芯片的未來會是什么樣,仍然充滿無限可能。