知合計(jì)算黃怡皓:基于RISC-V架構(gòu)的大模型技術(shù)創(chuàng)新與應(yīng)用
7月18日,第五屆RISC-V中國(guó)峰會(huì)在上海進(jìn)入分論壇環(huán)節(jié)。作為未來電子產(chǎn)業(yè)最龐大的應(yīng)用范疇之一,人工智能是不可回避的話題。人工智能的飛速發(fā)展,正以年均超過100%的算力需求增長(zhǎng)驅(qū)動(dòng)底層架構(gòu)的革新,“開放、靈活、可定制”的RISC-V已成為構(gòu)建自主AI算力基石的戰(zhàn)略支點(diǎn)。人工智能分論壇邀請(qǐng)各方企業(yè)探討RISC-V架構(gòu)如何利用其開源、開放、可擴(kuò)展的特性,實(shí)現(xiàn)AI計(jì)算架構(gòu)的革新,以及RISC-V架構(gòu)在AI軟硬件的最新進(jìn)展和應(yīng)用落地情況。
知合計(jì)算解決方案總監(jiān)黃怡皓分享了他們?cè)诨赗ISC-V架構(gòu)的大模型技術(shù)創(chuàng)新與應(yīng)用進(jìn)展。從2017年6月份開始,Transformer橫空出世到2025年7月份總共已經(jīng)經(jīng)歷了8年的時(shí)間。這個(gè)周期里面有幾個(gè)標(biāo)志性的事件:2022年11月份ChatGPT實(shí)現(xiàn)引領(lǐng)了一大波對(duì)于大模型的期待。然后到了今年1月份DeepSeek的出現(xiàn),讓大家又對(duì)現(xiàn)在國(guó)產(chǎn)化及開源大模型的認(rèn)知到達(dá)了一個(gè)新的高度。可以看到模型在整個(gè)過程中經(jīng)歷了很多的變化,但是不管它的技術(shù)創(chuàng)新點(diǎn)如何調(diào)整、它的底層架構(gòu)依然是Transformer。
現(xiàn)在雖然模型整體是“百花齊放”的,但是核心算子卻一直在逐漸的趨同。這里是有三個(gè)模型簡(jiǎn)介:最早的GPT-2,之后千問及DeepSeek R1模型,它們的模型架構(gòu)非常統(tǒng)一,前面部分就是Attertion。到了第二個(gè)階段FFN,到最后提出一個(gè)新的FFN就是MOE架構(gòu)、目的為了減少計(jì)算量。這幾個(gè)模型的變化都集中在具體的架構(gòu)內(nèi)部里面,而沒有改變整個(gè)Transformer的結(jié)構(gòu),他們的算子也基本上集中在“22個(gè)、21個(gè)”左右。這“22個(gè)、21個(gè)”算子其實(shí)大家都是比較一致的。 現(xiàn)在模型的算力不但算子集中,而且模型的子之間的算力也非常集中。在所有的算子中,我們排了一個(gè)用途最多的幾個(gè)算子,DeepSeep7B模型中核心算子共11個(gè),Matmul計(jì)算量占比約95%。
RISC-V本身作為一個(gè)開源的指令集,它的可擴(kuò)展性非常強(qiáng),在上面集成了AME指令,它現(xiàn)在完美適配了Matmul算子。11個(gè)算子中除了3個(gè)算子外,其他均可以采用AME去做優(yōu)化。模型創(chuàng)新除了在架構(gòu)層面微創(chuàng)新之外,還有一個(gè)點(diǎn)就是大家都在調(diào)整算子的數(shù)據(jù)格式,包括最早的FP32到現(xiàn)在DeepSeek的FP8等這些算子我們現(xiàn)在都支持了?,F(xiàn)在AME算子指令能夠做到矩陣大小16行,每一行大概可以做到512bit大小、一次可以做到相當(dāng)于一個(gè)字節(jié)的矩陣大小。
黃怡皓分享的核心觀點(diǎn)是AI在Transformer之后,將從原來單純的識(shí)別功能走向現(xiàn)在認(rèn)知的功能。下圖最左側(cè)是傳統(tǒng)CNN網(wǎng)絡(luò)做卷積,它能夠?qū)崿F(xiàn)最直接的效果就是識(shí)別,能夠知道“行人、汽車、動(dòng)物”,但是很難識(shí)別它們之間的關(guān)系。接入大模型之后,可以通過Transformer、統(tǒng)一大買性可以判斷不同物體之間的動(dòng)作及相互之間的關(guān)系。第一張圖是“熊貓吃竹子”的動(dòng)作,第二張圖是“植物上的昆蟲”、只會(huì)把停留在植物之上的昆蟲識(shí)別出來。除了這兩個(gè)場(chǎng)景之外,我們也跟客戶合作做了一些家庭的場(chǎng)景,就是他們有一個(gè)需求:“搜索小孩子是在學(xué)習(xí),以及小孩子是在玩手機(jī)?!蔽覀冏隽艘粋€(gè)比較典型的場(chǎng)景,就是傳統(tǒng)的CNN放是可以實(shí)現(xiàn)這個(gè)功能、過程比較復(fù)雜,需要先識(shí)別人、再識(shí)別手機(jī),然后識(shí)別人的手臂,再識(shí)別手臂跟手機(jī)的相互位置關(guān)系,才能判斷小孩子到底是不是在玩手機(jī)。而通過我們的模型,直接搜索“兒童玩手機(jī)”,就可以區(qū)分的很清楚。
針對(duì)AI已經(jīng)實(shí)現(xiàn)的場(chǎng)景及功能,知合計(jì)算提供了“通推一體”CPU產(chǎn)品A210,支持Transformer架構(gòu),,第二個(gè)芯片A600搜查的算子、架構(gòu)、內(nèi)都是統(tǒng)一的,包括所有對(duì)外的接口都是統(tǒng)一的,知合希望用戶在對(duì)接這些接口都變得非常的流暢、非常的順滑?;贏210平臺(tái)做的AI智能體方案中,整個(gè)過程把前端的語音輸入到中期數(shù)據(jù)處理,以及到后續(xù)的輸出都做了一套完整的AI智能體。在我們的角度來看,現(xiàn)在想要做一個(gè)完全標(biāo)準(zhǔn)化的AI智能體其實(shí)難度是非常大的。端測(cè)芯片作為A210這樣一個(gè)端側(cè)芯片來說,它更適合做一些標(biāo)準(zhǔn)化的細(xì)分場(chǎng)景的AI智能體。我們用模型取代中間的一些模糊的過程,特別是第二段內(nèi)容“既要?jiǎng)h除掉原來的巨無霸漢堡,然后換了一個(gè)拼盤、加了一杯可樂。”這種場(chǎng)景原來處理非常大,但是我們把這些全都交給模型處理得到這樣的結(jié)果。
在A210用于“模糊搜索”應(yīng)用案例中涉及到三幀圖象的識(shí)別,這三幀圖象分別指針到“蜘蛛俠變身”三個(gè)最重要的位置。第二個(gè)場(chǎng)景是火災(zāi),我們不需要針對(duì)特殊的場(chǎng)景去做針對(duì)性的訓(xùn)練,因?yàn)橐劳杏诖竽P偷姆夯芰?、它其?shí)可以給用戶非常簡(jiǎn)單的方式就可以去搜索一些其想要的內(nèi)容,而不需要針對(duì)每個(gè)場(chǎng)景進(jìn)行特定的數(shù)據(jù)材料收集及二次訓(xùn)練。這個(gè)圖象可以看到它停留在火災(zāi)起火的那一秒、應(yīng)該是在12秒的時(shí)間上,有一個(gè)明確的時(shí)間點(diǎn)告訴我們這個(gè)視頻在12幀的時(shí)候起火了。通過這種“模糊搜索”在安防、電影搜索,其實(shí)是非常簡(jiǎn)便的方式。我們自己也測(cè)試過,基于這個(gè)模型可以去搜索“門打開的場(chǎng)景”,可以把門打開的一瞬間定位出來。
基于A21做的兩個(gè)典型的場(chǎng)景演示表明,大模型的算子統(tǒng)一在一定程度上為RISC-V提供了一個(gè)生態(tài)紅利。RISC-V在傳統(tǒng)邏輯上來說跟ARM存在非常大的生態(tài)差距,因?yàn)樗阕拥慕y(tǒng)一反而RISC-V在做矩陣、向量這些計(jì)算上面大家回到了同一個(gè)起跑線。因?yàn)镽ISC-V的開源、以及現(xiàn)在大模型的逐漸開源,可以讓大家對(duì)這些算子的優(yōu)化更加迅速、也更加的直接。知合認(rèn)為AI能力已經(jīng)開始慢慢從“識(shí)別”走向了“認(rèn)知”,這個(gè)過程中如何將新的這些AI能力跟通用計(jì)算能力結(jié)合起來,是知合計(jì)算接下來要去主要推進(jìn)的方向。
評(píng)論