

創鑫智慧公司新聞
在當今科技日新月異的時代,生成式AI(GenAI)正逐漸成為各行各業創新與轉型的關鍵推手。為了共襄盛舉這股創新潮流,大聯大友尚集團於近期盛大舉辦了以「邁向GenAI Supercycle,共創未來」為主題的「GenAI生態夥伴論壇」。該論壇匯集了群聯電子、滿拓科技、創鑫智慧、研華科技、數位無限科技等產業領袖,共同就AI技術的發展議題進行深入探討,並勾勒出AI技術的未來發展藍圖,展現了AI生態系統夥伴在該領域的深厚實力。
在論壇上,友尚集團執行長何澎雄致詞感謝與會來賓的蒞臨。他指出,在AI快速發展的當前環境下,生成式AI不僅是產業創新的重要推手,更是未來發展的關鍵。友尚集團將繼續扮演AI生態系統中的關鍵角色,與夥伴們共同加速AI技術的導入與落地,攜手迎向AI的黃金十年,共創智慧未來。
何澎雄執行長的特別助理陳威光進一步強調,友尚集團自半導體通路商起家,在AI產業中扮演著價值與資訊串接的關鍵角色。該公司致力於將各方的價值和服務緊密整合,以實現AI的落地應用。陳威光還提到,友尚擁有完整的組織架構與清晰的分工體系,能為合作夥伴提供全面支持,並服務兩岸三地超過3,000家各個應用領域的客戶。
創鑫智慧作為本次論壇的關鍵參與者,其在AI領域的實力與貢獻不言而喻。該公司不僅在技術上具有領先地位,更在產業合作與應用落地方面展現了出色的能力。在這場論壇上,創鑫智慧與其他產業領袖共同為AI技術的未來發展提出了建設性的意見和方案。
友尚執行長何澎雄致詞表示:「感謝各位蒞臨友尚GenAI生態夥伴 論壇。在AI快速發展的時代,生成式AI已成為產業創新的重要推手。 友尚將持續扮演AI生態系統中的關鍵角色,協助夥伴加速AI技術的導 入與落地,攜手迎向AI的黃金十年,共創智慧未來。」
友尚執行長特別助理陳威光強調,友尚從半導體通路商出發在AI產 業中扮演價值與資訊串接的關鍵角色,致力於讓各方的價值和服務能 夠緊密整合,最終實現AI的落地應用,透過完整的組織架構與清晰的 分工體系,為合作夥伴提供全面支持,並服務兩岸三地超過3,000家 各個應用領域客戶。
創鑫智慧(Neuchips)創辦人為前清大教授林永隆,他也是早年與石克強、盧超群一起創辦創意電子的三位創辦人之一,公司創始團隊有七至八人,很多是林永隆教授的學生,來自創意、聯發科、聯詠、瑞昱等公司。至於Neuchips的Neu有兩個意思,一是人工智慧神經網絡(Neuro),二是創新(取其和New同音)。
創鑫智慧成立之初,曾經做了一個智慧音箱回音消除的小IP,而且也做出不錯的成績,目前已經在收取權利金。不過,後來創鑫智慧會切入AI晶片開發,是因為早期有一家創投來做投資評估時,提到這種使用端(edge)的晶片市場及規模都不大,這家創投出手都是數幾百萬美元,當時表達希望創鑫智慧選擇做大一點的題目,才願意承諾投資。
於是,創鑫智慧團隊開始尋找更大的創業題目。當時臉書(後改名Meta)積極推動開放運算計畫(Open Compute Project,OCP),目的是要重新打造開放式資料中心硬體架構,並希望與供應商一起定義硬體,提升硬體的效率、韌性和可擴充性,更重要的目標則是降低採購成本。創鑫智慧在OCP眾多提升硬體的需求中,選到推薦系統這個題目。
所謂的推薦系統,就是現在網友上各種電商、社群平台時,都不時會收到來自平台的推薦廣告及影片,平台的目的是提升用戶體驗,增加使用者黏著度,當然更重要的則是要做更多生意,廣告收入已成為所有電商社群平台最重要的獲利來源。
更進一步說,推薦系統其實就是精準行銷,是每個人上網時都逃不掉的天羅地網,系統會根據使用者瀏覽等路徑,判斷及推薦你會有興趣的內容給你,不管是推薦給你相關商品的廣告,或是相關的文章及影片。
而且,這種推薦系統需要耗費資料中心大量運算,估計占整體的六、七成運算量,因此,如何打造出一款AI加速晶片,提供更快、更準、更省電的解決方案,正是臉書這些大型資料中心客戶最迫切需要的。
創鑫智慧在評估切入市場的可行性時,也很清楚當時Google已在推自己的晶片TPU,至於臉書則採用外部的CPU及GPU,其中GPU當然是龍頭輝達的天下。這是難度很高的挑戰,創鑫智慧一家新創公司,若要做出具競爭力的產品,很難與這些大廠拼速度,只能從兼顧速度及能耗兩個目標著手,尤其是能耗這個目標更重要。
前面提到,推薦系統占資料中心六、七成運算量,是最耗能的部分,像現在當紅的ChatGPT,GPT3每做一次訓練,就要耗資超過1000萬美元,產生550萬噸的二氧化碳。許多資料中心如今都是吃電怪獸,而其中耗電的關鍵原因就是來自晶片的設計。
對於像臉書這樣的平台來說,所有的投資都要有獲利,晶片若太耗能,例如推薦一個廣告需要花1元電費,但用戶點擊後回收的廣告費只有0.5元,這種推薦絕對不可能做,因為一定會賠錢。因此,創鑫智慧確認,未來AI晶片能夠省多少電,將是決戰重點。
若以晶片絕對效能來說,創鑫智慧當然比不過國際大廠,但若目標是速度快又要省電,就有機會超越,因此,創鑫智慧便決定從不同的產品定位切入,不在速度的「高效能」上與大廠競爭,而是在省電的「高能效」上爭取突破表現。作法上則採用整合目前市場上最佳IP組合,並以FPGA模擬開出新AI推薦晶片。
當然,晶片的速度還是相當重要,最初創鑫智慧在規畫晶片速度時,就考量到每一個推薦要壓縮到150毫秒(也就是0.15秒),也就是說,電商及社群平台要在0.15秒內把推薦資料傳給用戶,如此才能讓用戶即時看到,並吸引用戶去做點擊,若推薦時間無法在0.15秒內完成,用戶的瀏覽頁面已經跳過去了,廣告商機也就不見了。
因此,為了達到0.15秒內就要完成推薦,AI晶片的運算時間更要壓縮到只有0.03到0.05秒,也就是30到50毫秒,以這樣的速度做晶片設計。可以想像,這樣的AI晶片計算速度會有多快。
此外,早在2019至2020年,創鑫智慧就決定採用當時最先進的7奈米製程,這也是很大的賭注。因為7奈米晶片開發及生產成本都很高,這是經過一番思量才做的重要決定。
據了解,台積電7奈米製程每片代工價約1.35萬美元,換算約新台幣40萬元以上,對於新創公司來說,可以說是高不可攀的天價。但考量這個晶片要達到臉書2022至2023年的採購計畫,而且一旦切入供應鏈就要繼續用3年到2026年,屆時若製程技術不夠先進,產品一定沒有競爭力,因此創鑫智慧最後就咬牙選擇昂貴的7奈米製程。
在產品定位清楚後,接下來就是如何執行了。新創公司資金有限,創鑫智慧初期研發人員只有十位,因此在開發IC過程中,就想辦法充分運用外部資源,例如參與前科技部長陳良基時代推動的「半導體射月計畫」,也申請經濟部AI on Chip的科專計畫補助。
另外,創鑫智慧在設計IC時,也大量運用台灣IC產業的生態系資源,例如大量授權採用美商新思(Synopsys)提供的整包矽智財IP,另外在設計服務及晶圓製造上則委託創意電子,此外在設計平台也運用工研院的資源。
創鑫智慧公司營運長陳建良說,對於新創公司來說,第一個產品絕對不能失敗,因為首戰即決戰,所以要把所有可能的問題都思考清楚,只要外部有更好的夥伴時,就採取外包合作的方式,如此創鑫智慧可以把時間及資源投入到最重要的事情上,讓晶片順利成功開發出來。
如今,創鑫智慧的AI晶片可以算是成功了,最初做建議的那家創投,後來也成了公司重要股東。但選擇這條困難的路,也讓需求資金比一般同業大很多,2019年創鑫智慧募A輪,只募資新台幣7500萬元,但後來B輪則跳升到3500萬美元,2022年B2輪再募了2000萬美元,主要投資人包括緯創旗下鼎創、凌陽創投、力積電、瑞鼎、台灣集富一號等。
創鑫智慧走向世界舞台,並且與國際一流大廠競爭,可以想像,未來掛牌上市價值也會很可觀,很可能是十億美元以上的獨角獸。當然,未來公司要投入的資金也會更多,預計接下來還會有更高額的募資計畫。
創鑫智慧專注打造世界一流的AI晶片,不論從選題到破題,從產品定位到執行細節,都是產業界可以學習參考的對象。我認為,重點在於公司先有挑戰世界級對手的企圖心,因此選定進入障礙最高的資料中心推薦用AI晶片,之後又直接切入7奈米先進製程,成為聯發科之外,很少數採取先進製程技術的台灣IC設計公司。
此外,台灣半導體的生態系,不論從矽智財IP、IC設計服務資源,再到晶圓代工、封測等條件,其實都提供了創鑫智慧很多茁壯的養份,但團隊也是最懂得利用這些生態鏈助力的企業。很多觀念較傳統的企業,所有事情都要自己做,不放心外包及委外合作,也因此限制了自己的發展,這提供大家另一個很好的思考重點。
總結來說,對於台灣IC設計產業來說,已有很多年沒有出現像創鑫智慧這種令人眼睛為之一亮的新明星,短短幾年就在全球舞台取得不小成就,很值得將這個個案,做為台灣半導體業繼續升級發展並擴大全球影響力的一個最佳範例。
創鑫智慧(NEUCHIPS)是由資深IC及軟體設計專家團隊,於2019年成立的AI ASIC解決方案提供商,也是一家AI運算加速器IC設計公司,過去在神經運算網絡有領先的技術,更在信號處理和電路設計方面擁有多項專利,目前致力研究在加速運算過程中,如何減少記憶體耗用量。
陳品函表示,三十年前計算機對當時來說就已經是AI了,直至2016年發現影像分析軟體開始可用機器學習或深度學習解決AI問題的時候,大部分關注在影像處理和物件辨識。而去年Open AI開放ChatGPT給普羅大眾使用,才算是讓大多數的人認知到AI能協助許多事。
陳品函指出,機器學習中使用的硬體技術,以現階段產業界上面,絕大多數在訓練(training)上會使用GPU,用到的數學複雜程度相對高很多,也需要很多的互動運算;推論(inference)相對來說,一般的CPU還是可以達成的,其實還是取決於應用在哪個面向,來選擇合適運算的硬體。
根據計算密集、應用需求和市場需求,AI加速運算主要是指利用特殊設計的硬體和軟體優化,提升AI演算法執行速度和效能的方法。而機器學習和深度學習的訓練與推論,會針對訓練好的模型進行部署推論,對所有的訓練資料進行多次的計算得到效果最好的學習模型。
AI應用與商機切入點 將是未來面臨的限制與挑戰
生成式AI涵蓋非常多的矩陣式運算,例如GEMM(General Matrix to Matrix Multiplication;通用矩陣乘法)是神經網絡中基本的運算子,在線性代數、機械學習、統計與其他領域中常見的運算;GEMV(General Matrix to Vector Multiplication;矩陣向量乘法)為一維矩陣。
陳品函表示,過程中GPU、CPU的支援,需要消耗多少的能源來去完成指令,可能相對就沒有ASIC來得好,現今有許多AI新創公司針對看到的應用,需要的矩陣大小也有所不同,運算過程中資料如何地拋轉、網路的呈現、特別的IC設計,整體效能將會提高。
為了晶片的發展回到兩個面向,包括彈性(Flexibility)的AI數據中心,同質處理元件、一般拓樸數組/網格/環等;客製化(Custom/Application Specific)的車用AI,在沒有GPU那樣有強大的記憶體與運算式之下,硬體設計高度定制會調整到軟體和系統需求,另外還有異質處理元件等。
AI運算加速所面臨的限制與挑戰,包含讓普羅大眾最有感的ChatGPT在過去幾年快速累積使用者,但AI的落地應用與商機尚未有頭緒,因此AI導入的難題,消費性產品仍在找尋切入點,目前只侷限在手機app;AI晶片有所不同,雲端市場門檻高;如何從GPU開發環境做轉換、地緣政治等。
創鑫智慧針對使用者推薦作運算加速,RecAccel N3000是一種特定領域架構(DSA)ASIC,用於深度學習推薦模型的數據中心推論;不但獲得專利的FFP8產生最高的8位精度和專有的INT8校準器;創新的嵌入引擎設計用於全面優化數據片上和片外的位置和記憶體存取。
另外,獲得專利的動態MLP引擎(DME)提高了吞吐量,同時能降低功耗;RecAccel編譯器使用AI實現高度優化的低功耗動態嵌入分片等。
台灣創鑫智慧(NEUCHIPS)在最新的MLPerf v3.0 AI推論效能基準測試中,以驚人的1.7倍能效比,超越對手輝達(NVIDIA),奪得世界第一能效的AI加速平台寶座。這次測試中,創鑫智慧運用了技鋼G482-Z54伺服器搭載AMD EPYC 7452 32核心CPU,並配備了8張RecAccel N3000 32G PCIe加速卡進行DLRM測試,結果顯示,RecAccel N3000系統在資料中心推薦系統領域,不僅展現了100%的效能擴充性,更在每瓦可處理1,060次查詢的評策上,將能效表現推到了新高度。
創鑫智慧創辦人暨董事長林永隆博士強調,他們不僅追求商業成功,更致力于對社會責任和綠色發展的追求。他們的行動展現了對永續發展的承諾,並計畫推出專為開放運算計畫(OCP)設計的DM.2模組,為雲端服務供應商與資料中心提供節省成本的平台方案,同時助力AI技術的發展。
AMD策略業務發展全球副總裁Kumaran Siva對創鑫智慧的成就表示讚賞,並強調AMD與創鑫智慧的合作,將為市場帶來不斷引領先進技術的人工智能解決方案。
同時,台灣期貨交易所也在加強對永續發展的支持。行政院副院長鄭文燦在太陽光電產業永續發展協會會員大會上強調,政府將持續推動再生能源發展,並對臺灣期貨交易所推出的「臺灣永續期貨」表示支持,這個產品能讓投資者透過期交所進行相關交易,進一步促進市場對永續表現較佳企業的青睞。
MLPerf v3.0 AI 推論 (Inference) 效能基準測試中,創鑫智慧 (NEUCHIPS)世界首款專為資料中心推薦模型 (Recommendation Model) 設計的AI加速器RecAccel N3000,在伺服器領域的能源效率 (Energy efficiency)上,領先AI大廠輝達 (NVIDIA),成為世界第一能效的AI加速平台。
MLPerf v3.0 AI 推論測試是由致力提升機器學習技術和應用的開放工程聯盟 MLCommons所進行。創鑫智慧此次採用技鋼 G482-Z54 伺服器搭載 AMD EPYC 7452 32 核CPU及8張RecAccel N3000 32G PCIe 加速卡執行DLRM測試。
根據MLCommons公布的測試數據,在資料中心推薦系統領域,RecAccel N3000 系統除了展現其100%的效能擴充性 (Performance Scalability) 之外,在每瓦可處理1,060次查詢 (Queries) 的評策上,能效為對手NVIDIA H100的1.7倍,高居榜首。未來計畫推出的RecAccel Quad N3000 PCIe 卡更能提供高達 2.2倍的卓越效能。
「為實現量大、精準、即時且節能的人工智慧運算,我們必須找到更可持續和環境友好的解決方案,這不僅僅是一個商業挑戰,更是對社會責任和綠色發展的追求,」創鑫智慧創辦人暨董事長林永隆博士表示。「我們以具體行動證明我們對永續發展的承諾,除了在 MLPerf測試中取得最佳表現,我們還將推出專為開放運算計畫 (OCP) 設計的 DM.2 模組,繼續引領產業發展,提供更多協助雲端服務供應商與資料中心節省成本的平台方案,並助力 AI 技術的繁榮與成長。」
AMD策略業務發展全球副總裁Kumaran Siva則表示:「AMD提供高效能運算產品,幫助智慧系統有效管理複雜的資料集。我們非常高興能與創鑫智慧合作,藉由AMD EPYC處理器為MLPerf v3.0中的DLRM推理實現領先的效能及能耗。我們期待持續與創鑫智慧協同發展與創新,為市場提供不斷引領先進技術的人工智慧解決方案。」
【台北訊】近期台灣經濟前景看漲,統一投信預測第二季將迎來經濟成長的底盤回升,為股市帶來明顯的支撐。這波景氣藍燈預計將持續至第二季,成為投資者長線布局的佳機。統一投信強調,市場預期上半年庫存調整將告一段落,下半年景氣回溫,企業獲利轉正,有望推升台股表現。 創鑫智慧,這家台灣的領先企業,在這波景氣轉暖的浪潮中,更是如魚得水。它看好的半導體製程升級、綠能產業,以及解封後的服務業,都將成為其發展的關鍵動力。創鑫智慧憑藉其先進的技術和創新,不僅在半導體製程升級上發揮著重要作用,還在綠能領域不斷開拓新市場。 創鑫智慧對於AI技術的發展也持高度關注,ChatGPT的問世,更是讓它看到了AI應用落地的巨大潛力。隨著AI需求的增長,半導體應用將迎來新的動能,創鑫智慧將抓住這一機遇,不斷提升產品競爭力。 在電動車市場的快速發展下,功率半導體的需求也在不斷增加。創鑫智慧在這一領域的深耕,讓它在業界享有盛譽。此外,隨著半導體製程設計的越發精密,對於IP整合的需求也日益增加,這對創鑫智慧來說,是另一個發展的契機。 根據市場研究機構Maximize market research的預測,全球半導體IP產值的年複合成長率將達到5.5%,這一數據對創鑫智慧來說,無疑是強大的動力。對於綠能產業,創鑫智慧也表達了樂觀態度,美國抗通膨法案對綠能產業的扶持,以及台灣政府的「淨零排放路徑112-115綱要計畫」,都將推動綠能產業的發展。 總之,在這波經濟成長的浪潮中,創鑫智慧憑藉其創新和先進技術,將在半導體、綠能和AI領域發揮重要作用,為台灣經濟的發展貢獻一份力量。
創鑫智慧(Neuchips)這家台灣新興AI晶片廠商,近期在國際舞台上大放異彩。該公司由林永隆董事長領軍,專注於開發能加速資料中心與社群平台推薦模型的AI晶片。這款晶片採用台積電7奈米製程生產,並已完成工程驗證,目前正陸續開發客戶中。 創鑫智慧於2019年由林永隆與盧超群、石克強共同創立,起初為創意電子,後來林永隆轉任清大教職。看好推薦模型帶動的ASIC商機,林永隆於2019年創立創鑫智慧,並於2022年宣布採用台積電7奈米製程生產。該公司首款晶片RecAccel N3000,是一款專為推薦模型設計的AI加速器,在開放工程聯盟(MLCommons)的MLPerf評比中,與NVIDIA晶片互別苗頭。 根據創鑫智慧提供資料,在伺服器模式中,RecAccel N3000的效能高於NVIDIA A100兩倍,相較於NVIDIA H100則高出1.67倍。而在離線模式中,其晶片優於NVIDIA A100,但略遜於NVIDIA H100。雖然NVIDIA曾表示另一款Grace Hopper才是最適合推薦推論的晶片,但目前尚未提出相關基準分數。 超微(AMD)策略事業發展副總裁Kumaran Siva表示,樂見創鑫智慧晶片用於AMD EPYC處理器上,並期待雙方持續合作,開發出領先業界的AI解決方案。林永隆則表示,盼與雲端生態系合作,提供永續節能的方案。 創鑫智慧看好AI技術加速晶片和伺服器的效能趨勢,認為只要某領域有大量計算和大量應用的需求,就會出現專用晶片。該公司認為,目前市場上專為推薦模型設計的晶片相當少,而推薦模型在資料中心、社群媒體、電商、搜尋引擎等平台都有廣泛應用,市場商機相當豐沛。 創鑫智慧在台灣發展AI晶片的優勢,林永隆指出,台灣匯聚矽智財、EDA工具、IC設計、封裝測試、製造等業者,相關生態系非常完整。該公司成立4年多來,專注研發,2023年起有機會銷售晶片,開始創造營收。
而在今年4月初,開放式工程聯盟(MLCommons)公布的MLPerf Inference效能測試提報結果中,就有一家臺灣AI加速晶片廠商名列其中,那就是2019年成立的創鑫智慧(Neuchips)。
事實上,在2020年10月MLCommons發表的Inference Datacenter v0.7效能測試結果,創鑫智慧就已提報,當時的系統組態採用FPGA晶片型態的RecAccel原形產品,鎖定開放原始碼的深度學習推薦模型(Deep Learning Recommendation Model,DLRM)AI應用情境,而在後續的Inference Datacenter v1.0、1.1、2.0,該公司提出的產品受測組態,改為FPGA加速板卡Terasic DE-10 Pro。
到了今年4月的公布Inference Datacenter v3.0,創鑫智慧提交兩份產品效能測試結果,均搭配他們去年5月發表的ASIC晶片加速卡RecAccel N3000,
其中一項測試是採用單張加速卡的配置,每秒可進行107,001次查詢,另一項測試則是擴充至8張加速卡,每秒可進行856,398次查詢,兩相對照之下,突顯這款產品可隨使用數量的增加,提供近100%幅度的運算效能線性擴展。
若基於上述這份效能測試結果,並以其中所列頂級資料中心GPU產品Nvidia H100的數據來比較,就DLRM推薦運算效能而言,搭配8張創鑫智慧RecAccel N3000的AMD二路(64核心CPU)伺服器,平均每1瓦電力每秒可查詢1060.05次(856,398次除以807.88瓦),搭配8張PCIe介面卡形式Nvidia H100的AMD二路(32核心CPU)伺服器,則是633.41次(1,501,100次除以2,369.85瓦),因此,N3000的每瓦推薦運算效能可達到H100的1.7倍。創鑫智慧表示,若改用另一款內建4顆RecAccel N3000晶片的加速卡來比較,可望將每瓦推薦運算效能領先幅度拉大,預估能達到H100的2.2倍。
RecAccel N3000為何會有亮眼的能源使用效率?創鑫智慧僅簡單表示,因為這當中使用了INT8整數運算校準器,但僅僅只是這個原因嗎?
回顧去年該公司發表這款加速晶片的相關消息當中,我們可以看到還有其他技術優勢。例如,5月宣布推出RecAccel N3000時,他們提到這是一款首款專為深度學習推薦模型處理加速所設計的ASIC晶片,導入台積電7奈米製程,並將基於搭配這款晶片的雙M.2模組產品,針對遵循開放運算平臺(OCP)規格的伺服器,提供RecAccel N3000 Inference平臺,以及推出採用PCIe 5.0介面的加速卡,以安裝在資料中心的伺服器。
而在發展AI硬體架構與持續改良DLRM運算效能的同時,他們也在軟體層面進行共同設計,提供可廣泛應用的最佳化軟體堆疊架構,實現高精準的運算、硬體資源與能源利用率的目標。
在AI推薦模型的部分,RecAccel N3000不僅支援DLRM,也支援WND(Wide & Deep)、DCN(Deep and Cross Network)、NCF(Neural Collaborative Filtering),而在安全性的部分,它也內建硬體信任根(RoT),可強化本身的保護。
以精準度而言,他們發展出獨特的8位元協同運算技術,可結合量化處理、校準、硬體支援,將FP32運算的精度提升至99.95%;晶片內建專屬的多層感知器(Multilayer Perceptron,MLP)運算引擎,能在引擎層級提供立即可達到的能源使用效率,並且能在系統單晶片層級,實現每個推論處理只需1毫焦耳能量的理想。
在記憶體的存取方式上,創鑫智慧也開發出專屬的嵌入式引擎,具有新型快取設計與DRAM流量最佳化功能,能針對LPDDR5記憶體,減少50%存取需求,將記憶體頻寬利用率提升30%。
到了6月,創鑫智慧宣布RecAccel N3000進入投片生產階段,進一步揭露這款晶片組成與軟體堆疊架構。
以運算引擎而言,當中分成嵌入型引擎、特徵互動(Feature-cross,FX)引擎,以及矩陣乘法引擎。其中的嵌入型引擎,針對目標是上述的記憶體存取效率,能大幅減少晶片以外的記憶體存取需求;特徵互動引擎則是指支援多種AI推薦模型的處理,可涵蓋DLRM、WND、DCN、NCF;至於矩陣乘法引擎,RecAccel N3000內建10個動態多層感知器運算引擎(Dynamic MLP Engine),而相關配置也是節省耗電量,以及有效率處理寬鬆矩陣運算的關鍵。
關於軟體堆疊方面,創鑫智慧揭露軟體開發套件將包含編譯器、執行時期元件,以及工具鏈,他們表示,當中將支援大模型分割、橫跨多顆晶片或加速運算卡的運算方式,能在每一顆晶片執行多個更小型的推論處理工作。
而在資料型別的使用上,創鑫智慧發展出新的8位元計數格式,稱為彈性浮點(Flexible Floating Point,FFP8),能促使晶片電路隨著AI模型的差異而調適,以此實現高精度的運算。除此之外,由於AI訓練皆採用32位元,所以大家能使用32位元來執行推論處理,若改用8位元來計算,耗電量可縮減至16分之1,但過往業界總是必須在精準度與運算效率之間做出抉擇,他們認為可透過FFP8,實踐更多的運算精準度,也能兼顧節約能源的需求。
到了9月初,在電子設計自動化(EDA)公司Synopsys舉行的ARC Processor Summit 2022大會期間,創鑫智慧公開更多RecAccel N3000的規格與技術架構細節,例如,晶粒內建160 MB的SRAM記憶體,搭配的LPDDR5記憶體可配置為4個32 GB、內建線上錯誤修正處理(ECC),PCIe介面可支援3.0、4.0、5.0,最大可提供16個通道。
而且,他們也表明當中採用Synopsys旗下的多組矽晶片智慧財產,像是RecAccel N3000內建的處理器當中,結合了Synopsys的ARC EV72處理器,作為數位訊號處理器(DSP)與支援浮點運算處理;而在介面方面,這裡搭配Synopsys的進階高效能匯流排與周邊匯流排(AMBA)、LPDDR5、PCIe等智慧財產;在記憶體方面,搭配Synopsys Memory Compilers,可獲得進階電源管理功能;硬體安全方面,搭配Synopsys Hardware Secure Modules,而能具備硬體信任根,確保系統開機程式碼受到保護,也能執行裝置驗證。
1998年時,林永隆與盧超群、石克強共同成立創意電子,借調期任滿後回清大任教。看好推薦模型帶動的ASIC商機,林永隆2019年再成立創鑫智慧,開發AI晶片,並於2022年下旬宣布採用台積電7奈米製程生產。
創鑫智慧開發的首款晶片RecAccel N3000是專為推薦模型設計的AI加速器,日前在開放工程聯盟(MLCommons)的MLPerf評比中,與NVIDIA晶片互別苗頭。
創鑫智慧提供的資料顯示,在伺服器模式中,創鑫智慧的晶片效能高於NVIDIA A100兩倍,相較於NVIDIA H100則高出1.67倍。而在離線模式中,其晶片優於NVIDIA A100,但遜於NVIDIA H100。此外,NVIDIA曾表示另一款Grace Hopper才是最適合推薦推論的晶片,但目前尚未提出相關基準分數。
超微(AMD)策略事業發展副總裁Kumaran Siva指出,樂見創鑫智慧晶片用於AMD EPYC處理器上,在評比中取得超群表現,也期待雙方持續合作,開發出領先業界的AI解決方案。林永隆則表示,盼與雲端生態系合作,提供永續節能的方案。
此前,林永隆在DIGITIMES專訪中表示,以AI技術加速晶片和伺服器的效能是業界趨勢,只要某領域有大量計算和大量應用的需求,就會出現專用晶片(ASIC)。
目前在AI業界中,NVIDIA的GPU是主流,然其GPU屬於通用型,而目前專為推薦模型設計的晶片相當少。事實上,資料中心、社群媒體、電商、搜尋引擎等平台都會用到推薦模型,市場商機相當豐沛,也因此他看好這塊市場的全球商機。
針對自家晶片的定位,他表示晶片部署在雲端與邊緣之間的匯流節點(Aggregation point),既沒有做到手機、物聯網裝置端那麼遠的邊緣,但也不必都得經過雲端。
他解釋,如果所有計算都要經過最遠的雲端,資料傳輸來回時間可能都大於計算時間,無法達到「加速」目的。此外,以前要升級伺服器就得更換CPU或機台,現在有了AI晶片,就可用來加速、提升伺服器的效能。
這對伺服器用戶來說是好消息,因為可減少所需機台數量,而對伺服器代工廠來說,不一定會是壞消息,因為廠商可與AI晶片開發商合作,讓伺服器效能更好、更利於市場推廣。
談到台灣發展AI晶片的優勢,林永隆指出,台灣匯聚矽智財、EDA工具、IC設計、封裝測試、製造等業者,相關生態系非常完整。當製造業者產出一片晶圓,這些晶圓變成終端品牌產品,產值便可再倍數成長,因此IC設計產值應該遠大於晶圓代工業者。
他認為,美國在IC設計界位居龍頭,是因為美系品牌、系統商在定義產品規格方面相當厲害,例如NVIDIA之於繪圖晶片、英特爾(Intel)和超微之於處理器、高通(Qualcomm)之於無線通訊晶片等。
PC普及帶動半導體應用,隨後消費性電子產品、智慧型手機用到的半導體數量愈來愈多,接續便是AI和電動車帶來的商機。林永隆認為,台灣IC設計仍有許多可發揮的空間,且是應長期耕耘的事業。創鑫智慧成立4年多以來專注研發,2023年起有機會銷售晶片,開始創造營收。
路透報導,輝達主宰了AI訓練模型市場,但在訓練後,這些AI將被投入所謂「推論」(inference)的更廣泛用途,包括對提示詞(prompts)生成回應文字,或判斷一張圖像是否包含貓等。分析師認為,資料中心推論晶片的市場將迅速成長,因為企業都正把AI技術運用於產品中,Google等企業也在探索如何降低額外成本。
在這些主要成本中,其中之一是電力。高通已經從為智慧手機等耗電裝置設計晶片的經驗,創造出Cloud AI 100晶片,目前是壓低耗電量。
MLCommons發布的測試數據顯示,高通AI 100晶片在分類圖像的表現擊敗輝達的H100晶片,判斷基準為每顆晶片每瓦能處理的資料中心伺服器查詢量,高通的晶片每瓦能處理197.6次伺服器查詢,多於輝達的108.4次。
不過,這個指標的榜首是由台灣學者林永隆所創辦的創鑫智慧拿下,每瓦可處理277次查詢。
高通晶片的物體偵測效能,也以每瓦處理3.2次查詢,超越輝達的每瓦處理2.4次查詢。物體偵測的應用包括從零售商店的影像分析消費者最常逛那些地方。
然而,在自然語言處理(被廣用於聊天機器人等系統的AI技術)測試中,輝達在絕對的效能與節能表現,都排名第一。輝達每瓦處理10.8組樣本,創鑫智慧的每瓦8.9組排名第二,高通位居第三,每瓦處理7.5組樣本。
經濟部今(29)日舉辦「AI on Chip科專成果發表記者會暨AITA會員交流會」,發表多項AI人工智慧晶片世界級關鍵技術,貴賓有凌陽科技協理蘇銘章(左起)、創鑫智慧董事長林永隆、工研院院長劉文雄、經濟部技術處處長邱求慧、AITA會長盧超群、經濟部次長林全能、台灣金控沈榮津董事長、經濟部工業局副局長陳佩利、台灣新思科技董事長李明哲、力積電副總經理陳冠州、神盾營運長林功藝。 工研院/提供
經濟部自2019年推動成立最具指標之AI晶片技術交流平台—「台灣人工智慧晶片聯盟」(AI on Chip Taiwan Alliance,AITA,諧音愛台聯盟),3年來除了打造完整從上到下游的產業鏈,更積極推動產業鏈結與國際合作,迄今已有151家會員,涵括IC設計、製造、封測、系統應用及學研,並促成AI晶片研發投資逾200億元,未來預期帶動半導體創造達2,300億元產值,將臺灣世界級的AI人工智慧晶片技術能量推向國際舞台。
經濟部次長林全能表示,近年來AI人工智慧成為各種新興科技的重要關鍵技術,加上2022年底OpenAI推出的ChatGPT更成功帶動話題,也讓大型AI模型複雜運算與晶片傳輸介面速度的技術研發備受重視,帶動高速運算與生成式AI技術相關商機,也是AITA未來要的方向。
經濟部在三年前成立人工智慧晶片聯盟,目前已有超過151家會員,今天發表六項的重要成果,包括工研院開發之「超高速記憶體關鍵IP技術」-可直接在記憶體內進行運算,運算效能提高10倍、功耗僅1/10;神盾開發的全球首創指紋辨識類比AI晶片,以人工智慧大幅提升精準度,並與力旺合作開發屏下大面積光學指紋辨識晶片布局新應用;新思科技與工研院成立的人工智慧晶片設計實驗室(AI Chip Design Lab),引進先進EDA工具,與AITA聯盟內成員合作,成功開發3奈米先進製程之設計與驗證技術,共築我國AI晶片研發生態系。未來經濟部會持續做產業後盾,協助各產業導入人工智慧科技,以臺灣堅實的高階晶片製程與研發能力,將臺灣AI晶片能量推向國際舞台,在下一波AI人工智慧軍備戰中奪得先機。
經濟部促成新思科技在新竹成立「AI設計研發中心」,加碼投資新台幣10億元在臺擴增超過200人的AI研發團隊,鞏固臺灣在半導體設計與製造全球領先地位。 工研院/提供
行政院政務委員兼國科會主委吳政忠指出,臺灣半導體產業在世界居有領先地位,行政院以「台灣AI行動計畫」,積極推動半導體設備國產化及科技人才培育,持續促成AI產業化、產業AI化,為建構完整的AI晶片生態系,更以愛台聯盟串聯設計、製造、封測、軟體及ICT系統業者。半導體產業與人工智慧崛起都與IC設計息息相關,為了帶領產業迎向下一個十年挑戰,相關人才的培育是重要關鍵,政府以AI on Chip科專計畫匯集上中下游業者與人才,積極在基礎科學、IC設計人才培育上紮根。隨著AI技術發展,更成立台灣人工智慧卓越中心(Taiwan AI Center of Excellence,簡稱TaiwanAICoE),積極面對AI人工智慧帶來的倫理、法治與人權挑戰,跨部會合作在科研面向,強化AI核心科技國際合作;在人才面,鏈結AI頂尖國際機構及學者建立亞太人才樞紐;在治理面向,參與以人為本AI國際組織,並與價值觀相近國家建立可信賴AI夥伴關係,希望臺灣在全球人工智慧應用上占有一席之地。
由國科會及經濟部扶持的創鑫智慧為國內首家切入7奈米製程IC 設計新創業者,提供HPC-AI加速晶片與模組,進軍高速成長的雲端與資料中心市場,其獨步全球最高能效RecAccel™ N3000加速晶片與DM.2模組,提升運算效能、大幅降低成本。 工研院/提供
台灣人工智慧晶片聯盟會長盧超群說明,AITA聯盟成立三年以來,聯盟會員倍數成長,除了建立AI生態系、共同發展關鍵技術外,最重要的是串連產業合作,加速AI晶片軟硬體技術或產品開發,例如凌陽開發核心AI晶片的共享算力平台,可以串連許多週邊IC業界,快速形成新的產品應用,在成本上更具競爭力,產生1+1>2之效果。
從被列為全美最優秀理工大學之一的美國伊利諾大學香檳校區取得博士,林永隆返台就在清華大學資訊工程系擔任教授,曾任清大研發長及創意電子技術長,此次創立創鑫智慧,是他第二度創業。在創意之後相隔21年再次走上創業路,是因為林永隆發現了AI的潛在機會,「大家都知道AI就是新的挑戰跟機會,教授本身就是探索未知,創業即便很辛苦,但讓很多人聚集起來一起做事,是很棒也很了不起的事情。」
天時地利人和兼備,讓林永隆決定帶領一群IC設計工程師組成團隊,於2019年成立了創鑫智慧,去年進駐新竹科學園區,目前資本額10.46億元,主要投資人包括緯創旗下鼎創、凌陽創業投資、力晶科技、以及台灣集富一號創業投資有限合夥(Jafco Taiwan I Venture Capital Limited Partnership)等。他們專注在打造資料中心推薦系統用的AI加速晶片,是聯發科外,台灣第二間以7nm製程及以下先進製程的公司。
據國外媒體的統計資料,7nm在2020年的晶圓代工價格落在9,000美元(約新台幣28萬元),晶圓廠可能依不同廠商的條件提供相對應的報價,但等於生產一批(Lot) 25片晶圓來說,就需要投入至少新台幣600萬元的費用,近年晶圓代工歷經漲價,可想而知費用是更加高昂。龐大的成本壓力,讓台系IC設計廠對採用這樣的先進製程相對保守,而這也是創鑫智慧投產7nm生產這400mm2的晶片,為何如此引人注目的原因之一。
「7nm是經過評估過後覺得最佳的點,」談到為何選擇7nm,林永隆的心中有盤算,但僅透露做這樣的決定,產品當然一定有獨到之處。他表示,無論選擇哪個製程,都一定有先設定並找到能最優化目標的方案,他們設定效能跟效率的目標後,7nm就是眾多考量後最適合的技術,「半導體的進步在你的運算力、耗能跟成本,如何針對問題透過軟體跟硬體設計跟優化,讓產品做出來有優勢。
資料中心的推薦系統,目的就是提升用戶體驗,進而增加使用者對社群平台的黏著度;好比臉書(Facebook)等社群平台,會依據不同使用者的喜好推薦廣告及影片,背後靠的就是AI推薦系統。創鑫智慧打造AI加速晶片,則是要提供資料中心更快、更準、更省電的解決方案,林永隆進一步解釋,人無時無刻都在做選擇,假設推薦的內容不好,用戶體驗就差,如何做得準確度夠高,得做很多更精細的運算,尤其看不到的東西要做間接的推敲,是很有挑戰的部分。
多數的AI訓練使用32bit浮點數(FP32)格式,格式由1位代表正負符號、8位指數及23位尾數組成;直接用32bit推論(Inference)準確度最高,但功耗大,且要頻繁跟DRAM做資料交換,也會影響到運算時間,因此大部分推論會轉為16bit或8bit格式運算。轉換到較少位元的格式,運算所需DRAM空間相對小,但準確度則會被影響;若以8bit INT8的格式推論來說,資料量是32bit的4分之1,但準確度卻會降到99.87%。
100%跟99.87%僅0.13%的差異,對自然語言分析、醫療影響、以及推薦系統等要求高準確度的AI應用來說,有著極大的影響;以推薦來說,準確度相差1%,都可能攸關某個被推薦的內容會不會被點擊,也就直接影響到平台的收益。能提升8bit格式推論時的準確度,便是創鑫智慧的AI加速晶片的特點。
創鑫智慧首款RecAccel的ASIC、產品代號N3000的AI加速晶片,擁有10組運算引擎,運算力可達200TOPS (Tera Operations Per Second),另外內建160MB記憶體(SRAM),消耗20W即可進行每秒2,000萬次的推論。運用該AI加速晶片,以IN8精度進行推論的準確度能提升至99.97%。
據創鑫智慧提供的數據,假設32bit格式進行推論準確度為100%,16bit BF16格式的推論準確度為99.998%;由此可見,使用他們AI加速晶片,可讓INT8推論的準確度趨近BF16。此外,為進一步提高8bit推論的準確度,創鑫智慧打造另一項秘密武器「FFP8」的浮點格式,該格式可以根據資料的特性,提供更有彈性的浮點數配置方式;透過FFP8的格式推論搭配其AI加速晶片,準確度能拉升至99.996%。
FFP8是創鑫智慧用三年時間研發出來的心血結晶,去年申請美國專利,今年通過;其AI加速晶片搭配FFP8,也就組成其獨特的高效率AI加速推薦系統,預計今年第四季推出完整系統,展示每推論僅需1微焦耳(Micro joule)的能效。能有這樣的成果,林永隆指出,是軟硬體相輔相成的結果,由於FFP8相對INT8運算較複雜,也需要解讀資料格式,為維持運算速度,就得有相對應的電路設計在運算後做正確資料解讀。
創鑫智慧的AI加速晶片,預計搭配大容量LPDDR (Low Power DDR)系列DRAM製作成雙M.2 (Dual M.2)的模組形式走進應用市場,可用於開放運算計畫(Open Compute Project,OCP)的Glacier Point載板卡,以及一般伺服器的PCIe Gen 5載板卡,最快今年第四季送樣。安裝了AI加速晶片後,當資料中心的伺服器收到AI運算的需求,CPU就會把推論工作卸載(offload)給AI加速晶片,運算就在晶片裡完成後傳回,大幅縮短運算時間及降低功耗。
隨著AI技術持續演進,林永隆認為,現在用8bit的格式推論,未來也會走到6bit、4bit甚至2bit,或是混合格式的推論,以他們的目標來說,會持續嘗試降低成本,同時維持準確度,軟硬體部分需要同時做精進。他表示,AI發展非常快速,現在產品做出來到市場推廣是第一步,下一世代的AI,技術面還有很多可能性,包括異質整合、3D封裝等前瞻技術,現在都已在進行研究。
針對異質整合,目前創鑫智慧已申請加入UCIe (Universal Chiplet Interconnect Express)聯盟。UCIe聯盟又稱小晶片(Chiplet)互連產業聯盟,包括台積電、日月光、高通、微軟、AMD等大廠都參與其中,林永隆期許,如同個人電腦透過PCIe介面做系統跟系統的連接,透過加入聯盟跟業界用相同的傳輸介面,就能將心力更集中在研發AI核心引擎技術上。
創鑫智慧目前連同新竹總部及板橋分公司,團隊規模來到40人,著眼未來需求,還在持續擴編中,以徵求研發跟行銷人才為主。林永隆表示,若想像是在跑一場馬拉松,當前的目標就是一步一步穩健地跑穩,達成各階段的里程碑,希望找到能經得起考驗,對他們做的事情有感,且想做AI、有意願進入新創公司的人才加入團隊,「我們對未來的願景,是要成為世界級的AI加速器供應商!」
本文同步刊登於《電子工程專輯》雜誌2022年10月號
創鑫智慧董事長暨執行長林永隆今出席竹科管理局記者會,指出該公司於2019年在清大育成中心成立,去年底進駐竹科,目前資本額10.46億元,主要法人股東包括緯創旗下的鼎創、凌陽創投、力晶科技、日本的集富一號創投,主要研發雲端資料中心人工智慧加速器,首顆產品投產台積電7奈米製程,為雲端資料中心推薦系統用AI加速晶片。
林永隆表示,首顆產品相較之下美國新公司,產出效能是2.44倍,該晶片內含16萬個乘加器(MAC)及150MB記憶體,只需20Watt每秒便可進行兩千萬次DLRM推論,為全球唯一可達到每秒單一推論能耗1微焦耳。換言之,創鑫智慧不僅運算速度快,具備高效能,還強調省電。
據了解,台積電7奈米製程每片代工價約1.35萬美元以上,換算新台幣約逾40萬元,創鑫智慧為IC設計新創公司,一開始就勇猛投產1片高達逾40萬元先進製程,令業界刮目相看。林永隆不願透露代工價格多少,只說「很燒錢!」,但他看好推薦系統量大、精準、即時與省電特性,產品應用在電子商務、社群、影音、交友、搜尋等客戶群,估計每年複合成長率達30%,成長快速。
創鑫智慧是由清華大學林永隆教授及一群IC設計工程師,於2019年創立於清大育成中心,2021年底進獲准遷入園區標準廠房,並於板橋設置台北辦公室。目前有員工38人,其中30人為研發人員,公司資本額10.46億元,主要投資人包括:緯創(3231)旗下的鼎創(5304)、凌陽創業投資、力晶科技、及台灣集富一號創業投資有限合夥(Jafco Taiwan I Venture Capital Limited Partnership)等。
林永隆表示,創鑫智慧甫獲EE Times 專文報導之RecAcce™-ASIC,產品代號為N3000的資料中心推薦系統用AI加速晶片。該晶片內含16萬個乘加器(MAC)及150MB記憶體(SRAM)。只需20Watt每秒便可進行兩千萬次DLRM推論,目前正以7奈米製程生產中,今年第4季完整系統將展示全球最領先的每推論(Inference)只需耗1微焦耳(microjoule)能效。
創鑫智慧深耕AI運算軟硬體技術,研發人員經畢業於主要大學研究所並有多年設計經驗。目前為止獲得8項美國專利與12項台灣專利,另有30項審查中,林永隆表示,公司持續招募系統軟體工程師、系統軟體應用工程師、技術專案經理、AI工程師、軟體工程師等。
會場並展示創鑫智慧在AI奧運會MLPerf Benchmarking中參加評比的RecAccel™-FPGA,也是RecAccel™ -ASIC的產品雛形,自2020年參與MLPerf至今不斷地完善軟硬體整合、效能提升。RecAccel™-ASIC的整體運算能力更為RecAccel™-FPGA的55倍。該產品搭載專利高能效的運算引擎及創新專利8位元浮點數格式,預計能大幅降低雲端資料中心在推薦系統上的能耗,協助資料中心取得最大化的能源效率,進而達到永續性的資料中心。
節能減碳成為全球關注的重要議題,雲端服務大廠資料中心也不例外,環境永續發展(Sustainability)已是不可逆的趨勢,多項報告顯示推薦推論 (Recommendation Inference) 已成為資料中心佔用最多資源的AI運算。而適用於訓練的一般用途圖形處理器(GPGPU)系統並不適於推論(Inference),因此須要專為推薦系統設計的硬體加速器。創鑫智慧極大化推薦系統的商務價值同時,更協助資料中心追求環境永續發展,建立台灣在AI資料中心及半導體設計的新典範。
創鑫智慧(NEUCHIPS)是由資深IC及軟體設計專家團隊,於2019年成立的AI ASIC解決方案提供商,也是一家AI運算加速器IC設計公司,過去在神經運算網絡有領先的技術,更在信號處理和電路設計方面擁有多項專利,目前致力研究在加速運算過程中,如何減少記憶體耗用量。
陳品函表示,三十年前計算機對當時來說就已經是AI了,直至2016年發現影像分析軟體開始可用機器學習或深度學習解決AI問題的時候,大部分關注在影像處理和物件辨識。而去年Open AI開放ChatGPT給普羅大眾使用,才算是讓大多數的人認知到AI能協助許多事。
陳品函指出,機器學習中使用的硬體技術,以現階段產業界上面,絕大多數在訓練(training)上會使用GPU,用到的數學複雜程度相對高很多,也需要很多的互動運算;推論(inference)相對來說,一般的CPU還是可以達成的,其實還是取決於應用在哪個面向,來選擇合適運算的硬體。
根據計算密集、應用需求和市場需求,AI加速運算主要是指利用特殊設計的硬體和軟體優化,提升AI演算法執行速度和效能的方法。而機器學習和深度學習的訓練與推論,會針對訓練好的模型進行部署推論,對所有的訓練資料進行多次的計算得到效果最好的學習模型。
AI應用與商機切入點 將是未來面臨的限制與挑戰
生成式AI涵蓋非常多的矩陣式運算,例如GEMM(General Matrix to Matrix Multiplication;通用矩陣乘法)是神經網絡中基本的運算子,在線性代數、機械學習、統計與其他領域中常見的運算;GEMV(General Matrix to Vector Multiplication;矩陣向量乘法)為一維矩陣。
陳品函表示,過程中GPU、CPU的支援,需要消耗多少的能源來去完成指令,可能相對就沒有ASIC來得好,現今有許多AI新創公司針對看到的應用,需要的矩陣大小也有所不同,運算過程中資料如何地拋轉、網路的呈現、特別的IC設計,整體效能將會提高。
為了晶片的發展回到兩個面向,包括彈性(Flexibility)的AI數據中心,同質處理元件、一般拓樸數組/網格/環等;客製化(Custom/Application Specific)的車用AI,在沒有GPU那樣有強大的記憶體與運算式之下,硬體設計高度定制會調整到軟體和系統需求,另外還有異質處理元件等。
AI運算加速所面臨的限制與挑戰,包含讓普羅大眾最有感的ChatGPT在過去幾年快速累積使用者,但AI的落地應用與商機尚未有頭緒,因此AI導入的難題,消費性產品仍在找尋切入點,目前只侷限在手機app;AI晶片有所不同,雲端市場門檻高;如何從GPU開發環境做轉換、地緣政治等。
創鑫智慧針對使用者推薦作運算加速,RecAccel N3000是一種特定領域架構(DSA)ASIC,用於深度學習推薦模型的數據中心推論;不但獲得專利的FFP8產生最高的8位精度和專有的INT8校準器;創新的嵌入引擎設計用於全面優化數據片上和片外的位置和記憶體存取。
另外,獲得專利的動態MLP引擎(DME)提高了吞吐量,同時能降低功耗;RecAccel編譯器使用AI實現高度優化的低功耗動態嵌入分片等。
目前HarDNet在影像辨識、物件識別、特徵診斷等領域,展現強大效益,技術團隊除了清華大學之外,還網羅陽明交通大學與中原大學的研究人員。
HarDNet逐漸朝向影像醫學研究開展布局,透過醫療內視鏡或是MRI所拍攝的影像資料,使用稱為Semantic Segmentation (圖像的意義分割) 的影像處理技術,做為辨識異常細胞或腫瘤的利器,這對自動化診斷醫學帶來重要幫助,林永隆教授指出,目前HarDNet團隊與醫院合作,已有兩個重要成果,首先是大腸內視鏡的瘜肉偵測,根據醫療小組的評估,這個成果已達90分的水準,具備專科醫生的辨識能力。
第二個成果是從大腦3D MRI影像掃描資料中,辨識腦部腫瘤,為了驗證成果,團隊還報名參加MICCAI學會的Brain Tumor Segmentation Challenge Competition,2021年是第十年的比賽,共有1,200組的參賽團隊,林永隆教授的團隊是獲選前九隊上台簡報中的一隊,取得令人羨慕的成果,獲選者中不乏NVIDIA支助的資源豐沛的參賽者,由於大腦掃描3D MRI影像資料量龐大,比賽規定是在六分鐘內要做出辨識,結果HarDNet用了20秒就完成辨識,令人印象深刻。
HarDNet的計畫仍不斷進行CNN骨幹網路架構上的改善,及更多的實際影像驗證,並嘗試再進行更多本土腦部3D MRI的辨識,下一步就是部署到醫院內的邊緣運算裝置。林永隆表示,當HarDNet應用準確度之驗證達到一定水準後,會積極朝向人工智慧終端(Edge AI)的方向前進,實現智慧普及化,這也是目前全球AI技術發展的共同目標,台灣也不例外。
創鑫智慧第一顆RNNAccel矽智財晶片2022年上市
林永隆的另一個身分是創鑫智慧 (NEUCHIPS) 董事長暨執行長,這也是「半導體射月計畫」衍生新創企業,營運長陳建良介紹該公司RNNAccel產品的進展,目前已經整合進一家位於加州矽谷客戶的晶片中,預計2022年能在市場上嶄露頭腳。
RNNAccel用做為降環境噪音處理晶片的AI加速引擎,可以用在智慧型手機,或是智慧型麥克風的關鍵應用上,並協助自然語言指令的語音辨識之用。因為辨識能力高且耗電量低,讓客戶的晶片產品具有非常好的市場優勢,尤其對於需要使用準確聲音偵測,以啟動具備ALWAYS ON功能的AIoT裝置,更是如虎添翼,未來預期將會有更多的應用上市。陳建良並透露NEUCHIPS將於2021年12月正式搬遷至新竹科學園區內,為公司下一階段的發展做好萬全準備。
林永隆特別感謝國研院國網中心給予大量運算資源的支援與協助,這次參加Brain Tumor Segmentation Challenge也是使用國網中心的服務平台,才能與NVIDIA所支持的競爭對手同場較勁,並開拓HarDNet進入醫療產業的Edge AI智慧型應用領域,期盼未來在更多的醫療應用上發揮更大的貢獻。
台灣新創公司創鑫智慧(NEUCHIPS)在AI浪潮中穩定發展,善用台灣晶片設計優勢,以AI加速器的矽智財為基礎,成功開發AI運算引擎與骨幹架構,並提供從雲端到邊緣的智慧運算解決方案。董事長暨執行長林永隆強調,AI運算要達到高效能、準確度高、能耗低,才能在商業上得以運行。創鑫智慧參與科技部半導體射月計畫,鎖定特定應用領域,從IC設計開始部署台灣原生AI創新技術。公司開發的產品包括用於語音處理的AI加速器引擎RNNAccel、獨家開源CNN演算法架構HarDNet,以及優化雲端推薦系統的AI加速器引擎RecAccel。創鑫智慧不僅著眼於硬體優化,還關注終端硬體的負載限制與成本控制,以實現智慧運算的普及化。公司積極參與開放工程聯盟MLCommons,並與多家產學界團隊合作,持續創造台灣產業價值。
觀察目前科技的最新動態,不難發現人工智慧(AI)浪潮不僅持續推進關鍵的技術發展,今年的新冠肺炎疫情更促使各產業全面加速轉型,如今的AI發展,正顯見地推升至技術推廣與應用落地的競爭尖峰,智慧商機瞬間風起雲湧。
現在,就是科技產業要角各自定位這波趨勢是危機還是轉機的時刻。但開發AI的目標是什麼?創鑫智慧(NEUCHIPS)董事長暨執行長林永隆指明:「所有AI都一樣,當運算量很大的時候,要在一定的時間內完成,準確度要達到一定水準,耗的能量要越少越好,不然很多商業都無法運行。」
實現智慧普及化,就是目前全球AI技術發展的共同目標之一。台灣也不例外,科技部於2018年啟動了半導體射月計畫,目標是透過彙整台灣半導體領域的產官學資源,集中發展人工智慧終端(Edge AI)的核心技術。
創鑫智慧就是這項計畫的參與要角,他們鎖定了特定應用領域對AI運算解決方案的開發需求,從IC設計開始部署台灣原生的AI創新技術,2020年更宣布進駐新竹科學園區,顯露在產業應用面上的穩健成長動能。
作為新創公司,以矽智財(IP)開發者的身分出場,不能不說令人耳目一新。創鑫智慧由董事長暨執行長林永隆領軍,因此公司發展與他在晶片設計上的深厚專業背景密切相關。
林永隆博士同時也是清華大學資訊工程學系的教授,除了長年專注在IC設計與設計自動化的研究與教學,更進一步觸及機器學習技術,甚至組織了來自IC設計領域且具備業界前沿開發經驗的新創團隊,他看準的,就是AI運算將會在未來科技發展扮演關鍵推手的角色。
「Intelligence Everywhere是創鑫智慧的成立宗旨,」林教授表示,「要實現智慧運算或是演算法有很多方法,隨著AI模型越變越大,對準確度的要求越高,運算需求也會越來越大。」因此,提升運算效率成了關鍵。
那要如何提升效率?林教授接著解釋,其實有很多方法,可以從演算法、運算架構、電路到系統優化,都有很多地方可以著手,所以要分析要從哪裡開始進行,並針對問題提出可能的方案,再去實驗、分析。
足見智慧運算解決方案的開發工作,茲事體大,創鑫智慧也在持續關注市場與不斷創新開發的歷程中,摸索出一些在AI市場的生存脈絡。
具備AI運算的核心技術,創鑫智慧現已開發出三大核心產品,佈局擴及邊緣到雲端環境,目標應用涉及聽覺與視覺處理,以及運算加速,分別是用於語音處理的AI加速器引擎RNNAccel、其獨家開發的開源CNN演算法架構HarDNet,以及能夠優化雲端推薦系統的AI加速器引擎RecAccel。
「RNNAccel能聽得更明白,HarDNet能看得更清楚,RecAccel能想得更透徹,這些是我們產品的核心價值。」營運長陳建良一言以蔽之,整體而言,AI的應用範疇(spectrum)很廣,除了鎖定與眼睛、耳朵與大腦直接相關的智慧運算方案,創鑫智慧仍在持續嘗試相關的可配置方案。
事業開發經理陳品函進一步解釋,要實現Intelligence Everywhere,他們先找到耳朵,以聲音來說,課題可以很廣,從抗噪、語音辨識到翻譯。
「而IC設計是我們在行的,」在論及AI技術開發時陳品函侃侃而談,「所以我們的第一個產品RNNAccel以硬體優化切入開發,而且AI的領域非常多,但最後還是要交給電腦運算,包含一些通用硬體,像是CPU、GPU,它們雖然有很大的彈性,但問題是針對特定應用時,能耗就會比較差。」
因此,創鑫智慧在開發初期就聚焦在加速特定AI應用的硬體運算效能。「最好是電池運作的,」陳品函補充,「這些應用要更省電、效率要更好。」從硬體優化的角度切入,創鑫智慧不僅能發揮在晶片設計的專長,還能依據不同應用設計出更有效率的IC,讓尺寸更小、能耗更小,進一步降低整體成本。
「AI應用的預算控制(within budget)很重要,」林教授指出:「這就包括購置、運算和時間的成本。」他以挖礦機為例,一開始用的是CPU,但太耗電,之後改用GPU,也太耗電,後來就設計了挖礦機專用的ASIC。
「AI運算也是一樣,辨識影像要耗多少電,或是一焦耳的能量可以辨識多少影像。控制好這些成本,就是最好的AI運算。」他直言。
以語音處理的邊緣裝置為例,像是智慧音箱(smart speaker)、助聽器、穿戴式裝置、主動降噪(ANC)耳機等。陳品函表示,要在這些裝置上執行深度學習推論,運用傳統規則式演算法,效果有限,AI演算法卻可以更快、更省電,節省的能耗多達70%。
此外,要將智慧運算普遍導入裝端裝置,除了電力,對記憶體也有相當的限制。陳品函表示,RNNAccel的關鍵技術就是他們團隊開發的壓縮技術NeuCompression,不僅壓縮效果能從2x、5.3x、8x到高達16x的比例,同時還能達成比目前其他現有方案還更優異的精準度,對記憶體的需求也變小了。
除了考量終端硬體的負載限制與控制整體成本,面對未來AI普及化的多元應用需求,還要取得在通用與客製需求之間的性能平衡,進而開發出最佳化的智慧運算解決方案,這也會是產品開發的重要考量。
「AI是應用導向,該精準就精準,」陳品函舉例,例如ADAS對性能要求就比較嚴苛(critical),運算要跑得比車還快,該煞車就要煞車,但消費性應用就可以採用小模型,例如抗噪耳機。
IC設計是起點 卻不是終點
作為新創公司,本身在開發的時候就是挑戰,也有風險。但為何首先開發人工智慧IP,進入這塊高成長卻也高競爭的市場?
陳建良回應:「以早期發展來說,我們會希望以核心技術很快地進入市場,所以利用IP來推廣我們的核心技術。」但不同階段公司會有不同的規劃和發展,會隨著時空和環境調整,他也補充。
以IP模式經營,一般首先會想到的就是Arm,它是發展得相當成功的典範。陳品函則點出另一項關鍵:「我們初期沒有開發自己的IC,利用IP的形式設計產品,我們可以把AI當作基準,從應用演算法、到架構、到運算硬體著手開發,再把整體的解決方案進一步精簡,面對問題,我們也有能力從頭想到尾。」
談到完整的智慧運算解決方案,陳建良指出:「和台灣業界不一樣的地方,是我們有自行開發的HarDNet演算法,很多產業夥伴的演算法都來自他人的演算法,例如SDD-VGGNet或ResNet等,但那樣開發只能做到加速,不能改善,我們從核心技術紮根,所以可以從演算法、軟體到硬體架構進行改良,全面提升運算效能。」
另一方面,他也指出,在應用面,國內業界多半都在談AIoT、邊緣裝置端,非常少的團隊在討論雲端和資料中心的運算,這也反映他們觀察國內外市場在AI運算的開發需求上呈現出的差異。
「台灣很多在做高階手機,還有MCU,這些應用對AI的要求等級就會和其他應用很不一樣,」陳建良表示:「國外會做『微型智慧運算(Tiny ML、Tiny AI)』,這些運算模型被大幅簡化,好處是運算量非常低,所以電池和使用場景會非常不一樣,而美國矽谷在AI領域還是位居世界領導地位,所以比較強調高速運算、高精準度。」
洞察AI運算需求的市場差異性,創鑫智慧在2019年開發了第三款產品RecAccel,就是嘗試挑戰以資料中心應用為目標進行開發,期望將能加速雲端平台上的推薦系統效能。
「走一條和台灣現況不一樣的路,也是我們公司努力實現的目標,」陳建良表示:「傳統晶片和AI晶片供應鏈,在上下游的合作模式上會出現很大的差異。台灣的強項是快速晶片化、快速降低成本,對在世界各地快速普及技術有其貢獻。但在AI領域上,最大的不同是『演算法並不標準』,會根據使用場景進行調整,這對台灣來說,是非常不熟悉的IC開發方式。」
林教授舉了個有趣的例子:「在家看電影你可以使用PC或筆電,也可以拿DVD播放機,但後者很便宜,因為它只能做一件事情。」
陳建良坦言,往價值創造的方向發展,我們往往相對猶豫,台灣公司在創新方面,很多時候因為一開始無法標準化、規格化,或在績效指標上有好的成效,所以可能會扼殺很多創新和機會。
但他也建言,台灣的步調雖然相對保守,業界也希望能一擊中的,找到好的商業模式就可以利用台灣的優勢繼續發展。而這也是創鑫智慧成立的自我期許,那就是創造價值,所以我們從根本的演算法開始改善,再來是持續強化運算效率。
目前台灣半導體製造業也在導入AI,陳建良表示,利用HarDNet架構進行智慧影像應用,以提升製程良率,並即時發現錯誤;業界也在成立AI技術的研究單位,朝向智慧演算的目標穩健發展。
結語
展望2021年,陳建良表示,後疫情時代將持續加速AI發展,尤其是遠距應用帶動的影像辨識需求,將繼續注入強勁動能。創鑫智慧目前仍專注在核心引擎的開發,並根據目標市場動態,切出最有利基的市場。
國際組織也持續致力於推廣AI與機器學習技術的開發與應用,創鑫智慧便加入了其中的開放工程聯盟MLCommons(最初成立名為MLPerf),共有多達50多家來自產學界的創始成員,包含Google、Facebook AI、Intel、Nvidia、阿里巴巴以及聯發科。值得注意的是,這些創始成員中有15家就是新創團隊,足見新興技術帶動的發展動能和開發誘因不容小覷。
另一方面,AI演算法突破了傳統以規則為基礎的模型開發模式,在越來越多的特定應用中展現出高精準又符合開發成本的高運算效能。為了在建構新一代運算生態系的過程中,持續強化並創造台灣的產業價值,創鑫智慧未來也將持續整合學界的創新技術與產業的研發和實務能力,讓智慧應用更加普及。
創鑫智慧的事業開發經理陳品函接受專訪時,揭露該公司三個主力產品線,加速了AI在聲音、影像、及推薦系統上的運算。第一個產品是RNNAccel,亦即前述的矽智財產品。該遞迴神經網路(RNN)加速器支援LSTM、GRU、FC、MLP,以及Vanilla RNN等神經網路。這類神經網路適合處理時間序列型資料,所以在主動抗噪(ANC)、心電圖(ECG)分析、異常偵測、及語音控制(Voice Control)等應用成效卓著。因此整合RNNAccel矽智財的晶片可應用在手機、智慧音箱,或是真無線藍芽耳機(TWS)等裝置,利用人工智慧強化聲音相關應用,取代傳統以規則為主(Rule-base)的解決方案。
創鑫智慧的RNNAccel產品內建專利壓縮技術,透過其開發工具,客戶能將神經網路模型進行壓縮,大幅降低記憶體需求,同時仍保有高準確度。除了壓縮技術之外,該產品也強調超低功耗。陳品函指出RNN是很耗費計算資源的模型,對客戶而言,只要使用ARM Cortex-M0等初階MCU,搭配RNNAccel就能執行人工智慧功能,讓客戶的晶片產品具有非常好的市場優勢。
第二項產品是HarDNet神經網路架構,這是基於CNN運算特性所設計的一個更快、更省電、更準確及更安全的神經網路架構。創鑫智慧與清大團隊2019年於ICCV會議上提出此架構,更被Papers-with-code網站評比為世界最先進的語意分割神經網路,尤其使用在物件辨識(Object Detection)、物件分類(Object Classification)、及多物件追蹤(Multiple Object Tracking)等影像應用上深具競爭優勢。除了將研究大方開源讓各方高手切磋外,創鑫智慧也提供HarDNet演算法、軟體、矽智財授權及顧問等服務。
第三個產品是RecAccel推薦系統加速器。源自於Facebook提出Deep Learning Recommendation Model (DLRM),它適用於電子商務產品推薦、網路廣告、及多媒體內容推薦系統。
由於社群媒體與電商的快速發展,相關商品與用戶資料量成長驚人,每天超過300兆次推薦系統推論(inference),而且數字仍持續成長,耗費大量的運算資源,同時電費成本水漲船高,不勝負荷,Facebook將其開源並在網路上廣邀英雄帖,期望能解決對應難題與挑戰。創鑫智慧第一時間便提出了硬體加速產品RecAccel來解決,並搭載在Intel Stratix 10 FPGA參加了第一屆的MLPerf Recommendation 項目來驗證此產品。值得一提的是,這個挑戰在時間嚴重壓縮下,只有創鑫智慧提出非CPU/GPU方案。
陳品函特別感謝各界夥伴的支持,尤其是國網中心TWCC高效能運算的服務,這個MLPerf的挑戰前後只有約八週的時間,在時程緊迫的壓力下,需要完成反覆的測試、驗證與跑分實驗,創鑫智慧使用TWCC的高效能運算、簡單易用的AI開發工具,以及多張V100 GPU運算資源,加速了實驗的收斂,最終才能如期完成任務。
由於台灣的伺服器供應鏈與生態系統在全球資料中心的市場上舉足輕重,未來對於Open Compute Project (OCP)的規格與支持具有強大的磁吸效應,商機無限。RecAccel前景有長足的發展機會,創鑫智慧也正積極擴充團隊,敬邀更多有志之士的加入一同加速成長,期望其能加值台灣的伺服器供應鏈,取得更好的市場地位,也同步成就創鑫智慧的光明未來。