6 月25日,由中國通信標(biāo)準(zhǔn)化協(xié)會TC628 標(biāo)準(zhǔn)推進(jìn)委員會主辦,WG3 智算運(yùn)維工作組和黑龍江移動承辦的萬卡集群智能運(yùn)維首期沙龍在中國移動哈爾濱智算中心成功舉辦。此次沙龍嘉賓來自于信通院、黑龍江省通信管理局、寧波銀行、螞蟻集團(tuán)、華為、科大訊飛、南瑞瑞騰、中科海光等20余家單位,涵蓋通信、金融、能源、制造、互聯(lián)網(wǎng)等行業(yè)。
本次沙龍以“萬卡賦智,重塑運(yùn)維”為題,以“主題演講+圓桌會議”為載體,邀請專家分別從先進(jìn)經(jīng)驗分享、行業(yè)痛點(diǎn)聚焦、產(chǎn)學(xué)研深度融合三方面,分享智能計算基礎(chǔ)設(shè)施運(yùn)維邁向智能化的探索與實踐經(jīng)驗,共同探討智算運(yùn)維的發(fā)展趨勢與挑戰(zhàn)。
萬卡集群先進(jìn)經(jīng)驗共享,協(xié)同構(gòu)建高效運(yùn)維體系
黑龍江移動從深入解讀集團(tuán)公司“五個一” 卓越智算運(yùn)維體系,推出 "12821" 智算運(yùn)維方法論,介紹集省專協(xié)同流程轉(zhuǎn)變、機(jī)房現(xiàn)場標(biāo)準(zhǔn)化管理、主動運(yùn)維能力提升和跨層跨域的定界處置方法論等工作探索,為超大規(guī)模智算集群運(yùn)維提供了可復(fù)制的 “樣板間” 先進(jìn)經(jīng)驗。
螞蟻集團(tuán)分享了萬卡集群模型訓(xùn)練異常分類、支撐手段等先進(jìn)經(jīng)驗,主要針對模型訓(xùn)練、節(jié)點(diǎn)異常、調(diào)度異常等多場景的時間、空間診斷思路實踐總結(jié)。
信通院介紹近幾年IT運(yùn)維領(lǐng)域的標(biāo)準(zhǔn)研究工作及成果,解讀了《智算運(yùn)維能力成熟度模型》系列標(biāo)準(zhǔn),并指出未來將加快構(gòu)建智算運(yùn)維領(lǐng)域的標(biāo)準(zhǔn)生態(tài),全力為行業(yè)的智算運(yùn)維能力建設(shè)提供支持,助力產(chǎn)業(yè)行穩(wěn)至遠(yuǎn)。
產(chǎn)學(xué)研深度融合 激活智算新質(zhì)生產(chǎn)力
首期沙龍,通過 “理論研討 + 實地參觀”相結(jié)合的形式圓滿舉辦,為政產(chǎn)學(xué)研各界搭建了深度交流平臺,也為行業(yè)間業(yè)務(wù)發(fā)展提供合作交流機(jī)會。與會嘉賓圍繞 “從訓(xùn)練到推理:智算運(yùn)維服務(wù)的新變化與挑戰(zhàn)”“從基座到生態(tài):智算運(yùn)維如何加速 AI 應(yīng)用生態(tài)發(fā)展” 等議題展開圓桌討論,達(dá)成多項共識。
本次沙龍的成功舉辦,標(biāo)志著我國智算運(yùn)維領(lǐng)域邁入標(biāo)準(zhǔn)化、協(xié)同化發(fā)展新階段,中國移動(哈爾濱)智算中心在智算運(yùn)維領(lǐng)域的卓越能力和經(jīng)驗分享的突出貢獻(xiàn)得到社會各界認(rèn)可。隨著各方合作的深入,智算集群的高效運(yùn)維將為人工智能大模型訓(xùn)練/推理、行業(yè)智能化轉(zhuǎn)型提供更堅實的算力支撐,助力我國在全球智算競爭中占據(jù)領(lǐng)先地位。