項(xiàng)目概況
項(xiàng)目背景
某知名AI企業(yè)正在建設(shè)基礎(chǔ)硬件平臺(tái),目的是為科研機(jī)構(gòu)、初創(chuàng)企業(yè)和開(kāi)發(fā)者提供靈活的算力支持,構(gòu)建互聯(lián)互通的AI創(chuàng)新生態(tài),推動(dòng)民生應(yīng)用發(fā)展。
隨著越來(lái)越多AI初創(chuàng)者的加入和越來(lái)越多大模型方向的項(xiàng)目開(kāi)展,現(xiàn)有算力平臺(tái)資源難以為繼,項(xiàng)目間的資源爭(zhēng)搶已成常態(tài),嚴(yán)重影響了多個(gè)項(xiàng)目的研發(fā)進(jìn)度。為此,公司亟需進(jìn)行現(xiàn)有算力平臺(tái)升級(jí),同時(shí)考慮到新建數(shù)據(jù)中心PUE要求,液冷方案成為客戶首選。
解決方案
面對(duì)客戶需求,提供定制化智算解決方案,包括CPU、GPU、存儲(chǔ)和網(wǎng)絡(luò)模塊,以滿足客戶的特定算力需求,避免標(biāo)準(zhǔn)化方案中的性能過(guò)剩和額外成本。通過(guò)創(chuàng)新的液冷改造及建設(shè)方案,不僅實(shí)現(xiàn)了低于1.1的全年平均PUE,還大幅擺脫了室內(nèi)環(huán)境溫度依賴,無(wú)需增設(shè)列間空調(diào)等設(shè)備,極大降低了系統(tǒng)整體能耗及建設(shè)投入成本。同時(shí),部署了PlatforMax平臺(tái),統(tǒng)一管理和調(diào)度算力資源,通過(guò)圖形化界面實(shí)時(shí)監(jiān)控使用情況,支持分布式訓(xùn)練和細(xì)粒度資源管理。通過(guò)資源配額及多級(jí)權(quán)限設(shè)置,實(shí)際需求用戶可在線進(jìn)行資源的分鐘級(jí)申請(qǐng)及快速提取,有效避免內(nèi)部資源使用矛盾,使整體算力資源得到更合理、更高效使用。
客戶價(jià)值
通過(guò)液冷升級(jí),不僅幫助客戶將全年平均PUE從原來(lái)的1.5降低到了1.1以下,更進(jìn)一步保障了關(guān)鍵算力芯片的穩(wěn)定性(最高溫度較風(fēng)冷下降約20%),規(guī)避了超溫下降頻、掉卡造成的算力衰減問(wèn)題。通過(guò)PlatforMax下的資源統(tǒng)一化管理,解決了多項(xiàng)目間資源爭(zhēng)奪問(wèn)題同時(shí),帶來(lái)了運(yùn)維成本的縮減,整體運(yùn)維效率提升達(dá)到90%以上。