PlatforMax 智能軟件平臺
PlatforMax智算融合平臺是超集信息自主研發(fā)的面向于高性能計算(HPC)和人工智能(AI)場景的智算融合平臺,采用先進的技術(shù)架構(gòu),由同一個管理節(jié)點納管,可以將計算節(jié)點資源劃分為HPC和AI兩個分區(qū),分區(qū)資源相互獨立,滿足用戶對于HPC及AI業(yè)務(wù)的資源需求,為用戶提供了一套既可以進行HPC作業(yè),又可以進行AI訓練的環(huán)境,助力HPC+AI業(yè)務(wù)的發(fā)展。


產(chǎn)品架構(gòu)
-
基礎(chǔ)層基礎(chǔ)設(shè)施以硬件服務(wù)器為載體,支持主流 X86 服務(wù)器,配置 NVIDIA GPU 實現(xiàn)高性能加速計算,采用主流分布式存儲設(shè)備,支持 TCP/IP,InfiniBand 高速網(wǎng)絡(luò)互聯(lián)。
-
平臺層平臺層是整個系統(tǒng)的核心內(nèi)容,采用先進的技術(shù)架構(gòu),能夠?qū)崿F(xiàn)異構(gòu)資源的高效管理、調(diào)度和監(jiān)控,除提供AI模型開發(fā)、AI模型訓練到AI部署的完整功能外,也適用于生命科學、氣象預報、量子力學、油氣勘探等HPC科學計算領(lǐng)域。
核心功能
集群管理
提供集群資源監(jiān)控、集群節(jié)點管理、集群分區(qū)管理、用戶權(quán)限管理、數(shù)據(jù)存儲、任務(wù)鏡像等管理服務(wù),對集群內(nèi)資源進行HPC分區(qū)節(jié)點、AI分區(qū)節(jié)點的管理,采用表盤式工作界面,菜單界面平滑直觀,功能化繁為簡,一目了然。
用戶管理
管理員對用戶和用戶組的CPU、GPU、內(nèi)存和存儲配額進行設(shè)定,限定資源數(shù)量。系統(tǒng)具備集群管理員、分區(qū)管理員、項目管理員、普通用戶多級多角色管理,用戶的數(shù)據(jù)存儲空間相互隔離,無法越界訪問未授權(quán)的數(shù)據(jù),支持設(shè)置用戶有效期,以及批量導入用戶。
鏡像管理
平臺內(nèi)置Tensorflow、PyTorch、MxNet、CUDA、Gromacs、NAMD、LAMPPS、OpenVINO、oneAPI等鏡像,還可連接NGC、Docker HUB等獲取鏡像,支持用戶上傳鏡像與自定義鏡像,滿足不同用戶對鏡像制作的要求。
數(shù)據(jù)存儲
平臺通過NFS實現(xiàn)統(tǒng)一的網(wǎng)絡(luò)文件存儲系統(tǒng),支持多種單機,分布式等多種存儲方式,支持數(shù)據(jù)上傳、下載、刪除、壓縮、解壓、復制、移動和內(nèi)容瀏覽等,不同用戶的私有數(shù)據(jù)相互隔離,用戶不同的項目數(shù)據(jù)之間相互隔離。
作業(yè)調(diào)度
平臺支持AI或HPC任務(wù),AI任務(wù)可選單機或分布式任務(wù),分布式任務(wù)支持容器之間SR-IOV高速虛擬網(wǎng)卡通信;HPC任務(wù)支持Web、Shell、命令行等方式提交任務(wù),Slurm調(diào)度器根據(jù)資源需求,調(diào)度任務(wù)到最優(yōu)節(jié)點,保障任務(wù)高效運行。
監(jiān)控中心
監(jiān)控系統(tǒng)資源使用情況,節(jié)點狀態(tài),任務(wù)運行情況,通過單一界面管理平臺,從分區(qū)、用戶、集群、任務(wù)類型等各個層次和維度展示當前GPU的空閑和占用狀態(tài),支持按種類查看GPU卡的使用,監(jiān)控報表可選擇AI或HPC生成所選時間的監(jiān)控表報。
推薦機型