數據中心資源池
數據中心資源池解決方案是一種將數據中心的物理資源(如服務器、存儲、網絡)進行虛擬化和統一管理的技術方案,它可以實現資源的動態分配和優化,提高資源的利用率和效率,降低資源的成本和風險。
背景
某計算中心是國家重點研發計劃的重要組成部分,中心需要建設一個CPU與GPU混合算力集群平臺,以支持中心的研究項目和應用需求,提高中心的計算能力和效率。
需求分析
01.
構建卓越集群平臺
集群平臺應具備高性能、高可靠、高可擴展、高安全的特點,能夠滿足中心的各類計算任務的需求,包括高性能計算、大數據分析、深度學習、圖像處理等。 展開
02.
混合架構卓越表現
集群平臺應采用CPU與GPU混合的架構,利用CPU的通用性和GPU的并行性,實現高效的計算加速。集群平臺應支持多種類型的GPU,包括英偉達、寒武紀等,以適應不同的計算場景和需求 展開
03.
卓越通信架構
集群平臺應具備良好的網絡通信能力,采用高速、低延遲、高帶寬的網絡設備,實現節點間的高效數據傳輸和協同計算
04.
全面運維解決方案
集群平臺應具備完善的管理和監控功能,采用統一的管理軟件,實現集群的配置、調度、監控、故障處理等功能,提高集群的運維效率和可用性 展開
05.
云端多租戶管理
集群平臺云管理功能,支持多租戶管理,并能夠納管裸金屬服務器
方案描述
服務器
- 采用H3C R4900G5作為通用服務器、高性能服務器和國外GPU x86服務器載體,搭配不同性能的CPU來提供相應的計算性能。采用飛騰服務器作為信創服務器及國產GPU載體。國外顯卡部署在2臺通用GPUx86服務器上,而2塊國產顯卡部署在飛騰服務器上 展開
網絡
- 采用2臺H3C全萬兆交換機作為業務交換機來上聯服務器與核心交換機,傳輸業務數據。采用2臺H3C全萬兆交換機作為存儲交換機來下聯服務器、超融合數據復制,來傳輸虛擬化平臺基礎數據。采用1臺H3C作為帶外管理交換機來遠程管理本項目所有硬件設備 展開
虛擬化
- 在所有服務器上部署H3C的超融合平臺,對計算及GPU資源進行池化資源管理
云管理平臺
- 在虛擬化平臺上部署H3C云平臺軟件,對所有服務器進行云數據中心管理
方案優勢
超融合管理平臺基于多角色集群引擎打破了物理資源壁壘,以其自適應架構,不僅可以統一管理X86資源池和ARM資源池,還可以同時管理純虛擬化節點、純分布式存儲節點、超融合節點、AI加速節點、裸金屬節點等。
兼容不同芯片、不同款型、不同配置、不同能力的物理節點。
實現了硬件資源高度集約的同時,保證了集群操作的一致性,實現了異構式的硬件資源池,大大豐富了應用場景。
客戶收益