現象級的ChatGPT,帶火瞭高性能算力需求,在機器學習/深度學習應用域, HPC 應用已成為 AI 應用的代名詞,AI 奇點時刻的來臨以及其與 HPC 深度融合,讓我不得不更新HPC筆記。
1、什麼是高性能計算/ HPC
High Performance Computing, HPC是一種技術[i],它使用並行工作的強大處理器集群,處理海量多維數據集(大數據),並以極高的速度解決復雜問題。【個人定義】不用把HPC理解成一個系統或者超級計算機,就理解成並行計算、集群計算以及網格分佈式計算技術就好。 HPC 非常適合需要高性能數據分析的各種應用程序,例如高頻交易、仿真模擬、計算機輔助設計、機器學習和深度學習等。
2、高性能/HPC到底是指什麼
【簡單說】一般認為HPC 系統的運行速度通常要比商用臺式機、筆記本電腦或服務器系統快一百萬倍以上。
當我們談論高性能計算時,性能一般是指計算系統及時處理大量數據或進行復雜計算的能力。 HPC 系統通常設計用於處理極大的工作負載並高速執行計算,這使非常適合科學研究、金融建模和其他計算密集型任務等應用程序。在衡量 HPC 系統的性能時,通常會考慮幾個因素,包括:
- 處理器性能:指系統中中央處理器(CPU)或圖形處理器(GPU)的處理能力。 HPC 系統通常使用多個並行工作的處理器來提高處理能力。
- 內存性能:這是指系統內存(RAM)的速度和容量。 HPC 系統通常需要大量內存來支持復雜的計算和大型數據集。
- I/O 性能:這是指數據可以從系統的存儲設備輸入和輸出的速度。 HPC 系統通常需要高速存儲設備來支持大型數據集的快速處理。
- 網絡性能:這是指連接 HPC 系統各個組件的網絡的速度和容量。 高速網絡在 HPC 系統中對於支持多個處理器和存儲設備之間的通信至關重要。
小結一下,在 HPC 中性能是一個多方面的概念,涵蓋瞭很多因素,包括處理器、內存、I/O 和網絡性能。HPC 系統的目標是優化所有這些因素,為需要執行的特定任務或應用程序提供最高級別的性能。
3、HPC系統和超級計算機有什麼關系
HPC(高性能計算)和超級計算機這兩個術語經常互換使用,並且沒有明確的定義來區分它們。 一般來說,超級計算機被認為是最大、最強大的 HPC 系統類型。在硬件方面,超級計算機通常具有大量計算節點和高速互連,以及 GPU 或 FPGA 等專用處理器。 它們還可能包括用於加速特定類型計算的專用硬件,例如量子計算或人工智能。
超級計算機通常用於需要大量處理能力、內存和存儲的科學和技術計算應用程序。 示例包括氣候建模、天體物理學模擬和藥物發現。總的來說,雖然 HPC 和超級計算之間沒有明確的區別,但超級計算機通常被認為是最大和最強大的 HPC 系統類型,用於要求最苛刻的科學和技術計算應用程序。
4、典型的HPC集群規模
2022年12月中國高性能計算學術年會(CCF HPC China 2022)上發佈瞭一份《開放架構HPC技術與生態白皮書》[ii]。裡面記錄瞭19個用戶ARM架構HPC平臺的規模,我摘錄幾個用戶的情況你自己感受一下。
用戶 | 平臺規模 | 平臺軟件 | 其他 |
上海交通大學“交我算”校級計算平臺 | “交我算”鯤鵬超算共100個計算節點,節點采用雙路華為鯤鵬920處理器(64核),每個計算節點擁有128核處理器和256GB內存,總計12800核,系統的理論雙精度峰值性能達133TFLOPS | 提供18款常用的高性能計算軟件開放使用,覆蓋瞭材料科學、生命科學、大氣科學和流體力學4大高性能計算應用領域 | 鯤鵬集群的平均利用率約為41.2%,共服務瞭校內74個課題組,計算作業數量超100萬個 |
蘭州大學超算中心鯤鵬HPC集群 | 2020年6月投入使用,一共20個節點,每個節點采用兩顆華為鯤鵬920處理器,每顆主頻2.6GHz,48核心,512GB內存,總核數1960,節點之間為100Gb InfiniBand計算網絡 | 目前集群上部署過氣象預測模式軟件WRF、CESM、NEMO,分子動力學軟件GROMACS、LAMMPS、AmberTools、NAMD、CP2k,第一性原理軟件Quantum Espresso,生物信息軟件BUSCO、HMMER、Bamtools、Trimmomatic、Mmseqs Repeatmasker、Bwa、Griaffe、Gemoma、Samtools、PASA、vg pack等。 | |
中國科學技術大學超級計算中心瀚海20超級計算系統 | 20臺華為Taishan 2280V2服務器,每臺含有2顆鯤鵬920 CPU (48核,2.6GHz),256GB DDR4 2666MHz內存,采用100GE(支持RoCE)高速互聯,共1920顆核心,峰值性能40萬億次/秒。該套系統於2019年底建成。 | 目前在用賬戶102個,涉及物理學、材料科學、核科學、信息科學、地學等,從2020年至今,共完成作業35萬個,累計860萬CPU核小時 | |
國傢超級計算天津中心 | 天河新一代超級計算機 | ||
國傢超級計算深圳中心(深圳雲計算中心) | 深圳超算總投資12.3億元,一期建設用地面積1.2萬平方米,總建築面積4.3萬平方米。深圳超算配置有國產曙光6000超級計算機系統,2010年6月世界超算TOP500排名第二,運算速度達每秒1271萬億次 | 近十年來,累計服務三萬個以上用戶團隊,完成各類計算任務逾千萬個,完成15億核小時計算,服務企事業單位和科研院所過萬傢,擬構建深圳超算二期E級超級計算機 | |
國傢超級計算長沙中心 | 中心基於國內新一代超算先進技術,采用可配置柔性體系結構和高速互連等關鍵技術,部署瞭“天河”新一代主機系統。計算部件采用國產ARM指令集兼容架構CPU和邁創-3000加速器。系統包含計算處理、服務處理、互連通信、全局存儲、監控診斷、基礎架構和輔助算力系統等部分。系統64位通用超算精度不低於200P Flops,系統磁盤總容量不少於20PB,點點雙向通信帶寬不低於400Gbps。 |
5、HPC的技術核心
標準計算系統主要使用串行計算來解決問題,它將工作負載分成一系列任務,然後在同一處理器上依次執行這些任務。相比之下,HPC 則利用大規模並行計算在多個計算機服務器或處理器上同時運行多個任務。
計算機集群( HPC 集群)由多個聯網的高速計算機服務器組成,並有一個集中式調度器來管理並行計算工作負載。 這些計算機被稱為節點,使用多核 CPU,也可能包括 GPU,通過高性能組件把HPC 集群中的所有其他計算資源(網絡、內存、存儲和文件系統)高速、高吞吐量、低延遲的連接和同步起來,並行、高效完成計算任務,實現高性能。
HPC 的核心技術是使用並行計算以大規模並行的方式解決復雜的計算問題,幾個在 HPC 系統中實現並行計算的關鍵技術,如多核處理器、並行編程框架、高速互連、分佈式文件系統和加速器等軟硬件技術,實現高水平的性能和處理能力。
6、HPC系統軟件情況
HPC系統軟件包括:
操作系統,通常是Linux/Unix
- 系統管理,提供集群完整供應、管理和監控等功能
- 計劃程序或工作負載管理,調度器根據優先級、策略和隊列來管理作業,以實現最佳的資源利用率。
- 應用軟件開發生態系統
- 編程軟件環境,包括編譯器、庫、性能庫和具有特定調優功能的消息傳遞並行編程環境等
- 網絡結構軟件
- 存儲文件系統
- 存儲基準
- 遠程可視化或遠程計算,支持對模擬建模進行交互式或近實時監控,尤其適用於執行 3D 渲染的繁重圖形任務。
- HPC 數據管理, 涉及數據管理全過程,包括數據采集、存儲、元數據管理、層次結構、分層、訪問、共享、傳輸、遷移、傳輸、跟蹤、壓縮、加密、安全、ETL、保存、治理、備份、冗餘和恢復等
- 生產力工具
- 融合、超融合和可組合的基礎設施
7、HPC應用軟件
建模與仿真(M&S),創建和開發設計以測試系統、現象和過程的物理世界中的假設,以驗證技術決策。通過圖形和計算機編程、統計分析、2D 和 3D 以及更高維度的虛擬或增強現實模型,在現實條件下對設計進行測試。
- 工程,比如計算流體動力學 (CFD) 仿真模型適用於工程(空氣動力學、航空航天分析、超音速、工業設計、傳熱、發動機和燃燒設計)、汽車設計(隧道)、自然科學(天氣模擬和預測)、環境工程(空氣污染)、生物工程(細胞、分子、組織、系統模擬)、電影和遊戲行業的視覺效果。
- 生物信息學、醫療保健、制藥, 旨在從生物數據庫中提取有意義的信息以進行序列或結構分析
- 零售和商業銀行和保險企業,量化高頻交易、金融客戶個性化 (FCP) 業務、風險管理投資組合模擬和情景測試、實時金融模型風險管理 (MRM)等
- 量子計算(QC)
- 人工智能(AI), HPC 應用已成為 AI 應用的代名詞,尤其是機器學習和深度學習應用。AI 與 HPC 的融合推動瞭機器學習 (ML) 和深度學習 (DL) 軟件納入 HPC 軟件堆棧。 神經網絡算法需大量數據,訓練數據集龐大,ChatGPT的火爆一定程度上後續會進一步推動HPC算力需求的提升[iii]。
8、HPC 與雲計算
就在十年前,HPC 的高昂成本還令大多數組織對其望而卻步,這涉及到擁有或租賃一臺超級計算機,或在內部數據中心構建和托管 HPC 集群。而如今,雲中的 HPC,也稱為 HPC as a Service (HPCaaS),為公司利用HPC 提供瞭一種更快捷、可擴展且更經濟的方式。 HPCaaS 通常包括訪問雲服務商托管的 HPC 集群和基礎架構,配套HPC服務及雲上各種服務(如 AI 和數據分析)。
9、HPC 用例[iv]
HPC應用已成為 AI 應用的代名詞,尤其是機器學習和深度學習應用;如今大多數的 HPC 系統在創建時,都將這些工作負載納入瞭考量范疇。 這些 HPC 應用正在推動以下領域的持續創新:
醫療保健、基因組學和生命科學。 人類基因組測序的首次嘗試耗時長達 13 年;而如今,HPC 系統可以在不到一天的時間內完成這項工作。 在醫療保健和生命科學領域,HPC 的其他應用還包括藥物發現和設計、癌癥快速診斷和分子建模。
金融服務。 除瞭自動交易和欺詐檢測(如上所述),HPC 還支持蒙特卡羅模擬和其他風險分析方法的應用。
政府和國防。 在這一領域,兩個日益增長的 HPC 用例是天氣預報和氣候建模,這兩個用例都涉及處理大量的歷史氣象數據和氣候相關數據點每日數百萬次的變化。 其他政府和國防應用包括能源研究和情報工作。
能源。 在與政府和國防領域重疊的某些用例中,能源相關 HPC 應用包括地震數據處理、油藏模擬和建模、地理空間分析、風場模擬和地形測繪。
10、HPC展望
HPC與 AI、大數據、數據分析和量子計算的融合加速瞭基礎設施整合,以實現從小規模、中型到EB規模的最佳性能/成本比,並創造出以前沒有涉及的新HPC業務市場。
對IT從業者來說,HPC 存儲和數據管理需更全面、更深入的研究,以便在數據處理、數據集成、數據保護和安全、數據工作流管理以及本地、公有雲和混合環境等方面來進行改進、細化和簡化。
計算、存儲、應用程序和基礎架構的 HPC 性能基準和指標缺乏標準化,這為供應商和從業者提供市場及研究的機會。
以上,都是個人看法,是我基於已知公開信息作出的“有限理性”判斷。如有異議,你是對的。如覺有益,請幫助轉發或點個“在看”,讓更多人看到,更多人同行,我們可以走得更遠。
[i] https://www.ibm.com/topics/supercomputing
[ii] https://www.ccf.org.cn/Media_list/TC/2022-12-13/781317.shtml
[iii] https://server.zhiding.cn/server/2023/0208/3147388.shtml
[iv] https://research.ibm.com/blog/AI-supercomputer-Vela-GPU-cluster
-
扫码下载安卓APP
-
微信扫一扫关注我们微信扫一扫打开小程序手Q扫一扫打开小程序
-
返回顶部