久久最新最好视频|精品福利视频在线|狠狠狠干在线播放|色尼玛亚洲综合网|日韩加勒比无码AV|亚洲AV人人澡人人爽人人爱|国产精品免费怡红院|婷婷一区二区XXX|日韩成人一区二区三|欧美熟妇另类AAAAAA

歡迎訪問智慧醫(yī)療網(wǎng) | 網(wǎng)站首頁
 
當(dāng)前位置:首頁 > 云計算

與時俱進(jìn),京東云高性能計算平臺

發(fā)布時間:2024-12-16 來源: 京東云開發(fā)者 瀏覽量: 字號:【加大】【減小】 手機(jī)上觀看

打開手機(jī)掃描二維碼
即可在手機(jī)端查看

持續(xù)演進(jìn)的高性能計算

高性能計算是利用超級計算機(jī)實(shí)現(xiàn)并行計算的一門技術(shù)。通過使用大量通用型計算節(jié)點(diǎn)搭建陣列式計算集群,替代單體超級計算機(jī)的方式,來實(shí)現(xiàn)并行計算加速,已成為高性能計算的通用方案。

經(jīng)過多年發(fā)展,高性能計算已成為各個領(lǐng)域解決復(fù)雜計算和進(jìn)行大規(guī)模數(shù)據(jù)分析的技術(shù)底座,如 汽車和航天行業(yè)通過空氣動力模擬來提升燃油效率、能源行業(yè)通過分析地震和地質(zhì)數(shù)據(jù)來實(shí)現(xiàn)石油勘探、醫(yī)藥行業(yè)通過藥物篩選和蛋白質(zhì)結(jié)構(gòu)模擬來加速新藥研發(fā)、氣象行業(yè)通過衛(wèi)星 雷達(dá)和探空數(shù)據(jù)進(jìn)行計算模擬來預(yù)測氣候。

近年來人工智能和機(jī)器學(xué)習(xí)迎來了爆炸式發(fā)展。DeepMind的科學(xué)家開發(fā)了能夠準(zhǔn)確預(yù)測蛋白質(zhì)結(jié)構(gòu)的人工智能工具 AlphaFold,利用AI技術(shù)實(shí)現(xiàn)了蛋白質(zhì)合成后從無規(guī)則的多肽鏈自發(fā)形成的特定三維結(jié)構(gòu)的精準(zhǔn)預(yù)測。中國科學(xué)技術(shù)大學(xué)教授研發(fā)出數(shù)據(jù)智能驅(qū)動的"機(jī)器化學(xué)家",通過人工智能完成高通量合成、表征、測試的化學(xué)實(shí)驗(yàn)全流程,實(shí)現(xiàn)了高熵非貴金屬析氧反應(yīng)催化劑的高效創(chuàng)制。
通過人工智能技術(shù)來助力和加速科學(xué)研究,即AI for Science已成為一種新型的科學(xué)研究范式。而AI底層基礎(chǔ)設(shè)施依賴于高性能計算HPC技術(shù),用于提升AI模型訓(xùn)練和推理速度。
我們可以大膽預(yù)測,未來會有越來越多的基礎(chǔ)科學(xué)研究基于AI+高性能計算的技術(shù)來開展。但是對于從事AI的企業(yè)和開發(fā)者而言,HPC并不是一個能夠簡易獲得、上手即用的方便設(shè)施,這里存在著極大地運(yùn)維和學(xué)習(xí)成本。

傳統(tǒng)的HPC平臺

傳統(tǒng)的HPC平臺基于物理機(jī)或云主機(jī),在此之上安裝Slurm或PBS調(diào)度器實(shí)現(xiàn)集群管理和資源監(jiān)控。對于新入局科學(xué)研究行業(yè)的企業(yè)和開發(fā)者、以及AI科學(xué)家而言,使用傳統(tǒng)高性能計算平臺可能會存在諸多問題:

(1)建設(shè)成本高

需要采購高主頻硬件、RDMA網(wǎng)絡(luò)和高性能存儲;

需要專業(yè)的IT運(yùn)維搭建控制面、數(shù)據(jù)面、登錄節(jié)點(diǎn);

(2)復(fù)雜的集群運(yùn)維

調(diào)度組件維護(hù)和升級;

SSH用戶的文件權(quán)限管理;

適應(yīng)業(yè)務(wù)動態(tài)調(diào)整集群資源分區(qū);

存儲服務(wù)磁盤容量監(jiān)控、擴(kuò)容;

用戶作業(yè)配額管理;

(3)運(yùn)行任務(wù)有一定學(xué)習(xí)門檻
作業(yè)提交的交互和非交互模式;
作業(yè)調(diào)度腳本語法;
調(diào)度器常用命令、參數(shù);
(4)彈性能力差

集群滿載時,新加入資源從采購到加入集群需要較長時間;

擴(kuò)容的資源在集群負(fù)載不高時閑置,造成資源浪費(fèi);

除此之外,容器、微服務(wù)、聲明式API構(gòu)成的云原生基礎(chǔ)設(shè)施,已成為構(gòu)建AI應(yīng)用的主流架構(gòu)。主流人工智能平臺和開源的AI框架/套件(如 Tensorflow、Pytorch、Paddlepaddle)支持部署至Kubernetes環(huán)境,提升AI模型開發(fā)、訓(xùn)練、推理效率。而傳統(tǒng)的高性能計算平臺目前仍缺乏對云原生底層設(shè)施靈活適配的方案和快速擴(kuò)展的能力。

新一代HPC平臺

京東云高性能計算HPC平臺致力于降低企業(yè)基礎(chǔ)設(shè)施建設(shè)和運(yùn)維成本,使用戶聚焦于高性能計算作業(yè)本身,低門檻快速使用平臺能力。并且兼顧新型科學(xué)研究和AI開發(fā)場景,以普惠的方式對外提供高性能計算HPC能力。

兼容物理機(jī)、云主機(jī)等各類基礎(chǔ)設(shè)施,支持對用戶IDC存量物理節(jié)點(diǎn)進(jìn)行利舊。在此之上構(gòu)建統(tǒng)一資源管理的調(diào)度平臺,并最終以產(chǎn)品化交互的方式,對外提供超算作業(yè)運(yùn)行能力。
微信圖片_20241216122609.png與傳統(tǒng)的HPC平臺相比,新一代的HPC平臺具備種種優(yōu)勢:
(1)降低運(yùn)維和財務(wù)成本

  • 基于云的高性能集群,無需用戶進(jìn)行基礎(chǔ)設(shè)施的搭建和運(yùn)維;
  • 秒級彈性,一鍵快速加入集群,擴(kuò)充計算資源;
  • 集群長時間空閑時快速釋放云上資源,降低成本;

微信圖片_20241216122612.png
(2)細(xì)粒度權(quán)限管控

  • 底層資源使用者不可見不可登錄,保障租戶安全性;
  • 基于RBAC的權(quán)限管理,企業(yè)人員變動快速更新權(quán)限、停用賬戶;

微信圖片_20241216122615.png
(3)低門檻快速使用

  • 用戶無需編寫作業(yè)腳本,僅需控制臺提交作業(yè)運(yùn)行程序,可視化聲明資源需求即可運(yùn)行作業(yè);
  • 適配云原生開發(fā)環(huán)境,支持通過容器鏡像運(yùn)行作業(yè);
  • 平臺集成鏡像管理和文件管理能力,制品、算例文件、結(jié)果文件在平臺內(nèi)閉環(huán)管理;

微信圖片_20241216122618.png
(4)豐富的預(yù)置軟件
平臺預(yù)置數(shù)十款基礎(chǔ)科學(xué)研究常用的高性能計算軟件,用戶可直接基于模板軟件進(jìn)行科學(xué)計算(部分商業(yè)化軟件需用戶額外購買授權(quán)),加速輸出計算結(jié)果。
微信圖片_20241216122620.png
(5)成本觀測和資源優(yōu)化
平臺精準(zhǔn)跟蹤記錄用戶每一次高性能計算運(yùn)行所消耗的資源,集群管理者可針對性的進(jìn)行用戶維度的配額限制。
過程中的資源監(jiān)控輔助研發(fā)、運(yùn)維人員觀測單任務(wù)運(yùn)行過程實(shí)際的資源占用情況,與任務(wù)初始分配值對比,優(yōu)化任務(wù)對資源的申領(lǐng),避免任務(wù)申請資源閑置而新任務(wù)無法調(diào)度。

總結(jié)

京東云高性能計算HPC平臺以其簡易操作的平臺體驗(yàn)和云上豐富的彈性資源,為企業(yè)和個人開發(fā)者在高性能計算任務(wù)場景帶來了靈活性和便利性。在AI+基礎(chǔ)科學(xué)的新趨勢下,助力企業(yè)降本增效。

特別聲明:智慧醫(yī)療網(wǎng)轉(zhuǎn)載其他網(wǎng)站內(nèi)容,出于傳遞更多信息而非盈利之目的,同時并不代表贊成其觀點(diǎn)或證實(shí)其描述,內(nèi)容僅供參考。版權(quán)歸原作者所有,若有侵權(quán),請聯(lián)系我們刪除。

凡來源注明智慧醫(yī)療網(wǎng)的內(nèi)容為智慧醫(yī)療網(wǎng)原創(chuàng),轉(zhuǎn)載需獲授權(quán)。


智慧醫(yī)療網(wǎng) ? 2022 版權(quán)所有   ICP備案號:滬ICP備17004559號-5