深圳市迪士通科技有限公司
2023年
我們見(jiàn)證了人工智能(AI)的爆發(fā),它正在改變?nèi)藗兊墓ぷ?、生活、以及與技術(shù)交互的方式。
以ChatGPT為代表的生成式AI也因其顯著的進(jìn)步和廣泛的應(yīng)用,在去年引起了極大的關(guān)注。隨著人工智能的不斷發(fā)展和成熟,將有可能徹底改變從醫(yī)療保健、金融、生產(chǎn)制造到交通、娛樂(lè)等眾多行業(yè)。市場(chǎng)對(duì)人工智能的巨大需求推動(dòng)了新的芯片和服務(wù)器技術(shù)的發(fā)展,這些變化將對(duì)數(shù)據(jù)中心的建設(shè)、電力需求、水資源消耗、供配電和制冷技術(shù)與架構(gòu)帶來(lái)顛覆性的挑戰(zhàn)。如何應(yīng)對(duì)這些挑戰(zhàn),將在新的一年成為行業(yè)備受關(guān)注的議題。
自2018年起,施耐德電氣已經(jīng)連續(xù)第7年在年初發(fā)布《看得見(jiàn)的未來(lái)—數(shù)據(jù)中心行業(yè)的新趨勢(shì)與新突破》系列洞察,開(kāi)創(chuàng)了行業(yè)趨勢(shì)前瞻解讀先河,并持續(xù)引領(lǐng)未來(lái)變革方向,為數(shù)據(jù)中心行業(yè)注入強(qiáng)勁發(fā)展動(dòng)力。
立足深刻的行業(yè)洞察和實(shí)踐,施耐德電氣致力于揭示新一年數(shù)據(jù)中心行業(yè)會(huì)發(fā)生哪些變化,這些變化和趨勢(shì)對(duì)數(shù)據(jù)中心運(yùn)營(yíng)商的價(jià)值和意義,以及對(duì)這些行業(yè)變化的看法和價(jià)值主張。
以下是施耐德電氣全球數(shù)據(jù)中心科研中心對(duì)2024年發(fā)展趨勢(shì)的預(yù)測(cè)。
趨勢(shì)一
智算中心將引領(lǐng)數(shù)據(jù)中心建設(shè)
過(guò)去十年,云計(jì)算一直是推動(dòng)數(shù)據(jù)中心建設(shè)與發(fā)展的主要驅(qū)動(dòng)力,目的是為社會(huì)提供數(shù)字化轉(zhuǎn)型所需的通用算力。但是,AI的爆發(fā)帶來(lái)了巨大的算力需求,為了滿(mǎn)足AI大模型的訓(xùn)練和應(yīng)用推理,我們需要建設(shè)大量的智算中心。
施耐德電氣根據(jù)全球數(shù)據(jù)中心的用電量,GPU芯片和AI服務(wù)器未來(lái)的出貨量等數(shù)據(jù),估算出全球智算中心目前的電力需求為4.5 GW,占數(shù)據(jù)中心總57 GW的8%,并預(yù)測(cè)到2028年它將以26%-36%的年復(fù)合增長(zhǎng)率增長(zhǎng),最終達(dá)到14.0 GW至18.7 GW,占總93 GW的15%-20%。這一增長(zhǎng)速度是傳統(tǒng)數(shù)據(jù)中心年復(fù)合增長(zhǎng)率(4%-10%)的2到3倍。算力分布也會(huì)由現(xiàn)在的集中部署(集中vs.邊緣為95%:5%)向邊緣遷移(50%:50%),這意味著智算中心將引領(lǐng)數(shù)據(jù)中心建設(shè)的潮流。根據(jù)工信部的規(guī)劃,我們國(guó)家智能算力的占比將在2025年達(dá)到35%,年均復(fù)合增長(zhǎng)率在30%以上。
趨勢(shì)二
AI將推動(dòng)機(jī)柜功率密度驟升
機(jī)柜功率密度對(duì)數(shù)據(jù)中心的設(shè)計(jì)與造價(jià)具有較大的影響,包括供配電、制冷以及IT機(jī)房的布局等,一直都是數(shù)據(jù)中心比較關(guān)注的設(shè)計(jì)參數(shù)之一。
Uptime過(guò)去幾年的調(diào)研結(jié)果顯示,服務(wù)器機(jī)柜的功率密度正在穩(wěn)步但緩慢地攀升。機(jī)柜的平均功率密度通常低于6千瓦,大多數(shù)運(yùn)營(yíng)商沒(méi)有超過(guò)20千瓦的機(jī)柜。造成這一趨勢(shì)的原因包括摩爾定律使芯片的熱設(shè)計(jì)功耗維持在相對(duì)較低的水平(150瓦),同時(shí)高密服務(wù)器通常被分散部署在不同的機(jī)柜以降低對(duì)基礎(chǔ)設(shè)施的要求,但AI的爆發(fā)將改變這一趨勢(shì)。
趨勢(shì)三
數(shù)據(jù)中心正在從風(fēng)冷向液冷過(guò)渡
風(fēng)冷一直都是數(shù)據(jù)中心IT機(jī)房冷卻的主流方式,如果設(shè)計(jì)得當(dāng),可支持十幾個(gè)千瓦甚至更高的機(jī)柜功率密度。但隨著對(duì)AI訓(xùn)練性能的不斷追求,開(kāi)發(fā)人員不斷提高芯片的熱設(shè)計(jì)功耗,對(duì)這些芯片進(jìn)行風(fēng)冷變得不切實(shí)際。雖然一些服務(wù)器供應(yīng)商通過(guò)重新設(shè)計(jì)芯片的散熱器、增加服務(wù)器風(fēng)量以及進(jìn)出風(fēng)溫差,以不斷突破風(fēng)冷技術(shù)的極限,配置40-50千瓦風(fēng)冷型的AI機(jī)柜,但這會(huì)使風(fēng)扇的功耗呈指數(shù)級(jí)增加。例如,AI服務(wù)器風(fēng)扇可以消耗高達(dá)25%的服務(wù)器功率,但傳統(tǒng)服務(wù)器的典型值只有8%。
趨勢(shì)四
配電的安全可靠在智算中心更加重要
對(duì)于傳統(tǒng)數(shù)據(jù)中心,不同工作負(fù)載同時(shí)達(dá)到峰值的概率極低。比如,典型的大型數(shù)據(jù)中心峰均比通常在1.5-2.0或更高。但在智算中心,由于AI訓(xùn)練負(fù)載缺乏變化(峰均比接近1.0),工作負(fù)載可以在峰值功率下,運(yùn)行數(shù)小時(shí)、數(shù)天甚至數(shù)周。其結(jié)果是增加了上游大型斷路器脫扣的可能性,以及宕機(jī)的風(fēng)險(xiǎn)。同時(shí),由于機(jī)柜功率密度的升高,需要采用更高額定電流值的斷路器、列頭柜、小母線(xiàn)等。而在電阻變小的同時(shí),可以通過(guò)的故障電流也就更大,這意味著IT機(jī)房出現(xiàn)拉弧的風(fēng)險(xiǎn)也會(huì)升高,保證該區(qū)域工作人員的安全是必須解決的難題。
趨勢(shì)五
標(biāo)準(zhǔn)化將成為液冷推進(jìn)的關(guān)鍵
冷板式液冷和浸沒(méi)式液冷是數(shù)據(jù)中心液冷的兩種主流方式。究竟選擇哪種液冷方式以及如何實(shí)現(xiàn)快速部署一直都是行業(yè)熱議的話(huà)題。
隨著越來(lái)越多AI服務(wù)器采用冷板式液冷,冷板式液冷也更容易與傳統(tǒng)的風(fēng)冷系統(tǒng)兼容,受到很多數(shù)據(jù)中心運(yùn)營(yíng)商的青睞。但是服務(wù)器廠(chǎng)家液冷的設(shè)計(jì)方式多種多樣,快速接頭、盲插和Manifold的兼容性存在諸多問(wèn)題,IT與基礎(chǔ)設(shè)施的責(zé)任邊界也模糊不清,這大大限制了液冷在數(shù)據(jù)中心的接受度和推廣。
相較于冷板式液冷,采用碳氟化合物流體的浸沒(méi)式液冷不僅價(jià)格相對(duì)較高,而且很多碳氟化合物屬于對(duì)環(huán)境有害的人工合成類(lèi)化學(xué)物質(zhì),面臨越來(lái)越多的行業(yè)監(jiān)管與政策壓力。因此,浸沒(méi)式液冷除了采用油類(lèi)冷卻液,可用的碳氟化合物流體將越來(lái)越少。
趨勢(shì)六
數(shù)據(jù)中心將更加關(guān)注WUE
水資源短缺正在成為許多地區(qū)的嚴(yán)重問(wèn)題,了解和減少數(shù)據(jù)中心的水資源消耗變得越來(lái)越重要。此前,數(shù)據(jù)中心水資源消耗未被重視的一個(gè)重要原因是用水成本相對(duì)用電通常是微不足道的,甚至很多數(shù)據(jù)中心通過(guò)消耗更多的水來(lái)提高能效。但是,數(shù)據(jù)中心的用水已經(jīng)引起了很多當(dāng)?shù)卣年P(guān)注,尤其在水資源匱乏的地區(qū),政府正在出臺(tái)各項(xiàng)政策來(lái)限制和優(yōu)化數(shù)據(jù)中心的用水。這其中包括將WUE作為數(shù)據(jù)中心的設(shè)計(jì)指標(biāo),采用水電雙控政策。因此,減少用水量將成為許多數(shù)據(jù)中心運(yùn)營(yíng)商未來(lái)關(guān)注的重點(diǎn)領(lǐng)域。
趨勢(shì)七
提升配電能力將成為智算中心新的訴求
在智算中心,隨著機(jī)柜功率密度的提升以及AI機(jī)柜的集群化部署,IT機(jī)房的配電面臨額定容量偏小的挑戰(zhàn)。比如,過(guò)去一個(gè)300 kW的配電模塊可以支持幾十臺(tái)甚至是上百臺(tái)機(jī)柜。而如今,同樣配電模塊的電量甚至無(wú)法支持一個(gè)最低配置的NVIDIA DGX SuperPOD AI集群(單排358 kW的10個(gè)機(jī)柜,每機(jī)柜36 kW)。配電模塊規(guī)格太小,使用多個(gè)配電模塊不僅浪費(fèi)IT空間,也變得不切實(shí)際。與單個(gè)大容量配電模塊相比,多個(gè)配電模塊還會(huì)增加成本?;貧w配電的本質(zhì),提高配電容量的主要手段就是增大電流。
趨勢(shì)八
AI將賦能數(shù)據(jù)中心的節(jié)能改造
數(shù)據(jù)中心通過(guò)提供AI算力推動(dòng)人類(lèi)社會(huì)向著自動(dòng)化、數(shù)字化和電氣化等更加可持續(xù)的方向演進(jìn),賦能交通、制造和發(fā)電領(lǐng)域減少對(duì)環(huán)境的影響。反過(guò)來(lái),AI也可以賦能數(shù)據(jù)中心能源的優(yōu)化,來(lái)減少其自身對(duì)環(huán)境的影響。
比如,AI和機(jī)器學(xué)習(xí)技術(shù)可以用于數(shù)據(jù)中心冷源系統(tǒng)和空調(diào)末端的控制,通過(guò)對(duì)歷史數(shù)據(jù)的分析,實(shí)時(shí)監(jiān)測(cè)數(shù)據(jù)中心氣流分布,并基于數(shù)據(jù)中心IT負(fù)載的變化,實(shí)時(shí)匹配合適的冷量輸出。通過(guò)自動(dòng)調(diào)節(jié)末端精密空調(diào)及風(fēng)機(jī)的運(yùn)轉(zhuǎn)方式,從而實(shí)現(xiàn)動(dòng)態(tài)地按需制冷,以減少熱點(diǎn)并且降低機(jī)房的能源消耗與運(yùn)維成本。
趨勢(shì)九
配電系統(tǒng)的占地面積將引關(guān)注
在數(shù)據(jù)中心設(shè)計(jì)中,追求IT機(jī)房面積占比的最大化,即盡可能減少輔助設(shè)備間的占地面積,一直都是數(shù)據(jù)中心設(shè)計(jì)的主要訴求之一。對(duì)于傳統(tǒng)的數(shù)據(jù)中心,IT機(jī)房的面積與配電室的面積之比通常為1.5:1左右。隨著AI驅(qū)動(dòng)IT機(jī)柜的高密化,越來(lái)越多的IT機(jī)房采用液冷方式,液冷IT機(jī)房的面積與配電室的面積之比將發(fā)生逆轉(zhuǎn),在0.6:1左右。這時(shí),配電室的占地面積將引起數(shù)據(jù)中心設(shè)計(jì)人員的更多關(guān)注,優(yōu)化配電室的占地面積也必將成為行業(yè)的一個(gè)發(fā)展方向。
趨勢(shì)十
儲(chǔ)能系統(tǒng)在數(shù)據(jù)中心的價(jià)值日益凸顯
UPS系統(tǒng)在實(shí)現(xiàn)數(shù)據(jù)中心電能質(zhì)量治理和不間斷供電方面一直發(fā)揮著重要的作用。隨著數(shù)據(jù)中心運(yùn)營(yíng)商面臨著提高可持續(xù)性和財(cái)務(wù)績(jī)效,同時(shí)保持或增強(qiáng)供配電系統(tǒng)的可靠性和彈性的壓力,新的能源存儲(chǔ)和發(fā)電技術(shù)提供了新的可能性,但也對(duì)傳統(tǒng)數(shù)據(jù)中心運(yùn)營(yíng)模式和電氣架構(gòu)提出了挑戰(zhàn)。電池和燃料電池等分布式能源技術(shù)能夠有效產(chǎn)生或存儲(chǔ)清潔能源。
儲(chǔ)能系統(tǒng)除提供傳統(tǒng)UPS系統(tǒng)功能外,還可以通過(guò)在用電高峰時(shí)釋放存儲(chǔ)的能量來(lái)管理電力需求高峰,實(shí)現(xiàn)扛峰增載;通過(guò)削峰填谷,降低數(shù)據(jù)中心用電成本,來(lái)實(shí)現(xiàn)能源成本優(yōu)化;同時(shí)參與電網(wǎng)的需求響應(yīng),實(shí)現(xiàn)創(chuàng)收。
進(jìn)入2024年
數(shù)據(jù)中心行業(yè)的重點(diǎn)將從傳統(tǒng)數(shù)據(jù)中心建設(shè)轉(zhuǎn)向智算中心建設(shè),通過(guò)不斷的技術(shù)創(chuàng)新來(lái)實(shí)現(xiàn)智算中心的可持續(xù)發(fā)展與適應(yīng)下一代IT技術(shù)是關(guān)鍵所在。