생성 데이터 인텔리전스

AI 워크로드 개발은 복잡함

시간

후원 기능 최근 몇 년간 인공지능(AI)이 기술계에 충격파를 보내고 있었다면, 지난 18개월 동안의 생성 AI의 등장은 그야말로 지진이었다.

자신의 조직에서 잠재력을 활용하려는 IT 리더의 경우 개발 속도가 어리둥절할 수 있습니다. 기업은 자체 데이터를 최대한 활용하여 AI 모델을 구축하거나 이미 사용 가능한 공개 모델의 용도를 변경하기 위해 경쟁하고 있습니다. 그러나 이는 관련된 개발 및 데이터 과학 팀에게 중요한 과제를 제기할 수 있습니다.

또한 AI 워크로드를 지원하는 데 필요한 HPC 인프라를 계속 제어하려는 기업에게 난제를 제시할 수도 있습니다. AI 지원 애플리케이션 및 서비스에는 기존 컴퓨팅보다 훨씬 더 복잡한 실리콘 조합이 필요하며 훈련 및 추론 단계에서 필요한 방대한 양의 데이터를 처리하기 위한 스토리지 용량 및 연결 대역폭도 필요합니다.

런던 데이터 센터는 AI 동향을 반영합니다.

엔터프라이즈 AI 혁신의 잠재력과 그것이 제시하는 과제는 AI가 호스팅 회사의 고객 어젠다의 최우선 과제로 이동함에 따라 런던과 그 주변의 거대 코로케이션 거대 Digital Realty의 데이터 센터 단지 전반에서 일어나는 일에 반영됩니다.

영국 수도와 그 주변 지역에는 금융 서비스뿐만 아니라 제약, 제조, 소매, 기술 등 기타 주요 산업 분야의 본사 건물과 R&D 사무실이 밀집되어 있습니다.

Digital Realty CTO인 Chris Sharp는 런던이 영국의 정치적, 법적 안정성, 숙련된 인력, 첨단 기술 인프라로 인해 매력적이며 혁신과 AI 애플리케이션 및 워크로드 배포를 위한 탁월한 기반이 된다고 설명합니다.

그는 많은 기업이 데이터와 IP의 일반적인 중요성에 관한 문제와 데이터 주권 및 규제에 관한 특정 문제를 잘 알고 있을 것이라고 덧붙였습니다.

Sharp는 “훈련에는 약간의 차이가 있습니다.”라고 설명합니다. "어디서나 수행할 수 있을지는 아무도 모릅니다. 추론은 [로컬] 규정 준수 [규칙]을 준수해야 합니다." 또한 하나의 모델이 반드시 전 세계에 서비스를 제공할 수는 없다는 이해가 높아지고 있습니다. "일부 지역성이 있을 것이므로 교육 시설에 대한 요구 사항도 결정될 것입니다."

동시에 이러한 조직은 특히 AI에 필요한 인프라를 구축하고 강화하는 데 있어서 전 세계 다른 기업과 동일한 기술 문제에 직면해 있습니다.

이러한 워크로드에 단순히 더 많은 CPU를 투입하는 것만으로는 충분하지 않습니다. AI 및 HPC 파이프라인의 과제 중 하나는 이러한 애플리케이션의 복잡성을 효율적으로 지원하는 데 필요한 다양한 유형의 특수 제작 하드웨어일 수 있습니다.

이러한 범위는 CPU부터 GPU, 신경망용으로 설계된 애플리케이션별 TPU(텐서 처리 장치)까지 다양하며 모두 미묘하게 다른 요구 사항을 갖고 있으며 모두 잠재적으로 고객의 AI 파이프라인에서 역할을 수행합니다. Sharp는 “해당 인프라의 전체 배포를 지원할 수 있는 것이 가장 중요합니다.”라고 지적합니다.

더욱이, AI 프로젝트가 개발을 넘어 생산으로 이동함에 따라 이러한 플랫폼 간의 균형이 변경될 예정입니다. “스냅샷을 찍으면 오늘날 85%는 훈련이고 15%는 추론입니다. 하지만 24개월이 지나면 추론을 지원하기 위한 요구 사항이 10배 더 많아집니다.”라고 그는 덧붙였습니다.

AI 스마트 활용

따라서 모델이 발전함에 따라 기본 아키텍처를 유연하게 조정하고 균형을 재조정하는 능력이 무엇보다 중요합니다.

또한 필요한 AI 워크로드 성능 수준을 제공하기 위해 이 방대한 양의 데이터와 컴퓨팅을 함께 연결하는 과제도 있습니다. 영국 고객은 데이터 주권을 매우 염두에 두고 있지만 필요할 때 여전히 국제적으로 워크로드를 처리해야 합니다. 그리고 전 세계의 데이터 바다를 활용해야 할 수도 있습니다. Sharp가 말했듯이 "모든 데이터를 소유할 수는 없기 때문에 이러한 것들을 어떻게 연결합니까?"

그러나 연결성은 단순히 외부적인 문제가 아닙니다. “데이터 센터의 4개 벽 내에서 고객이 GPU, CPU, 네트워크 노드를 연결함에 따라 케이블 요구 사항이 6배 증가한 것으로 나타났습니다. …. 그래서 광섬유 연결을 위한 하나의 케이블 트레이가 있었지만 이제는 이를 가능하게 하기 위해 그 케이블 트레이가 6배나 되었습니다.”

이 모든 것에는 이 기반 시설에 전력을 공급하고 주택을 공급하는 것과 관련된 과제가 있습니다. 필요한 기술의 밀도만으로도 바닥 하중 문제가 발생한다고 Sharp는 설명합니다. "이러한 기능의 단순한 무게는 엄청납니다." 그리고 Digital Realty가 대규모 클라우드 제공업체와 협력하면서 프로젝트 규모가 확대되고 AI 기술이 발전함에 따라 바닥 부하 요구 사항이 엄청나게 빠르게 증가할 수 있다는 사실을 발견했습니다.

냉각 역시 데이터 센터에서는 항상 과제이며 Sharp에 관한 한 수냉식 냉각에 집중할지 공기 냉각에 집중할지에 대한 논쟁은 더 이상 없습니다. “두 가지를 모두 효율적으로 지원할 수 있는 능력이 필요합니다.”

AI 워크로드에 필요한 처리 능력의 밀도가 결합되면 이는 모두 부문 전반의 전력 수요에 극적인 영향을 미칩니다. 슈나이더 일렉트릭이 작년에 발표한 추정치 AI는 현재 데이터 센터 전력 소비 수요의 4.5GW를 차지하고 있으며, 연평균 성장률(CAGR) 25~33%로 증가해 14년에는 18.7GW~2028GW에 이를 것으로 예상됩니다. 이는 수요가 10~XNUMX배 더 많은 수치입니다. 같은 기간 동안 CAGR이 XNUMX% 증가할 것으로 예상되는 전체 데이터 센터 전력의 경우).

이는 데이터 센터 운영자가 "더 많은 전력 밀도를 요구하고 이러한 급성장하는 배포를 지원하는 데 필요한 면적이 증가하는 점점 더 많은 새로운 하드웨어가 시장에 출시됨"을 고려해야 함을 의미합니다.

갱신 상태

이러한 어려운 과제는 런던과 그 주변의 Digital Realty 인프라 개발과 기업이 AI 운영을 확장함에 따라 지속적인 개조 및 최적화에 영향을 미쳤습니다.

이 회사는 런던 전역에 고도로 연결된 320개의 캠퍼스를 보유하고 있으며 거의 ​​XNUMX만 평방피트에 달하는 콜로 공간을 제공합니다. 하지만 이는 도시 전역에 XNUMX개 이상의 다양한 클라우드 및 네트워크 서비스 제공업체가 있기 때문에 단독으로 존재하지 않습니다. “오늘날 우리가 보고 있는 것은 고객이 성공하려면 전체 제품 스펙트럼이 필요하다는 것입니다.”라고 Sharp는 말합니다.

액체 냉각은 런던 인프라의 특정 요소입니다. 액체는 공기보다 밀도가 800배 더 높기 때문에 효율성에 큰 영향을 미칠 수 있습니다. 런던에 있는 Digital Realty의 Cloud House 데이터 센터는 냉각을 위해 Millwall 도크에서 물을 끌어옵니다. 이 시스템은 기존 냉각보다 최대 20배 더 효율적입니다. 센서는 필요한 양의 물만 사용하고 물이 그대로 도크로 반환되도록 합니다.

그러나 현재와 미래의 런던 주변 기업의 요구를 충족할 수 있는 능력은 Digital Realty의 더 넓은 비전에 달려 있습니다.

Digital Realty의 유럽 사업장에서 소비되는 모든 전력은 전력 구매 계약 및 기타 계획을 통해 재생 가능 에너지와 일치하며, 회사 전체는 전 세계적으로 1GW 이상의 신재생 에너지 계약을 맺고 있습니다.

하드웨어 수준에서는 랙당 70KW를 지원하는 HD Colo 제품과 같은 기술을 개발했습니다. 이는 현재 최첨단 HPC 및 AI 아키텍처를 뒷받침하는 Nvidia H100 시스템에 대한 인증 요구 사항의 XNUMX배를 나타냅니다.

Sharp가 설명했듯이 거시적 수준에서 Digital Realty는 수년 전에 시설을 계획합니다. 여기에는 "부동산 마스터 계획, 토지 은행 업무, 변전소 업무 등을 포함하여 5~6년 동안 전력을 미리 계획했는지 확인"하는 것이 포함됩니다.

이를 위해서는 변전소 자체에 대한 투자를 포함하여 처음부터 지방 당국 및 유틸리티 제공업체와의 긴밀한 조정이 필요합니다.

“우리는 전력회사와 광범위하게 협력하여 발전뿐만 아니라 배전도 이루어지고 이에 따라 그리드를 강화하도록 합니다. 저는 이것이 우리 고객과 최신 공급업체에게 실제로 그 수요에 부응할 수 있는 많은 시간을 허용한다고 생각합니다.”

냉각, 전력 및 인프라 관리의 복잡성

어느 것이 더 복잡한지 결정하기 어려울 수 있습니다. AI 인프라를 빠르게 개발하거나 수년에 걸쳐 유틸리티 및 지방자치단체를 처리하는 데 앞서가는 냉각 기술 및 전력 관리 플랫폼을 개발합니다.

그러나 조직이 자체 AI 역량을 신속하고 지속 가능하게 확립하고 확장하려고 하기 때문에 이 두 가지를 모두 해결하는 것이 중요합니다.

Sharp는 AI 야망을 지원하기 위해 자체 HPC 인프라를 강화해야 하고 칩에 직접 액체를 활용해야 한다는 것을 알고 있던 한 유럽 교육 및 연구 기관의 예를 인용합니다. 물론 자체 인프라를 구축할 수 있는 기술적 노하우도 있었을 것입니다. 그러나 일단 프로젝트 계획을 시작하자 처음부터 시작하려면 25~XNUMX년의 구축이 필요하다는 것이 분명해졌습니다. 그리고 그것은 현재 환경의 나이입니다. 더욱이 현지 규정에 따르면 XNUMX년 동안 에너지 사용량을 XNUMX%까지 줄여야 했습니다.

그러나 Sharp는 Digital Realty와 제휴하여 100년 만에 배포할 수 있었고 30% 액체 냉각을 사용하여 에너지 효율성을 XNUMX% 향상했다고 설명합니다. Sharp가 말했듯이 "정말 빨리 도움이 되었습니다."

지난 18개월 동안 세상이 얼마나 빨리 변했는지를 고려하면, AI 프로젝트를 시작하고 실행하여 신속하게 생산에 투입할 수 있는 능력은 갖고 있는 것보다 훨씬 더 좋습니다. 많은 기업의 경우 이는 실존적일 것입니다.

Sharp는 “많은 AI 배포가 실패했습니다. 과학적인 측면과 복잡성이 너무 많기 때문입니다.”라고 말합니다. 하지만 그는 계속해서 "우리는 복잡성을 제거하는 데 많은 시간을 소비합니다."라고 말합니다.

디지털리얼티가 후원합니다.

spot_img

최신 인텔리전스

spot_img