Power Stabilization for AI Training Datacenters

카테고리 없음

Power Stabilization for AI Training Datacenters - OpenAI, Microsoft, NVIDIA

energyresearch 2025. 10. 28. 17:03

링크: https://arxiv.org/html/2508.14318v1#abstract

요약

대규모 AI 학습은 수만 개의 GPU가 동기적으로 계산과 통신을 반복하면서 전력 소비가 크게 출렁이는 특성을 보이며, 이 전력 변동은 랙·데이터센터·전력망 수준에서 수십 MW 규모의 동시 요동으로 증폭되어 터빈 발전기, 송전망, 변압기 등에 기계적·전기적 스트레스를 가하고, 저주파 공진(부동기 공진), 전압 플리커, 계통 불안정성 등의 새로운 전력 품질 리스크를 유발한다.

이 변동은 본질적으로 학습 반복의 구조에서 비롯된다. GPU는 순방향/역방향 계산 단계에서는 TDP에 가까운 높은 전력을 쓰다가, all-reduce 기반 그래디언트 동기화나 체크포인트 저장 등 통신 단계에서는 유휴 수준의 낮은 전력만 쓰므로 동일 GPU에서도 초·수초 단위로 전력이 급락·급등한다. 대규모 동시 동작으로 인해 이러한 스텝형 전력 파형의 주파수 성분은 약 0.2~3Hz에 집중되며, 이는 송전선 상호동요(하위 동기 진동), 발전소 간 저주파 상호 진동(1~2.5Hz), 그리고 터빈-발전기 축 비틀림 공진(수 Hz~수십 Hz) 등 전력계통의 민감 모드와 겹친다. 특정 주파수 대역의 자극이 지속될 경우 감쇠 특성이 충분하더라도 샤프트 피로, 차단기 트립, 계통 분리(섬 모드) 같은 실제 사고 위험으로 이어질 수 있다.

이 문제를 억제하기 위해 전력 회사와 데이터센터는 두 범주의 사양을 요구·준수해야 한다. 첫째, 시간 영역 사양이다. 이는 전력 상승·하강 속도(램프 업/다운), 동적 전력 범위(단기 변동 허용 폭), 그리고 계획 대비 편차 관리 등으로 정의되며, 허용치를 넘으면 패널티나 출력 감축 요구가 발생한다. 둘째, 주파수 영역 사양이다. 이는 계통 공진 주파수에 해당하는 임계 대역(예: 0.1~20Hz)을 지정하고, 그 대역 내 부하의 스펙트럼 크기를 일정 비율 이하로 제한해 공진 여기 자체를 억제하는 요구사항이다. 또한 GPU의 초단기 EDP 피크(수십 ms 단위 전력 오버슈트)까지 고려해 상위 PDU나 유틸리티 단계에서 관측되지 않도록 관리할 필요가 있다.

이를 충족하기 위한 완화 전략은 세 가지 계층으로 정리된다. 첫째, 소프트웨어 기반 완화(예: Firefly)다. GPU 전력이 임계값 아래로 떨어질 때 전력 소모가 큰 보조 워크로드(예: 행렬 곱셈)를 주입해 전력 파형을 평탄화하고 램프 요구를 맞춘다. 이 방식은 하드웨어 변경 없이 빠르게 적용 가능하고 유연하지만, (1) 쓸모 없는 계산으로 인한 에너지 낭비, (2) 주 워크로드 성능 저하(수% 수준), (3) CPU·호스트 대역폭 추가 소모, (4) 장애 도메인 결합에 따른 안정성 리스크, (5) 클라우드 고객-사업자 간 조정 필요성이라는 한계를 가진다.

둘째, GPU 전력 평활화다. 이는 GPU 펌웨어/컨트롤러 수준에서 램프 업·다운 속도, 최소 전력 플로어(MPF), 정지 지연을 프로그래밍해 GPU가 유휴 상태에서도 일정 전력 이상을 유지하도록 하고, 급격한 전력 낙폭을 하드웨어적으로 억제하는 방식이다.

NVIDIA GB200은 이 기능을 통해 시간 영역 제약과 일부 주파수 영역 제약을 직접 만족시키며, 개발자(인밴드)나 클라우드 운영자(아웃밴드)가 프로파일을 설정할 수 있다. 이 방식은 운영 안정성이 높고 주 워크로드 간섭이 적지만, 높은 MPF 유지로 인해 에너지 오버헤드(예: 약 10% 수준)가 발생하고, 현재 세대 GPU는 MPF·EDP 한계 때문에 클러스터 전체 동적 전력 범위를 매우 좁은 폭(예: 총부하의 10% 이내 등)으로 줄이는 데에는 한계가 있다. 또한 내장 수명(내구성) 제약도 존재한다.

셋째, 랙 수준 에너지 저장 장치다. 랙 단위에 소형 에너지 저장(배터리 등)을 두고, 통신 단계(저전력 구간)에는 충전하고 계산 단계(고전력 구간)에는 방전하여 순간 피크 부하를 흡수·완화한다. 이는 에너지를 버리지 않고 재배치하므로 에너지 효율 측면에서 가장 이상적이며, 전력 회사의 엄격한 동적 범위·램프 사양 충족 능력도 높다. 랙 단위 배치는 기존 AC-DC 경로에 자연스럽게 붙일 수 있고 장애 도메인을 국소화해 데이터센터 전체 안정성을 높인다. 다만 저주파(램프 업/다운)까지 완전히 흡수하려면 매우 큰 정전용량이 필요하므로 비용, 랙 내 공간, 내재 탄소 부담이 커지고, 드물게 발생하는 극단 이벤트까지 대비하려면 경제성이 떨어질 수 있다.

현실적인 해법은 이 세 가지를 결합한 크로스 스택 접근이다. 즉, GPU 수준 전력 평활화(필요 시 소프트웨어형 보조 워크로드 포함)로 램프 업·다운과 코너 케이스를 제어하고, 랙 수준 에너지 저장 장치로 반복적 전력 파형의 저주파 성분을 흡수해 전체 동적 전력 범위를 줄이는 구조다. 이 조합은 에너지 낭비, 비용, 공간, 안정성 측면에서 가장 균형적이다. 다만 이를 위해서는 GPU와 랙 저장 장치 간 충전 상태(SOC)와 여유 용량 정보를 주고받는 공동 설계가 필요하다. 향후에는 랙 근처의 단기 저장 장치와 더 대형의 배터리 에너지 저장 시스템(BESS)을 결합한 다층 저장 아키텍처가 요구될 가능성이 크다.

추가로, 데이터센터는 빠른 원격 계측과 실시간 스펙트럼 분석(FFT 기반)을 통해 전력 파형을 상시 감시하고, 문제 주파수의 출현을 조기에 감지해 부하 셰이핑·소프트 스로틀링 같은 완만한 개입을 즉시 시행하며, 상황이 악화될 경우 회로 단위 차단이나 계획된 분리 조치까지 단계적으로 올리는 ‘백스톱’ 체계를 운용해야 한다. 이는 사전 완화 기법만으로 제어되지 않는 하위 동기 주파수 공진 위험에 대한 마지막 방어선이다.

궁극적으로 이 문제는 단일 주체가 해결할 수 없으며, 세 방향의 공동 행동이 요구된다. 첫째, AI 프레임워크·시스템 설계자는 통신/계산 동기화를 완화하고 전력 인지형으로 동작하는 학습 알고리즘(비동기 학습, 스케줄링, 계산·통신 중첩 등)을 개발해야 한다. 둘째, 유틸리티와 계통 운영자는 공진 주파수·램프 한계 등 전력 품질 사양을 투명하게 공유하고 데이터센터와 표준화된 상호 운용 채널을 구축해야 한다. 셋째, 업계 전반은 OCP 등 공개 포럼을 통해 원격 계측, 부하 신호, 하위 동기 진동 완화에 관한 공통 표준과 모범 사례를 수립해야 한다.

결론적으로, 전력 안정화는 AI 학습 인프라 확장의 새로운 병목이며, 이를 해결하기 위해서는 소프트웨어 기반 스무딩, GPU 펌웨어 기반 제어, 랙 수준 에너지 저장, 그리고 실시간 감시·백스톱까지 아우르는 다층적 전력 공학이 필수이며, 연구계·산업계·전력계의 지속적 협력과 표준화 노력이 동반되어야 한다.

본문

초록: 대규모 AI 학습 작업은 연산 단계와 통신 단계 사이의 전력 수요 차이로 인해 GPU, 랙, 데이터센터, 전력망 수준에서 큰 전력 변동을 발생시키며, 이는 공진 위험을 통해 전력 인프라에 물리적 손상을 초래할 수 있으므로 전력 안정화가 필수이다. 본 논문은 실제 프로덕션 데이터를 바탕으로 문제의 규모와 주파수 특성을 정량화하고, 소프트웨어 제어 워크로드 주입, GPU 펌웨어 기반 전력 램핑·플로어 관리, 랙 수준 에너지 저장 장치 등 스택 전반의 완화책을 제시하며, 각 방식의 효과·효율·배포 가능성을 비교하고 실제 하드웨어 및 Microsoft 전력 시뮬레이터에서 검증된 결과를 통해 다각적 공동 설계의 필요성을 주장한다.

서론: 프런티어급 AI 모델 학습은 단일 작업이 10만 개 이상의 GPU에서 벌크 동기 방식으로 수행될 정도로 규모가 커졌으며, 이 과정에서 GPU는 대부분의 시간 연산에 TDP 수준의 전력을 사용하다가 all-reduce 통신, 파라미터 동기화, 체크포인트 기록 단계에서는 유휴에 가까운 전력만 소비하므로 반복 주기마다 큰 전력 스텝 변동이 발생한다. 이러한 변동은 개별 노드를 넘어 랙, 데이터센터, 심지어 동일 전력망에 연결된 여러 데이터센터 수준에서 동기화된 형태로 수십~수백 MW 규모로 나타나며, 특정 주파수 대역에서 전력망 구성 요소의 공진을 유발할 경우 그리드 불안정성과 기계적 고장을 일으킬 위험이 실제로 존재함이 전력 업계에 의해 보고되었다. 본 논문은 하이퍼스케일 학습 클러스터에서 관측된 전력 진폭·주파수 특성을 제시하고, 소프트웨어 기반 부드러운 전력 전이 기법, GPU 펌웨어 기반 램프 속도 및 전력 하한 제어, 랙 단위 에너지 저장을 활용한 충·방전 보정이라는 세 가지 완화 전략을 효과·효율·배포 용이성 기준으로 비교하며, AI 인프라 확장을 위해 소프트웨어·하드웨어·전력 인프라의 공동 설계를 권고한다.

최근 인공지능 분야에서는 신경망 규모와 복잡도가 급격히 커졌으며, 단일 GPU에서 약 6천만 개 매개변수로 학습 가능한 AlexNet 수준을 넘어 수백억~수천억 개 매개변수를 가진 기반 모델이 일반화되었다. 이러한 확장은 트랜스포머 기반 아키텍처의 진화, 데이터·텐서·파이프라인 병렬화를 통한 분산 학습 기법, 고대역폭 인터커넥트와 특화 데이터센터 GPU 같은 하드웨어 향상, 그리고 데이터센터 전력 인프라의 초대형화(수 MW에서 수백 MW 규모)라는 요인이 결합해 가능해졌다. GPT-3, Grok1, PaLM, Llama3.1 등 초대형 모델은 여전히 막대한 계산 자원을 요구하며, 최근 Phi나 DeepSeek 계열과 같이 효율 개선을 추구한 모델도 기본적으로 수만 개 규모의 GPU를 전제로 한 학습을 수행한다.

대규모 모델 학습은 반복 구조로 진행되며, 각 반복은 계산 단계와 통신 단계로 나뉜다. 순방향 패스와 역방향 패스 동안 각 GPU는 자신에게 분할된 미니배치를 독립적으로 처리하고 로컬 그래디언트를 계산한다. 이후 모든 GPU가 all-reduce 연산을 통해 그래디언트를 집계·공유함으로써 동일한 전역 모델 상태로 동기화되며, 이 동기화가 완료되어야만 다음 반복으로 넘어갈 수 있다. 체크포인팅은 비교적 덜 자주 발생하지만 모델 파라미터와 최적화기 상태를 영구 저장소에 기록해 장시간 학습 작업이 장애 이후에도 큰 손실 없이 재개되도록 보장한다. 통신과 계산을 중첩하는 기법이 존재하더라도 대부분의 데이터 병렬 학습 워크로드는 반복 종료 시점에 큰 동기화 구간을 포함하며, 체크포인팅, 장애 복구, 동적 부하 분산 등 추가적인 일시적 작업도 GPU 전체의 활동/유휴 패턴을 뒤섞어 전력 변동성을 더 키운다. 비동기 학습은 동기화 병목을 줄일 수 있으나, 정확도와 수렴 안정성 측면에서 대가가 있는 것으로 알려져 있다.

학습 중 GPU 전력 소비는 계산 단계와 통신 단계 전환에 따라 급격히 출렁인다. 계산 단계에서는 텐서 코어가 거의 최대 활용도로 동작해 GPU가 TDP에 가까운 높은 전력을 소모한다. 반면 all-reduce와 같은 통신 단계나 체크포인트 기록 구간에서는 계산 유닛이 유휴 상태에 가깝게 떨어지므로 소비 전력이 단기간에 크게 감소한다. 이 전력 하강은 동일 GPU에서도 초당 한 번 미만의 주기부터 수십 초 단위 주기까지 반복적으로 나타나며, 클러스터 규모가 커질수록 이러한 동시적 전력 스텝 변화가 데이터센터 전체 수준의 가시적인 전력 요동으로 증폭된다.

GB200 서버에서 GPU가 서버 전력의 50% 이상을 차지하므로, 수천 개 GPU의 동시·주기적 전력 변화는 랙과 데이터센터 전체 전력 소비를 수십 MW 규모로 요동시키며, 이는 분전 장치와 변압기에 부하를 주고 전력망에 고조파 간섭을 유발할 수 있는 수준의 문제로 이어진다.

즉, 최신 GPU 클러스터는 높은 FLOPS 성능을 제공하지만, 딥러닝 학습의 강한 동기화 특성 때문에 전력 소비가 큰 폭으로 출렁이며, 이는 유틸리티 안정성 측면에서 소프트웨어·하드웨어·인프라 전반의 체계적 대응을 요구하는 새로운 전력 품질 과제다.

이러한 반복적 부하 변동이 발전기 터빈의 비틀림 고유진동수와 맞물리면 회전체에 고진폭 비틀림 진동이 유발될 수 있으며, 장기간 지속될 경우 특히 대형 2극·4극 터빈에서 샤프트 피로나 파손 같은 심각한 기계적 손상으로 이어질 위험이 있다.

AI 학습 부하가 만드는 주기적 전력 변동 주파수는 전력 시스템의 아동기화(비동기) 영역에 속하며, 이는 송전망의 공진 모드를 자극해 아동기 공진(SSR)이나 계통 간 진동을 유발하고, 국지적으로는 조명 플리커나 주파수 변조 등 전압 안정성 저하까지 일으킬 수 있다.

GPU 수가 늘어날수록 특정 위험 주파수 대역에서의 총 부하 변동 폭이 커지므로, 상호 연결된 터빈·발전기에서의 공진 효과가 증폭되고, 최악의 경우 축 손상이나 차단기 트립 후 계통 분리(섬 모드) 같은 사고로 이어질 수 있으므로, 해당 임계 주파수 자극 자체를 사전에 억제하는 것이 필수다.

본 문서는 이런 위험을 완화하기 위한 사양과 요구 사항을 제시하며, 이는 유틸리티 수준에서 시간 영역과 주파수 영역의 전력 품질 조건으로 구분된다.

시간 영역 사양은 부하의 전력 변화 속도를 제한하는 조건으로, 전력 수요 증가율 한도(램프 업 속도), 감소율 한도(램프 다운 속도), 그리고 램프 제한이 적용되기 전 허용되는 단기 편차 범위(동적 전력 범위)로 정의된다.

전력 회사는 보통 5~15분 단위의 스케줄링 간격으로 계약된 전력 사용량 대비 실제 사용량을 감시하며, 허용 편차를 벗어나면 비용 부과나 감축 요구가 발생하므로 이는 실시간 계통 운영과 전력 시장 신뢰성을 유지하는 핵심 장치다.

동적 전력 범위는 1초 미만의 매우 짧은 시간 스케일에서 허용되는 순간 전력 변동량을 규정하며, 이는 전압 플리커와 단기 고조파 교란 허용치를 정의하는 IEC 61000-3-3 등 계통 표준을 기반으로 결정된다.

주파수 영역 사양은 램프 제약만으로는 막지 못하는 공진 위험을 줄이기 위해 특정 주파수 대역에서의 부하 변동을 제한·억제하도록 요구하며, 이는 AI 학습 부하가 계통의 고유 공진 모드(터빈, 송전망 등)를 자극하지 않도록 설계하기 위한 것이다.

주기적이고 동기화된 대규모 AI 학습 부하는 계통 또는 발전기의 공진 주파수와 겹치는 전력 진동을 방출할 수 있으며, 이는 부동기 공진(SSR), 전압 플리커, 설비 스트레스 등 계통 안정성과 설비 내구성 측면의 위험을 초래할 수 있다.

주파수 영역 사양은 일반적으로 (1) 유틸리티가 민감하게 관리하는 임계 주파수 대역(예: 0.1~20Hz)과 (2) 그 대역 내에서 허용되는 최대 스펙트럼 크기(예: 총 고조파 에너지의 20% 이내)로 정의된다. 실제 AI 부하 전력 파형의 FFT는 약 0.2~3Hz에서 에너지가 집중되며, 이는 터빈 발전기 샤프트와 장거리 송전선로의 공진 모드에 근접하므로 위험 대역에 직접 겹친다. 방출 주파수는 워크로드 동작에 따라 변할 수 있으므로, 사양은 고정 값이 아니라 일정 범위를 포괄해야 한다.

이 문제의 본질은 반복적이고 대규모로 동기화된 부하가 발전기와 송전망의 공진 주파수들을 지속적으로 자극한다는 점이며, 해당 공진 주파수는 약 0.16Hz 수준의 매우 낮은 진동 모드부터 60Hz 이상의 축 비틀림 모드까지 넓은 영역에 분포한다.

첫째, 1Hz 미만 대역의 공진은 서로 강하게 결합된 계통 구간을 잇는 장거리 송전선의 고유 진동 모드로 인해 나타나며, 계통 감쇠 특성은 계통 토폴로지에 따라 달라진다. 감쇠비가 1보다 크면 외란 이후 진동이 점차 줄어드는 안정적 상태로 가는 경향이 있으나, 부하 변동이 주기적으로 반복 공급되면 감쇠비가 1보다 크더라도 계통이 계속 자극되어 불안정이 누적될 수 있다. 실제로 2019년 1월 플로리다에서 약 200MW급 복합화력 설비가 불안정한 상태로 진동을 일으킨 사례가 보고되었으며, 진동은 설비 정지 전까지 완전히 사라지지 않았다. AI 학습 클러스터는 이보다 훨씬 큰 동기 부하 크기를 가질 수 있으므로, 유사한 양상의 진동이 더 큰 결과를 초래할 잠재력이 있다.

둘째, 약 1~2.5Hz 범위에서는 인접하거나 동일 부지 내 발전 설비들 사이에서 상호 간 진동이 형성될 수 있다. 즉, 특정 발전소 내부의 여러 유닛이나 인접한 발전소 사이에서 동조된 저주파 동요가 발생할 수 있는 구간이다.

셋째, 약 7Hz 이상에서 100Hz를 넘는 영역은 터빈-발전기 축 비틀림 고유 주파수 영역으로, 고압/재가열/저압 단계 등 여러 단계로 구성된 대형 증기 터빈 발전기 세트 내에서 서로 다른 질량 구간이 샤프트를 통해 상대적으로 비틀리며 진동하는 현상과 연결된다. 이 영역에서의 과도한 여기(자극)는 샤프트에 높은 비틀림 응력을 반복적으로 가해 피로 누적, 균열, 최악의 경우 파손으로 이어질 수 있다.

이러한 계통 차원의 위험을 억제하려면 네 가지 추가 요건을 만족하는 완화 전략이 필요하다.

첫째, 지역 및 사업자별로 상이한 전력 품질·신뢰성 규격을 모두 충족할 수 있어야 하므로, 해결책은 다양한 유틸리티의 임계 주파수 대역과 전력 품질 기준에 맞춰 조정 가능해야 한다.

둘째, AI 학습 처리량과 수렴 시간을 거의 해치지 않아야 한다. 학습은 비용이 크고 장시간 지속되므로, 전력 평활화를 위해 과도한 지연이나 스로틀링을 강제하는 방식은 운영 비용과 모델 개발 기간을 악화시킬 수 있다.

셋째, 에너지 낭비를 최소화해야 한다. 이상적인 방안은 전력 변동성만 줄이고 총 에너지 소비는 거의 늘리지 않음으로써 비용 효율성과 지속 가능성 목표를 동시에 충족해야 한다.

넷째, EDP(전기 설계 전력) 제어가 가능해야 한다. 데이터센터 GPU는 1초 단위 평균 전력은 TDP로 유지하면서도 약 50ms 단위에서는 EDP 피크(EDPp)라 불리는 짧은 전력 오버슈트를 허용한다. 워크로드 급증 구간에서 나타나는 이 짧은 피크는 일반적으로 랙 PSU 수준에서 흡수·완화되도록 설계되지만, 설계에 따라 PDU나 심지어 유틸리티 측면에서도 관측될 수 있다. 만약 이러한 초단기 피크가 상위 전력 계통에서 그대로 보인다면, 계통 사양을 만족하기 위해 GPU의 허용 EDP 피크 한계를 더 낮게 설정할 필요가 있다.

요약하면, 유틸리티는 임계 주파수 대역과 해당 대역 내 허용 가능한 스펙트럼 크기라는 형태로 전력 변동 허용 조건을 제시하며, 완화 기술은 여러 유틸리티의 사양을 만족하면서 성능 저하와 에너지 낭비를 최소화하고, 초단기 EDP 피크까지 관리할 수 있어야 한다.

가장 엄격한 전력 품질 사양을 만족하려면 소프트웨어만으로는 쉽지 않다.

소프트웨어 전용 완화 방식은 GPU 전력이 특정 임계값 아래로 떨어질 때, 전력 소모가 큰 보조 워크로드(GEMM 등)를 주입하여 학습 반복 내 계산 단계와 통신 단계 사이의 전력 갭을 메워 전력 파형을 평탄화하는 접근이다. 이 방식은 데이터센터 및 유틸리티 관점에서 관측되는 전력 진폭을 줄이는 것을 목표로 한다.

보조 워크로드는 두 형태가 있다. 첫째, 우선순위가 낮지만 실제로 유용한 작업으로 구성된 형태가 있으나, 이 경우 상태 저장·복구가 필요해 전력 평활화 반응 속도가 느려지고 주 워크로드 성능에 영향을 줄 수 있다. 둘째, 인위적으로 만든 계산(예: 행렬 곱셈)으로 구성된 형태가 있으며, 이는 제어는 용이하지만 결과적으로 아무 의미 없는 연산으로 에너지를 낭비한다는 단점이 있다.

보조 워크로드를 언제 켜고 끌지 제어하려면 GPU 활동과 전력을 매우 짧은 시간 단위로 관측해야 하나, 통신 커널의 시작 시점이 아니라 여러 계산 커널이 끝나는 타이밍에서 전력이 급락한다는 특성 때문에 통신 라이브러리 내부에 단순 훅을 거는 방식은 충분하지 않다. 따라서 컴파일 타임 삽입보다는 GPU의 실시간 전력·활동 카운터에 기반한 런타임 모니터링이 요구된다. 현재 데이터센터용 NVIDIA GPU는 수 ms~수백 ms 수준의 전력 및 활동 계수를 노출하나, 신뢰성 있게 사용할 수 있는 약 100ms 수준 카운터만으로는 수십 Hz(예: 20Hz) 영역의 빠른 전력 변화에 대응하기 어렵다. 즉, 실효성 있는 소프트웨어 완화를 위해서는 더 짧은 간격의 고신뢰 원격 계측이 필요하다.

동작 방식은 다음과 같다. GPU 블록 활동과 전력 소모가 미리 정한 하한선 아래로 내려가면 보조 워크로드를 주입해 급격한 전력 하강을 막고, 주 워크로드 사용률이 다시 올라가면 보조 워크로드를 백오프하며 줄인다. 다만 현재는 프로세스 단위 활동·전력 카운터가 없어 보조 워크로드가 주기적으로 스스로 물러나 상태를 재측정해야 하는 비효율이 존재한다. 이 방식은 모든 GPU에 걸친 부하 증가를 한 번에 혹은 순차적으로 조율함으로써 램프 업·다운 속도 제한 같은 시간 영역 사양은 비교적 쉽게 맞출 수 있다.

이 아이디어를 구현한 것이 파이어플라이다. 파이어플라이는 NVIDIA MPS(Multi-Process Service)를 활용해 여러 CUDA 프로세스가 하나의 GPU 컨텍스트를 공유하도록 하고, GPU 블록 활동 카운터로 상태를 감시한 뒤 필요 시 행렬 곱셈 계열의 보조 워크로드를 투입해 GPU 전력을 끌어올린다. 이를 통해 전력 사용률을 TDP의 최대 100% 부근까지 유지하며 전력 파형을 구형파 마이크로벤치마크 기준으로 평활화할 수 있음을 확인했다.

그러나 파이어플라이에는 네 가지 근본적 한계가 있다. 첫째, 성능 오버헤드다. 보조 워크로드는 자체적으로 메모리와 연산 자원을 소모하며, 백오프 기반 중단 메커니즘은 주 워크로드의 처리율을 떨어뜨린다. MPS 활용으로 주 워크로드의 성능 저하를 약 5% 미만으로 억제할 수 있었지만, 이를 위해서는 1ms 단위 GPU 전력 데이터를 지속적으로 수집·판단하는 추가 CPU 코어와 호스트 대역폭이 필요했다. 학습 파이프라인이 점점 CPU 의존적인 구성 요소를 더 포함하게 될수록 이 부가 비용은 더 커질 수 있다.

둘째, 현재 대부분의 클라우드 VM은 GPU를 패스스루(직접 장치 액세스) 형태로 고객에게 제공하므로, 이런 전력 평활화 기법을 적용하려면 클라우드 사업자와 고객 간 긴밀한 협력이 필요하며, 이는 환경에 따라 제약이 크다. 또한 주 워크로드의 전력 패턴이 바뀌면 보조 워크로드 전략도 재튜닝해야 하므로 운영 복잡도가 높다.

셋째, 안정성 문제다. MPS 기반 구조에서는 기본 학습 작업과 보조 작업이 동일한 GPU 컨텍스트를 공유하므로 장애 도메인이 합쳐진다. 즉, 어느 한 쪽에서 발생한 오류가 다른 쪽으로 전파될 수 있고, 이는 초대규모 환경에서 전체 작업 실패 확률을 높인다. 이 문제를 줄이려면 GPU 소프트웨어 스택 전반에서 안정성 향상을 위한 개선이 추가적으로 필요하다.

넷째, 인위적 보조 워크로드는 본질적으로 쓸모 없는 연산을 지속 수행하므로 에너지 측면에서 낭비를 유발한다.

요약하면, 소프트웨어 전용 전력 완화(파이어플라이 등)는 하드웨어나 인프라 개조 없이도 램프 요구 조건을 만족하며 전력 변동 진폭을 줄일 수 있고, TDP 수준으로 평탄화할 수 있는 잠재력이 있으나, 성능 저하·CPU 부하 증가·운영 복잡성·장애 도메인 결합·에너지 낭비라는 한계를 지니며, 따라서 가장 엄격한 유틸리티 사양을 안정적으로 충족하려면 추가 최적화(예: 장애 도메인 분리 등) 또는 다른 계층(펌웨어, 랙 단위 저장장치 등)과의 결합이 필요하다.

보조 워크로드가 기본 워크로드와 장애 도메인을 분리해 기본 작업의 충돌이 전파되지 않도록 할 수 있다면, 대규모 환경에서의 안정성은 크게 향상될 수 있다.

보조 워크로드의 투입은 단순 실시간 모니터링 기반이 아니라, 앞으로 도래할 통신 단계와 연산 단계를 예측하는 방식으로 더 정교하게 제어할 수 있으며, 이는 소프트웨어介입 빈도와 강도를 줄여 성능 저하를 완화하는 데 도움이 된다.

GPU에 우선순위 기반의 더 빠른 스케줄러를 적용하면 보조 워크로드가 스스로 선점해서 빠지는 과정이 덜 필요해지고, 그만큼 주 워크로드에 대한 간섭이 줄어든다.

하드웨어 업체가 스케줄러와 계측을 펌웨어 수준에서 통합 제공하면 소프트웨어 기반 전력 평활화가 보다 낮은 오버헤드로 동작할 수 있고, 고객·클라우드 사업자 간 조정 부담도 줄일 수 있다.

정리하면, 소프트웨어 기반 전력 평활화는 하드웨어 변경 없이 빠르게 적용 가능하고 전력 파형의 급격한 진폭을 당장 줄일 수 있는 유연한 수단이지만, 성능 저하와 에너지 낭비 사이에서의 트레이드오프, 정밀 계측 요구, 지속적인 보정 부담을 안고 있으므로 워크로드 규모가 커질수록 정교한 자동화와 안정성 설계가 필수적이다.

GPU 전력 평활화는 이런 한계를 줄이기 위한 GPU 단위의 펌웨어/하드웨어 수준 접근으로, NVIDIA GB200은 각 GPU에 전력 프로파일을 설정해 클라우드 사업자가 외부에서(out-of-band), 개발자가 내부에서(inband) 전력 거동을 제어할 수 있도록 한다. 이 프로파일은 (1) 전력 상승·하강 속도(램프 업/다운 속도)를 초당 와트 단위로 제한해 시간 영역 사양을 만족시키고, (2) 최소 전력 플로어(MPF)를 정의해 GPU가 유휴에 가까운 상태에서도 일정 전력 이상을 유지하게 하며 동적 전력 범위를 규제하고, (3) 워크로드가 멈춘 뒤에도 MPF를 일정 시간 유지하는 정지 지연을 통해 사양 충족과 성능·에너지 소모 간의 균형을 조절한다.

이 방식은 GPU 내부 전력 컨트롤러와 하드웨어 카운터를 활용하므로 플로어의 온·오프가 매우 빠르며, 전력회사가 요구하는 주파수 영역 사양까지 대응 가능하다. MPF를 높게 잡을수록 전력 파형은 더 매끄러워지지만, 그만큼 불필요한 에너지 소비가 커진다. 반대로 MPF와 정지 지연을 전략적으로 조합하면 성능 저하는 작게 유지하면서 시간 영역·동적 전력 범위 요구를 충족할 수 있다.

GB200 실험의 경우, 구형파 부하 마이크로벤치마크에서 전력 플로어를 TDP의 65%로 두고 램프업, 정상 유지, 정지 지연, 램프다운 과정을 통해 GPU 전력을 일정하게 유지함을 확인했다. 실제 학습 파형에 대해서는 Microsoft의 전력 시뮬레이터(StratoSim)를 이용해 최소 전력 플로어를 TDP의 90%로 가정했을 때 총 에너지 추가 소모가 약 10.5% 수준으로 추정되었다. 이는 전력 변동 진폭 억제를 위해 일정한 에너지 프리미엄을 지불하는 구조임을 의미한다.

GPU 전력 평활화의 주요 제약은 추가 에너지 소모와 내구성 한계다. GB200은 해당 기능의 사용 빈도와 소모 전력 증가량을 추적하는 수명 카운터를 포함하며, 예상 수명은 대략 5년 수준의 일반 GPU 수명과 비교해 허용 가능한 편으로 설계되었다고 가정하지만, 실제 내구성은 앞으로의 운영 사례 축적에 따라 더 명확해질 것이다.

또한 현재 GB200은 MPF 상한을 TDP의 약 90%, EDP(초단기 피크) 하한을 TDP의 약 1.1배 수준으로 제한하므로, GPU 단에서 만들 수 있는 전력 동적 범위는 최소 약 20% 폭으로 남는다. 이는 곧 전체 클러스터 관점에서 예를 들어 100MW 부하가 10MW(10%) 이내에서만 출렁이도록 요구하는 매우 엄격한 유틸리티 사양은 아직 단일 GPU 평활화만으로 충족하기 어렵다는 뜻이다.

요약하면, GPU 전력 평활화는 소프트웨어 방식보다 운영 부담과 성능 간섭이 적고, 클라우드-고객 조정 없이도 표준화된 방식으로 시간·주파수 사양을 맞출 수 있는 강력한 수단이지만, 높은 MPF에 따른 에너지 오버헤드와 현재 세대 하드웨어의 동적 범위 한계 때문에 가장 엄격한 전력 회사 사양을 그대로 만족시키기에는 아직 제약이 존재한다.

에너지 저장 솔루션은 부하를 직접 관측하고, 충분한 용량을 갖고, 급격한 전력 상승·하강에 대응하며, 충방전을 빠르게 전환할 수 있는 저장 장치를 사용해 통신 단계(저전력 구간)에서 에너지를 충전하고 계산 단계(고전력 구간)에서 방전함으로써 전력 피크를 깎고 에너지를 낭비하지 않는 방식으로 전력 안정화를 달성한다. 이 방식은 결과적으로 최대 요구 전력을 낮출 잠재력이 있으며, 시뮬레이션에서는 전력 파형과 배터리 충·방전 상태를 통해 그 효과를 확인했다.

이 솔루션의 핵심 설계 포인트는 어디에 배치하느냐이다. 서버·랙·행(row)·센터 단위 등 여러 선택지가 있으나, 랙 단위 배치는 (1) 에너지 저장 장치를 분산시켜 랙 단위 장애가 전체 데이터센터 전력 파형에 큰 충격을 주지 않도록 하고, (2) 이미 존재하는 AC-DC 변환 단에서 DC 블록으로 결합하기 용이하며, (3) 상위 계층(행, 센터)에서 UPS·PDU 등 더 많은 설비를 전력 요동에 노출시키지 않으므로 안정성과 설비 스트레스를 모두 완화한다. 따라서 랙 레벨 에너지 저장 장치가 현실적인 최선으로 제안된다.

다만 랙 레벨 에너지 저장 장치는 전 주파수 스펙트럼을 다뤄야 한다는 기술적 과제를 안고 있다. 고주파 구성요소는 비교적 필터링이 쉽지만, 저주파 램프업·램프다운 구간을 흡수하려면 매우 큰 정전용량이 필요하다. 이처럼 큰 용량은 비용, 랙 내 공간 점유, 내재 탄소 부담 측면에서 비싸며, 이런 극단적 이벤트는 드물게 발생하므로 단지 그 대비만을 위해 과도한 용량을 투입하는 것이 경제적으로 항상 타당한 것은 아니다.

세 가지 완화 방식(소프트웨어 전력 평활화, GPU 전력 평활화, 랙 레벨 에너지 저장)은 신뢰성, 성능 영향, 에너지 효율, 비용, 수명, 규제 대응력 등에서 상호 보완적 관계에 있다. 소프트웨어 방식은 빠르게 적용 가능하고 가장 유연하지만 CPU/메모리 오버헤드와 에너지 낭비, 안정성 리스크가 있다. GPU 전력 평활화는 비교적 안정적이고 운영 부담이 낮으며 리소스 간섭이 적지만, MPF 상한과 동적 전력 범위 제한 때문에 매우 엄격한 전력 회사 사양(예: 전체 부하의 10% 이하 변동 허용 등)을 단독으로 만족시키기 어렵다. 랙 레벨 에너지 저장은 파형을 직접 보정하면서도 에너지 자체는 재활용하므로 에너지 효율이 높고 사양 충족 능력이 우수하나, 초기 구축 비용과 추가 하드웨어·탄소 부담이 크다.

결론적으로 이상적인 해법은 GPU 수준 전력 평활화(펌웨어/하드웨어 및 필요 시 Firefly류 소프트웨어를 포함)와 랙 단위 에너지 저장 장치를 결합하는 것이다. GPU 수준 평활화는 램프업·램프다운과 같은 시간 영역 제약과 극단적 코너 케이스(에너지 저장 용량이 소진된 경우 등)를 처리하고, 랙 레벨 저장 장치는 반복적 전력 파형의 저주파 성분을 흡수·방출해 전체 동적 전력 범위를 줄인다. 이 조합은 에너지 낭비, 비용, 공간 측면에서 최적 해를 제공하며, 단 GPU와 랙 저장 장치 간에는 충전 상태(State of Charge)와 전력 여유를 공유하는 공동 설계가 필요하다.

향후 더 큰 규모의 AI 학습 클러스터에서는 랙 근처 완화 장치와 더 큰 규모의 장주기 BESS(배터리 에너지 저장 시스템)를 함께 사용하는 하이브리드 구조가 필요해질 가능성이 크다.

그럼에도 불구하고, 대규모 AI 학습 작업은 여전히 계통의 저주파 공진(특히 하위 동기 영역)을 자극할 수 있으므로, 마지막 방어선으로서 고속 원격 측정 기반 백스톱 시스템이 요구된다. 이 백스톱은 데이터센터 전체의 전력 파형을 실시간으로 지속 감시하고, 임계 주파수 대역에서 위험 수준의 진폭이 감지되면 즉각적 개입을 수행해 계통 공진 유발을 차단하는 역할을 한다.

데이터센터는 세밀하고 지연이 짧은 원격 계측과 실시간 스펙트럼 분석(예: FFT 기반 주파수 모니터링)을 통해 계통 불안정성이나 공명 징후를 조기에 감지하고, 문제가 되는 주파수가 나타나면 단계적으로 대응하는 백스톱 체계를 운영해야 한다. 초기에는 소프트 스로틀링이나 부하 셰이핑과 같은 완만한 억제 조치를 적용하고, 이것으로 충분하지 않으면 회로 레벨 전력 차단이나 계획된 분리 조치까지 포함하는 적극적 개입을 사이트 인프라 로직과 연동해 수행해야 한다.

AI 학습 워크로드의 규모와 복잡성이 계속 증가함에 따라 전력 변동성과 전력망 영향은 더욱 커질 것이므로, 소프트웨어·하드웨어·인프라·유틸리티 전반의 협력이 필수다. 첫째, AI 프레임워크 및 시스템 설계자는 수렴성을 훼손하지 않으면서도 대규모 동기식 전력 스텝을 줄일 수 있는 전력 인지형 학습 기법을 적극적으로 도입해야 하며, 여기에는 비동기 학습, 단계적 스케줄링, 계산·통신 중첩 등이 포함된다. 둘째, 전력회사 및 계통 운영자는 공진 주파수 한계와 램프(상승·하강) 사양을 명확히 공유하고, 데이터센터와의 표준화된 양방향 커뮤니케이션 채널을 구축해야 하며, 이는 예기치 않은 정전이나 설비 열화 방지에 핵심적이다. 셋째, 업계는 오픈 컴퓨트 프로젝트(OCP) 등 경쟁 이전 단계의 공개 협의체를 통해 계측 표준, 부하 신호 인터페이스, 하위 동기 진동(부동기 발진) 완화 절차에 대한 상호운용 가능한 표준을 공동으로 만들어야 하며, 이는 단일 고객·단일 공급업체·단일 하이퍼스케일러가 단독으로 해결하기 어려운 문제이기 때문이다.

결론적으로, 전력 안정화는 대규모 AI 학습 인프라의 확장에 있어 새로운 병목으로 부상했고, 이 논문은 그 영향과 필요한 전력 품질 사양을 구체화했으며, 소프트웨어 기반 스무딩, GPU 수준 전력 제어, 랙 단위 에너지 저장을 통합하는 크로스 스택 접근 방식을 실제 계측 및 시뮬레이션과 함께 제안했다. 이 접근은 현재 세대 데이터센터에서도 즉시 적용 가능한 현실적 해법을 제공한다. 다만, 이는 출발점일 뿐이며, AI 성능과 전력망 안정성을 동시에 확보하려면 연구계·산업계·전력계 사이의 지속적 협력과 공개 표준화가 요구된다. 궁극적으로는 AI 학습이 성능뿐 아니라 전력학적 책임성까지 내장한 형태로 진화해야 한다.

현재글Power Stabilization for AI Training Datacenters - OpenAI, Microsoft, NVIDIA

energyresearch 님의 블로그

energyresearch 님의 블로그 입니다.

Today :
Yesterday :

energyresearch 님의 블로그

Power Stabilization for AI Training Datacenters - OpenAI, Microsoft, NVIDIA

'카테고리 없음'의 다른글

티스토리툴바

« 2026/04 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30