‘지루하지만 중요한 혁신’··· AI가 바꿔낼 데이터센터의 미래
인공지능(AI)을 둘러싼 대부분의 이야기는 자율주행 자동차, 챗봇, 디지털 트윈 기술, 로봇, AI 기반 ‘스마트’ 시스템 등에 집중돼 있다. 하지만 AI와 머신러닝(ML)은 데이터센터 내부의 서버 랙 안에서도 중요한 역할을 할 것이다.
AI가 데이터센터 분야에 영향을 미칠 분야는 크게 4가지 주요 카테고리로 분류된다.
• 전력 관리 : AI 기반 전력 관리는 냉난방 시스템을 최적화하여 전기 비용을 절감하고 인력을 줄이며 효율성을 높이는 데 도움이 될 수 있다. 이 분야의 대표적인 벤더로는 슈나이더 일렉트릭(Schneider Electric), 지멘스(Siemens), 버티브(Vertiv), 이튼(Eaton Corp) 등이 있다.
• 장비 관리 : AI 시스템은 서버, 스토리지, 네트워킹 장비의 건전성을 모니터링하고 시스템이 여전히 적절히 구성되어 있는지 확인하며 장비가 고장 시기를 예측할 수 있다. 가트너에 따르면 AI옵스 ITIM 카테고리의 벤더로는 옵스램프(OpsRamp), 데이터독(Datadog), 버타나(Virtana), 사이언스로직(ScienceLogic), 제노스(Zenoss) 등이 있다.
• 워크로드 관리 : AI 시스템은 직접 설치, 클라우드, 엣지 환경 사이에서 데이터센터 내부 및 하이브리드 클라우드 환경 안에서 실시간으로 워크로드를 가장 효율적인 인프라로 자동으로 이동할 수 있다. 레드우드(Redwood), 타이달 오토메이션(Tidal Automation), 이그니오(Ignio) 등 AI 기반 워크로드 최적화를 제공하는 소규모 기업들의 수가 증가하고 있다. 시스코, IBM, VM웨어 등의 대기업도 제품을 제공하고 있다.
• 보안 : AI 도구는 정상적인 트래픽이 무엇인지 ‘학습’하고 이상을 찾아내며 보안 실무자의 관심이 필요한 경보의 우선순위를 설정하고 문제의 사후 분석을 지원하며 기업 보안 방어선의 구멍에 대한 권고사항을 제공할 수 있다. 이런 기능을 제공하는 벤더로는 벡트라AI(VectraAI), 다크트레이스(Darktrace), 엑스트라홉(ExtraHop), 시스코(Cisco) 등이 있다.
즉 AI는 기업은 인간의 개입이 거의 필요 없고 높은 수준의 효율성과 회복성을 갖추고 운영되는 매우 자동화되고 안전하며 스스로 수리하는 데이터센터를 구축하는 데 도움이 될 전망이다. 델 테크놀로지스의 글로벌 CTO실 소속 엔지니어 사이드 타벳은 "AI 자동화가 확장되어 더 높은 수준의 데이터센터 자산 활용도를 달성할 것이다”라며, “데이터를 분석해 에너지 사용을 최적화하고 워크로드를 분산시키며 여타 효율성을 극대화할 것”이라고 말했다.
물론, 자율주행 자동차와 마찬가지로 자율 데이터센터도 아직 완성되지 않았다. 데이터센터에는 AI가 통과해야 할 상당한 기술, 운영, 인력 장벽이 존재한다.
Image Credit : Getty Images Bank
전력 관리는 서버 워크로드 관리와 유관
데이터센터는 글로벌 전기 공급량의 3%를 소비하고 약 2%의 온실 가스를 배출시키는 것으로 추산된다. 많은 기업들이 비용을 절감하고 환경적 책임을 지기 위해 데이터센터 전력 관리를 면밀히 살피는 배경이다.
451 리서치의 수석 분석가 다니엘 비조는 AI 기반 시스템이 데이터센터 운영자에게 다양한 혜택을 제공할 수 있다고 전했다. 특히 기류를 방해하는 고밀도 캐비닛, 성능이 부족한 HVAC 장치, 열기와 냉기 통로 사이의 부족한 공기 분리 등, 현재의 또는 잠재적인 냉각 문제를 이해하는 데 도움이 될 수 있다는 설명이다.
비조는 이어 AI가 데이터센터 설계를 넘어 데이터센터 HVAC 시스템 데이터와 환경 감지 값을 상호 연계시키는 등 시설을 학습할 수 있을 것이라고 덧붙였다.
전력 관리는 손쉽게 달성할 수 있는 목표라고 IT 자문 및 컨설팅 기업 스토리지IO(StorageIO)의 설립자 그렉 슐츠가 평가했다. 그는 “현재 중요한 것은 생산성, BTU당 작업 처리 효율 증가, 에너지 와트당 작업 처리량 증가, 즉 더 스마트하게 일하고 장비를 더 스마트하게 운용하는 것이다”라고 말했다.
또한 용량 계획 측면도 있다. 데이터센터가 적절한 수의 물리적인 서버에 전력을 공급하고 일시적인 수요 증가 시 새로운 물리적인 서버를 구성(해제)할 수 있는 용량을 확보하는 데 AI가 일조할 수 있는 것이다.
슐츠는 아울러 전력 관리 도구가 발전하면서 장비와 워크로드를 관리하는 시스템에 통합되고 있다고 덧붙였다. 예를 들어, 센서가 과도한 서버 온도를 감지하면 시스템이 워크로드를 활용도가 낮은 서버로 신속하게 자동으로 이동시키는 식이다. 그리고 AI 시스템이 서버 과열 문제를 조사할 수 있다. 고장 난 팬(HVAC 문제), 곧 고장 난 물리적인 부품(장비 문제), 서버 과부하(워크로드 문제) 등의 원인을 파악하는 것이다.
AI를 통한 건전성 모니터링, 구성 관리 감독
데이터센터는 정기적인 유지보수가 필요한 물리적인 장비로 가득 차 있다. AI 시스템은 예약된 유지보수의 수준을 넘어 즉각적인 주의가 요구되는 특정 영역을 찾을 수 있는 텔레메트리 데이터에 대한 수집 및 분석을 도울 수 있다. 슐츠는 “AI 도구는 모든 데이터를 분석하여 패턴을 찾아 이상을 발견할 수 있다”라고 말했다.
비조는 “건전성 모니터링은 장비가 올바르게 구성되어 있고 기대치에 부합하는지 확인하면서 시작된다. 수만 개의 구성품을 가진 수백 또는 수천 개의 IT 캐비닛의 경우 이런 일상적인 작업이 노동 집약적일 수 있기 때문에 항상 시의 적절하고 엄격하게 수행되지는 않는다”라고 덧붙였다.
그는 또 많은 양의 데이터 로그에 기초한 예비 장비 고장 모델링으로 ‘어렴풋한 구성품 또는 장비 고장을 찾아내고 서비스 정지’를 유발할 수도 있는 용량 손실을 방지하기 위해 즉각적인 유지보수가 필요한지 여부를 평가할 수 있다고 전했다.
주니퍼 네트웍스(Juniper Networks)의 기업 및 클라우드 마케팅 부사장 마이클 부숑은 기업 데이터센터 운영자들이 AI와 관련된 일부 지나친 약속과 광고에 주의할 필요가 있다며, 그가 말하는 ‘지루한 혁신’에 집중해야 한다고 지적했다.
“그렇다. AI 시스템은 언젠가 ‘나에게 무엇이 잘못되었고 그것을 고치라고 말할 수 있을 것이다. 그러나 ‘문제가 발생하면 위치를 알려주는’ 수준으로도 충분히 효율성이 있다”라고 그는 말했다.
이 밖에 원활하고 안전한 장비 운영 유지의 또 다른 중요한 측면은 구성 추이를 통제하는 것이다. 이것은 데이터센터에서 즉석 구성 변경사항이 점차 축적되어 문제를 발생시키는 현상을 일컫는 말이다. 부숑은 “AI를 ‘추가적인 안전 점검’으로 활용하여 임박한 구성 기반 데이터센터 문제를 찾을 수 있다”라고 말했다.