안녕하세요.
오랜만에 게시물을 작성해 봅니다. 이래 저래 일 벌리는 것은 좋아하나, 지속적으로 하지 못하는 성격으로 포스팅을 거의 하지 않게 되는 듯 합니다.
간만에 VMware에서 지난 VMware explore를 통해서 새롭게 발표된 내용을 전달 드려보고자 합니다.
아시는 바와 같이 VMware는 오래전부터 NVIDIA와 협력 관계를 긴밀하게 유지하고 있었으며, Horizon VDI를 위한 vGPU 리소스를 활용한 VDI 사용자의 그래픽 성능을 향상하여, 3D 그래픽 엔지니어, 일러스터레이터등과 같은 고급 그래픽 디자이너들을 위한 지원을 하고 있었습니다.
최근 몇 년 사이 AI 및 Marchine Learning에 대한 GPU 활용이 증가하면서, 마찬가지로 vSphere 하이퍼바이저 기반에서의 GPU를 활용한 가상 머신의 GPU 직접 접근(Direct Pass-Through 방식)하여, 1대의 가상 머신의 온전한 물리 GPU 리소스를 소비 하도록 지원을 하였습니다.
또한, vSphere 8 버전에서는 여러 GPU 장치를 하나의 VM에 할당 하고, 이러한 GPU 장치에 대한 NVSwitch 연결을 가상화 환경에서 또한 제공할 수 있도록 vSphere 8에서는 PCIe Device Group 이라는 기능을 사용하고 있습니다.
- 동일 호스트에 8개의 GPU, 동일 VM에 8개의 GPU를 할당 지원
- VM당 16개의 vGPU 할당 지원
두번째 GPU 리소스를 할당하는 방식은 vGPU 방식을 사용하는 것이며, 이전에 NVIDIA Grid 기술로 잘 알려져 있으며, 이러한 vGPU Profile을 이용해서 제공은 Time Slicing 방식과 MIG(Multi Instance GPU) 방식으로 두 가지 방식을 이용할 수 있습니다.
이러한 VM에 할당되는 vGPU 방식은 VM에 할당되는 vGPU 수량에 따라서 GPU 장치가 제공되는 호스트 클러스터 내에서 자동으로 마이그레이션 되고 배치될 수 있도록 스마트 기능을 제공합니다.
vSphere 8 버전에서 제공 가능한 GPU 장치 이용 방식
- vSphere 8에서는 전통적인 APP을 위한 VM에 직접 GPU 리소스를 Direct Passthrough 혹은 vGPU를 소비할 수 있으며, vSphere 8에서 보다 쉽게 제공하는 Kubernetes 플랫폼인 TKG(Tanzu Kubernetes Grid)에 GPU 리소스를 할당하여 K8s 환경에서도 동일한 경험을 제공하고 있습니다.
vSphere 8 라이센스 구매 방식
vSphere 8 라이센스의 구매 방식은 몇 가지 방식으로 제공이 될 수 있습니다.
- 영구 소유(Perpetual): 기존과 동일하게 라이센스를 구매하고, 소프트웨어 소장과 별개로 "기술 지원 및 소프트웨어 업데이트"를 위한 Subscription만을 구매할 수 있습니다.
- Subscription 구매: SaaS 방식과 Term 방식 2가지를 제공하고 있으며, 1년 혹은 3년 단위로 소프트웨어를 소비하게 됩니다.
Subscription SaaS 방식 - vSphere 8 하이퍼바이저와 vCenter는 기존과 동일하게 고객의 환경인 Onprem에 구축되며, 이러한 다수의 vSphere platform에 대한 라이센스 키 없이 기능 활성화가 되도록 VMware Cloud portal에 고객의 vSphere 8 플랫폼을 등록하며, 고객의 데이터 센터 환경에서 VMware Cloud Portal로 추가적인 Cloud Gateway 가상 어플라이언스를 설치하여, 이를 통해서 몇 가지의 인벤토리 정보 및 이벤트(로깅) 정보등을 전달합니다. 고객의 VM 내부의 데이터는 전달이 되지 않으며, 관리 목적의 일부 관리 정보 전달이 되고, 필요에 따라 관리 혹은 VM의 IP 정보에 대해서 Mask 처리를 제공합니다.
또한, 이러한 SaaS UI를 통해서 사용자는 어디에서든 인증을 통해서 접근하고, 단순한 VM 배포 작업은 진행이 가능하기에 모든 vSphere 플랫폼을 하나의 UI를 통해서 리소스 이용 상태를 확인하거나, 이벤트 정보를 한 곳에서 취합해서 확인하고, 보안 상태를 확인할 수 있습니다.
SaaS 방식은 vSphere 8 하이퍼바이저와 함께 TKG(Tanzu Kubernetes Grid)를 모든 영역에서 활성화 하고 사용할 수 있도록 제공하고 있으며, 고객의 구성 방식에 따라 여러 vCenter를 구성해서 사용할 수 있도록 추가 비용 없이 TKG, vCenter를 제한 없는 사용을 할 수 있습니다.
Subscription Term 방식 - vSphere 8의 Term 라이센스는 고객의 필수적인 외부로 Cloud Gateway 연결을 통한 VMware Cloud 포탈로 연결이 불가능한 고객을 위한 기존 구매 방식과 같이 라이센스 키를 제공하여, 오프라인 방식으로 구축할 수 있도록 제공되며, 소프트웨어 구매 방식만이 Term 라이센스 계약에 따라서 1년 혹은 3년과 같이 한정된 기간으로 소비할 수 있도록 제공합니다.
AI/ML을 위한 MLOPS 플랫폼 구축을 위한 기업의 Challenge
기업은 AI/ML을 구축 하는데 있어서 고가의 GPU 구매, 호스트 구매, Network Switch 구매와 같은 많은 비용을 지출하고 있으나, 제한된 데이터 사이언티스트 주문된 작업으로 인하여, 리소스 활용이 제한되어, 비용 대비 효율성이 낮은 경우가 많습니다.
이러한 문제점을 해결하기 위해서는 MLOPS 형태의 플랫폼으로 전환을 필요로 하나, 많은 기업의 운영자에게는 기존 업무와 함께 새로운 기술 습득을 통한 플랫폼 구축에는 많은 시간과 비용적 손실이 발생하게 됩니다. 또한, 다양한 오픈 소스는 어떤 오픈 소스를 선택 할 것인가에 대한 문제로 결부되어 검증 작업에 많은 시간을 소비할 수 밖에 없습니다.
또한 퍼블릭 클라우드의 Generative AI Stack은 데이터 보호를 제공하기 어렵기에 제한된 사용만 가능한 상황입니다.
기업은 기업 내부의 데이터를 이용하면서 Generative AI를 통해서 ChatGPT와 같은 환경을 보다 쉽게 제공하여, 데이터 사이언티스트, 비즈니스 오너, 일반 임직원등 다양한 서비스 영역에서 Gen AI를 활용할 필요성이 요구 되며, 이를 통한 생산성을 빠르게 증가시킬 필요가 있습니다.
VMware Private AI for Generative AI Stack
Value Position
Privacy: 데이터 개인 정보를 보호하고 안전한 액세스를 보장하는 아키텍처를 통해 고객이 데이터가 있는 곳 어디에서나 AI 서비스를 쉽게 실행할 수 있도록 지원합니다.
CHOICE: 기업은 모델을 구축하고 실행할 위치를 폭넓게 선택할 수 있습니다. Private AI Foundation은 Dell, HP E, Lenovo의 주요 OEM 하드웨어 구성과 향후 공용 클라우드 및 서비스 제공업체 제품에서 실행되도록 인증되었습니다.
Performance: 최근 업계 벤치마크에서 입증된 바와 같이 NVIDIA 가속 인프라에서 실행하면 일부 사용 사례에서 베어메탈과 동등하거나 심지어 그 이상의 성능을 제공합니다.
DataCenter Scale: 다중 GPU IO 경로 지정을 통해 AI 워크로드를 단일 가상 머신과 여러 노드에서 최대 16개의 vGPU/GPU로 확장하여 Generative AI 모델 사용자 정의 및 배포 속도를 높일 수 있습니다.
Reduce: 모든 컴퓨팅 리소스(예: GPU 및 CPU)의 사용을 극대화하여 전체 비용을 낮추고, 팀 전체에 분산된 기존 컴퓨팅 리소스를 활용하며, 효율적으로 공유할 수 있는 풀링된 리소스 환경을 만듭니다.
VMware Private AI 서비스 영역(Use Cases)
VMware Private AI 플랫폼을 통해서 기업은 보다 쉽게 LLM 및 Generative AI Stack을 생성할 수 있으며, 이를 통해 기업의 데이터 과학자 및 머신러닝 운영자는 신속하게 비즈니스 요구 사항에 맞는 서비스를 제공할 수 있는 대표적인 4가지 사례를 살펴 볼 수 있습니다.
이를 통해 기업은 비즈니스 가치 증가, 앱 개발을 위한 코딩 시간 단축, 정보 제공을 시간 단축, 직원의 업무 생산성 향상 등 다양한 방면에서 활용할 수 있습니다.
Code Generation:
이러한 솔루션은 코드 생성을 지원하여 개발자 속도를 가속화합니다. 코드 생성 시 개인 정보 보호가 가장 중요합니다. VMware Private AI 솔루션을 사용하면 기업은 IP나 데이터 손실 위험 없이 모델을 사용할 수 있습니다.
VMware Private AI with NVIDIA AI Enterprise

VMware Private AI Flexible Architecture
Hardware Architecture
일반적인 워크로드 운영을 위한 vSphere Cluster는 VM(가상 머신) 및 TKG(Tanzu Kubernetes Grid)로 다양한 워크로드를 제공할 수 있습니다.
VMware Cloud Foundation(VCF)은 vSphere 하이퍼바이저를 기반으로 몇 가지 Best Practices에 해당하는 서비스 유형에 맞도록 추가 vmware 제품인 vSAN, NSX, Aria series 제품을 패키지화 하여, 4가지 에디션으로 제공하고 있습니다.
VMware Private AI Platform을 위한 Network BOM 예시
CPU: 인텔 제온 4세대 및 3세대 CPU, PCIe Gen5 지원
Memory: 구성에 따라 노드당 2TB DDR5 메모리
GPU: H100, A100, A40, L40, L40의 NVIDIA GPU 모델
40B 이상 미세 조정 모델의 경우 H100(80G) 8개 권장
40B 미만 미세 조정 모델의 경우 H100(80G) 4개 권장
NICs:
- RoCE NIC(Broadcom 5750x 또는 Mellanox ConnextX-5/6/7) 혹은 InfiniBand(Mellanox ConnextX-5/6/7 VPI) 요구됨
외부 파일 저장소:
MLOPS Workflow 구성 요소
Summary
VMware는 기존과 같이 기업이 가상화 환경에서 보다 쉽게 GPU를 활용하여, 기업이 Deep Learning Model, Class ML Model, Generative Model을 구축 할 수 있도록 인프라 구축 서비스 제공을 하고 있으며, 기업이 보다 쉽게 Gen AI Stack을 구축할 수 있도록 VMware Private AI Platform을 제공 할 예정입니다.
Link to the Reference Architecture
Deploying Enterprise-Ready Generative AI on VMware Private AI | VMware
This white paper leverages VMware Private AI for GenAI workloads; serves as an essential guide, providing insights into the architecture design, implementation, and best practices for LLM fine-tuning and inference.
core.vmware.com