생성 데이터 인텔리전스

NVIDIA NIM 마이크로서비스와 Amazon SageMaker 통합을 사용하여 NVIDIA GPU에서 LLM 추론의 가격 대비 성능 최적화 | 아마존 웹 서비스

시간

NVIDIA NIM m아이크로서비스 이제 통합 아마존 세이지 메이커를 통해 업계 최고의 LLM(대형 언어 모델)을 배포하고 모델 성능과 비용을 최적화할 수 있습니다. 다음과 같은 기술을 사용하면 며칠이 아닌 몇 분 만에 최첨단 LLM을 배포할 수 있습니다. 엔비디아 텐서RT, 엔비디아 텐서RT-LLMNVIDIA Triton 추론 서버 SageMaker가 호스팅하는 NVIDIA 가속 인스턴스에서.

NIM의 일부 NVIDIA AI Enterprise 소프트웨어 플랫폼 목록 AWS 마켓 플레이스는 챗봇 개발, 문서 요약 또는 기타 NLP 구현 등 자연어 처리(NLP) 및 이해 기능을 제공하여 최첨단 LLM의 성능을 애플리케이션에 적용하는 추론 마이크로서비스 세트입니다. 전원이 공급되는 애플리케이션. 사전 구축된 NVIDIA 컨테이너를 사용하여 빠른 배포를 위해 특정 NVIDIA GPU에 최적화된 널리 사용되는 LLM을 호스팅하거나 NIM 도구를 사용하여 자체 컨테이너를 생성할 수 있습니다.

이 게시물에서는 NIM에 대한 높은 수준의 소개를 제공하고 SageMaker에서 NIM을 사용하는 방법을 보여줍니다.

NVIDIA NIM 소개

NIM은 추론을 위해 널리 사용되는 다양한 모델에 대해 최적화되고 사전 생성된 엔진을 제공합니다. 이러한 마이크로서비스는 Llama 2(7B, 13B 및 70B), Mistral-7B-Instruct, Mixtral-8x7B, NVIDIA Nemotron-3 22B Persona 및 Code Llama 70B와 같은 다양한 LLM을 지원합니다. 최대 성능과 활용도를 위해 특정 NVIDIA GPU에 맞춰진 NVIDIA TensorRT 엔진을 구축했습니다. 이러한 모델은 애플리케이션을 쉽게 배포할 수 있도록 모델 호스팅 성능을 위한 최적의 하이퍼파라미터로 선별됩니다.

귀하의 모델이 NVIDIA의 엄선된 모델 세트에 없는 경우 NIM은 간단한 YAML 파일을 통해 TensorRT-LLM 가속 엔진 및 NIM 형식 모델 디렉터리 생성을 용이하게 하는 Model Repo Generator와 같은 필수 유틸리티를 제공합니다. 또한 vLLM의 통합 커뮤니티 백엔드는 TensorRT-LLM 최적화 스택에 원활하게 통합되지 않았을 수 있는 최첨단 모델과 새로운 기능에 대한 지원을 제공합니다.

추론을 위해 최적화된 LLM을 만드는 것 외에도 NIM은 LLM의 전체 텍스트 생성 프로세스를 모델의 여러 반복으로 나눌 수 있는 기내 일괄 처리와 같은 최적화된 예약 기술과 같은 고급 호스팅 기술을 제공합니다. 진행 중인 일괄 처리를 사용하면 다음 요청 세트로 이동하기 전에 전체 일괄 처리가 완료될 때까지 기다리지 않고 NIM 런타임이 일괄 처리에서 완료된 시퀀스를 즉시 제거합니다. 그런 다음 런타임은 다른 요청이 아직 진행 중인 동안 새 요청을 실행하기 시작하여 컴퓨팅 인스턴스와 GPU를 최대한 활용합니다.

SageMaker에 NIM 배포

NIM은 SageMaker와 통합되어 SageMaker의 기능을 활용하는 동시에 성능 및 비용 최적화로 LLM을 호스팅할 수 있습니다. SageMaker에서 NIM을 사용하면 모델 호스팅을 위한 인스턴스 수 확장, 블루/그린 배포 수행, 섀도우 테스트를 사용한 워크로드 평가와 같은 기능을 사용할 수 있습니다. 이 모든 기능은 동급 최고의 관찰 가능성과 모니터링 기능을 통해 제공됩니다. 아마존 클라우드 워치.

결론

NIM을 사용하여 최적화된 LLM을 배포하는 것은 성능과 비용 측면 모두에서 훌륭한 옵션이 될 수 있습니다. 또한 LLM을 쉽게 배포하는 데 도움이 됩니다. 앞으로 NIM은 LoRA 및 P-튜닝과 같은 PEFT(Parameter-Efficient Fine-Tuning) 사용자 정의 방법도 허용할 것입니다. NIM은 또한 Triton Inference Server, TensorRT-LLM 및 vLLM 백엔드를 지원하여 LLM을 지원할 계획입니다.

NVIDIA 마이크로서비스와 SageMaker를 사용하여 LLM을 배포하는 방법에 대해 자세히 알아보고 이용 가능한 혜택을 시험해 보시기 바랍니다. NIM은 NVIDIA AI Enterprise 소프트웨어 구독의 일부로 유료 서비스로 제공됩니다. AWS Marketplace에서 사용 가능.

가까운 시일 내에 SageMaker에 NIM에 대한 심층 가이드를 게시할 예정입니다.


저자 소개

제임스 파크 Amazon Web Services의 솔루션 아키텍트입니다. 그는 Amazon.com과 협력하여 AWS에서 기술 솔루션을 설계, 구축 및 배포하며 특히 AI 및 기계 학습에 관심이 있습니다. H는 여가 시간에 새로운 문화, 새로운 경험을 찾고 최신 기술 동향을 파악하는 것을 즐깁니다. 그를 찾을 수 있습니다. 링크드인.

사우라브 트리칸데 Amazon SageMaker Inference의 수석 제품 관리자입니다. 그는 고객과 함께 일하는 데 열정적이며 기계 학습의 민주화라는 목표에 동기를 부여합니다. 그는 복잡한 ML 애플리케이션, 다중 테넌트 ML 모델 배포, 비용 최적화 및 딥 러닝 모델 배포의 접근성 향상과 관련된 핵심 과제에 중점을 둡니다. 여가 시간에 Saurabh는 하이킹, 혁신적인 기술 학습, TechCrunch 팔로우, 가족과 함께 시간 보내기를 즐깁니다.

칭란 AWS의 소프트웨어 개발 엔지니어입니다. 그는 고성능 ML 추론 솔루션 및 고성능 로깅 시스템을 포함하여 Amazon에서 여러 도전적인 제품을 작업해 왔습니다. Qing의 팀은 요구되는 매우 짧은 지연 시간으로 Amazon Advertising에서 첫 번째 XNUMX억 매개변수 모델을 성공적으로 출시했습니다. Qing은 인프라 최적화 및 딥 러닝 가속화에 대한 심층 지식을 보유하고 있습니다.

니힐 쿨카르니 클라우드에서 기계 학습 워크로드의 성능을 높이는 데 중점을 둔 AWS Machine Learning의 소프트웨어 개발자이며 교육 및 추론을 위한 AWS Deep Learning Containers의 공동 제작자입니다. 그는 분산 딥 러닝 시스템에 열정적입니다. 일 외에는 책 읽기, 기타 만지작거리기, 피자 만들기를 즐깁니다.

하리시 투말라체를라 SageMaker 딥 러닝 성능 팀의 소프트웨어 엔지니어입니다. 그는 SageMaker에서 대규모 언어 모델을 효율적으로 제공하기 위한 성능 엔지니어링 작업을 하고 있습니다. 여가 시간에는 달리기, 사이클링, 스키 등산을 즐깁니다.

엘리우스 트리아나 이사자 Amazon의 AI MLOps, DevOps, 과학자 및 AWS 기술 전문가가 AWS GPU 인스턴스의 데이터 큐레이션, GPU 교육, 모델 추론 및 프로덕션 배포에 이르는 Generative AI Foundation 모델을 가속화하고 최적화하기 위해 NVIDIA 컴퓨팅 스택을 마스터할 수 있도록 지원하는 NVIDIA의 개발자 관계 관리자입니다. . 또한 Eliuth는 열정적인 산악자전거, 스키, 테니스, 포커 플레이어이기도 합니다.

리우 지아 홍 NVIDIA 클라우드 서비스 제공업체 팀의 솔루션 설계자입니다. 그는 교육 및 추론 문제를 해결하기 위해 NVIDIA 가속 컴퓨팅을 활용하는 기계 학습 및 AI 솔루션을 채택하는 고객을 지원합니다. 여가 시간에는 종이접기, DIY 프로젝트, 농구를 즐깁니다.

크시티즈 굽타 NVIDIA의 솔루션 아키텍트입니다. 그는 NVIDIA가 제공해야 하는 GPU AI 기술에 대해 클라우드 고객을 교육하고 기계 학습 및 딥 러닝 애플리케이션을 가속화하도록 지원하는 것을 즐깁니다. 일 외에는 달리기, 하이킹, 야생 동물 관찰을 즐깁니다.

spot_img

최신 인텔리전스

spot_img