Windows RTX PC용 NVIDIA RTX AI 툴킷으로 AI 기반 앱 개발 간소화 (2024)

Reading Time: 5 minutes

NVIDIA는 오늘 Windows 애플리케이션 개발자가 Windows 애플리케이션용 AI 모델을 맞춤화, 최적화 및 배포할 수 있는 도구 및 SDK의 컬렉션인 NVIDIA RTX AI Toolkit을 출시했습니다. 무료로 사용할 수 있고 AI 프레임워크 및 개발 도구에 대한 사전 경험이 필요하지 않으며 로컬 및 클라우드 배포 모두에 최고의 AI 성능을 제공합니다.

GPT(Generative Pretrained Transformer) 모델의 광범위한 가용성 덕분에 Windows 개발자가 AI 기능을 앱에 통합할 수 있는 큰 기회가 창출됩니다. 하지만 이러한 기능을 제공하는 데는 여전히 상당한 어려움이 따를 수 있습니다. 첫째, 애플리케이션의 구체적인 요구 사항을 충족하도록 모델을 맞춤화해야 합니다. 둘째, 최고의 성능을 제공하면서 광범위한 하드웨어에 맞춰 모델을 최적화해야 합니다. 셋째, 클라우드와 로컬 AI 모두에 유효한 간편한 배포 경로가 필요합니다.

NVIDIA RTX AI 툴킷은 Windows 앱 개발자를 위한 엔드 투 엔드 워크플로우를 제공합니다. Hugging Face의 사전 학습 모델을 활용하고, 애플리케이션별 요구 사항을 충족하도록 인기 있는 파인 튜닝 기술로 모델을 맞춤화하며, 소비자 PC에 맞게 양자화할 수 있습니다. 그런 다음 NVIDIA GeForce RTX GPU 전체 제품군과 클라우드의 NVIDIA GPU에서 최고의 성능을 발휘하도록 최적화할 수 있습니다.

배포 시 RTX AI 툴킷은 최적화된 모델을 애플리케이션과 번들로 묶거나, 앱 설치/업데이트 시 다운로드하거나, 클라우드 마이크로 서비스를 시작하는 등 애플리케이션의 요구 사항에 맞는 여러 경로를 지원합니다. 이 툴킷에는 또한 사용자의 시스템 구성 또는 현재 워크로드에 따라 앱이 AI를 로컬 또는 클라우드에서 실행할 수 있도록 지원하는 NVIDIA AI Inference Manager(AIM) SDK가 포함되어 있습니다.

모든 애플리케이션을 위한 강력한 맞춤형 AI

오늘날의 생성형 모델은 대규모 데이터세트로 학습합니다. 이 과정에는 세계에서 가장 강력한 수백 개의 GPU를 사용하며 몇 주가 소요될 수 있습니다. 대부분의 개발자는 이러한 컴퓨팅 리소스를 사용할 수 없지만 오픈 소스 사전 학습 모델이라면 강력한 AI 기능을 이용할 수 있습니다.

PC 및 클라우드에 대한 최적화

AI 모델 최적화에는 두 가지 주요 과제가 있습니다. 첫째, PC에는 AI 모델을 실행하기 위한 메모리와 컴퓨팅 리소스가 제한되어 있습니다. 둘째, PC와 클라우드 사이에는 다양한 기능을 갖춘 대상 하드웨어가 광범위하게 존재합니다.

RTX AI 툴킷에는 AI 모델을 최적화하고 배포를 준비하기 위한 다음과 같은 도구가 포함되어 있습니다.

한 번의 개발로 어디에나 배포 가능

애플리케이션에 로컬 또는 클라우드에서 추론을 수행할 수 있는 기능이 있으면 대부분의 사용자에게 최고의 경험을 제공할 수 있습니다. 디바이스에 배포된 모델의 지연 시간이 짧아질 수 있으며, 이러한 모델에는 런타임의 클라우드 호출이 필요하지 않지만 특정한 하드웨어 요구 사항이 있습니다. 클라우드에 배포된 모델은 어떤 하드웨어에서 실행되는 애플리케이션도 지원할 수 있지만 서비스 제공업체와 관련된 운영 비용이 지속적으로 듭니다. 모델이 개발되면 RTX AI 툴킷을 사용하여 어디에든 배포할 수 있으며 이러한 모델은 다음과 같은 온디바이스 및 클라우드 경로를 위한 도구입니다.

NVIDIA AI 추론 관리자(AIM): 얼리 액세스로 제공되는 AIM은 PC 개발자를 위해 AI 통합의 복잡성을 단순화하고 PC와 클라우드 전반에서 AI 추론을 원활하게 조율합니다.NVIDIA AIM은 필요한 AI 모델, 엔진 및 종속성으로 PC 환경을 사전 구성하고 GPU, NPU 및 CPU를 포함한 다양한 가속기 전반에서 모든 주요 추론 백엔드(TensorRT, ONNX Runtime, GGUF, Pytorch)를 지원합니다. 또한 런타임 호환성 검사를 수행하여 PC가 개발자 정책에 따라 모델을 로컬에서 실행하거나 클라우드로 전환할 수 있는지 확인합니다.

NVIDIA AIM을 통해 개발자는 NVIDIA NIM을 활용하여 클라우드에 배포하고, TensorRT와 같은 도구를 사용하여 로컬 디바이스에 배포할 수 있습니다.

NVIDIA NIM: NVIDIA NIM은 클라우드, 데이터센터, 워크스테이션 전반에서 생성형 AI의 배포를 가속화하도록 설계된 사용하기 쉬운 일련의 마이크로서비스입니다. NIM은 NVIDIA AI Enterprise 소프트웨어 제품군의 일부로 제공됩니다. RTX AI 툴킷은 최적화된 모델을 종속성과 함께 패키징하고, 스테이징 서버에 업로드한 다음, NIM을 실행하는 도구를 제공합니다. 이렇게 하면 최적화된 모델이 풀링되고 애플리케이션에서 호출할 엔드포인트가 생성됩니다.

모델은 NVIDIA AI Inference Manager(AIM) 플러그인을 사용하여 디바이스에 배포할 수도 있습니다. 이를 통해 로컬 및 클라우드 추론의 세부 정보를 관리하여 개발자의 통합 부하를 줄일 수 있습니다.

NVIDIA TensorRT: NVIDIA TensorRT 10.0 및 TensorRT-LLM 추론 백엔드는 Tensor 코어가 있는 NVIDIA GPU에 동급 최고의 성능을 제공합니다. 새로 출시된 TensorRT 10.0은 Windows 애플리케이션에 대한 AI 모델의 배포를 단순화합니다. 가중치가 제거된 엔진을 사용하면 컴파일된 엔진 크기의 99% 이상을 압축할 수 있으므로 최종 사용자 디바이스에서 직접 모델 가중치를 다시 맞출 수 있습니다. 또한, TensorRT는 AI 모델이 새로운 런타임 또는 하드웨어에서 작동할 수 있도록 소프트웨어 및 하드웨어 순방향 호환성을 제공합니다. TensorRT-LLM에는 RTX GPU에서 생성형 AI LLM 및 SLM을 가속화하기 위한 전용 최적화가 포함되어 있어 LLM 추론이 더욱 빨라집니다.

개발자는 이러한 도구를 통해 애플리케이션 런타임에 준비된 ‌모델을 마련할 수 있습니다.

RTX AI 가속화 에코시스템

Adobe, Blackmagic Design, Topaz Labs 등 주요 크리에이티브 ISV는 NVIDIA RTX AI 툴킷을 애플리케이션에 통합하여 RTX PC에서 실행되는 AI 가속 앱을 제공하는 방식으로 수백만 명의 크리에이터에게 향상된 사용자 경험을 선사하고 있습니다.

RTX PC에서 가속화된 RAG 기반 및 에이전트 기반 워크플로우를 구축하기 위해 이제 LangChain 및 LlamaIndex와 같은 개발자 프레임워크를 통해 RTX AI 툴킷(TensorRT-LLM 등)의 기능과 구성 요소에 액세스할 수 있습니다. 또한, 인기 있는 에코시스템 도구(예: Automatic1111, Comfy.UI, Jan.AI, OobaBooga, Sanctum.AI)가 이제 RTX AI 툴킷을 통해 가속화됩니다. 이러한 통합을 통해 최적화된 AI 가속 앱을 쉽게 구축하고, 온디바이스 및 클라우드 GPU에 배포하며, 앱 내에서 하이브리드 기능을 활성화하여 로컬 및 클라우드 환경에서 추론을 실행할 수 있습니다.

Windows 애플리케이션에 도입되는 강력한 AI

NVIDIA RTX AI 툴킷은 Windows 애플리케이션 개발자가 사전 학습 모델을 활용하고, 모델을 맞춤화 및 최적화하며, 로컬 또는 클라우드에서 실행되도록 배포할 수 있는 엔드 투 엔드 워크플로우를 제공합니다. 빠르고 강력한 하이브리드 AI는 AI 기반 애플리케이션이 각 시스템에서 최고의 성능을 제공하는 동시에 빠르게 확장할 수 있도록 지원합니다. RTX AI 툴킷을 사용하면 더 많은 사용자에게 더 많은 AI 기반 기능을 제공하여 게이밍부터 생산성, 콘텐츠 제작에 이르기까지 모든 활동에서 AI의 이점을 누릴 수 있습니다.

개발자가 활용할 수 있도록 NVIDIA RTX AI 툴킷이 곧 출시될 예정입니다.