Windows RTX PC용 NVIDIA RTX AI 툴킷으로 AI 기반 앱 개발 간소화 (2024)

Reading Time: 5 minutes

NVIDIA는 오늘 Windows 애플리케이션 개발자가 Windows 애플리케이션용 AI 모델을 맞춤화, 최적화 및 배포할 수 있는 도구 및 SDK의 컬렉션인 NVIDIA RTX AI Toolkit을 출시했습니다. 무료로 사용할 수 있고 AI 프레임워크 및 개발 도구에 대한 사전 경험이 필요하지 않으며 로컬 및 클라우드 배포 모두에 최고의 AI 성능을 제공합니다.

GPT(Generative Pretrained Transformer) 모델의 광범위한 가용성 덕분에 Windows 개발자가 AI 기능을 앱에 통합할 수 있는 큰 기회가 창출됩니다. 하지만 이러한 기능을 제공하는 데는 여전히 상당한 어려움이 따를 수 있습니다. 첫째, 애플리케이션의 구체적인 요구 사항을 충족하도록 모델을 맞춤화해야 합니다. 둘째, 최고의 성능을 제공하면서 광범위한 하드웨어에 맞춰 모델을 최적화해야 합니다. 셋째, 클라우드와 로컬 AI 모두에 유효한 간편한 배포 경로가 필요합니다.

NVIDIA RTX AI 툴킷은 Windows 앱 개발자를 위한 엔드 투 엔드 워크플로우를 제공합니다. Hugging Face의 사전 학습 모델을 활용하고, 애플리케이션별 요구 사항을 충족하도록 인기 있는 파인 튜닝 기술로 모델을 맞춤화하며, 소비자 PC에 맞게 양자화할 수 있습니다. 그런 다음 NVIDIA GeForce RTX GPU 전체 제품군과 클라우드의 NVIDIA GPU에서 최고의 성능을 발휘하도록 최적화할 수 있습니다.

배포 시 RTX AI 툴킷은 최적화된 모델을 애플리케이션과 번들로 묶거나, 앱 설치/업데이트 시 다운로드하거나, 클라우드 마이크로 서비스를 시작하는 등 애플리케이션의 요구 사항에 맞는 여러 경로를 지원합니다. 이 툴킷에는 또한 사용자의 시스템 구성 또는 현재 워크로드에 따라 앱이 AI를 로컬 또는 클라우드에서 실행할 수 있도록 지원하는 NVIDIA AI Inference Manager(AIM) SDK가 포함되어 있습니다.

모든 애플리케이션을 위한 강력한 맞춤형 AI

오늘날의 생성형 모델은 대규모 데이터세트로 학습합니다. 이 과정에는 세계에서 가장 강력한 수백 개의 GPU를 사용하며 몇 주가 소요될 수 있습니다. 대부분의 개발자는 이러한 컴퓨팅 리소스를 사용할 수 없지만 오픈 소스 사전 학습 모델이라면 강력한 AI 기능을 이용할 수 있습니다.

오픈 소스로 제공되는 사전 학습 기반 모델은 보통 일반화된 데이터 세트로 학습합니다. 이를 통해 다양한 작업에서 적절한 결과를 제공할 수 있습니다. 하지만 애플리케이션에는 특수한 동작이 필요한 경우가 많습니다. 예를 들어 게임 캐릭터는 특정한 방식으로 말해야 하고, 과학 작문 도우미는 업계 용어를 이해해야 합니다.

파인 튜닝은 특정 분야의 요구 사항과 일치하는 추가 데이터로 사전 학습된 모델을 추가로 학습시키는 기술입니다. 게임 캐릭터의 대화 샘플을 예로 들 수 있습니다.

RTX AI 툴킷에는 NVIDIA AI Workbench와 같이 파인 튜닝을 지원하는 도구가 포함되어 있습니다. 올해 초에 출시된 AI Workbench는 로컬 RTX GPU와 클라우드 모두에서 모델 학습, 조정, 최적화 프로젝트를 구성하고 실행하는 도구입니다. RTX AI 툴킷에는 오늘날 가장 인기 있고 효과적인 기술 중 하나인 QLoRA를 사용하여 파인 튜닝할 수 있는 AI Workbench 프로젝트도 포함되어 있습니다.

매개변수 효율적인 파인 튜닝을 위해 이 툴킷은 Hugging Face Transformer 라이브러리를 사용하는 QLoRA를 활용하여 더 적은 메모리를 사용하면서 맞춤화를 지원하며, RTX GPU가 탑재된 클라이언트 디바이스에서 효율적으로 실행할 수 있습니다.

파인 튜닝이 완료되면 다음 단계는 최적화입니다.

PC 및 클라우드에 대한 최적화

AI 모델 최적화에는 두 가지 주요 과제가 있습니다. 첫째, PC에는 AI 모델을 실행하기 위한 메모리와 컴퓨팅 리소스가 제한되어 있습니다. 둘째, PC와 클라우드 사이에는 다양한 기능을 갖춘 대상 하드웨어가 광범위하게 존재합니다.

RTX AI 툴킷에는 AI 모델을 최적화하고 배포를 준비하기 위한 다음과 같은 도구가 포함되어 있습니다.

NVIDIA TensorRT Model Optimizer: 아무리 작은 LLM이라도 14GB 이상의 RAM이 필요할 수 있습니다. 오늘부터 일반 공급되는 Windows용 NVIDIA TensorRT Model Optimizer는 정확도를 크게 낮추지 않고 모델을 최대 3배 작게 양자화할 수 있는 도구를 제공합니다. 여기에는 RTX GPU에서 최첨단 LLM을 쉽게 실행할 수 있도록 INT4 AWQ 학습 후 양자화와 같은 방법이 포함됩니다. 이를 통해 소규모 모델을 일반 시스템에서 사용 가능한 GPU 메모리에 더 쉽게 맞출 수 있을 뿐만 아니라 메모리 대역폭 병목 현상을 줄여 성능도 개선합니다.

NVIDIA TensorRT Cloud: 모든 시스템에서 최고의 성능을 얻기 위해 각 GPU에 맞춰 모델을 특별히 최적화할 수 있습니다. 개발자 프리뷰로 제공되는 NVIDIA TensorRT Cloud는 PC의 RTX GPU와 클라우드의 GPU에 최적화된 모델 엔진을 구축하기 위한 클라우드 서비스입니다. 또한 인기 있는 생성형 AI 모델을 위해 사전 구축되고 가중치가 제거된 엔진을 제공하며, 이는 파인 튜닝된 가중치와 병합되어 최적화된 엔진을 생성할 수 있습니다. TensorRT Cloud로 구축되고 TensorRT 런타임으로 실행되는 엔진은 사전 학습 모델에 비해 최대 4배 빠른 성능을 달성할 수 있습니다.

파인 튜닝된 모델이 최적화되면 다음 단계는 배포입니다.

한 번의 개발로 어디에나 배포 가능

애플리케이션에 로컬 또는 클라우드에서 추론을 수행할 수 있는 기능이 있으면 대부분의 사용자에게 최고의 경험을 제공할 수 있습니다. 디바이스에 배포된 모델의 지연 시간이 짧아질 수 있으며, 이러한 모델에는 런타임의 클라우드 호출이 필요하지 않지만 특정한 하드웨어 요구 사항이 있습니다. 클라우드에 배포된 모델은 어떤 하드웨어에서 실행되는 애플리케이션도 지원할 수 있지만 서비스 제공업체와 관련된 운영 비용이 지속적으로 듭니다. 모델이 개발되면 RTX AI 툴킷을 사용하여 어디에든 배포할 수 있으며 이러한 모델은 다음과 같은 온디바이스 및 클라우드 경로를 위한 도구입니다.

NVIDIA AI 추론 관리자(AIM): 얼리 액세스로 제공되는 AIM은 PC 개발자를 위해 AI 통합의 복잡성을 단순화하고 PC와 클라우드 전반에서 AI 추론을 원활하게 조율합니다.NVIDIA AIM은 필요한 AI 모델, 엔진 및 종속성으로 PC 환경을 사전 구성하고 GPU, NPU 및 CPU를 포함한 다양한 가속기 전반에서 모든 주요 추론 백엔드(TensorRT, ONNX Runtime, GGUF, Pytorch)를 지원합니다. 또한 런타임 호환성 검사를 수행하여 PC가 개발자 정책에 따라 모델을 로컬에서 실행하거나 클라우드로 전환할 수 있는지 확인합니다.

NVIDIA AIM을 통해 개발자는 NVIDIA NIM을 활용하여 클라우드에 배포하고, TensorRT와 같은 도구를 사용하여 로컬 디바이스에 배포할 수 있습니다.

NVIDIA NIM: NVIDIA NIM은 클라우드, 데이터센터, 워크스테이션 전반에서 생성형 AI의 배포를 가속화하도록 설계된 사용하기 쉬운 일련의 마이크로서비스입니다. NIM은 NVIDIA AI Enterprise 소프트웨어 제품군의 일부로 제공됩니다. RTX AI 툴킷은 최적화된 모델을 종속성과 함께 패키징하고, 스테이징 서버에 업로드한 다음, NIM을 실행하는 도구를 제공합니다. 이렇게 하면 최적화된 모델이 풀링되고 애플리케이션에서 호출할 엔드포인트가 생성됩니다.

모델은 NVIDIA AI Inference Manager(AIM) 플러그인을 사용하여 디바이스에 배포할 수도 있습니다. 이를 통해 로컬 및 클라우드 추론의 세부 정보를 관리하여 개발자의 통합 부하를 줄일 수 있습니다.

NVIDIA TensorRT: NVIDIA TensorRT 10.0 및 TensorRT-LLM 추론 백엔드는 Tensor 코어가 있는 NVIDIA GPU에 동급 최고의 성능을 제공합니다. 새로 출시된 TensorRT 10.0은 Windows 애플리케이션에 대한 AI 모델의 배포를 단순화합니다. 가중치가 제거된 엔진을 사용하면 컴파일된 엔진 크기의 99% 이상을 압축할 수 있으므로 최종 사용자 디바이스에서 직접 모델 가중치를 다시 맞출 수 있습니다. 또한, TensorRT는 AI 모델이 새로운 런타임 또는 하드웨어에서 작동할 수 있도록 소프트웨어 및 하드웨어 순방향 호환성을 제공합니다. TensorRT-LLM에는 RTX GPU에서 생성형 AI LLM 및 SLM을 가속화하기 위한 전용 최적화가 포함되어 있어 LLM 추론이 더욱 빨라집니다.

개발자는 이러한 도구를 통해 애플리케이션 런타임에 준비된 ‌모델을 마련할 수 있습니다.

RTX AI 가속화 에코시스템

Adobe, Blackmagic Design, Topaz Labs 등 주요 크리에이티브 ISV는 NVIDIA RTX AI 툴킷을 애플리케이션에 통합하여 RTX PC에서 실행되는 AI 가속 앱을 제공하는 방식으로 수백만 명의 크리에이터에게 향상된 사용자 경험을 선사하고 있습니다.

RTX PC에서 가속화된 RAG 기반 및 에이전트 기반 워크플로우를 구축하기 위해 이제 LangChain 및 LlamaIndex와 같은 개발자 프레임워크를 통해 RTX AI 툴킷(TensorRT-LLM 등)의 기능과 구성 요소에 액세스할 수 있습니다. 또한, 인기 있는 에코시스템 도구(예: Automatic1111, Comfy.UI, Jan.AI, OobaBooga, Sanctum.AI)가 이제 RTX AI 툴킷을 통해 가속화됩니다. 이러한 통합을 통해 최적화된 AI 가속 앱을 쉽게 구축하고, 온디바이스 및 클라우드 GPU에 배포하며, 앱 내에서 하이브리드 기능을 활성화하여 로컬 및 클라우드 환경에서 추론을 실행할 수 있습니다.

Windows 애플리케이션에 도입되는 강력한 AI

NVIDIA RTX AI 툴킷은 Windows 애플리케이션 개발자가 사전 학습 모델을 활용하고, 모델을 맞춤화 및 최적화하며, 로컬 또는 클라우드에서 실행되도록 배포할 수 있는 엔드 투 엔드 워크플로우를 제공합니다. 빠르고 강력한 하이브리드 AI는 AI 기반 애플리케이션이 각 시스템에서 최고의 성능을 제공하는 동시에 빠르게 확장할 수 있도록 지원합니다. RTX AI 툴킷을 사용하면 더 많은 사용자에게 더 많은 AI 기반 기능을 제공하여 게이밍부터 생산성, 콘텐츠 제작에 이르기까지 모든 활동에서 AI의 이점을 누릴 수 있습니다.

개발자가 활용할 수 있도록 NVIDIA RTX AI 툴킷이 곧 출시될 예정입니다.

관련 리소스

  • DLI 과정: 대화형 AI 애플리케이션 구축
  • GTC 세션: Dell AI 지원 워크스테이션 및 NVIDIA AI Workbench를 통한 개발자 여정의 가속화
  • GTC 세션: 멀티 모달 기반 모델을 통해 비전과 언어를 사용하여 맞춤형 AI 제작
  • GTC 세션: 고성능 AI 컴퓨팅을 통한 자율주행 자동차 개발의 가속화
  • SDK: TAO Toolkit
  • SDK: NVIDIA Tokkio
Windows RTX PC용 NVIDIA RTX AI 툴킷으로 AI 기반 앱 개발 간소화 (2024)

References

Top Articles
Latest Posts
Article information

Author: Fr. Dewey Fisher

Last Updated:

Views: 6194

Rating: 4.1 / 5 (42 voted)

Reviews: 89% of readers found this page helpful

Author information

Name: Fr. Dewey Fisher

Birthday: 1993-03-26

Address: 917 Hyun Views, Rogahnmouth, KY 91013-8827

Phone: +5938540192553

Job: Administration Developer

Hobby: Embroidery, Horseback riding, Juggling, Urban exploration, Skiing, Cycling, Handball

Introduction: My name is Fr. Dewey Fisher, I am a powerful, open, faithful, combative, spotless, faithful, fair person who loves writing and wants to share my knowledge and understanding with you.