메인 콘텐츠로 건너뛰기
현재 공개 프리뷰로 제공되는 Serverless RL은 개발자가 다중 턴 에이전트 작업을 수행할 때 새로운 행동을 학습하고 신뢰성, 속도, 비용을 개선할 수 있도록 LLM을 포스트 트레이닝할 수 있게 해줍니다. W&B는 사용자를 대신해 트레이닝 인프라(CoreWeave에서)를 프로비저닝하는 동시에 환경 설정에 대한 완전한 유연성도 제공합니다. Serverless RL은 수십 개의 GPU까지 탄력적으로 자동 확장되는 관리형 트레이닝 클러스터에 즉시 액세스할 수 있게 해줍니다. RL 워크플로를 Inference 단계와 트레이닝 단계로 나누고 이를 여러 작업에 걸쳐 다중화함으로써, Serverless RL은 GPU 사용량을 높이고 트레이닝 시간과 비용을 줄입니다. Serverless RL은 다음과 같은 작업에 이상적입니다:
  • 음성 에이전트
  • 딥 리서치 어시스턴트
  • 온프레미스 모델
  • 콘텐츠 마케팅 분석 에이전트
Serverless RL은 에이전트의 특정 작업에 맞게 모델을 특화하기 위해 저랭크 어댑터(LoRA)를 트레이닝합니다. 이를 통해 원래 모델의 기능을 실전 경험으로 확장할 수 있습니다. 트레이닝한 LoRA는 자동으로 W&B 계정에 Artifacts로 저장되며, 백업을 위해 로컬 또는 타사에 저장할 수 있습니다. Serverless RL을 통해 트레이닝한 모델은 W&B Inference에도 자동으로 호스팅됩니다. 시작하려면 ART 퀵스타트 또는 Google Colab notebook을 참조하세요.

왜 Serverless RL인가요?

강화 학습(RL)은 강력한 트레이닝 기법 모음으로, 직접 소유하거나 임대한 GPU를 사용하는 경우를 포함해 다양한 트레이닝 환경에서 사용할 수 있습니다. Serverless RL은 RL 사후 트레이닝에서 다음과 같은 이점을 제공합니다:
  • 더 낮은 트레이닝 비용: Serverless RL은 여러 사용자에게 공유 인프라를 멀티플렉싱하고, 각 작업마다 설정 과정을 생략하며, 실제로 트레이닝하지 않을 때는 GPU 비용을 0까지 낮춤으로써 트레이닝 비용을 크게 절감합니다.
  • 더 빠른 트레이닝 시간: Serverless RL은 Inference Request를 여러 GPU로 분산하고, 필요할 때 즉시 트레이닝 인프라를 프로비저닝하여 트레이닝 작업을 더 빠르게 실행하고 반복 속도를 높일 수 있게 합니다.
  • 자동 배포: Serverless RL은 트레이닝한 모든 checkpoint를 자동으로 배포하므로, 호스팅 인프라를 수동으로 설정할 필요가 없습니다. 트레이닝된 모델은 로컬, 스테이징, 또는 프로덕션 환경에서 즉시 액세스하고 테스트할 수 있습니다.

Serverless RL이 W&B 서비스를 사용하는 방식

Serverless RL은 작동을 위해 다음과 같은 W&B 컴포넌트를 조합해 사용합니다:
  • Inference: 모델을 실행하기 위해
  • Models: LoRA 어댑터의 트레이닝 중 성능 메트릭을 추적하기 위해
  • Artifacts: LoRA 어댑터를 저장하고 버전을 관리하기 위해
  • Weave (선택): 트레이닝 루프의 각 step에서 모델이 어떻게 응답하는지 관찰할 수 있도록 하기 위해
Serverless RL은 공개 프리뷰 상태입니다. 프리뷰 기간에는 Inference 사용과 Artifacts 저장에 대해서만 요금이 청구됩니다. W&B는 프리뷰 기간 동안 어댑터 트레이닝에는 요금을 청구하지 않습니다.