LoRAs에 W&B Inference를 사용하는 이유는 무엇인가요?
- 한 번 업로드하면 즉시 배포할 수 있으며, 관리할 서버도 필요 없습니다.
- artifact 버전 관리를 통해 현재 서비스 중인 버전을 정확하게 추적할 수 있습니다.
- 전체 모델 가중치 대신 작은 LoRA 파일만 교체해 몇 초 만에 모델을 업데이트할 수 있습니다.
워크플로
- LoRA 가중치를 W&B artifact로 업로드합니다
- API에서 artifact URI를 모델 이름으로 레퍼런스합니다
- W&B가 Inference를 위해 가중치를 동적으로 로드합니다
사전 요구 사항
LoRA를 추가하고 사용하는 방법
- 다른 곳에서 트레이닝한 LoRA 업로드
- W&B로 새 LoRA 트레이닝
직접 만든 커스텀 LoRA 디렉터리를 W&B artifact로 업로드합니다. LoRA를 다른 환경(로컬 환경, cloud provider 또는 파트너 서비스)에서 트레이닝한 경우에 적합합니다.이 Python 코드는 로컬에 저장된 LoRA 가중치를 버전 관리되는 W&B artifact로 업로드합니다. 필수 메타데이터(베이스 모델 및 storage region)가 포함된
lora 유형 artifact를 생성하고, 로컬 디렉터리의 LoRA 파일을 추가한 다음, Inference에 사용할 수 있도록 W&B 프로젝트에 기록합니다.주요 요구 사항
자체 LoRA를 Inference에서 사용하려면 다음 요구 사항을 충족해야 합니다.- LoRA는 지원되는 베이스 모델 섹션에 나열된 모델 중 하나로 트레이닝되어 있어야 합니다.
- LoRA는 PEFT 형식으로 저장되어 있어야 하며, W&B 계정에
lora유형 artifact로 존재해야 합니다. - 지연 시간을 최소화하려면 LoRA가
storage_region="coreweave-us"에 저장되어 있어야 합니다. - 업로드할 때 트레이닝에 사용한 베이스 모델 이름(예:
meta-llama/Llama-3.1-8B-Instruct)을 포함하세요. 그래야 W&B가 올바른 모델과 함께 LoRA를 로드할 수 있습니다.
지원되는 베이스 모델
wandb.base_model에는 아래 문자열을 정확히 사용하세요). 더 많은 모델이 곧 추가될 예정입니다:
| API 사용 시 모델 ID | 최대 LoRA 랭크 |
|---|---|
meta-llama/Llama-3.1-70B-Instruct | 16 |
meta-llama/Llama-3.1-8B-Instruct | 16 |
openai/gpt-oss-120b | 64 |
OpenPipe/Qwen3-14B-Instruct | 16 |
Qwen/Qwen3-30B-A3B-Instruct-2507 | 16 |
가격
- 저장소 - LoRA 가중치를 저장하는 비용은 저렴하며, 특히 자체 GPU infrastructure를 유지하는 것과 비교하면 더욱 그렇습니다.
- Inference 사용 - LoRA Artifacts를 사용하는 call에는 표준 모델 Inference와 동일한 요금이 청구됩니다. 커스텀 LoRA를 서빙하는 데에는 추가 요금이 없습니다.