TypeScript で始める Weave クイックスタートガイド
- 言語モデルの入力、出力、トレースをログし、デバッグする
- 言語モデルのユースケース向けに、厳密で同一条件の評価を構築する
- 実験から評価、本番まで、LLM ワークフロー全体で生成されるあらゆる情報を整理する
関数のトラッキング
weave.op ラッパーを追加します。
weave.op を追加して関数を呼び出したら、W&Bダッシュボードを開き、プロジェクト内でその関数がトラッキングされていることを確認します。
コードは自動的にトラッキングされます。UI のコードタブを確認してください!
OpenAI インテグレーション
- トークン使用量
- API コスト
- リクエスト/レスポンスのペア
- モデル設定
Weave は OpenAI に加えて、Anthropic や Mistral など、他の LLM プロバイダの自動ログ記録もサポートしています。一覧は、インテグレーションのドキュメントの LLM Providers を参照してください。
ネストした関数のトラッキング
- アプリケーションのロジックフローを完全に可視化できる
- 複雑な一連の処理を簡単にデバッグできる
- パフォーマンス最適化の機会が得られる
データセット管理
weave.Dataset クラスを使うと、Weave でデータセットを作成・管理できます。Weave Models と同様に、weave.Dataset は次のような用途に役立ちます。
- データをトラッキングし、バージョン管理する
- テストケースを整理する
- チームメンバー間でデータセットを共有する
- 体系的な評価を行う
評価フレームワーク
Evaluation クラス を使って評価駆動開発をサポートします。評価を行うことで、GenAI アプリケーションを確実に反復改善できます。Evaluation クラスでは、次のことができます。
Datasetに対するModelのパフォーマンスを評価する- カスタムのスコアリング関数を適用する
- 詳細なパフォーマンスレポートを生成する
- モデルのバージョン間を比較できるようにする
main関数で、すべてのデモを実行します。