Mairaデータセットトレーニング
Mairaデータセットトレーニングには2つのエンドポイントがあります。
特定のデータセットをトレーニング
特定のデータセット内のすべてのドキュメントをトレーニングするためにこのエンドポイントを使用します。
エンドポイント:
POST /v1/gpt/datasets/{dataset_id}/train
リクエストボディの例
{
"train_type": "text",
"batch_size": 1,
"only_payload_update": false
}
パラメーター:
- dataset_id: str - トレーニング対象のデータセットのID。
- train_type: enum - トレーニングのタイプ。
text
またはimage
が入力可能な値です。 - batch_size: Optional[int] - 1回のバッチでトレーニングするドキュメントの数。最大値は10です。 特別な理由がない限り、デフォルト値(1)に設定しておくことをお勧めします。
- only_payload_update: Optional[bool] - データセットをトレーニングした後、filterable_fieldsやsecondary_idx_columnなどのメタデータを更新する必要がある場合は、このパラメータを使用して、データセット全体を再トレーニングすることなく、メタデータのみを更新できます。"only_payload_update" = trueの場合、Mairaはトレーニング済みのドキュメントのみを更新することに注意してください。
- 例: Mairaのデータセットにfilterable_fieldsを追加できます。 もし後で別のフィールドを"フィルタ可能"に設定しPUT /datasets/{dataset_id}を使用してデータセットを更新したい場合、データセット全体を再トレーニングすることなく新たに追加したキー (フィルタ可能フィールド) のみを更新するために、このパラメーターをtrueに設定してください。これにより、時間とコストを大幅に節約できます。
特定のドキュメントをトレーニング
データセット内の特定のドキュメントをトレーニングするためにこのエンドポイントを使用します。
エンドポイント:
POST /v1/gpt/datasets/{dataset_id}/documents/{document_id}/train
リクエストボディ:
{
"train_type": "text"
}
パラメーター:
- dataset_id: str - トレーニング対象のデータセットのID。
- document_id: str - トレーニング対象のドキュメントのID。
- train_type: enum - トレーニングのタイプ。
text
またはimage
が入力可能な値です。