時系列データ
言語モデルは本来、計算処理が得意ではありません。さらに、Maira におけるベクトル検索では、日付や時刻の値はしばしばプレーンテキストとして扱われ、他のクエリ用語と一緒に埋め込み処理されます。そのため、本来の日時データとして認識されないことがあります。
これらの課題に対応するために、この機能が実装されました。この機能により、正確な計算が可能になり、Maira がデータセット内の日時フィールドを認識して、より信頼性が高く時間を考慮した応答を返すことができます。
時系列データとは、日付、タイムスタンプ、期間などの時間関連情報を含むデータセットのことです。この機能を利用することで、時間に基づいた正確な検索や計算を行うことができる上に、他のフィールドについても正確にクエリや計算を実行できます。
この機能(データの作成とアップロード)は現在 API のみで利用可能です。今後、プラットフォームの UI でもサポート予定です。
時系列データセットの作成
まず、以下のエンドポイントに POST リクエストを送信して、時系列データセットを作成します。
https://api.recommender.gigalogy.com/v1/gpt/datasets_ts
リクエストボディ例
{
"name": "Power Consumption Dataset",
"description": "This is a time-series dataset containing information about ...",
"datetime_fields": [
"stocked_at",
"submitted_on",
"sold_at"
],
"primary_datetime_field": "timestamp",
"tags": [
"tag1",
"tag2",
"tag3"
]
}
パラメータ
-
name:
データセットの表示名。Maira の応答生成には影響せず、ユーザーがデータセットを識別しやすくするためのものです。 -
description:
データセットの目的や内容を簡潔に説明する概要欄。こちらも Maira の応答生成には影響せず、ユーザーがデータセットをすぐに把握できるよう設けられています。 -
datetime_fields:
データセット内に含まれる全ての日時関連カラム。Maira はこれらを日時フィールドとして認識しますが、主キーにはなりません。 -
primary_datetime_field:
時系列データを並べ替えたり整列したりするためのプライマリーなタイムスタンプ列。 -
tags:
データセットのドメインやユースケースを示すタグのリスト。 - 例: 電力使用量を監視するデータセットなら、
power_consumption
やgrid_monitoring
などのタグを付与。複数タグの指定が可能 。 - 時系列データセットでは必須 であり、プロフィール作成に利用されます。
レスポンス例
成功時のレスポンスは以下のようになります。
{
"detail": {
"response": "Dataset created successfully",
"dataset_id": "10eb6dc0-46c3-4471-8677-0599b2e17e16"
}
}
NOTE:
- 次のステップでデータをアップロードする際には、この dataset_id が必要です。
- また、以下の GET エンドポイントを使用して、プロジェクト内のすべてのデータセットを一覧表示し、dataset_id を確認することもできます。
https://api.recommender.gigalogy.com/v1/gpt/datasets
時系列データのアップロード
時系列データをアップロードするには、以下のエンドポイントに PUT リクエストを送信します。
https://api.recommender.gigalogy.com/v1/gpt/datasets_ts/{dataset_id}/file
前のステップで取得した dataset_id を使用してください。
対応ファイル形式: CSV, JSON, PARQUET
NOTE:
-
このエンドポイントは、一般的なドキュメントアップロード用エンドポイント
/v1/gpt/datasets/{dataset_id}/file
とは異なります。 -
時系列データセットは 学習(Training)を必要としません。
cURL リクエスト例:
curl -X PUT \
'https://api.recommender.gigalogy.com/v1/gpt/datasets_ts/<dataset_id>/file' \
-H 'accept: application/json' \
-H 'project-key: <your-project-key>' \
-H 'api-key: <your-api-key>' \
-H 'Content-Type: multipart/form-data' \
-F 'dataset_file=@test_time_series.csv;type=text/csv'
時系列データ用プロフィールの作成
プロフィールは 時系列 データセット専用に作成する必要があります。1つのプロフィールでサポートできる時系列データセットは1つのみである点にご注意ください**。
プロフィールを作成する際には、データタグの "include"
パラメータに必ずそのデータセットのタグを追加する必要があります。
例えば、時系列データセットに demo_tag
というタグが設定されている場合、プロフィールにも次のように含める必要があります(include: demo_tag)。
プロフィールの作成方法についての詳細は こちら をご参照ください。