コンテンツにスキップ

時系列データ

言語モデルは本来、計算処理が得意ではありません。さらに、Maira におけるベクトル検索では、日付や時刻の値はしばしばプレーンテキストとして扱われ、他のクエリ用語と一緒に埋め込み処理されます。そのため、本来の日時データとして認識されないことがあります。

これらの課題に対応するために、この機能が実装されました。この機能により、正確な計算が可能になり、Maira がデータセット内の日時フィールドを認識して、より信頼性が高く時間を考慮した応答を返すことができます。

時系列データとは、日付、タイムスタンプ、期間などの時間関連情報を含むデータセットのことです。この機能を利用することで、時間に基づいた正確な検索や計算を行うことができる上に、他のフィールドについても正確にクエリや計算を実行できます。

この機能(データの作成とアップロード)は現在 API のみで利用可能です。今後、プラットフォームの UI でもサポート予定です。


時系列データセットの作成

まず、以下のエンドポイントに POST リクエストを送信して、時系列データセットを作成します。

https://api.recommender.gigalogy.com/v1/gpt/datasets_ts

リクエストボディ例

{
  "name": "Power Consumption Dataset",
  "description": "This is a time-series dataset containing information about ...",
  "datetime_fields": [
    "stocked_at",
    "submitted_on",
    "sold_at"
  ],
  "primary_datetime_field": "timestamp",
  "tags": [
    "tag1",
    "tag2",
    "tag3"
  ]
}

パラメータ

  • name:
    データセットの表示名。Maira の応答生成には影響せず、ユーザーがデータセットを識別しやすくするためのものです。

  • description:
    データセットの目的や内容を簡潔に説明する概要欄。こちらも Maira の応答生成には影響せず、ユーザーがデータセットをすぐに把握できるよう設けられています。

  • datetime_fields:
    データセット内に含まれる全ての日時関連カラム。Maira はこれらを日時フィールドとして認識しますが、主キーにはなりません。

  • primary_datetime_field:
    時系列データを並べ替えたり整列したりするためのプライマリーなタイムスタンプ列。

  • tags:
    データセットのドメインやユースケースを示すタグのリスト。

  • 例: 電力使用量を監視するデータセットなら、power_consumptiongrid_monitoring などのタグを付与。複数タグの指定が可能 。
  • 時系列データセットでは必須 であり、プロフィール作成に利用されます。

レスポンス例

成功時のレスポンスは以下のようになります。

{
  "detail": {
    "response": "Dataset created successfully",
    "dataset_id": "10eb6dc0-46c3-4471-8677-0599b2e17e16"
  }
}

NOTE:

  1. 次のステップでデータをアップロードする際には、この dataset_id が必要です。
  2. また、以下の GET エンドポイントを使用して、プロジェクト内のすべてのデータセットを一覧表示し、dataset_id を確認することもできます。
https://api.recommender.gigalogy.com/v1/gpt/datasets

時系列データのアップロード

時系列データをアップロードするには、以下のエンドポイントに PUT リクエストを送信します。

https://api.recommender.gigalogy.com/v1/gpt/datasets_ts/{dataset_id}/file

前のステップで取得した dataset_id を使用してください。

対応ファイル形式: CSV, JSON, PARQUET

NOTE:

  • このエンドポイントは、一般的なドキュメントアップロード用エンドポイント /v1/gpt/datasets/{dataset_id}/file とは異なります。

  • 時系列データセットは 学習(Training)を必要としません

cURL リクエスト例:

curl -X PUT \
  'https://api.recommender.gigalogy.com/v1/gpt/datasets_ts/<dataset_id>/file' \
  -H 'accept: application/json' \
  -H 'project-key: <your-project-key>' \
  -H 'api-key: <your-api-key>' \
  -H 'Content-Type: multipart/form-data' \
  -F 'dataset_file=@test_time_series.csv;type=text/csv'

時系列データ用プロフィールの作成

プロフィールは 時系列 データセット専用に作成する必要があります。1つのプロフィールでサポートできる時系列データセットは1つのみである点にご注意ください**。

プロフィールを作成する際には、データタグの "include" パラメータに必ずそのデータセットのタグを追加する必要があります。

例えば、時系列データセットに demo_tag というタグが設定されている場合、プロフィールにも次のように含める必要があります(include: demo_tag)。

プロフィールの作成方法についての詳細は こちら をご参照ください。