時系列データ

言語モデルは本来、計算処理が得意ではありません。さらに、Maira におけるベクトル検索では、日付や時刻の値はしばしばプレーンテキストとして扱われ、他のクエリ用語と一緒に埋め込み処理されます。そのため、本来の日時データとして認識されないことがあります。

これらの課題に対応するために、この機能が実装されました。この機能により、正確な計算が可能になり、Maira がデータセット内の日時フィールドを認識して、より信頼性が高く時間を考慮した応答を返すことができます。

時系列データとは、日付、タイムスタンプ、期間などの時間関連情報を含むデータセットのことです。この機能を利用することで、時間に基づいた正確な検索や計算を行うことができる上に、他のフィールドについても正確にクエリや計算を実行できます。

この機能（データの作成とアップロード）は現在 API のみで利用可能です。今後、プラットフォームの UI でもサポート予定です。

時系列データセットの作成

まず、以下のエンドポイントに POST リクエストを送信して、時系列データセットを作成します。

https://api.recommender.gigalogy.com/v1/gpt/datasets_ts

リクエストボディ例

{
  "name": "Power Consumption Dataset",
  "description": "This is a time-series dataset containing information about ...",
  "datetime_fields": [
    "stocked_at",
    "submitted_on",
    "sold_at"
  ],
  "primary_datetime_field": "timestamp",
  "tags": [
    "tag1",
    "tag2",
    "tag3"
  ]
}

パラメータ

name:
データセットの表示名。Maira の応答生成には影響せず、ユーザーがデータセットを識別しやすくするためのものです。
description:
データセットの目的や内容を簡潔に説明する概要欄。こちらも Maira の応答生成には影響せず、ユーザーがデータセットをすぐに把握できるよう設けられています。
datetime_fields:
データセット内に含まれる全ての日時関連カラム。Maira はこれらを日時フィールドとして認識しますが、主キーにはなりません。
primary_datetime_field:
時系列データを並べ替えたり整列したりするためのプライマリーなタイムスタンプ列。
tags:
データセットのドメインやユースケースを示すタグのリスト。
例: 電力使用量を監視するデータセットなら、power_consumption や grid_monitoring などのタグを付与。複数タグの指定が可能。
時系列データセットでは必須であり、プロフィール作成に利用されます。

レスポンス例

成功時のレスポンスは以下のようになります。

{
  "detail": {
    "response": "Dataset created successfully",
    "dataset_id": "10eb6dc0-46c3-4471-8677-0599b2e17e16"
  }
}

NOTE:

次のステップでデータをアップロードする際には、この dataset_id が必要です。
また、以下の GET エンドポイントを使用して、プロジェクト内のすべてのデータセットを一覧表示し、dataset_id を確認することもできます。

https://api.recommender.gigalogy.com/v1/gpt/datasets

時系列データのアップロード

時系列データをアップロードするには、以下のエンドポイントに PUT リクエストを送信します。

https://api.recommender.gigalogy.com/v1/gpt/datasets_ts/{dataset_id}/file

前のステップで取得した dataset_id を使用してください。

対応ファイル形式: CSV, JSON, PARQUET

NOTE:

このエンドポイントは、一般的なドキュメントアップロード用エンドポイント /v1/gpt/datasets/{dataset_id}/file とは異なります。
時系列データセットは学習（Training）を必要としません。

cURL リクエスト例:

curl -X PUT \
  'https://api.recommender.gigalogy.com/v1/gpt/datasets_ts/<dataset_id>/file' \
  -H 'accept: application/json' \
  -H 'project-key: <your-project-key>' \
  -H 'api-key: <your-api-key>' \
  -H 'Content-Type: multipart/form-data' \
  -F 'dataset_file=@test_time_series.csv;type=text/csv'

既存のデータセットへの追加ファイルのアップロード

既存の時系列データセットに追加のCSVファイルをアップロードする際、列キーが完全に一致している必要はありません。以前のアップロードと比較して、追加または不足しているキーがあっても構いません。

ただし、データセットの datetime_fields および primary_datetime_field に指定されたすべての日時列は、すべてのアップロードで完全に一致している必要があります。

空白セルとデータ形式の取り扱い

空白セル：空白セルは許容され、null値として扱われます。ただし、欠損値を表すのにハイフン（-）を使用しないでください。これはnullではなく文字列として解釈されます。

時系列データ用プロフィールの作成

プロフィールは 時系列 データセット専用に作成する必要があります。1つのプロフィールでサポートできる時系列データセットは1つのみである点にご注意ください**。

注意：1つのプロファイルは、1つの時系列データセットのみに対応できます。1つのプロファイルに複数の時系列データセットを含めることはできません。ただし、同じプロファイル内で1つの時系列データセットとその他の非時系列データセットを参照することは可能です。

プロフィールを作成する際には、データタグの "include" パラメータに必ずそのデータセットのタグを追加する必要があります。

例えば、時系列データセットに demo_tag というタグが設定されている場合、プロフィールにも次のように含める必要があります（include: demo_tag）。

プロフィールの作成方法についての詳細はこちらをご参照ください。