コンテンツにスキップ

バケット

バケットは、Schiftの公開知識ストレージの表面です。ドキュメントのセット、その抽出されたテキスト、埋め込み、検索インデックスを保持し、回答準備が整った取得のための単一のエンドポイントを公開します。

バケットを作成し、ファイルをアップロードし、インデックス作成が完了するのを待ってから検索を呼び出します。Schiftは埋め込みモデル、ベクトルバックエンド、チャンク化、OCR、再ランキング、引用形式を管理するため、これらの要素を自分で接続する必要はありません。

各バケットは、以下の管理されたコレクションを表します。

  • ドキュメント — PDF、Markdown、プレーンテキスト、Officeファイル、画像、およびその他のサポートされているアップロード。
  • 抽出チャンク — パースおよびOCRによって生成されたテキストセグメント。
  • エンベディング — バケットの設定された埋め込みモデルを使用して生成された密なベクトル表現。
  • メタデータ — フィルタリングおよびアクセス制御のためにドキュメントに添付されたユーザー定義のキーと値のペア。
  • 検索インデックス — 管理された検索パイプラインで使用されるベクトルおよび語彙構造。

バケットは組織によって隔離されています。バケット名は、内部システムコレクション用に予約されている__schift_プレフィックスで始まってはいけません。

バケットを作成すると、Schiftはコレクションを自動的に構成します。

  • デフォルトのテキスト埋め込みモデルと次元を選択します。
  • 通常はengineバックエンドを選択します。
  • 基本となるベクトルテーブルを作成します。

これにより、新しいバケットは作成後すぐにドキュメントを受け取る準備が整います。埋め込みエンドポイントやベクトルデータベースを自分で構成する必要はありません。

ドキュメント処理は非同期です。ファイルをアップロードすると、SchiftはすぐにジョブIDを返し、その後バックグラウンドで抽出、チャンク化、埋め込み、インデックス作成を行います。バケットがクエリに応答できる準備が整ったかどうかを確認するには、GET /v2/buckets/{bucket_id}/search/statusをポーリングできます。

POST /v2/bucketsを使用して、名前とオプションの説明を指定します。レスポンスには、バケットID、次元、モデル、バックエンド、およびカウントが含まれます。

POST /v2/buckets/{bucket_id}/documentsを使用して、1つ以上のファイルをアップロードします。サポートされているオプションには、OCR戦略、チャンクサイズ、チャンクの重複、およびドキュメントメタデータが含まれます。各アップロードは、Jobs APIまたは検索準備エンドポイントを通じて追跡できるバックグラウンドジョブを返します。

注意: リクエストごとにファイル数と合計バッチサイズに制限があります。大きなアップロードは小さなバッチに分割する必要があります。

バケットに依存して回答を得る前に、GET /v2/buckets/{bucket_id}/search/statusを呼び出します。readyステータスは、すべての保留中のインデックス作成ジョブが完了し、バケットが検索リクエストに応答できることを意味します。

POST /v2/buckets/{bucket_id}/searchを使用して、管理された知識検索パイプラインを実行します。リクエストは、クエリ、top-k値、コンテキスト予算、メタデータフィルター、および再ランキングオプションを受け入れます。レスポンスには、ペースト準備が整ったコンテキストブロックと、ソースドキュメントに戻る引用が含まれます。

/v2/buckets/{bucket_id}/documentsエンドポイントを通じて、ドキュメントをリスト、検査、メタデータの更新、および削除できます。ドキュメントの削除も非同期であり、ジョブIDを返します。

PATCH /v2/buckets/{bucket_id}を使用して、名前、説明、メタデータなどの可変フィールドを変更します。DELETE /v2/buckets/{bucket_id}を使用して、削除のためにバケットをキューに入れます。公開バケットは読み取り専用であり、変更または削除することはできません。

ドキュメントは、検索中のフィルタリングやコンテンツの整理に使用されるユーザー定義のメタデータを持つことができます。バケットは、ドキュメントの取得および公開方法を制御するプライバシーおよびアクセスポリシー設定もサポートしています。

サーバーによってスタンプされたアクセスポリシーキーを含む予約済みメタデータキーは、呼び出し元によって設定することはできません。メタデータを更新する際、Schiftは値をサニタイズおよび検証し、バケットを一貫した状態に保ちます。

公開製品APIはv2です。新しい統合は、上記の/v2/buckets/*ルートを使用する必要があります。

古い/v1/buckets/*/v1/query、および/v1/collections/*/searchルートは、既存のクライアントの互換性のために残されています。新しい統合には推奨されず、管理されたv2検索パイプラインなどの新しい機能は、v2を通じてのみ利用可能です。