コンテンツにスキップ

データエクスポート

概要

データエクスポートは、Hive Analyticsに蓄積中のイベントデータを毎時抽出して、クラウドストレージへアップロードする機能です。

データエクスポートで提供されるデータはイベントの生(raw)データであり、そのままデータベースを構築したり、目的に応じて加工して分析に利用できるように提供します。

データのファイル変換と転送はHive Analyticsが提供しますが、クラウドストレージはご利用のクラウドサービスで別途登録する必要があります。

Note

イベント別のデータ提供であり、プロジェクト別の分割転送はサポートされていません。


何ができますか?

データアナリスト

  • Hive Analyticsで収集するデータを直接自社DBに蓄積し、目的に合わせて加工して深く分析できます。
  • 生データを自社BIツールや分析環境に連携し、カスタムダッシュボードを構成できます。

開発者

  • 自社のデータパイプラインへHiveイベントデータを自動的に蓄積できます。
  • AWS S3またはGCP Cloud Storageと連携して、毎時最新イベントデータをクラウドストレージからすぐ活用できます。

すぐに始める

初めてデータエクスポートを設定する場合は、以下の手順に従ってクラウドストレージ連携を完了してください。

  1. 使用するクラウドストレージ(AWS S3またはGCP Cloud Storage)にデータエクスポート専用バケットを作成し、認証キーを準備します。
  2. Analyticsコンソール > データ > データエクスポート 設定ページにアクセスします。
  3. 抽出するイベント(ログ)を選択します。(最大10件)
  4. ストレージ(AWS S3 / GCP Cloud Storage)を選択し、バケット名を入力します。
  5. データタイプ(CSV / JSON)を選択します。
  6. 認証キーを登録します。

Note

クラウドストレージごとのバケット作成および認証キー発行方法は 全機能 を参照してください。


全機能

データエクスポートロジック

data_export_01.png BigQueryに保存されているイベントデータを毎時、データエクスポートの周期に合わせてファイル変換し、登録したクラウドストレージへアップロードします。

データ基準

  • 選択したイベントデータを取得し、クラウドストレージへファイル転送します。
  • データはUTC基準で毎時の転送周期に従って抽出します。
    • 例) 2023年9月1日 01:00 (UTC) に、2023年9月1日 00:00:00 ~ 00:59:59 (UTC) のデータを基準に抽出して転送
    • パーティショニング基準は dateTime 属性に対して、取得日 -1 day で設定されます。
    • 例) 2023年9月1日 00:00:00 ~ 00:59:59(UTC) のデータを基準に抽出する場合、2023年8月30日 00:00:00
    • datetime の値が取得時刻 -1 day より小さい場合、エクスポートデータに含まれません。
  • データはBigQueryにデータが入力された時刻で取得します。
    • bigqueryRegistTimestamp 属性基準
    • データ抽出サンプルクエリ
SELECT *
FROM bigquery_table
WHERE bigqueryRegistTimestamp BETWEEN '2023-09-01 00:00:00' and '2023-09-01 00:59:59'
and dateTime >= '2023-08-31 00:00:00'

データエクスポート設定

data_export_02.png

イベント選択

抽出するイベント(ログ)を選択します。

  • イベント名の一部を入力して検索・選択できます。
  • イベントは最大10件まで選択できます。

ストレージ選択

データ保存のためにクラウドストレージを使用します。

対応クラウド:

  • AWS S3
  • GCP Google Cloud Storage

保存先(バケット名)

ストレージのバケット(bucket)名を入力します。

  • AWS S3 のバケット名が s3://s3_bucket_name の場合 → s3_bucket_name のみ入力
  • Google Cloud Storage のバケット名が gs://google_bucket_name の場合 → google_bucket_name のみ入力

データタイプ

2種類のデータタイプを提供します。

  • CSV
  • JSON
  • すべてのファイルは UTF-8 でエンコードされます。

ファイルアップロード周期

毎時1時間分のデータを抽出してアップロードします。

  • 時刻は bigqueryRegistTimestamp 属性値を基準に抽出されます。(UTC基準)
    • 例) 15時にデータ抽出およびアップロード開始(UTC基準): bigqueryRegistTimestamp 属性で 05:00:00 ~ 05:59:59 のデータが抽出されます。
  • ファイル数とアップロード容量によって完了時刻は変わることがあります。

認証キー登録

クラウドストレージへデータをアップロードするには権限が必要です。データ保存権限を持つ認証キーまたは認証キーファイルを登録してください。クラウドサービスによって認証キーの登録方法が異なります。

  • S3 — ACCESS_KEY, ACCESS_SECRET_KEY の値を登録 data_export_03.png
  • GCS — 認証キーファイルを登録 data_export_04.png

クラウドストレージ設定

GCP - Google Cloud Storage

Google Cloudへデータエクスポートするには、以下の設定が必要です。

  1. Google Cloudコンソールページから Cloud Storage に移動します。

    data_export_05.png 2. データエクスポート専用に使用する バケット(bucket) を作成します。 - バケット名は一度設定すると変更できず、必要な場合は既存バケットを削除して新規作成する必要があります。 - データエクスポート専用バケットとして作成することを推奨します。 3. データエクスポートに提供するサービスキーを作成し、バケットに書き込み権限を付与する必要があります。 1. コンソールページで IAM と管理者 → サービスアカウント メニューへ移動します。 2. サービスアカウントを作成 をクリックして新しいアカウントを作成します。 - アカウントに使用するIDは任意の名前で作成できます。(例: hive_data_transfer_account@projectId.iam.gserviceaccount.comdata_export_06.png - アカウント作成後、キー タブへ移動してサービス用キーを作成します。 - キーを追加 → 新しいキーを作成 で JSON形式のキーファイルを生成します。 - 生成したキーファイルはダウンロード後、厳重に保管します。 3. 再度 Cloud Storage に移動し、作成した バケット(bucket) の権限 タブへ移動します。 data_export_07.png - 権限タブでアクセス権を付与 → プリンシパルを追加 に、新しく作成したサービスアカウントIDを入力します。 - ロールの割り当てで Cloud Storage → ストレージオブジェクト作成者、ストレージオブジェクト閲覧者 の2つの権限を追加して、確認をクリックします。 4. すべての設定が完了したら、Hive Analyticsのデータエクスポート設定ページにサービス用キーファイルを登録します。

AWS - S3

AWSへデータエクスポートするには、以下の設定が必要です。

  1. AWSコンソールページで ストレージS3 に移動します。 data_export_08.png
  2. データエクスポート専用の バケット(bucket) を作成します。
    • バケット名は一度設定すると変更できず、必要な場合は既存バケットを削除して新規作成する必要があります。
    • データエクスポート専用バケットとしてのみ使用することを推奨します。
  3. データエクスポート用のアカウントを作成する必要があります。
    • このユーザーはデータエクスポート専用アカウントとしてのみ使用してください。 IAM user を新規作成します。
  4. 作成したアカウントのアクセスキーを生成します。関連情報は IAMユーザーのアクセスキー管理 - アクセスキーの作成 で確認できます。
    • アクセスキーは安全な場所に保管してください。
  5. 作成したアカウントに対して inline policy を追加します。
    • ユーザーグループのインラインポリシーを含める場合は(コンソール)項目を参照してポリシーを作成します。
    • JSONタブを選択して policy を作成し、以下のJSONコードを貼り付けます。
    • YOUR-BUCKET-NAME-HERE 項目には作成したバケット名を入力します。
{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Effect": "Allow",
      "Action": ["s3:GetBucketLocation", "s3:ListBucket"],
      "Resource": ["arn:aws:s3:::YOUR-BUCKET-NAME-HERE"]
    },
    {
      "Effect": "Allow",
      "Action": ["s3:PutObject"],
      "Resource": ["arn:aws:s3:::YOUR-BUCKET-NAME-HERE/*"]
    }
  ]
}
  1. すべての作業を完了したら、保管しておいたアクセスキーを [Analyticsコンソール > データ > データエクスポート] 設定に追加します。

ファイル保存形式

データ保存ディレクトリ構造

一般的なファイルパス形式:

withhive/data_export/ビルドタイプ/YYYY/MM/DD/イベント名/イベント名_YYYY_MM_DD_UUID.ファイル拡張子
  • ビルドタイプ: sandboxlive の2つの値があります。sandboxで設定するとsandboxに保存されます。
  • YYYY/MM/DD: データが抽出される基準年/月/日です。(UTC基準)
  • UUID: ファイル名の重複による上書きを防ぐためのランダム値です。
  • ファイル拡張子: 選択したファイルタイプによって異なります。
ファイルタイプ 圧縮有無 最終ファイル名
json V withhive/data_export/ビルドタイプ/YYYY/MM/DD/イベント名/イベント名_YYYY_MM_DD_UUID.json.gzip
csv V withhive/data_export/ビルドタイプ/YYYY/MM/DD/イベント名/イベント名_YYYY_MM_DD_UUID.csv.gzip

ファイル拡張子

  • csv.gzip: フィールドをカンマ( , )で区切ったデータで構成されたファイルです。ファイル圧縮時に暗号化設定はできません(非対応)。
  • json.gzip: Javascriptオブジェクト構文で構造化されたデータ文字列で構成されたファイルです。行単位で区切られており、jsonファイルをgzip圧縮したファイルです。ファイル圧縮時に暗号化設定はできません(非対応)。

注意事項 & Tips

  • 過去データの遡及不可: データエクスポートは登録時点から動作します。登録前に収集された過去データは遡及して送信されません。
  • 最大イベント数制限: 選択可能な最大イベント数は10件です。
  • イベントごとの抽出データ総容量制限: データ抽出時に500Mbytesを超える場合は転送対象外になります。実際に転送されるデータは約15%程度圧縮されたファイルです。