跳轉至

数据导出

資料匯出介紹

這是一項每小時從Hive Analytics提取日誌數據並將其轉移到雲存儲的服務。

數據導出產生的數據可以根據需要用於分析,無論是直接將其作為原始數據建立數據庫,還是將其處理成所需格式。

Hive Analytics 提供文件轉換和數據傳輸,但雲存儲需要與您正在使用的雲服務提供商註冊。

數據導出邏輯

 

每小時,BigQuery 表格會根據數據導出週期轉換為文件並上傳到註冊的雲存儲。

數據導出服務權限

  • 要使用數據導出功能,您必須擁有所有遊戲的訪問權限或擁有一個 Hive 帳戶。
    • 由於數據是通過表格(日誌)傳遞的,因此無法按遊戲拆分傳輸。

資料匯出資料標準

  • 搜索所选表格数据并将文件上传到云存储。
  • 数据是根据UTC的每小时传输周期提取的。 例如:)提取2023年9月1日00:00:00 - 00:59:59(UTC)在2023年9月1日1:00(UTC)上的数据。
    • 日期时间列的分区标准设置为视图日期减去一天。 例如:)在提取2023年9月1日00:00:00到00:59:59(UTC)时,设置为2023年8月30日00:00:00。
      • 如果日期时间的值小于查询时间减去一天,则将被排除在导出数据之外。
  • 数据是根据输入到Big Query的时间进行搜索的。
    • bigqueryRegistTimestamp列标准
    • 数据提取示例查询
SELECT *
FROM bigquery_table
WHERE bigqueryRegistTimestamp BETWEEN '2023-09-01 00:00:00' and '2023-09-01 00:59:59'
and datetime >= '2023-08-31 00:00:00'

數據導出設置

選擇日誌

  • 選擇一個表格(日誌)以提取。
    • 您可以通過輸入表格名稱的一部分來搜索和選擇。
    • 您最多可以選擇十個表格。

選擇儲存空間

  • 您需要使用雲端儲存來儲存您的數據。
  • 支援的雲端
    • AWS S3
    • GCP Google Cloud Storage

位置 (桶名稱)

  • 輸入儲存的桶名稱。
  • 例如:

資料類型

  • 有兩種數據類型。
  • 提供的數據類型
    • CSV
    • JSON
  • 所有文件均以 UTF-8 編碼。

檔案上傳週期

  • 每小時提取和上傳一個小時範圍內的數據。
  • 提取的時間基於 bigqueryRegistTimestamp 列的值。(基於 UTC)
    • 例如)在 15:00(UTC)開始提取和上傳數據。
      • bigqueryRegistTimestamp 列的數據範圍為 05:00:00 到 05:59:59。
    • 完成時間可能會根據文件數量和上傳大小而有所不同。

註冊驗證金鑰

  • 需要权限才能将数据上传到云存储。
  • 您必须注册具有数据存储权限的身份验证密钥或身份验证密钥文件。
  • 身份验证密钥注册技术因云服务而异。
      • S3 - 注册身份验证值 ACCESS_KEY, ACCESS_SECRET_KEY
      • GCS - 注册身份验证密钥文件

雲端儲存

GCP - Google 雲端儲存

  • 要將數據導出到 Google Cloud,需要以下配置。

    1. 前往 Google Cloud 控制台頁面並選擇Cloud Storage
    2. 建立一個專門用於數據導出。
      1. 一旦設置,桶名稱無法修改。如果需要,請刪除舊的桶並創建一個新的。
      2. 建議創建一個專門用於數據導出的桶。
    3. 要啟用數據導出,請創建一個服務密鑰並授予桶的寫入權限。
      1. 從控制台頁面選擇 IAM & Admin → 服務帳戶。
      2. 要設置一個新帳戶,請點擊 創建服務帳戶
        1. 您可以為您的帳戶提供一個與您所需名稱匹配的 ID。
          1. 例如) hive_data_transfer_account@projectId.iam.gserviceaccount.com
        2. 創建帳戶後,導航到密鑰選項卡並為該服務生成一個密鑰。
          1. 從添加密鑰 → 創建新密鑰中創建一個 JSON 格式的密鑰文件。
          2. 下載創建的密鑰文件後,請妥善保管。
      3. 接下來,返回到Cloud Storage,並轉到您創建的中的權限選項卡。
        1. 在權限選項卡中,將新創建的服務帳戶 ID 輸入到授予訪問權限 → 添加主要成員中。
        2. 在角色分配中,檢查兩個權限:Cloud Storage → 存儲對象創建者存儲對象查看者,然後點擊確定。
    4. 完成所有設置後,請轉到 Hive Analytics 的數據導出設置頁面並註冊服務的密鑰文件。

AWS - S3

  • 要將數據導出到AWS,以下配置是必要的。

    1. 在AWS控制台中轉到存儲 → S3。
    2. 創建一個用於數據導出的桶。
      1. 設置後,桶名稱無法修改。如果需要,請刪除舊桶並創建一個新桶。
      2. 建議創建一個專門用於數據導出的桶。
    3. 創建一個用於數據導出的桶。
      1. 此用戶應僅用作數據導出的獨立帳戶。創建一個新的IAM用戶
    4. 為您創建的帳戶創建一個訪問密鑰。相關信息可以在IAM用戶的管理訪問密鑰 - 創建訪問密鑰中找到。
      1. 將您的訪問密鑰保存在安全的位置。
    5. 為創建的帳戶添加內聯策略
      1. 要為用戶組(控制台)包含內聯策略,請按照策略創建主題中的步驟進行。
      2. 要建立策略,請選擇JSON標籤並粘貼下面顯示的JSON代碼。

        1. YOUR-BUCKET-NAME-HERE字段包含您建立的桶的名称。
          {
            "Version": "2012-10-17",
            "Statement": [
              {
                "Effect": "Allow",
                "Action": ["s3:GetBucketLocation", "s3:ListBucket"],
                "Resource": ["arn:aws:s3:::YOUR-BUCKET-NAME-HERE"]
              },
              {
                "Effect": "Allow",
                "Action": ["s3:PutObject"],
                "Resource": ["arn:aws:s3:::YOUR-BUCKET-NAME-HERE/*"]
              }
            ]
          }
    6. 完成所有操作后,将归档的访问密钥添加到Hive控制台数据导出选项中。

檔案儲存格式

資料儲存目錄結構

  • 常見檔案格式
    • withhive/data_export/Build_Type/YYYY/MM/DD/TableName/TableName_YYYY_MM_DD_UUID.fileExtension
      • 建置類型:有兩個可能的值:sandbox 和 live。當設置為 sandbox 時,將保存為 sandbox。
      • YYYY/MM/DD:這是提取數據的標準年/月/日。(基於 UTC)
      • UUID:這是一個隨機值,可以防止因檔名重複而覆蓋。
      • 檔案擴展名:根據所選檔案類型而異。

檔案類型 壓縮狀態 最終檔案名稱
json V withhive/data_export/BuildType/YYYY/MM/DD/TableName/TableName_YYYY_MM_DD_UUID.json.gzip
csv V withhive/data_export/BuildType/YYYY/MM/DD/TableName/TableName_YYYY_MM_DD_UUID.csv.gzip

檔案擴展名

  • csv.gzip
    • 這是一個包含以逗號分隔的字段數據的文件。
    • 壓縮文件時無法使用加密設置。(不支持)
  • json.gzip
    • 這是一個包含以Javascript對象語法組織的數據字符的文件。
    • 它被分隔成多行。
    • 這是一個用gzip壓縮的json文件。
    • 壓縮文件時無法使用加密設置。(不支持)

傳輸限制通知

  • 最大表格數量限制
    • 可選擇的最大表格數量:10
  • 按表格提取數據的總容量限制
    • 提取數據時超過500Mbytes:不包括在傳輸中
      • 實際傳輸的數據是約15%的壓縮文件。