数据导出
資料匯出介紹¶
這是一項每小時從Hive Analytics提取日誌數據並將其轉移到雲存儲的服務。
數據導出產生的數據可以根據需要用於分析,無論是直接將其作為原始數據建立數據庫,還是將其處理成所需格式。
Hive Analytics 提供文件轉換和數據傳輸,但雲存儲需要與您正在使用的雲服務提供商註冊。
數據導出邏輯¶
每小時,BigQuery 表格會根據數據導出週期轉換為文件並上傳到註冊的雲存儲。
數據導出服務權限¶
- 要使用數據導出功能,您必須擁有所有遊戲的訪問權限或擁有一個 Hive 帳戶。
- 由於數據是通過表格(日誌)傳遞的,因此無法按遊戲拆分傳輸。
資料匯出資料標準¶
- 搜索所选表格数据并将文件上传到云存储。
- 数据是根据UTC的每小时传输周期提取的。 例如:)提取2023年9月1日00:00:00 - 00:59:59(UTC)在2023年9月1日1:00(UTC)上的数据。
- 日期时间列的分区标准设置为视图日期减去一天。 例如:)在提取2023年9月1日00:00:00到00:59:59(UTC)时,设置为2023年8月30日00:00:00。
- 如果日期时间的值小于查询时间减去一天,则将被排除在导出数据之外。
- 日期时间列的分区标准设置为视图日期减去一天。 例如:)在提取2023年9月1日00:00:00到00:59:59(UTC)时,设置为2023年8月30日00:00:00。
- 数据是根据输入到Big Query的时间进行搜索的。
- bigqueryRegistTimestamp列标准
- 数据提取示例查询
SELECT *
FROM bigquery_table
WHERE bigqueryRegistTimestamp BETWEEN '2023-09-01 00:00:00' and '2023-09-01 00:59:59'
and datetime >= '2023-08-31 00:00:00'
數據導出設置¶
選擇日誌¶
選擇儲存空間¶
- 您需要使用雲端儲存來儲存您的數據。
- 支援的雲端
- AWS S3
- GCP Google Cloud Storage
位置 (桶名稱)¶
- 輸入儲存的桶名稱。
- 例如:
- 如果 AWS S3 桶名稱是 s3://s3_bucket_name,
- 僅輸入 's3_bucket_name'
- 如果 Google Cloud Storage 桶名稱是 gs://google_bucket_name,
- 僅輸入 'google_bucket_name'
- 如果 AWS S3 桶名稱是 s3://s3_bucket_name,
資料類型¶
- 有兩種數據類型。
- 提供的數據類型
- CSV
- JSON
- 所有文件均以 UTF-8 編碼。
檔案上傳週期¶
- 每小時提取和上傳一個小時範圍內的數據。
- 提取的時間基於 bigqueryRegistTimestamp 列的值。(基於 UTC)
- 例如)在 15:00(UTC)開始提取和上傳數據。
- bigqueryRegistTimestamp 列的數據範圍為 05:00:00 到 05:59:59。
- 完成時間可能會根據文件數量和上傳大小而有所不同。
- 例如)在 15:00(UTC)開始提取和上傳數據。
註冊驗證金鑰¶
- 需要权限才能将数据上传到云存储。
- 您必须注册具有数据存储权限的身份验证密钥或身份验证密钥文件。
- 身份验证密钥注册技术因云服务而异。
雲端儲存¶
GCP - Google 雲端儲存¶
- 要將數據導出到 Google Cloud,需要以下配置。
-
- 前往 Google Cloud 控制台頁面並選擇Cloud Storage。
- 建立一個桶專門用於數據導出。
- 一旦設置,桶名稱無法修改。如果需要,請刪除舊的桶並創建一個新的。
- 建議創建一個專門用於數據導出的桶。
- 要啟用數據導出,請創建一個服務密鑰並授予桶的寫入權限。
- 從控制台頁面選擇 IAM & Admin → 服務帳戶。
- 要設置一個新帳戶,請點擊 創建服務帳戶。
- 您可以為您的帳戶提供一個與您所需名稱匹配的 ID。
- 例如) hive_data_transfer_account@projectId.iam.gserviceaccount.com
- 創建帳戶後,導航到密鑰選項卡並為該服務生成一個密鑰。
- 從添加密鑰 → 創建新密鑰中創建一個 JSON 格式的密鑰文件。
- 下載創建的密鑰文件後,請妥善保管。
- 您可以為您的帳戶提供一個與您所需名稱匹配的 ID。
- 接下來,返回到Cloud Storage,並轉到您創建的桶中的權限選項卡。
- 在權限選項卡中,將新創建的服務帳戶 ID 輸入到授予訪問權限 → 添加主要成員中。
- 在角色分配中,檢查兩個權限:Cloud Storage → 存儲對象創建者 和 存儲對象查看者,然後點擊確定。
- 完成所有設置後,請轉到 Hive Analytics 的數據導出設置頁面並註冊服務的密鑰文件。
AWS - S3¶
- 要將數據導出到AWS,以下配置是必要的。
-
- 在AWS控制台中轉到存儲 → S3。
- 創建一個用於數據導出的桶。
- 設置後,桶名稱無法修改。如果需要,請刪除舊桶並創建一個新桶。
- 建議創建一個專門用於數據導出的桶。
- 創建一個用於數據導出的桶。
- 此用戶應僅用作數據導出的獨立帳戶。創建一個新的IAM用戶。
- 為您創建的帳戶創建一個訪問密鑰。相關信息可以在IAM用戶的管理訪問密鑰 - 創建訪問密鑰中找到。
- 將您的訪問密鑰保存在安全的位置。
- 為創建的帳戶添加內聯策略。
- 要為用戶組(控制台)包含內聯策略,請按照策略創建主題中的步驟進行。
-
要建立策略,請選擇JSON標籤並粘貼下面顯示的JSON代碼。
- YOUR-BUCKET-NAME-HERE字段包含您建立的桶的名称。
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": ["s3:GetBucketLocation", "s3:ListBucket"], "Resource": ["arn:aws:s3:::YOUR-BUCKET-NAME-HERE"] }, { "Effect": "Allow", "Action": ["s3:PutObject"], "Resource": ["arn:aws:s3:::YOUR-BUCKET-NAME-HERE/*"] } ] }
- YOUR-BUCKET-NAME-HERE字段包含您建立的桶的名称。
- 完成所有操作后,将归档的访问密钥添加到Hive控制台数据导出选项中。
檔案儲存格式¶
資料儲存目錄結構¶
- 常見檔案格式
- withhive/data_export/Build_Type/YYYY/MM/DD/TableName/TableName_YYYY_MM_DD_UUID.fileExtension
- 建置類型:有兩個可能的值:sandbox 和 live。當設置為 sandbox 時,將保存為 sandbox。
- YYYY/MM/DD:這是提取數據的標準年/月/日。(基於 UTC)
- UUID:這是一個隨機值,可以防止因檔名重複而覆蓋。
-
檔案擴展名:根據所選檔案類型而異。
- withhive/data_export/Build_Type/YYYY/MM/DD/TableName/TableName_YYYY_MM_DD_UUID.fileExtension
檔案類型 | 壓縮狀態 | 最終檔案名稱 |
---|---|---|
json | V | withhive/data_export/BuildType/YYYY/MM/DD/TableName/TableName_YYYY_MM_DD_UUID.json.gzip |
csv | V | withhive/data_export/BuildType/YYYY/MM/DD/TableName/TableName_YYYY_MM_DD_UUID.csv.gzip |
檔案擴展名¶
- csv.gzip
- 這是一個包含以逗號分隔的字段數據的文件。
- 壓縮文件時無法使用加密設置。(不支持)
- json.gzip
- 這是一個包含以Javascript對象語法組織的數據字符的文件。
- 它被分隔成多行。
- 這是一個用gzip壓縮的json文件。
- 壓縮文件時無法使用加密設置。(不支持)
傳輸限制通知¶
- 最大表格數量限制
- 可選擇的最大表格數量:10
- 按表格提取數據的總容量限制
- 提取數據時超過500Mbytes:不包括在傳輸中
- 實際傳輸的數據是約15%的壓縮文件。
- 提取數據時超過500Mbytes:不包括在傳輸中