先决条件
注意事项¶
- 数据在传输前必须进行掩码处理,以确保不包含个人信息。
- 备份的表数据以其原始形式存储。
- 在流式传输Fluentd和客户端日志传输时,对数据执行基本解析(例如IP),而日志批处理模式不执行数据解析。
- 日志数据必须包含dateTime和category列。
- 日志批量传输用于一次上传大量数据。因此,按行划分的多个文件应合并为一个文件进行上传,实时数据应使用客户端日志传输或流式传输Fluentd进行传输。
如何定义日志¶
使用定义日志页面¶
- 日志模式应通过日志定义提前指定。
- 有关日志定义的详细信息,请参阅 定义日志。
- 在日志定义中设置的表名必须与category值相同。
- 如果您不定义日志并继续进行日志批量传输,则数据将不会被存储。
- 日志批量使用dateTime和category作为必填列。如果未传输,数据将不会被存储。
- 在日志定义期间,可以包含用于分析的保留字段。
必填列¶
批处理文件日志有两个基本列。
列名 | 数据类型 | 描述 | 示例 |
---|---|---|---|
dateTime | TIMESTAMP | 日志批次提取或上传的时间 - 不包括时区(KST) | "YYYY-MM-DD hh:mm:ss" |
category | STRING | 在日志收集后台设置的类别ID | "account_table_snapshot" |
- 如果您在日志批处理中使用过"dateTime"作为列名,建议在传输之前将其更改为其他列名。
- dateTime被用作分区的数据,因此必须写为批处理文件日志传输的时间或上传的时间。
申请权限¶
申请 BigQuery 权限¶
- 连接到 BigQuery 的权限以及查看数据的数据查询权限。
- 申请 BigQuery 权限时,也会授予 GCS 上传权限。
- 您可以通过 Hive 控制台 > 分析 > 日志定义 > 访问 BigQuery 菜单申请 BigQuery 访问权限。
- 有关更多详细信息,请参阅权限申请指南。 查看权限申请指南