分析 bigQuery
使用分析 BigQuery¶
什么是 BigQuery?¶
Google BigQuery 是一个完全托管的企业数据仓库,允许您管理和分析由 Google 提供的数据。它是一个可以使用 SQL 查询处理 PB 级数据的服务。
通过Hive Analytics发送到Hive Analytics的日志可以使用Google BigQuery进行处理。
您可以通过以下步骤在 Hive Analytics 中使用 BigQuery。
- 创建一个 Google 账户
- 申请 BigQuery 的权限
- 访问和使用 BigQuery
创建一个 Google 账户¶
访问 Hive Analytics BigQuery 需要一个 Google Gmail 账户。您可以访问 Google 创建一个。
申请 BigQuery 的权限¶
在 Hive Analytics 中访问 BigQuery 需要一个简单的申请流程。
Hive控制台管理员可以通过创建一个Google Gmail帐户并在Hive控制台 > Hive分析 > 日志定义中使用BigQuery访问功能来申请。
点击 BigQuery 访问按钮,输入您的 Gmail 账户信息,然后点击申请按钮以立即授予访问权限。
无法对无效的 Gmail 地址授予权限。
使用 BigQuery¶
初始 BigQuery 访问需要检查的事项¶
要使用 Analytics BigQuery,必须至少创建一个 Google Cloud。
首次使用者可以创建一个 Google 项目,并使用 Google 的 BigQuery 沙盒使用指南 访问沙盒环境。
可以在 BigQuery Sandbox 环境中搜索 BigQuery 数据,直到免费使用限制。
如果您超过配额或功能限制,则需要进行A BigQuery 升级。
访问 BigQuery¶
您可以通过 Hive 控制台 > Hive 分析 > 日志定义中的 BigQuery 访问功能访问 Analytics BigQuery,前提是存在 BigQuery 项目并且已授予 Analytics BigQuery 访问权限。
然后,在访问 Hive Analytics BigQuery 并通过执行以下操作完成基本设置后,您将能够通过执行 SQL 查询日志。
将 BigQuery 添加到收藏¶
在BigQuery中,收藏夹功能使得访问分析数据集变得简单。
点击左上角的“添加”按钮后,点击“按名称标星项目”。
之后,在弹出窗口中输入fluted-airline-109810,然后点击“星星”按钮。
fluted-airline-109810 项目已添加到 BigQuery 控制台的左侧资源管理器中。箭头按钮显示可访问的数据集,允许您查看表格和信息。
Lacunch BigQuery SQL¶
BigQuery 作业用户权限 在项目中是单独要求的,以便执行 Bigquery 的 SQL。然而,如果您使用在 BigQuery 沙盒环境中开发的项目,您可以在不设置额外权限的情况下搜索到免费的使用限制。
如果您需要超出免费使用限制的 SQL 处理,可以使用 BigQuery 的升级。
如果创建了多个 Google 项目,访问 BigQuery 时会自动设置一个可执行项目;您可以通过以下方式进行验证。
如果您没有看到如上图所示的项目,可以通过以下方法设置项目。
首先,点击项目暴露的红色方块以开始。接下来,输入您刚刚创建的 Google 项目名称。用户输入 Google 项目名称,并输入已授予 BigQuery Job user 权限的 Google 项目。
点击“+”按钮以创建一个 SQL 编辑器窗口并创建查询。点击 fluted-airline-109810 左侧的三角按钮以查看可访问的列表。
您可以通过在 SQL 数据窗口中输入下面的示例查询并按下运行按钮来查看日志。
SQL 注意
- FROM段落应以fluted-airline-109810.analytics_Number_live.Table Name的形式出现。登录日志查询示例查询
登录日志查询示例查询
SELECT datetime, appid, guid
FROM fluted-airline-109810.analytics_77777_live.t_hive_login_log
WHERE DATE(dateTime) = date(datetime_add(current_datetime('Asia/Seoul'),interval -9 hour))
LIMIT 1
将数据上传到 Google BigQuery 并与 Hive 分析 BigQuery 数据进行 JOIN¶
如果您创建一个 Google BigQuery 项目并上传数据,则可以通过与分析日志表的 JOIN 来运行 SQL。但是,创建 BigQuery 数据集的数据位置必须设置为 美国(美国的多区域)。
订单
- 创建 Google BigQuery 项目
- 创建 BigQuery 数据集到美国地区
- 上传数据
- 与 Analytics BigQuery 数据进行 JOIN
创建 Google BigQuery 项目¶
- 访问 Google Cloud 控制台,注册并创建一个项目。
创建 BigQuery 数据集到美国地区¶
- 访问 BigQuery 控制台,在数据集创建部分选择美国(美国的多区域)作为数据位置,然后点击“创建数据集”。
创建表并上传数据¶
设置 SQL 启动项目¶
- 在点击左上角的 C2S-DW 时,选择弹出窗口中的 COM2US.COM 组织。
- 选择并点击一个以“habq-”开头的项目。
使用分析 BigQuery 数据进行 JOIN¶
- 在 SQL 编辑器窗口中输入查询,然后点击执行按钮以执行 SQL。
示例查询。分析登录日志和表连接查找已上传到BigQuery项目
SELECT a.vid, b.vid
FROM `fluted-airline-109810.analytics_7777_live.t_hive_login_log`a
inner join`tribal-booth-366804.test.upload_test` b on b.vid = a.vid
WHERE DATE(dateTime) = date(datetime_add(current_datetime('Asia/Seoul'),interval -9 hour))
申请 BigQuery 权限恢复¶
如果您在申请权限后被分配到 Hive Analytics BigQuery,您可以申请提款。
您可以通过在 Hive 控制台 > Hive 分析 > 日志定义菜单中使用 bigquery 访问功能查看之前请求的访问权限。通过选择需要撤销权限的帐户并单击撤销权限按钮,您可以提交申请。
处理可能需要长达2个工作日,结果将在成功撤销后发送到请求账户的电子邮件地址。