跳转至

分析 bigQuery

使用分析 BigQuery

什么是 BigQuery?

Google BigQuery 是一个完全托管的企业数据仓库,允许您管理和分析由 Google 提供的数据。它是一个可以使用 SQL 查询处理 PB 级数据的服务。

通过Hive Analytics发送到Hive Analytics的日志可以使用Google BigQuery进行处理。

您可以通过以下步骤在 Hive Analytics 中使用 BigQuery。

  • 创建一个 Google 账户
  • 申请 BigQuery 的权限
  • 访问和使用 BigQuery

创建一个 Google 账户

访问 Hive Analytics BigQuery 需要一个 Google Gmail 账户。您可以访问 Google 创建一个。

申请 BigQuery 的权限

在 Hive Analytics 中访问 BigQuery 需要一个简单的申请流程。

Hive控制台管理员可以通过创建一个Google Gmail帐户并在Hive控制台 > Hive分析 > 日志定义中使用BigQuery访问功能来申请。

点击 BigQuery 访问按钮,输入您的 Gmail 账户信息,然后点击申请按钮以立即授予访问权限。

无法对无效的 Gmail 地址授予权限。

使用 BigQuery

初始 BigQuery 访问需要检查的事项

要使用 Analytics BigQuery,必须至少创建一个 Google Cloud。

首次使用者可以创建一个 Google 项目,并使用 Google 的 BigQuery 沙盒使用指南 访问沙盒环境。

可以在 BigQuery Sandbox 环境中搜索 BigQuery 数据,直到免费使用限制。

如果您超过配额或功能限制,则需要进行A BigQuery 升级

访问 BigQuery

您可以通过 Hive 控制台 > Hive 分析 > 日志定义中的 BigQuery 访问功能访问 Analytics BigQuery,前提是存在 BigQuery 项目并且已授予 Analytics BigQuery 访问权限。

然后,在访问 Hive Analytics BigQuery 并通过执行以下操作完成基本设置后,您将能够通过执行 SQL 查询日志。

将 BigQuery 添加到收藏

BigQuery中,收藏夹功能使得访问分析数据集变得简单。

点击左上角的“添加”按钮后,点击“按名称标星项目”。

之后,在弹出窗口中输入fluted-airline-109810,然后点击“星星”按钮。

fluted-airline-109810 项目已添加到 BigQuery 控制台的左侧资源管理器中。箭头按钮显示可访问的数据集,允许您查看表格和信息。

Lacunch BigQuery SQL

BigQuery 作业用户权限 在项目中是单独要求的,以便执行 Bigquery 的 SQL。然而,如果您使用在 BigQuery 沙盒环境中开发的项目,您可以在不设置额外权限的情况下搜索到免费的使用限制。

如果您需要超出免费使用限制的 SQL 处理,可以使用 BigQuery 的升级

如果创建了多个 Google 项目,访问 BigQuery 时会自动设置一个可执行项目;您可以通过以下方式进行验证。

如果您没有看到如上图所示的项目,可以通过以下方法设置项目。

首先,点击项目暴露的红色方块以开始。接下来,输入您刚刚创建的 Google 项目名称。用户输入 Google 项目名称,并输入已授予 BigQuery Job user 权限的 Google 项目。

点击“+”按钮以创建一个 SQL 编辑器窗口并创建查询。点击 fluted-airline-109810 左侧的三角按钮以查看可访问的列表。

您可以通过在 SQL 数据窗口中输入下面的示例查询并按下运行按钮来查看日志。

SQL 注意

  • FROM段落应以fluted-airline-109810.analytics_Number_live.Table Name的形式出现。登录日志查询示例查询

登录日志查询示例查询

SELECT datetime, appid, guid
FROM fluted-airline-109810.analytics_77777_live.t_hive_login_log
WHERE DATE(dateTime) = date(datetime_add(current_datetime('Asia/Seoul'),interval -9 hour))
LIMIT 1

将数据上传到 Google BigQuery 并与 Hive 分析 BigQuery 数据进行 JOIN

如果您创建一个 Google BigQuery 项目并上传数据,则可以通过与分析日志表的 JOIN 来运行 SQL。但是,创建 BigQuery 数据集的数据位置必须设置为 美国(美国的多区域)

订单

  • 创建 Google BigQuery 项目
  • 创建 BigQuery 数据集到美国地区
  • 上传数据
  • 与 Analytics BigQuery 数据进行 JOIN

创建 Google BigQuery 项目

创建 BigQuery 数据集到美国地区

  • 访问 BigQuery 控制台,在数据集创建部分选择美国(美国的多区域)作为数据位置,然后点击“创建数据集”。

创建表并上传数据

  • 创建一个表,参考在创建的数据集中表创建指南。
  • 通过参考表数据管理将数据上传到创建的表中。通常,有上传CSV文件或将查询结果保存为表的情况。

设置 SQL 启动项目

  • 在点击左上角的 C2S-DW 时,选择弹出窗口中的 COM2US.COM 组织。
  • 选择并点击一个以“habq-”开头的项目。

使用分析 BigQuery 数据进行 JOIN

  • 在 SQL 编辑器窗口中输入查询,然后点击执行按钮以执行 SQL。

示例查询。分析登录日志和表连接查找已上传到BigQuery项目

SELECT a.vid, b.vid
FROM `fluted-airline-109810.analytics_7777_live.t_hive_login_log`a
inner join`tribal-booth-366804.test.upload_test` b on b.vid = a.vid
WHERE DATE(dateTime) = date(datetime_add(current_datetime('Asia/Seoul'),interval -9 hour))

申请 BigQuery 权限恢复

如果您在申请权限后被分配到 Hive Analytics BigQuery,您可以申请提款。

您可以通过在 Hive 控制台 > Hive 分析 > 日志定义菜单中使用 bigquery 访问功能查看之前请求的访问权限。通过选择需要撤销权限的帐户并单击撤销权限按钮,您可以提交申请。

处理可能需要长达2个工作日,结果将在成功撤销后发送到请求账户的电子邮件地址。