154.1。概观

以下指标可以说是监控每个 RegionServer 进行“宏监控”的最重要指标,最好是使用像 OpenTSDB 这样的系统。如果您的群集出现性能问题,您可能会发现此群组存在异常情况。

HBase 的

OS

  • IO 等待

  • 用户 CPU

Java 的

  • GC

有关 HBase 指标的更多信息,请参阅 hbase 指标

154.2。慢查询日志

HBase 慢查询日志由可解析的 JSON 结构组成,这些结构描述了运行时间太长或产生过多输出的客户端操作(获取,推送,删除等)的属性。 “太长而不能运行”和“太多输出”的阈值是可配置的,如下所述。输出在主区域服务器日志中内联生成,因此很容易从上下文中发现与其他已记录事件的更多详细信息。它还附有识别标签(responseTooSlow)(responseTooLarge)(operationTooSlow)(operationTooLarge),以便在用户希望仅查看慢速查询的情况下,使用 grep 轻松过滤。

154.2.1。组态

有两个配置旋钮可用于调整记录查询的阈值。

  • hbase.ipc.warn.response.time可以在不记录的情况下运行查询的最大毫秒数。默认为 10000 或 10 秒。可以设置为-1 以禁用按时间记录。

  • hbase.ipc.warn.response.size查询无需记录即可返回的响应的最大字节大小。默认为 100 兆字节。可以设置为-1 以禁用按大小记录。

154.2.2。度量

慢查询日志向 JMX 公开指标。

  • hadoop.regionserver_rpc_slowResponse一个全局指标,反映触发记录的所有响应的持续时间。

  • hadoop.regionserver_rpc_methodName.aboveOneSec一个指标,反映持续时间超过一秒的所有响应的持续时间。

154.2.3。产量

输出用例如操作标记。 (operationTooSlow)如果调用是客户端操作,例如 Put,Get 或 Delete,我们会为其公开详细的指纹信息。如果没有,它被标记为(responseTooSlow)并且仍然产生可解析的 JSON 输出,但是只有关于 RPC 本身的持续时间和大小的冗长信息。如果响应大小触发了日志记录,则TooLarge将替换TooSlow,即使在大小和持续时间都触发日志记录的情况下也会出现TooLarge

154.2.4。例

2011-09-08 10:01:25,824 WARN org.apache.hadoop.ipc.HBaseServer: (operationTooSlow): {"tables":{"riley2":{"puts":[{"totalColumns":11,"families":{"actions":[{"timestamp":1315501284459,"qualifier":"0","vlen":9667580},{"timestamp":1315501284459,"qualifier":"1","vlen":10122412},{"timestamp":1315501284459,"qualifier":"2","vlen":11104617},{"timestamp":1315501284459,"qualifier":"3","vlen":13430635}]},"row":"cfcd208495d565ef66e7dff9f98764da:0"}],"families":["actions"]}},"processingtimems":956,"client":"10.47.34.63:33623","starttimems":1315501284456,"queuetimems":0,"totalPuts":1,"class":"HRegionServer","responsesize":0,"method":"multiPut"} 

请注意,“表”结构中的所有内容都是由 MultiPut 指纹生成的,而其余信息是特定于 RPC 的,例如处理时间和客户端 IP /端口。其他客户操作遵循相同的模式和相同的一般结构,由于各个操作的性质而具有必要的差异。在呼叫不是客户端操作的情况下,将完全不存在详细的指纹信息。

例如,这个特定的例子表明,慢速的可能原因只是一个非常大的(大约 100MB)多输出,正如我们可以通过 multiput 中每个 put 的“vlen”或值长度字段来判断的那样。 。

154.3。阻止缓存监控

从 HBase 0.98 开始,HBase Web UI 包括监视和报告块缓存性能的功能。要查看块缓存报告,请单击。以下是报告功能的几个示例。

bc basic图 8.基本信息bc config图 9.配置bc stats图 10.统计bc l1图 11. L1 和 L2

这不是所有可用屏幕和报告的详尽列表。看一下 Web UI。

154.4。快照空间使用情况监控

从 HBase 0.95 开始,HBase Master Web UI 中显示了各个快照的快照使用信息。从 HBase 1.3 开始,这进一步增强,以显示快照集的总文件文件大小。以下指标显示在使用 HBase 1.3 及更高版本的主 Web UI 中。

  • Shared Storefile Size 是快照和活动表之间共享的 Storefile 大小。

  • Mob Storefile Size 是快照和活动表之间共享的 Mob Storefile 大小。

  • 存档的 Storefile Size 是存档中的存储文件大小。

存档文件大小的格式为 NNN(MMM)。 NNN 是存档中的存储文件总大小,MMM 是存档中特定于快照的存储文件总大小(不与其他快照和表共享)。

master snapshot图 12.主快照概述1 snapshot图 13.快照存储文件统计示例 1 2 snapshots图 14.快照存储文件统计示例 2 empty snapshots图 15.空快照 Storfile 统计示例