备份和还原是许多数据库提供的标准操作。有效的备份和还原策略有助于确保用户可以在发生意外故障时恢复数据。 HBase备份和还原功能有助于确保使用HBase作为规范数据存储库的企业可以从灾难性故障中恢复。另一个重要功能是能够将数据库还原到特定时间点,通常称为快照。

HBase备份和还原功能可以在HBase集群中的表上创建完整备份和增量备份。完整备份是应用增量备份以构建不同版本快照的基础。可以按计划运行增量备份以捕获随时间的变化,例如通过使用Cron任务。增量备份比完全备份更具成本效益,因为它们仅捕获自上次备份以来的更改,并且还使管理员能够将数据库还原到任何先前的增量备份。此外,如果你不想进行整个数据集备份和恢复,该机制也支持启用表级数据备份和恢复。

备份和还原功能是对HBase复制功能的补充。虽然HBase复制非常适合创建数据的“热”副本(复制数据可立即用于查询),但备份和恢复功能非常适合创建“冷”数据副本(必须手动来恢复系统)。用户以前只能通过ExportSnapshot功能创建完整备份。增量备份实现是对ExportSnapshot提供的备份功能的改进。

备份和还原功能使用DistCp在群集之间传输文件。 HADOOP-15850修复了一个CopyCommitter#concatFileChunks无条件地尝试将正在DistCp传输的文件都拼接起来,拷贝到目标集群(尽管文件是独立的)的bug。如果没有HADOOP-15850的修复,拷贝会失败。以下是能正确支持备份和恢复功能的hadoop版本。

  • 2.7.x

  • 2.8.x

  • 2.9.2+

  • 2.10.0+

  • 3.0.4+

  • 3.1.2+

  • 3.2.0+

  • 3.3.0+