Apache Spark 是一个分布式的、用于在内存中处理数据的软件框架,在许多场景中用于代替 MapReduce。
Spark 本身已经超出了本文档的范围,请参考 Spark 的项目及子项目的网站来获取更多信息。本文档将会集中在 4 个主要的 HBase 和 Spark 交互的要点上,这四点分别是:
基础 Spark
这可以在 Spark DAG 中的任意一点使用 HBase Connection。
Spark Streaming
这可以在 Spark Streaming 应用中的任意一点使用 HBase Connection。
Spark 批量加载
这可以允许在批量插入 HBase 的时候直接写 HBase 的 HFiles。
SparkSQL/DataFrames
这将提供为 HBase 中定义的表提供写 SparkSQL 的能力。
下面的部分将会用几个例子来说明上面几点交互。