spark+phoenixspark+phoenix
phoenix作为查询引擎,为了提高查询效率,为phoenix表创建了二级索引,而数据是sparkstreaming通过hbase api直接向hbase插数据。那么问题来了,对于phoenix的二级索引,直接插入底层hbase的源表,不会引起二级索引的更新,从而导致phoenix索引...[2018/10/16]
Apache Spark开发介绍Apache Spark开发介绍
Databricks的工程师,Apache Spark Committer介绍了Databricks和Spark的历史,包括了Spark 1.4中的重要特性和进展,涵盖了Spark早期版本的主要功能和使用方法,讲了大数据领域近些年的发展,也介绍了Spark从这些年其它理论或者技术中吸取的灵感,当然...[2018/10/11]
CarbonData 大数据交互式分析实践(spark summit)
CarbonData是一种高性能大数据存储方案,支持快速过滤查找和即席OLAP分析,已在20+企业生产环境上部署应用,其中最大的单一集群数据规模达到几万亿。针对当前大数据领域分析场景需求各异而导致的存储冗余问题,业务驱动下的数据分析灵活性要求越来越高,CarbonData提供了一种新的融合数据存储...[2018/9/26]
Spark Streaming核心概念与编程
1. 核心概念 StreamingContext import org.apache.spark._
import org.apache.spark.streaming._
val conf = new SparkConf().se...[2018/9/25]
Spark 整合ElasticSearch
Spark 整合ElasticSearch
因为做用户资料搜索用到了ElasticSearch,最近又了解一下 Spark ML,先来演示一个Spark 读取/写入 ElasticSearch 简单示例。(spark 读取ElasticSearch中数据)
环境:IDEA2016,JDK8,wi...[2018/9/25]
Spark RDD深度解析-RDD计算流程
Spark RDD深度解析-RDD计算流程
摘要 RDD(Resilient Distributed Datasets)是Spark的核心数据结构,所有数据计算操作均基于该结构进行,包括Spark sql 、Spark Streaming。理解RDD有助于了解分布式计算引擎的基本架构,...[2018/9/25]
Spark随机森林实战
1 package big.data.analyse.ml.randomforest
2
3 import org.apache.spark.ml.Pipeline
4 import org.apache.spark.ml.cla ification.{RandomForestCla ...[2018/9/25]