Spark经验 - 技术经验

spark+phoenix

phoenix作为查询引擎，为了提高查询效率，为phoenix表创建了二级索引，而数据是sparkstreaming通过hbase api直接向hbase插数据。那么问题来了，对于phoenix的二级索引，直接插入底层hbase的源表，不会引起二级索引的更新，从而导致phoenix索引...[2018/10/16]

Apache Spark开发介绍

Databricks的工程师，Apache Spark Committer介绍了Databricks和Spark的历史，包括了Spark 1.4中的重要特性和进展，涵盖了Spark早期版本的主要功能和使用方法，讲了大数据领域近些年的发展，也介绍了Spark从这些年其它理论或者技术中吸取的灵感，当然...[2018/10/11]

CarbonData 大数据交互式分析实践(spark summit)

CarbonData是一种高性能大数据存储方案，支持快速过滤查找和即席OLAP分析，已在20+企业生产环境上部署应用，其中最大的单一集群数据规模达到几万亿。针对当前大数据领域分析场景需求各异而导致的存储冗余问题，业务驱动下的数据分析灵活性要求越来越高，CarbonData提供了一种新的融合数据存储...[2018/9/26]

Spark Streaming核心概念与编程

1. 核心概念 StreamingContext import org.apache.spark._ import org.apache.spark.streaming._ val conf = new SparkConf().se...[2018/9/25]

Spark 整合ElasticSearch

Spark 整合ElasticSearch 因为做用户资料搜索用到了ElasticSearch，最近又了解一下 Spark ML，先来演示一个Spark 读取/写入 ElasticSearch 简单示例。(spark 读取ElasticSearch中数据) 环境：IDEA2016，JDK8，wi...[2018/9/25]

Spark RDD深度解析-RDD计算流程

Spark RDD深度解析-RDD计算流程摘要 RDD（Resilient Distributed Datasets）是Spark的核心数据结构，所有数据计算操作均基于该结构进行，包括Spark sql 、Spark Streaming。理解RDD有助于了解分布式计算引擎的基本架构，...[2018/9/25]

Spark随机森林实战

1 package big.data.analyse.ml.randomforest 2 3 import org.apache.spark.ml.Pipeline 4 import org.apache.spark.ml.cla ification.{RandomForestCla ...[2018/9/25]

390

记录数:107　页数：3/3首页上一页 1 23

友情链接：直通硅谷　点职佳　北美留学生论坛

加载更多