Spark 中的机器学习库及示例
MLlib 是 Spark 的机器学习库,旨在简化机器学习的工程实践工作,并方便扩展到更大规模。MLlib 由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道 API。具体来说,主要包括以下几方面的内容:
机器学习算法:常用的学习算法,如...[2019/6/17]
Spark学习笔记Spark学习笔记
Spark Core
1.1 RDD
概念:The main abstraction Spark provides is a resilient distributed dataset (RDD), which is a collection of elements partitioned a...[2019/6/17]
spark 机器学习 决策树 原理(一)
1.什么是决策树 决策树(decision tree)是一个树结构(可以是二叉树或者非二叉树)。决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。 其中每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放在一个类别。...[2019/6/14]
PyCharm搭建Spark开发环境实现第一个pyspark程序
一, PyCharm搭建Spark开发环境
Windows7, Java1.8.0_74, Scala 2.12.6, Spark 2.2.1, Hadoop2.7.6
通常情况下,Spark开发是基于Linux集群的,但这里作为初学者并且囊中羞涩,还是在windows环境下先学习吧。
...[2019/6/14]
Spark在Windows下的环境搭建方法
本文主要是讲解Spark在Windows环境是如何搭建的
一、JDK的安装
1、1 下载JDK
首先需要安装JDK,并且将环境变量配置好,如果已经安装了的老司机可以忽略。JDK(全称是JavaTM Platform Standard Edition Development Kit)的安...[2019/6/14]
Spark 中 RDD的运行机制Spark 中 RDD的运行机制
1. RDD 的设计与运行原理
Spark 的核心是建立在统一的抽象 RDD 之上,基于 RDD 的转换和行动操作使得 Spark 的各个组件可以无缝进行集成,从而在同一个应用程序中完成大数据计算任务。
在实际应用中,存在许多迭代式算法和交互式数据挖掘工具,这些应用场景的共同之处在于不同计算阶段...[2019/6/13]
Linux下搭建Spark 的 Python 编程环境的方法
Spark编程环境
Spark 可以独立安装使用,也可以和Hadoop 一起安装使用。在安装 Spark 之前,首先确保你的电脑上已经安装了 Java 8 或者更高的版本。
Spark 安装
访问 Spark 下载页面 ,并选择最新版本的 Spark 直接下载,当前的最新版本是...[2019/6/13]
spark 机器学习 朴素贝叶斯 实现(二)
已知10月份10-22日网球场地,会员打球情况通过朴素贝叶斯算法,预测23,24号是否适合打网球。结果,日期,天气 温度 风速结果(0否,1是)天气(0晴天,1阴天,2下雨)温度(0热,1舒适,2冷)风速(0没风,1微风,2大风)训练数据vi p1.txt1,20181010,0 1 00,201...[2019/6/12]
Spark 的 python 编程环境
Spark编程环境
Spark 可以独立安装使用,也可以和 Hadoop 一起安装使用。在安装 Spark 之前,首先确保你的电脑上已经安装了 Java 8 或者更高的版本。
Spark 安装
访问Spark 下载页面,并选择最新版本的 Spark 直接下载,当前的最新版本是 2.4.2 。下载...[2019/6/12]
详解如何使用Spark和Scala分析Apache访问日志
安装
首先需要安装好Java和Scala,然后下载Spark安装,确保PATH 和JAVA_HOME 已经设置,然后需要使用Scala的SBT 构建Spark如下:
$ sbt bt a embly
构建时间比较长。构建完成后,通过运行下面命令确证安装成功:
...[2019/6/12]
spark 机器学习 朴素贝叶斯 原理(一)
朴素贝叶斯算法仍然是流行的挖掘算法之一,该算法是有监督的学习算法,解决的是分类问题,如客户是否流失、是否值得投资、信用等级评定等多分类问题。该算法的优点在于简单易懂、学习效率高、在某些领域的分类问题中能够与决策树、神经网络相媲美。但由于该算法以自变量之间的独立(条件特征独立)性和连续变量的正态性假...[2019/6/10]
【大数据】SparkSql 连接查询中的谓词下推处理 (二)
本文首发于 vivo互联网技术 微信公众号 https: mp.weixin.qq.com II48YxGfoursKVvdAXYbVg作者:李勇
目录:1.左表 join 后条件下推2.左表join中条件不下推3.右表join中条件下推4.右表join中条件不下推5.总结
在...[2019/6/4]
spark任务分配----TaskSchedulerImpl源码解析
TaskSchedulerImpl
上一篇讲到DAGScheduler根据shuffle依赖对作业的整个计算链划分成多个stage之后,就开始提交最后一个ResultStage,而由于stage之间的依赖关系,实际上最终是循着计算链从上到下依次提交stage的。每提交一个stage,就会将这个st...[2019/6/3]
spark 机器学习 knn 代码实现(二)
通过knn 算法规则,计算出s2表中的员工所属的类别原始数据:某公司工资表 s1(训练数据)格式:员工ID,员工类别,工作年限,月薪(K为单位) 101 ...[2019/5/28]
【大数据】SparkSql 连接查询中的谓词下推处理 (一)
本文首发于 vivo互联网技术 微信公众号 https: mp.weixin.qq.com YPN85WBNcnhk8xKjTPTa2g
作者:李勇
目录:
1.SparkSql
2.连接查询和连接条件
3.谓词下推
4.内连接查询中的谓词下推规则
4...[2019/5/15]
在Ubuntu里搭建spark环境
注意:1.搭建环境:Ubuntu64位,Linux(也有Windows的,我还没空试)
2.一般的配置jdk、Scala等的路径环境是在/etc/profile里配置的,我自己搭建的时候发现我自己在profile配置环境会有问题,比如说:我配置了spa...[2019/5/9]
spark 机器学习 knn原理(一)
1.knnK最近邻(k-Nearest Neighbor,KNN)分类算法,在给定一个已经做好分类的数据集之后,k近邻可以学习其中的分类信息,并可以自动地给未来没有分类的数据分好类。我们可以把用户分为两类:“高信誉用户”和“低信誉用户”,...[2019/5/7]
spark 机器学习 ALS原理(一)
1.线性回归模型线性回归是统计学中最常用的算法,当你想表示两个变量间的数学关系时,就可以用线性回归。当你使用它时,你首先假设输出变量(相应变量、因变量、标签)和预测变量(自变量、解释变量、特征)之间存在的线性关系。(自变量是指:研究者主动操纵,而引起因变量发生变化的因素或条件,因此自变量被看作是因...[2019/5/6]
spark 机器学习基础 数据类型
spark的机器学习库,包含常见的学习算法和工具如分类、回归、聚类、协同过滤、降维等使用算法时都需要指定相应的数据集,下面为大家介绍常用的spark ml 数据类型。1.本地向量(Local Vector)存储在单台机器上,索引采用0开始的整型表示,值采用Double类型的值表示。Spark ML...[2019/4/28]
数据源
数据源之json
val jsonPath = ""
spark.read.json(jsonPath) 方式一
spark.read.format("json").load(jsonPath) 方式二
数据源之parquet
...[2019/4/26]
spark2.4 分布式安装spark2.4 分布式安装
一.Spark2.0的新特性Spark让我们引以为豪的一点就是所创建的API简单、直观、便于使用,Spark 2.0延续了这一传统,并在两个方面凸显了优势: 1、标准的SQL支持; 2、数据框(DataFrame)/Dataset (数据集)API的统一。 在SQL方面,我们已经对Spark...[2019/4/23]
spark-windows(含eclipse配置)下本地开发环境搭建
spark-windows(含eclipse配置)下本地开发环境搭建
>>>>>>注意:这里忽略JDK的安装,JDK要求是1.8及以上版本,请通过 java –version查看。
一、spark命令行环境搭建
...[2019/4/17]
SparkSQL执行时参数优化
近期接手了不少大数据表任务调度补数据的工作,补数时发现资源消耗异常的大且运行速度却不怎么给力.
发现根本原因在于sparkSQL配置有诸多问题,解决后总结出来就当抛砖引玉了.
具体现象
内存CPU比例失调 一个Spark任务消耗 120(executor)*4G = 48...[2019/4/1]
Spark初步 从wordcount开始Spark初步 从wordcount开始
Spark初步-从wordcount开始
spark中自带的example,有一个wordcount例子,我们逐步分析wordcount代码,开始我们的spark之旅。
准备工作
把README.md文件复制到当前的文件目录,启动jupyter,编写我们的代码。
README.md文件在Spa...[2019/4/1]
我的Spark SQL单元测试实践
最近加入一个Spark项目,作为临时的开发人员协助进行开发工作。该项目中不存在测试的概念,开发人员按需求进行编码工作后,直接向生产系统部署,再由需求的提出者在生产系统检验程序运行结果的正确性。在这种原始的工作方式下,产品经理和开发人员总是在生产系统验证自己的需求、代码。可以想见,各种直接交给用户的...[2019/3/22]
spark上的一些常用命令(一)spark上的一些常用命令(一)
1. 加速跑
spark-sql --name uername --num-executors 21 --driver-memory 8G --executor-memory 8G
2. 上传数据
建表
create table xxx_yyy ( userid ...[2019/3/19]
使用Python的Mock库进行PySpark单元测试
测试是软件开发中的基础,它经常被数据开发者忽视,但是它很重要。在本文中会展示如何使用Python的uniittest.mock库,对一段PySpark代码进行测试。笔者会从数据科学家的视角来进行工作,这意味着本文将不会深入某些软件开发的细节。
本文链接:https: www.cnblogs.c...[2019/3/12]
Spark2.1.0——内置Web框架详解
Spark2.1.0——内置Web框架详解
任何系统都需要提供监控功能,否则在运行期间发生一些异常时,我们将会束手无策。也许有人说,可以增加日志来解决这个问题。日志只能解决你的程序逻辑在运行期的监控,进而发现Bug,以及提供对业务有帮助的调试信息。当你的JVM进程奔溃...[2019/3/1]
Spark Streaming简介及原理Spark Streaming简介及原理
简介:
SparkStreaming是一套框架。
SparkStreaming是Spark核心API的一个扩展,可以实现高吞吐量的,具备容错机制的实时流数据处理。
支持多种数据源获取数据:
Spark Streaming接收Kafka、Flume、HDFS等各种来源的实时输入...[2019/2/28]
Spark基础
1 读取本地文件
. park-shell
scala> val textFile=sc.textFile("file: home/hadoop/wordfile1.txt")textFile: org.apache.spark.rdd.RDD[String] = fil...[2019/2/12]
SparkStreaming+Kafka整合SparkStreaming+Kafka整合
SparkStreaming+Kafka整合
1.需求
使用SparkStreaming,并且结合Kafka,获取实时道路交通拥堵情况信息。
2.目的
对监控点平均车速进行监控,可以实时获取交通拥堵情况信息。相关部门可以对交通拥堵情况采取措施。
e...[2019/1/28]
Spark SQL中列转行(UNPIVOT)的两种方法
行列之间的互相转换是ETL中的常见需求,在Spark SQL中,行转列有内建的PIVOT函数可用,没什么特别之处。而列转行要稍微麻烦点。本文整理了2种可行的列转行方法,供参考。
本文链接:https: www.cnblogs.com/hhelibeb/p/10310369.h...[2019/1/24]
Spark中的一些概念
最近工作用到Spark,这里记一些自己接触到的Spark基本概念和知识。
本文链接:https: www.cnblogs.com/hhelibeb/p/10288915.html
名词
RDD:在高层,每个Spark应用包含一个driver程序,它运行用户的主函数,在集群上执行不同的并行...[2019/1/21]
Spark-Unit1-spark概述与安装部署Spark-Unit1-spark概述与安装部署
一、Spark概述
spark官网:spark.apache.org
Spark是用的大规模数据处理的统一计算引擎,它是为大数据处理而设计的快速通用的计算引擎。spark诞生于加油大学伯克利分校AMP实验室。
mapreduce(MR)与spark的对比:
1.MR在计...[2019/1/14]
深入浅出Spark的Checkpoint机制深入浅出Spark的Checkpoint机制
1 Overview 当第一次碰到 Spark,尤其是 Checkpoint 的时候难免有点一脸懵逼,不禁要问,Checkpoint 到底是什么。所以,当我们在说 Checkpoint 的时候,我们到底是指什么? 网上找到一篇文章,说到 Checkpoint,大概意思是检查点创建一个已知的节点,SQ...[2019/1/11]
Spark WordCount的两种方式Spark WordCount的两种方式
Spark WordCount的两种方式。
语言:Java
工具:Idea
项目:Java Maven
pom.xml如下:
<properties>
<spark.version>1.2.0</spark.version>
...[2019/1/4]
Spark 读取 Hbase 优化 --手动划分 region 提高并行数Spark 读取 Hbase 优化 --手动划分 region 提高并行数
一. Hbase 的 region
我们先简单介绍下 Hbase 的 架构和 region :
从物理集群的角度看,Hbase 集群中,由一个 Hmaster 管理多个 HRegionServer,其中每个 HRegionServer 都对应一台物理机器,一台 HRegionServer 服...[2018/12/17]
Spark SQL,如何将 DataFrame 转为 json 格式Spark SQL,如何将 DataFrame 转为 json 格式
今天主要介绍一下如何将 Spark dataframe 的数据转成 json 数据。用到的是 scala 提供的 json 处理的 api。
用过 Spark SQL 应该知道,Spark dataframe 本身有提供一个 api 可以供我们将数据转成一个 JsonArray,我们可以在 sp...[2018/12/7]
Spark 用户自定义函数 Java 示例Spark 用户自定义函数 Java 示例
Spark UDF Java 示例
在这篇文章中提到了用Spark做用户昵称文本聚类分析,聚类需要选定K个中心点,然后迭代计算其他样本点到中心点的距离。由于中文文字分词之后(n-gram)再加上昵称允许各个特殊字符(数字、字母、各种符号……),如果直接在原来的文本数据上进行聚类,由于文本的“多样性...[2018/12/3]
Spark Java API 计算 Levenshtein 距离Spark Java API 计算 Levenshtein 距离
Spark Java API 计算 Levenshtein 距离
在上一篇文章中,完成了Spark开发环境的搭建,最终的目标是对用户昵称信息做聚类分析,找出违规的昵称。聚类分析需要一个距离,用来衡量两个昵称之间的相似度。这里采用levenshtein距离。现在就来开始第一个小目标,用Spark J...[2018/11/17]
spark 基础开发 Tips总结
本篇博客主要是 sparksql 从初始开发注意的一些基本点以及力所能及的可优化部分的介绍:
所使用spark版本:2.0.0 scala版本:2.11.8
1. SparkSe ion的初始化:
val spark...[2018/11/13]
sparksql 基础开发Tips总结
本篇博客主要是 sparksql 从初始开发注意的一些基本点以及力所能及的可优化部分的介绍:
所使用spark版本:2.0.0 scala版本:2.11.8
1. SparkSe ion的初始化:
&...[2018/11/12]
Spark SQL join的三种实现方式
引言
join是SQL中的常用操作,良好的表结构能够将数据分散到不同的表中,使其符合某种规范(mysql三大范式),可以最大程度的减少数据冗余,更新容错等,而建立表和表之间关系的最佳方式就是join操作。
对于Spark来说有3种Join的实现,每种Join对应的不同的应用场景(Spark...[2018/11/6]
Spark Java API 之 CountVectorizer
Spark Java API 之 CountVectorizer
由于在Spark中文本处理与分析的一些机器学习算法的输入并不是文本数据,而是数值型向量。因此,需要进行转换。而将文本数据转换成数值型的向量有很多种方法,CountVectorizer是其中之一。
A CountVectorize...[2018/11/5]
Spark DataFrame 的 groupBy vs groupByKey
在使用 Spark SQL 的过程中,经常会用到 groupBy 这个函数进行一些统计工作。但是会发现除了 groupBy 外,还有一个 groupByKey(注意RDD 也有一个 groupByKey,而这里的 groupByKey 是 DataFrame 的 ) 。这个 groupByKey ...[2018/11/5]
spark JAVA 开发环境搭建及远程调试spark JAVA 开发环境搭建及远程调试
spark JAVA 开发环境搭建及远程调试
以后要在项目中使用Spark 用户昵称文本做一下聚类分析,找出一些违规的昵称信息。以前折腾过Hadoop,于是看了下Spark官网的文档以及 github 上 官方提供的examples,看完了之后决定动手跑一个文本聚类的demo,于是有了下文。
1....[2018/11/3]
spark RDD,reduceByKey vs groupByKey
Spark 中有两个类似的api,分别是 reduceByKey 和 groupByKey 。这两个的功能类似,但底层实现却有些不同,那么为什么要这样设计呢?我们来从源码的角度分析一下。
先看两者的调用顺序(都是使用默认的Partitioner,即defaultPartitioner)
所用 ...[2018/10/29]
SparkSQL & Scala
Spark SQL重度依赖Scala的语言特性,让SQL编译程序变得简单直接,特别是Spark SQL其核心代码库Tree结构,作者用直接明了的展示了代码,如何完成语法树的操作和变化,包括基于规则的性能优化等,把Scala语言的特性发挥淋漓极致,是学习Spark SQL内核代码的必备教材。
...[2018/10/18]
加州大学伯克利分校:MapReduce Spark加州大学伯克利分校:MapReduce Spark
加州大学伯克利分校的教授,从历史发展的角度,讲述了在超级计算机中如何编程,从而引出风行几十年的MPI编程框架,然后这个框架编程过于复杂,进而演化出了MapReduce模型,这个模型的第一个开源实践版本是Hadoop,Hadoop风光了近10年以后,其中的计算引擎MapReduce被Apache S...[2018/10/18]