Spark初步-从wordcount开始

spark中自带的example，有一个wordcount例子，我们逐步分析wordcount代码，开始我们的spark之旅。

准备工作

把README.md文件复制到当前的文件目录，启动jupyter，编写我们的代码。

README.md文件在Spark的根目录下。

from pyspark.sql import SparkSession
from operator import add

# 初始化spark实例，并把应用命名为wordcount
spark = SparkSession.builder.appName("WordCount").getOrCreate()

# 从文件读取内容
# 此时data为dataframe格式，每一行为文件中的一行
data = spark.read.text("README.md")

# 查看第一行数据
f = data.first()
f

Row(value='# Apache Spark')

# 查看前5行数据
data.take(5)

[Row(value='# Apache Spark'),
 Row(value=''),
 Row(value='Spark is a fast and general cluster computing system for Big Data. It provides'),
 Row(value='high-level APIs in Scala, Java, Python, and R, and an optimized engine that'),
 Row(value='supports general computation graphs for data analysis. It also supports a')]

# 把数据转换为rdd格式，并取出值
data2 = data.rdd.map(lambda x: x[0])
# 查看第一行数据，可以看到数据为string格式
data2.first()

'# Apache Spark'

# 对于每行按照空格来分割，并把结果拉平
data3 = data2.flatMap(lambda x: x.split(' '))
# 查看前5个数据，可以看到已经分割为单个词了
data3.take(5)

['#', 'Apache', 'Spark', '', 'Spark']

# 为每个单词标记次数1
data4 = data3.map(lambda x: (x,1))
# 结果为turple类型，前面是key，后面的数字为单词的次数
data4.take(5)

[('#', 1), ('Apache', 1), ('Spark', 1), ('', 1), ('Spark', 1)]

# 汇总统计每个单词出现的次数
data5 = data4.reduceByKey(add)
# 结果为turple类型，数字为单词的出现次数
data5.take(10)

[('#', 1),
 ('Apache', 1),
 ('Spark', 16),
 ('', 71),
 ('is', 6),
 ('a', 8),
 ('fast', 1),
 ('and', 9),
 ('general', 3),
 ('cluster', 2)]

# 按照出现次数多少来排序
res = data5.sortBy(lambda x: x[1], ascending=False).collect()
res[:5]

[('', 71), ('the', 24), ('to', 17), ('Spark', 16), ('for', 12)]

完整代码

from pyspark.sql import SparkSession
from operator import add
spark = SparkSession.builder.appName("WordCount").getOrCreate()
data = spark.read.text("README.md")
data1 = data.rdd.map(lambda x: x[0])
data2 = data1.flatMap(lambda x: x.split(' ')).map(lambda x: (x, 1)).reduceByKey(add)
res = data2.sortBy(lambda x: x[1], ascending=False).collect()
print(res[:10])

[('', 71), ('the', 24), ('to', 17), ('Spark', 16), ('for', 12), ('and', 9), ('##', 9), ('a', 8), ('can', 7), ('on', 7)]

原文链接：http://www.cnblogs.com/StitchSun/p/10535822.html

友情链接：直通硅谷　点职佳　北美留学生论坛

Spark热门文章

Spark 用户自定义函数 Java 示例

Spark初步从wordcount开始

深入浅出Spark的Checkpoint机制

Docker-Compose搭建Spark集群的实现方法

Spark SQL中列转行（UNPIVOT）的两种方法

Spark 的 python 编程环境

Spark 整合ElasticSearch

centos 7 cloudera-manager5.16.2,CDH5.16.2安装升级spark2.4.0

Spark SQL，如何将 DataFrame 转为 json 格式

大数据Spark Sql中日期转换FROM_UNIXTIME和UNIX_TIMESTAMP的使用

Spark推荐文章

一文了解Spark引擎的优势及应用场景

图解Spark Graphx基于connectedComponents函数实现连通图底层原理

CDC一键入湖：当 Apache Hudi DeltaStreamer 遇见 Serverless Spark

图解Spark Graphx实现顶点关联邻接顶点的collectNeighbors函数原理

Hive 和 Spark 分区策略剖析

微软外服札记④——Spark中的那些坑...

Spark3 学习【基于Java】4. Spark-Sql数据源

实时计算框架：Spark集群搭建与入门案例

使用Spark加载数据到SQL Server列存储表

Spark学习之Dataset (DataFrame) 的基础操作