经验首页 前端设计 程序设计 Java相关 移动开发 数据库/运维 软件/图像 大数据/云计算 其他经验
当前位置:技术经验 » 数据库/运维 » Spark » 查看文章
1-Spark-1-性能调优-数据倾斜1-特征/常见原因/后果/常见调优方案
来源:cnblogs  作者:没事还是学习吧  时间:2019/9/26 8:49:40  对本文有异议

数据倾斜特征:个别Task处理大部分数据

后果:1.OOM;2.速度变慢,甚至变得慢的不可接受

常见原因:

数据倾斜的定位:

1.WebUI(查看Task运行的数据量的大小)。

2.Log,查看log中哪一行出现OOM,查找具体哪个Stage,进而确定哪一个shuffle产生了数据倾斜。

3.查看代码,主要是join,groupByKey,reduceByKey等代码。

4.对数据特征分布进行分析。

原文链接:http://www.cnblogs.com/ywdjx/p/spark-performance1.html

 友情链接:直通硅谷  点职佳  北美留学生论坛

本站QQ群:前端 618073944 | Java 606181507 | Python 626812652 | C/C++ 612253063 | 微信 634508462 | 苹果 692586424 | C#/.net 182808419 | PHP 305140648 | 运维 608723728

W3xue 的所有内容仅供测试,对任何法律问题及风险不承担任何责任。通过使用本站内容随之而来的风险与本站无关。
关于我们  |  意见建议  |  捐助我们  |  报错有奖  |  广告合作、友情链接(目前9元/月)请联系QQ:27243702 沸活量
皖ICP备17017327号-2 皖公网安备34020702000426号