数据倾斜特征:个别Task处理大部分数据
后果:1.OOM;2.速度变慢,甚至变得慢的不可接受
常见原因:
数据倾斜的定位:
1.WebUI(查看Task运行的数据量的大小)。
2.Log,查看log中哪一行出现OOM,查找具体哪个Stage,进而确定哪一个shuffle产生了数据倾斜。
3.查看代码,主要是join,groupByKey,reduceByKey等代码。
4.对数据特征分布进行分析。
原文链接:http://www.cnblogs.com/ywdjx/p/spark-performance1.html
本站QQ群:前端 618073944 | Java 606181507 | Python 626812652 | C/C++ 612253063 | 微信 634508462 | 苹果 692586424 | C#/.net 182808419 | PHP 305140648 | 运维 608723728