课程表

Apache Pig 基础

Apache Pig 诊断运算符

Apache Pig 分组和连接

Apache Pig 合并和拆分

Apache Pig 过滤

Apache Pig 排序

Pig Latin 内置函数

Apache Pig 其他执行模式

工具箱
速查手册

Apache Pig 存储数据

当前位置:免费教程 » 大数据/云 » Apache Pig

在上一章中,我们学习了如何将数据加载到Apache Pig中。你可以使用 store 运算符将加载的数据存储在文件系统中,本章介绍如何使用 Store 运算符在Apache Pig中存储数据。

语法

下面给出了Store语句的语法。

  1. STORE Relation_name INTO ' required_directory_path ' [USING function];

假设我们在HDFS中有一个包含以下内容的文件 student_data.txt

  1. 001,Rajiv,Reddy,9848022337,Hyderabad
  2. 002,siddarth,Battacharya,9848022338,Kolkata
  3. 003,Rajesh,Khanna,9848022339,Delhi
  4. 004,Preethi,Agarwal,9848022330,Pune
  5. 005,Trupthi,Mohanthy,9848022336,Bhuwaneshwar
  6. 006,Archana,Mishra,9848022335,Chennai.

使用LOAD运算符将它读入关系 student ,如下所示。

  1. grunt> student = LOAD 'hdfs://localhost:9000/pig_data/student_data.txt'
  2. USING PigStorage(',')
  3. as ( id:int, firstname:chararray, lastname:chararray, phone:chararray,
  4. city:chararray );

现在,让我们将关系存储在HDFS目录“/pig_Output/"中,如下所示。

  1. grunt> STORE student INTO ' hdfs://localhost:9000/pig_Output/ ' USING PigStorage (',');

输出

执行 store 语句后,将获得以下输出。使用指定的名称创建目录,并将数据存储在其中。

  1. 2015-10-05 13:05:05,429 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.
  2. MapReduceLau ncher - 100% complete
  3. 2015-10-05 13:05:05,429 [main] INFO org.apache.pig.tools.pigstats.mapreduce.SimplePigStats -
  4. Script Statistics:
  5. HadoopVersion PigVersion UserId StartedAt FinishedAt Features
  6. 2.6.0 0.15.0 Hadoop 2015-10-0 13:03:03 2015-10-05 13:05:05 UNKNOWN
  7. Success!
  8. Job Stats (time in seconds):
  9. JobId Maps Reduces MaxMapTime MinMapTime AvgMapTime MedianMapTime
  10. job_14459_06 1 0 n/a n/a n/a n/a
  11. MaxReduceTime MinReduceTime AvgReduceTime MedianReducetime Alias Feature
  12. 0 0 0 0 student MAP_ONLY
  13. OutPut folder
  14. hdfs://localhost:9000/pig_Output/
  15. Input(s): Successfully read 0 records from: "hdfs://localhost:9000/pig_data/student_data.txt"
  16. Output(s): Successfully stored 0 records in: "hdfs://localhost:9000/pig_Output"
  17. Counters:
  18. Total records written : 0
  19. Total bytes written : 0
  20. Spillable Memory Manager spill count : 0
  21. Total bags proactively spilled: 0
  22. Total records proactively spilled: 0
  23. Job DAG: job_1443519499159_0006
  24. 2015-10-05 13:06:06,192 [main] INFO org.apache.pig.backend.hadoop.executionengine
  25. .mapReduceLayer.MapReduceLau ncher - Success!

验证

你可以如下所示验证存储的数据。

步骤1

首先,使用 ls 命令列出名为 pig_output 的目录中的文件,如下所示。

  1. hdfs dfs -ls 'hdfs://localhost:9000/pig_Output/'
  2. Found 2 items
  3. rw-r--r- 1 Hadoop supergroup 0 2015-10-05 13:03 hdfs://localhost:9000/pig_Output/_SUCCESS
  4. rw-r--r- 1 Hadoop supergroup 224 2015-10-05 13:03 hdfs://localhost:9000/pig_Output/part-m-00000

可以观察到在执行 store 语句后创建了两个文件。

步骤2

使用 cat 命令,列出名为 part-m-00000 的文件的内容,如下所示。

  1. $ hdfs dfs -cat 'hdfs://localhost:9000/pig_Output/part-m-00000'
  2. 1,Rajiv,Reddy,9848022337,Hyderabad
  3. 2,siddarth,Battacharya,9848022338,Kolkata
  4. 3,Rajesh,Khanna,9848022339,Delhi
  5. 4,Preethi,Agarwal,9848022330,Pune
  6. 5,Trupthi,Mohanthy,9848022336,Bhuwaneshwar
  7. 6,Archana,Mishra,9848022335,Chennai
转载本站内容时,请务必注明来自W3xue,违者必究。
 友情链接:直通硅谷  点职佳  北美留学生论坛

本站QQ群:前端 618073944 | Java 606181507 | Python 626812652 | C/C++ 612253063 | 微信 634508462 | 苹果 692586424 | C#/.net 182808419 | PHP 305140648 | 运维 608723728

W3xue 的所有内容仅供测试,对任何法律问题及风险不承担任何责任。通过使用本站内容随之而来的风险与本站无关。
关于我们  |  意见建议  |  捐助我们  |  报错有奖  |  广告合作、友情链接(目前9元/月)请联系QQ:27243702 沸活量
皖ICP备17017327号-2 皖公网安备34020702000426号