7.4 读写 objectFile 文件
对象文件是将对象序列化后保存的文件,采用 Java 的序列化机制。
可以通过objectFile[k,v](path)
函数接收一个路径,读取对象文件,返回对应的 RDD,也可以通过调用saveAsObjectFile()
实现对对象文件的输出
把 RDD 保存为objectFile
scala> val rdd1 = sc.parallelize(Array(("a", 1),("b", 2),("c", 3)))
rdd1: org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[19] at parallelize at <console>:25
scala> rdd1.saveAsObjectFile("hdfs://hadoop201:9000/obj_file")
读取 objectFile
scala> val rdd1 = sc.objectFile[(String, Int)]("hdfs://hadoop201:9000/obj_file")
rdd1: org.apache.spark.rdd.RDD[(String, Int)] = MapPartitionsRDD[25] at objectFile at <console>:25
scala> rdd1.collect
res8: Array[(String, Int)] = Array((a,1), (b,2), (c,3))