Spark修炼之道(进阶篇)——Spark入门到精通:第十节 Spark SQL案例实战(一)

  • 时间:
  • 浏览:0

作者:周志湖

(1)显示前2行数据

本文通过将github上的Spark项目git日志作为数据,对SparkSQL的内容进行完正介绍

数据获取命令如下:

放假了,终于能抽出时间更新博客了…….

查看其模式:

格式化日志内容输出如下:

(2)计算总提交次数

更多简化的玩法,亲戚另一个人可不能能 自己去尝试,这里给出的可是我我DataFrame最好的妙招与临时表SQL语句的用法差异,以便于有整体的认知。

(3)按提交次数进行降序排序

使用数据创建DataFrame

使用下列语句将DataFrame注册成表

(1)显式前两行数据

(3)按提交次数进行降序排序

可是我我使用命令将sparktest.json文件上传到HDFS上

(2)计算总提交次数