• IDEA+MapReduce+Hive综合实践——搜狗日志查询分析


    1.下载数据源

    打开搜狗实验室链接:搜狗搜索引擎 - 上网从搜狗开始,由于搜狗实验室链接打不开了,所有这里自己制作数据(阿里云盘分享)进行实验。

    SogouQ.txt:

    2.上传下载文件至HDFS

    2.1将下载的文件通过FinalShell工具上传到Linux系统

    2.2查看SogouQ.txt并上传到HDFS

    可以用tail命令查看解压文件最后3行的数据

    tail -3 SogouQ.txt

    查询词为中文,这里编码按GBK查出来是乱码,编码时指定为‘UTF-8’可避免乱码。数据格式如前面的说明:

    访问时间  用户ID  [查询词]  该URL在返回结果中的排名  用户点击的顺序号  用户点击的URL

    上传至HDFS:

    hdfs dfs -put SogouQ.txt /

    3. 数据清洗

        因为原始数据中有些行的字段数不为6,且原始数据的字段分隔符不是Hive表规定的逗号',',所以需要对原始数据进行数据清洗。

       通过编写MapReduce程序完成数据清洗:(打包运行)

     (1)将不满足6个字段的行删除

     (2)将字段分隔符由不等的空格变为逗号‘,’分隔符

    idea新建Maven工程:MRHiveLog

    新建工程目录结构如下:

    修改pom.xml文件

    在一行之前添加如下语句

    1. <build>
    2. <plugins>
    3. <plugin>
    4. <groupId>org.apache.maven.pluginsgroupId>
    5. <artifactId>maven-shade-pluginartifactId>
    6. <version>3.1.0version>
    7. <executions>
    8. <execution>
    9. <phase>packagephase>
    10. <goals>
    11. <goal>shadegoal>
    12. goals>
    13. <configuration>
    14. <transformers>
    15. <transformer implementation="org.apache.maven.plugins.shade.resource.ManifestResourceTransformer">
    16. <mainClass>com.wang.AppmainClass>
    17. transformer>
    18. transformers>
    19. configuration>
    20. execution>
    21. executions>
    22. plugin>
    23. plugins>
    24. build>

     添加依赖:在  一行之前添加如下语句:

    1. <dependencies>
    2. <dependency>
    3. <groupId>org.apache.hadoopgroupId>
    4. <artifactId>hadoop-commonartifactId>
    5. <version>2.7.3version>
    6. dependency>
    7. <dependency>
    8. <groupId>org.apache.hadoopgroupId>
    9. <artifactId>hadoop-clientartifactId>
    10. <version>2.7.3version>
    11. dependency>
    12. <dependency>
    13. <groupId>org.apache.hadoopgroupId>
    14. <artifactId>hadoop-hdfsartifactId>
    15. <version>2.7.3version>
    16. dependency>
    17. <dependency>
    18. <groupId>org.apache.hadoopgroupId>
    19. <artifactId>hadoop-mapreduce-client-coreartifactId>
    20. <version>2.7.3version>
    21. dependency>
    22. dependencies>

    新建SogouMapper类:

    1. package com.wang;
    2. import org.apache.hadoop.io.LongWritable;
    3. import org.apache.hadoop.io.NullWritable;
    4. import org.apache.hadoop.io.Text;
    5. import org.apache.hadoop.mapreduce.Mapper;
    6. import java.io.IOException;
    7. // k1 , v1, k2 , v2
    8. public class SogouMapper extends Mapper {
    9. @Override
    10. /**
    11. * 在任务开始时,被调用一次。且只会被调用一次。
    12. */
    13. protected void setup(Context context) throws IOException, InterruptedException {
    14. super.setup(context);
    15. }
    16. @Override
    17. protected void map(LongWritable k1, Text v1, Context context) throws IOException, InterruptedException {
    18. //避免乱码
    19. //数据格式:20111230000005 57375476989eea12893c0c3811607bcf 奇艺高清 1 1 http://www.qiyi.com/
    20. String data = new String(v1.getBytes(),0,v1.getLength(),"utf8");
    21. //split("\\s+") \\s+为正则表达式,意思是匹配一个或多个空白字符,包括空格、制表、换页符等。
    22. //参考:http://www.runoob.com/java/java-regular-expressions.html
    23. String words[] = data.split("\\s+");
    24. //判断数据如果不等于6个字段,则退出程序
    25. if(words.length != 6){
    26. return;//return语句后不带返回值,作用是退出该程序的运行 https://www.cnblogs.com/paomoopt/p/3746963.html
    27. }
    28. //用逗号代替空白字符
    29. String newData = data.replaceAll("\\s+",",");
    30. //输出
    31. context.write(new Text(newData),NullWritable.get());
    32. }
    33. @Override
    34. /**
    35. * 在任务结束时,被调用一次。且只会被调用一次。
    36. */
    37. protected void cleanup(Context context) throws IOException, InterruptedException {
    38. super.cleanup(context);
    39. }
    40. }

    App.lava

    1. package com.wang;
    2. import org.apache.hadoop.conf.Configuration;
    3. import org.apache.hadoop.fs.Path;
    4. import org.apache.hadoop.io.NullWritable;
    5. import org.apache.hadoop.io.Text;
    6. import org.apache.hadoop.mapreduce.Job;
    7. import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
    8. import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
    9. /**
    10. * 数据清洗器 主类
    11. *
    12. */
    13. public class App
    14. {
    15. public static void main( String[] args ) throws Exception {
    16. Configuration conf = new Configuration();
    17. Job job = Job.getInstance(conf);
    18. job.setJarByClass(App.class);
    19. //指定map输出
    20. job.setMapperClass(SogouMapper.class);
    21. job.setMapOutputKeyClass(Text.class);
    22. job.setMapOutputValueClass(NullWritable.class);
    23. //指定reduce的输出
    24. job.setOutputKeyClass(Text.class);
    25. job.setMapOutputValueClass(NullWritable.class);
    26. //指定输入、输出
    27. FileInputFormat.setInputPaths(job,new Path(args[0]));
    28. FileOutputFormat.setOutputPath(job,new Path(args[1]));
    29. //提交job,等待结束
    30. job.waitForCompletion(true);
    31. }
    32. }

    打包工程: 

    上传到Linux: FinalShell工具:

    3.运行jar包

     hadoop jar MRHiveLog-1.0-SNAPSHOT.jar /SogouQ.txt /oneday

     查看输出结果

    hdfs dfs -ls /oneday

    查看输出文件最后10行数据:

     hdfs dfs -tail /oneday/part-r-00000

    进入hive:

    创建表:

    create table sogoulog_1(accesstime string,useID string,keyword string,no1 int,clickid int,url string) row format delimited fields terminated by ',';

    将MapReduce清洗后的数据导入Hive

    load data inpath 'Oneday/part-r-00000' into table sogoulog_1;

    使用SQL查询满足条件的数据(只显示前10条)

     select * from sogoulog_1 where no1=2  limit 10;

    完成。

  • 相关阅读:
    虚拟机VMware的使用流程以及出现的问题附解决方法
    Linux中shell外壳,用户权限,文件权限
    『无为则无心』Python日志 — 69、补充:logging.basicConfig()函数说明
    冷知识:预处理字符串操作符
    网络编程基础知识拾遗:用大白话解释什么是交换机、路由器、光猫、IP地址和子网掩码、公网和内网IP、端口和域名
    442 - Matrix Chain Multiplication (UVA)
    前端研习录(25)——JavaScript对象讲解及示例分析
    java IO模型(BIO,NIO,AIO)
    基于kolla的openstack在线变更网卡(bond)
    Java配置26-前后端配置大文件上传
  • 原文地址:https://blog.csdn.net/qq_51438138/article/details/127897896