码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 18 统计网站每日的访问次数


    1.将竞赛的数据上传HDFS,查看数据的格式

      

    通过浏览器访问hdfs,查看该文档前面的部分数据

    每条数据的字段值之间使用逗号隔开的 ,最终时间是第五个自动,获取第五个字段值的中的年月日。

      2.通过Idea创建项目mr-raceData ,基础的配置

    修改pom.xml,添加依赖

    
        
            org.apache.hadoop
            hadoop-client
            3.1.4
        
        
            junit
            junit
            4.12
        
        
            org.slf4j
            slf4j-log4j12
            1.7.30
        
    

    在resources目录下,新建log4j.properties

    log4j.rootLogger=INFO, stdout
    log4j.appender.stdout=org.apache.log4j.ConsoleAppender
    log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
    log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
    log4j.appender.logfile=org.apache.log4j.FileAppender
    log4j.appender.logfile.File=D:\\visitcount.log
    log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
    log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

    编写代码后,需要将其打成Jar包,需要修改pom.xml 

    
        
            
                maven-compiler-plugin
                3.1
                
                    1.8
                    1.8
                
            
            
                maven-assembly-plugin
                
                    
                        jar-with-dependencies
                    
                
                
                    
                        make-assembly
                        package
                 
                    
                
            
        
    

    打包使用的插件:

    指定打包的方式为jar 

    编写源代码:

    Mapper模块:

    Reducer模块:

    Driver模块:

    最后使用maven打包为Jar,按以下四步参考,clean-->validate-->compile-->package

    在当前项目下的target目录下找到打包后的jar文件

    将jar文件拷贝到桌面,并上传的master的当前用户目录下

    将竞赛日志数据取部分上传到hdfs上

    [yt@master ~]$ hdfs dfs -put access_log.txt  /bigdata/
     

    执行jar文件,实现访问每条访问次数的统计

    [yt@master ~]$ hadoop jar visitcount-1.0-SNAPSHOT.jar  com.maidu.visitcount.DailyAccessCount  /bigdata/access_log.txt  /output11/
     

    执行完成后,可以查看输出文件,看到最终的统计结果。

    查看统计的结果:

    统计成功。

  • 相关阅读:
    泰语同声翻译一天多少钱呢
    Linux基础开发工具学习
    【TcaplusDB知识库】Tmonitor单机安装指引介绍(一)
    鸿蒙开发 p60 pro手机支持 api9吗
    如何使用jenkins、ant、selenium、testng搭建自动化测试框架
    复杂AB实验
    Tensorflow Serving:Java调用saved_model.pb输出模型预测
    宠物狗之家
    【强化学习论文】离线元强化学习中基于对比学习的稳定表示
    Linux下命令行文件创建删除、目录创建删除
  • 原文地址:https://blog.csdn.net/lydia88/article/details/137865447
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号