相关动态
【Hadoop笔记_4】项目案例实战
2024-11-10 18:08

【Hadoop笔记_4】项目案例实战

  • 第一部分:Hadoop介绍及安装

  • 第二部分:HDFS

  • 第三部分:MapReduce

分析资料

  • 链接:https://pan.baidu.com/s/1sn9uRWi3Rhl4GL4g04Tv5w 提取码:zidg

6.1 项目开发流程

在这里插入图片描述

6.2 项目任务

6.2.1 合并小文件

说明

  • 由于在网络上挖掘下来的数据可能不止一个文件,而对每一个小文件进行MapReduce分析则需要分成等数量的块,很可能会对mapreduce造成很大的压力,所以在之前根据需求有必要进行一个简单的文件合并

代码

FirstStep.java
 
6.2.2 完成网站KPI指标的统计

说明

  • KPI:关键业绩指标
  • 我们可以通过KPI看出这个网站的经营状况
  • 这里我们统计和
1、页面访问量统计

代码

LogEntity.java
 
WebVisitsNumsJob.java / WebVisitsNumsMapper.java / WebVisitsNumsReduce.java
 
2、页面访问量统计数据写到MySQL数据库中

代码

LogWritable.java
 
MRToMysqlMapper.java / MRToMysqlJob.java
 
3、页面独立IP的访问量统计

说明

  • 独立IP,即统计每个IP的访问量

代码

LogEntity.java
 
AloneIPVisitsNumsMapper.java / AloneIPVisitsNumsCombiner.java
 
AloneIPVisitsNumsReduce.java / StringSameCount.java
 
AloneIPVisitsNumsJob.java
 
4、页面独立IP的访问量统计写到MySQL中
AloneIpWritable.java
 
MRToMysqlMapper.java / MRToMysqlJob.java
 

6.2.3 在网页上显示 网页访问量统计的top5
1、MVC框架说明

M:module,业务模型,用于提供数据

V:view,视图、用户界面,用于显示数据

C:controller,控制器、分发,用于分发请求

2、新建Web项目

之前已经使用分析出了结果,并将数据写入到了中,现在如果要将数据显示到网页上就得新建一个web项目

  1. 新建一个web项目-

  2. 设置为3.0即可

  3. 一直,最后勾选然后即可。

3、项目结构

在这里插入图片描述

4、代码
1、实体类
 
2、工具类
 
3、Dao层
 
 
4、控制层
 
5、页面
 

6.2.4 在网页上显示 独立Ip访问量统计的Top10

说明

  • 前面实现了的显示,所以这里只需要在其基础上添上几笔
1、实体类
 
2、工具类
 
3、Dao层
 
4、控制层
 
5、页面
 

6.2.5 每天最高访问量
1、MapReduce统计
 
2、写出到MySQL中
 
 
3、显示到页面中

这里和前面一样,只需要添加一些类就可以了

1、实体类
 
2、dao层
 
3、控制层
 
4、页面
 

6.2.6 统计用户每小时的页面访问量(PV,page view

说明

  • 统计24小时类各个小时 页面的访问量
1、MR统计每个小时的访问量
 
2、录入到MySQL中
  • 建表
  • 创建序列化类
  • MR写出数据
 
 
3、显示到页面中
1、实体类
 
2、dao层
 
3、控制层
 
4、页面
 

6.2.7 统计用户的访问设备

说明:

  • 统计用户访问页面使用的设备
1、MR统计各个访问记录使用的设备,并统计相同设备的数量
 
2、MR录入到MySQL中
 
 
3、显示到页面中
1、实体类
 
2、dao层
 
3、控制层
 
4、页面
 

使用技巧

最新文章
亚马逊运营必备实用工具
常常看见有卖家小伙伴提问利用什么做数据分析、用什么选品等话题。这里强烈建议各位亚马逊卖家以及准备入驻亚马逊卖家的朋友收藏
如何打造一个高效的营销型企业网站,营销型企业网站的核心特点是什么
打造高效营销型企业网站,需关注用户体验、SEO优化、内容质量及数据分析。核心特点为:用户导向、易用性高、转化路径明确。如何
佛山专业SEO优化助力企业电商营销新飞跃
佛山商品SEO优化公司,凭借专业技术和丰富经验,为企业提供全方位互联网营销解决方案。通过精准关键词优化、内容营销、数据分析
ks秒单关注(快速秒单关注,提升用户转化率)
KS秒单关注是一种快速秒单关注的方法,旨在提升用户的转化率。这种方法通过一系列的策略和技巧,能够快速吸引用户的关注,并使他
密码技术应用员理论知识题及答案.docVIP
PAGEPAGE1密码技术应用员理论知识题及答案单选题1.密码系统试运行报告中,记录的每个问题均应具备唯一标识,其作用是()。A、描
外链自动增加:全面解析和战略规划198
引言外链是搜索引擎优化 (SEO) 至关重要的组成部分,可以提高网站在搜索结果页面 (SERP) 中的排名。然而,有时网站可能会经历外
OpenAI 与马斯克“恩怨”再升级!公开历史邮件,揭秘“控制权”争夺战
OpenAI 与马斯克的法律战已持续数月,核心争议点在于 OpenAI 是否背离了其最初的非营利使命,即让 AI 研究成果惠及所有人。上个
AI智能写作助手:一站式文案创作与优化解决方案,覆多种场景需求
1. 文案生成器是一款利用先进的人工智能技术帮助客户快速生成创意文案的工具。它免费采用可以按照使用者输入的关键词或主题,自
07 高性能系统架构设计
本课时讲解大家常听到的高性能系统架构。 高性能系统架构,主要包括两部分内容,性能测试与性能优化。性能优化又可
相关文章