应用聚类算法，预测中国足球在亚洲处于什么水平

应用聚类算法，预测中国足球在亚洲处于什么水平
应用聚类算法，预测中国足球在亚洲处于什么水平
未经许可，禁止以任何形式转载，若要引用，请标注链接地址
全文共计3158字，阅读大概需要3分钟

 一、业务场景

受某体育公司委托，拟根据以往亚洲各足球队参赛数据，对中国足球在亚洲处于什么水平进行分析。经过讨论，决定采用K-Means聚类算法来进行分析。

二、数据集说明

本案例所使用的数据集，说明如下：

根据数据来源的描述，提前对数据做了如下预处理，使得所有数据变为标量，便于后续聚类：
• 对于世界杯，进入决赛圈则取其最终排名，没有进入决赛圈的，打入预选赛十强赛赋予40，预选赛小组未出线的赋予50。
• 对于亚洲杯，前四名取其排名，八强赋予5，十六强赋予9，预选赛没出现的赋予17。
上面表格中的数据存储在”/data/dataset/ml/soccer.txt”文件中，属性之间用空格分割：
```
1.	country 2006 2010 2007
2.	中国 50 50 9
3.	日本 28 09 4
4.	韩国 17 15 3
5.	伊朗 25 40 5
6.	沙特 28 40 2
7.	伊拉克 50 50 1
8.	卡塔尔 50 40 9
9.	阿联酋 50 40 9
10.	乌兹别克斯坦 40 40 5
11.	泰国 50 50 9
12.	越南 50 50 5
13.	阿曼 50 50 9
14.	巴林 40 40 9
15.	朝鲜 40 32 17
16.	印尼 50 50 9
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
```
三、操作步骤

 阶段一、启动HDFS、Spark集群服务和zeppelin服务器

1、启动HDFS集群
在Linux终端窗口下，输入以下命令，启动HDFS集群：
```
1.	$ start-dfs.sh
1
```
2、启动Spark集群
在Linux终端窗口下，输入以下命令，启动Spark集群：
```
1.	$ cd /opt/spark
2.	$ ./sbin/start-all.sh
1
2
```
3、启动zeppelin服务器
在Linux终端窗口下，输入以下命令，启动zeppelin服务器：
```
1.	$ zeppelin-daemon.sh start
1
```
4、验证以上进程是否已启动
在Linux终端窗口下，输入以下命令，查看启动的服务进程：
```
1.	$ jps
1
```
如果显示以下6个进程，则说明各项服务启动正常，可以继续下一阶段。
```
2288 NameNode
2402 DataNode
2603 SecondaryNameNode
2769 Master
2891 Worker
2984 ZeppelinServer
1
2
3
4
5
6
```
阶段二、准备案例中用到的数据集

1、将本案例要用到的数据集上传到HDFS文件系统的”/data/dataset/ml/“目录下。在Linux终端窗口下，输入以下命令：
```
1.	$ hdfs dfs -mkdir -p /data/dataset/ml
2.	$ hdfs dfs -put /data/dataset/ml/soccer.txt /data/dataset/ml/
1
2
```
2、在Linux终端窗口下，输入以下命令，查看HDFS上是否已经上传了该数据集：
```
1.	$ hdfs dfs -ls /data/dataset/ml/
1
```
这时应该看到soccer.txt数据文件已经上传到了HDFS的”/data/datset/ml/“目录下。

阶段三、对数据集进行探索和分析

1、新建一个zeppelin notebook文件，并命名为soccer_project。
2、读取数据源。在notebook单元格中，输入以下代码：
```
1.	// 加载数据
2.	val data = "hdfs://localhost:9000/data/dataset/ml/soccer.txt"
3.	val soccerDF = spark.read.option("header","true").
4.	                          option("sep"," ").
5.	                          option("inferSchema","true").
6.	                          csv(data)
7.	    　
8.	soccerDF.printSchema
9.	soccerDF.count
10.	soccerDF.show
1
2
3
4
5
6
7
8
9
10
```
同时按下”【Shift+Enter】”键，执行以上代码，输出内容如下：

3、生成特征向量和特征列。在notebook单元格中，输入以下代码：
```
1.	import org.apache.spark.sql.types._
2.	import org.apache.spark.sql._
3.	import org.apache.spark.ml.feature._
4.	import org.apache.spark.ml.Pipeline
5.	import org.apache.spark.ml.evaluation._
6.	import org.apache.spark.ml.classification._
7.	import org.apache.spark.ml.tuning._
8.	import org.apache.spark.ml.linalg._
9.	import org.apache.spark.ml.clustering._
10.	    　
11.	// 生成特征向量
12.	val allFeatNames = Seq("2006", "2010", "2007")
13.	val assembler = new VectorAssembler()
14.	                    .setInputCols(Array(allFeatNames:_*))
15.	                    .setOutputCol("features")
16.	    　
17.	// 生成特征列
18.	val df2 = assembler.transform(soccerDF)
19.	df2.cache()
20.	    　
21.	df2.show
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
```
同时按下【Shift+Enter】键，执行以上代码，输出内容如下：

4、训练一个k-means模型。在notebook单元格中，输入以下代码:
```
1.	val kmeans = new KMeans().setK(3).setSeed(1L)      // 分为 3 个子集，默认20次迭代
2.	val model = kmeans.fit(df2)
3.	println(kmeans.explainParams)        // 解释参数
1
2
3
```
同时按下【Shift+Enter】，执行以上代码，输出内容如下：

5、计算聚类的收敛性，此值越低越好。在notebook单元格中，输入以下代码:
```
1.	val WSSSE = model.computeCost(df2)
2.	println(s"Within Set Sum of Squared Errors = $WSSSE")
1
2
```
同时按下【Shift+Enter】，执行以上代码，输出内容如下：

6、显示结果。在notebook单元格中，输入以下代码:
```
1.	println("聚类质心: ")
2.	model.clusterCenters.foreach(println)
1
2
```
同时按下Shift+Enter，执行以上代码，输出内容如下：

7、进行分类预测。在notebook单元格中，输入以下代码:
```
1.	val transformed = model.transform(df2)
2.	transformed.show
1
2
```
同时按下Shift+Enter，执行以上代码，输出内容如下：

8、查看一下分类结果。在notebook单元格中，输入以下代码:
```
1.	transformed.createOrReplaceTempView("soccer_table")
2.	spark.sql("select prediction as level,concat_ws(',',collect_set(country)) as countrys from soccer_table group by level sort by level").show(false)
1
2
```
同时按下【Shift+Enter】，执行以上代码，输出内容如下：

由以上输出内容可以看出，亚洲足球队可分为三个层次。结合我们的经验，其中第一梯队是日本和韩国，第二梯队包含有乌兹别克斯坦、朝鲜、沙特、巴林和伊朗。而中国足球队与泰国同处于第三梯队。

— END —
相关阅读:
安装Python的selenium模块时遇到问题
 CSDN编程竞赛-第六期（下）
owl文件导入Neo4j
[附源码]Python计算机毕业设计Django旅游网的设计与实现
 Python可视化之Matplotlib
WMS类图结构分析-android12
【第13天】SQL进阶-索引的隐藏索引（SQL 小虚竹)
10_集成学习方法：随机森林、Boosting
【LeetCode.384打乱数组】Knuth洗牌算法详解
 Docker-compose
原文地址：https://blog.csdn.net/qq_44807756/article/details/125613140

应用聚类算法，预测中国足球在亚洲处于什么水平

一、业务场景

二、数据集说明

三、操作步骤

阶段一、启动HDFS、Spark集群服务和zeppelin服务器

阶段二、准备案例中用到的数据集

阶段三、对数据集进行探索和分析