• 应用聚类算法,预测中国足球在亚洲处于什么水平



    未经许可,禁止以任何形式转载,若要引用,请标注链接地址
    全文共计3158字,阅读大概需要3分钟

    一、业务场景

    受某体育公司委托,拟根据以往亚洲各足球队参赛数据,对中国足球在亚洲处于什么水平进行分析。经过讨论,决定采用K-Means聚类算法来进行分析。

    二、数据集说明

    本案例所使用的数据集,说明如下:
    在这里插入图片描述

    根据数据来源的描述,提前对数据做了如下预处理,使得所有数据变为标量,便于后续聚类:
    • 对于世界杯,进入决赛圈则取其最终排名,没有进入决赛圈的,打入预选赛十强赛赋予40,预选赛小组未出线的赋予50。
    • 对于亚洲杯,前四名取其排名,八强赋予5,十六强赋予9,预选赛没出现的赋予17。
      上面表格中的数据存储在”/data/dataset/ml/soccer.txt”文件中,属性之间用空格分割:

    1.	country 2006 2010 2007
    2.	中国 50 50 9
    3.	日本 28 09 4
    4.	韩国 17 15 3
    5.	伊朗 25 40 5
    6.	沙特 28 40 2
    7.	伊拉克 50 50 1
    8.	卡塔尔 50 40 9
    9.	阿联酋 50 40 9
    10.	乌兹别克斯坦 40 40 5
    11.	泰国 50 50 9
    12.	越南 50 50 5
    13.	阿曼 50 50 9
    14.	巴林 40 40 9
    15.	朝鲜 40 32 17
    16.	印尼 50 50 9
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16

    三、操作步骤

    阶段一、启动HDFS、Spark集群服务和zeppelin服务器

    1、启动HDFS集群
      在Linux终端窗口下,输入以下命令,启动HDFS集群:

    1.	$ start-dfs.sh
    
    • 1

    2、启动Spark集群
      在Linux终端窗口下,输入以下命令,启动Spark集群:

    1.	$ cd /opt/spark
    2.	$ ./sbin/start-all.sh
    
    • 1
    • 2

    3、启动zeppelin服务器
      在Linux终端窗口下,输入以下命令,启动zeppelin服务器:

    1.	$ zeppelin-daemon.sh start
    
    • 1

    4、验证以上进程是否已启动
      在Linux终端窗口下,输入以下命令,查看启动的服务进程:

    1.	$ jps
    
    • 1

    如果显示以下6个进程,则说明各项服务启动正常,可以继续下一阶段。

    2288 NameNode
    2402 DataNode
    2603 SecondaryNameNode
    2769 Master
    2891 Worker
    2984 ZeppelinServer
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6

    阶段二、准备案例中用到的数据集

    1、将本案例要用到的数据集上传到HDFS文件系统的”/data/dataset/ml/“目录下。在Linux终端窗口下,输入以下命令:

    1.	$ hdfs dfs -mkdir -p /data/dataset/ml
    2.	$ hdfs dfs -put /data/dataset/ml/soccer.txt /data/dataset/ml/
    
    • 1
    • 2

    2、在Linux终端窗口下,输入以下命令,查看HDFS上是否已经上传了该数据集:

    1.	$ hdfs dfs -ls /data/dataset/ml/
    
    • 1

    这时应该看到soccer.txt数据文件已经上传到了HDFS的”/data/datset/ml/“目录下。

    阶段三、对数据集进行探索和分析

    1、新建一个zeppelin notebook文件,并命名为soccer_project。
      2、读取数据源。在notebook单元格中,输入以下代码:

    1.	// 加载数据
    2.	val data = "hdfs://localhost:9000/data/dataset/ml/soccer.txt"
    3.	val soccerDF = spark.read.option("header","true").
    4.	                          option("sep"," ").
    5.	                          option("inferSchema","true").
    6.	                          csv(data)
    7.	     
    8.	soccerDF.printSchema
    9.	soccerDF.count
    10.	soccerDF.show
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10

    同时按下”【Shift+Enter】”键,执行以上代码,输出内容如下:
    在这里插入图片描述

    3、生成特征向量和特征列。在notebook单元格中,输入以下代码:

    1.	import org.apache.spark.sql.types._
    2.	import org.apache.spark.sql._
    3.	import org.apache.spark.ml.feature._
    4.	import org.apache.spark.ml.Pipeline
    5.	import org.apache.spark.ml.evaluation._
    6.	import org.apache.spark.ml.classification._
    7.	import org.apache.spark.ml.tuning._
    8.	import org.apache.spark.ml.linalg._
    9.	import org.apache.spark.ml.clustering._
    10.	     
    11.	// 生成特征向量
    12.	val allFeatNames = Seq("2006", "2010", "2007")
    13.	val assembler = new VectorAssembler()
    14.	                    .setInputCols(Array(allFeatNames:_*))
    15.	                    .setOutputCol("features")
    16.	     
    17.	// 生成特征列
    18.	val df2 = assembler.transform(soccerDF)
    19.	df2.cache()
    20.	     
    21.	df2.show
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21

    同时按下【Shift+Enter】键,执行以上代码,输出内容如下:
    在这里插入图片描述

    4、训练一个k-means模型。在notebook单元格中,输入以下代码:

    1.	val kmeans = new KMeans().setK(3).setSeed(1L)      // 分为 3 个子集,默认20次迭代
    2.	val model = kmeans.fit(df2)
    3.	println(kmeans.explainParams)        // 解释参数
    
    • 1
    • 2
    • 3

    同时按下【Shift+Enter】,执行以上代码,输出内容如下:
    在这里插入图片描述

    5、计算聚类的收敛性,此值越低越好。在notebook单元格中,输入以下代码:

    1.	val WSSSE = model.computeCost(df2)
    2.	println(s"Within Set Sum of Squared Errors = $WSSSE")
    
    • 1
    • 2

    同时按下【Shift+Enter】,执行以上代码,输出内容如下:
    在这里插入图片描述

    6、显示结果。在notebook单元格中,输入以下代码:

    1.	println("聚类质心: ")
    2.	model.clusterCenters.foreach(println)
    
    • 1
    • 2

    同时按下Shift+Enter,执行以上代码,输出内容如下:
    在这里插入图片描述

    7、进行分类预测。在notebook单元格中,输入以下代码:

    1.	val transformed = model.transform(df2)
    2.	transformed.show
    
    • 1
    • 2

    同时按下Shift+Enter,执行以上代码,输出内容如下:
    在这里插入图片描述

    8、查看一下分类结果。在notebook单元格中,输入以下代码:

    1.	transformed.createOrReplaceTempView("soccer_table")
    2.	spark.sql("select prediction as level,concat_ws(',',collect_set(country)) as countrys from soccer_table group by level sort by level").show(false)
    
    • 1
    • 2

    同时按下【Shift+Enter】,执行以上代码,输出内容如下:
    在这里插入图片描述

    由以上输出内容可以看出,亚洲足球队可分为三个层次。结合我们的经验,其中第一梯队是日本和韩国,第二梯队包含有乌兹别克斯坦、朝鲜、沙特、巴林和伊朗。而中国足球队与泰国同处于第三梯队。

    — END —

  • 相关阅读:
    安装Python的selenium模块时遇到问题
    CSDN编程竞赛-第六期(下)
    owl文件导入Neo4j
    [附源码]Python计算机毕业设计Django旅游网的设计与实现
    Python可视化之Matplotlib
    WMS类图结构分析-android12
    【第13天】SQL进阶-索引的隐藏索引(SQL 小虚竹)
    10_集成学习方法:随机森林、Boosting
    【LeetCode.384打乱数组】Knuth洗牌算法详解
    Docker-compose
  • 原文地址:https://blog.csdn.net/qq_44807756/article/details/125613140