Python数据分析与机器学习34-DBSCAN实例

文章目录

一. 数据源介绍
二. 使用DBSCAN进行聚类
参考：

一. 数据源介绍

数据源:
一个啤酒的数据源，为了方便演示，数据只有20行。

name 啤酒的名称
calories 啤酒的卡路里
sodium 纳元素含量
alcohol 酒精含量
cost 价格

二. 使用DBSCAN进行聚类

代码:

import pandas as pd
from sklearn.cluster import DBSCAN
from pandas.plotting import scatter_matrix
import matplotlib.pyplot as plt
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn import metrics


# 读取数据源
beer = pd.read_csv('E:/file/data.txt', sep=' ')
X = beer[["calories","sodium","alcohol","cost"]]

# 训练数据源
db = DBSCAN(eps=10, min_samples=2).fit(X)

# 加上标签
labels = db.labels_
beer['cluster_db'] = labels
beer.sort_values('cluster_db')

# 画图
colors = np.array(['red', 'green', 'blue', 'yellow'])
pd.scatter_matrix(X, c=colors[beer.cluster_db], figsize=(10,10), s=100)
plt.show()

# 验证模型效果
score_scaled = metrics.silhouette_score(X,beer.cluster_db)
print("使用DBSCAN的模型效果:")
print(score_scaled)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

测试记录:
使用DBSCAN的模型效果:
0.49530955296776086

分析:
从评分及可视化效果来看，聚类效果不理想，不如K-Means效果。
对于样本集复杂的使用DBSCAN。
对于样本集简单的直接使用K-Means即可。

参考：

https://study.163.com/course/introduction.htm?courseId=1003590004#/courseDetail?tab=1

相关阅读:
如何看待程序员不写注释？
go——协程调度
精彩回顾|关系网络赋能银行数字化转型的应用与实践
排序算法之选择排序
Juniper SRX UTM: Web Filtering (Local)
【牛客 - 剑指offer】JZ84 二叉树中和为某一值的路径(三)
Redis基础
自学黑客（网络安全）技术——2024最新
第二十五届全国青少年信息学奥林匹克联赛初赛
【Pytorch with fastai】第 10 章：NLP 深入探讨 RNN

原文地址：https://blog.csdn.net/u010520724/article/details/126029904