• python数据分析-房价数据集聚类分析


    一、研究背景和意义

    随着房地产市场的快速发展,房价数据成为了人们关注的焦点。了解房价的分布特征、影响因素以及不同区域之间的差异对于购房者、房地产开发商、政府部门等都具有重要的意义。通过对房价数据的聚类分析,可以深入了解房价的内在结构和规律,为相关决策提供科学依据。

    研究意义:

    1. 为购房者提供参考:通过聚类分析,可以将房价数据分为不同的类别,购房者可以根据自己的需求和预算选择适合的房源。
    2. 帮助房地产开发商制定营销策略:了解不同区域的房价特征和需求,可以帮助房地产开发商制定更有针对性的营销策略,提高销售效率。
    3. 为政府部门提供决策支持:政府部门可以通过房价数据的聚类分析,了解房地产市场的发展趋势和存在的问题,制定相应的政策措施,促进房地产市场的健康发展。
    4. 推动房地产市场的研究:房价数据的聚类分析是房地产市场研究的重要内容之一,通过对房价数据的深入分析,可以推动房地产市场的研究不断深入。

    二、实证分析

    首先导入数据集基本的包

    数据和代码

    1. import pandas as pd
    2. from sklearn.cluster import KMeans
    3. from sklearn.preprocessing import StandardScaler
    4. from sklearn.decomposition import PCA
    5. from sklearn.metrics import silhouette_score
    6. import matplotlib.pyplot as plt

    然后读取数据集和展示

    1. # 读取文件
    2. file_path = 'df_cleaned2.csv'
    3. data = pd.read_csv(file_path, encoding='utf-8')
    4. # 展示数据的前几行以了解结构
    5. print(data.head())

    随后查看数据类型

     

    接下来查看缺失值的情况

    1. # 查看缺失值情况
    2. missing_values = data.isnull().sum()
    3. missing_values

     

    1. # 绘制缺失值情况的柱状图
    2. # 绘制缺失值情况的柱状图
    3. plt.bar(missing_values.index, missing_values.values, color=['black' if value == 0 else 'white' for value in missing_values.values])
    4. plt.xlabel("变量")
    5. plt.ylabel("缺失值数量")
    6. plt.title("数据集缺失值情况")
    7. plt.xticks(rotation=90)
    8. plt.show()

    从上面的结果和可视化可以发现该数据集没有缺失值,接下来进行统计学描述性分析

    1. # 描述性分析
    2. data.describe()

    接下来进行特征可视化,首先进行房价直方图可视化

    1. import matplotlib.pyplot as plt
    2. %matplotlib inline
    3. plt.rcParams['font.sans-serif'] = ['KaiTi'] #中文
    4. plt.rcParams['axes.unicode_minus'] = False #负号
    5. # 可视化
    6. # 绘制总价的直方图
    7. plt.hist(data["总价"], bins=20,color='pink')
    8. plt.xlabel("总价")
    9. plt.ylabel("频数")
    10. plt.title("总价分布直方图")
    11. plt.show()

     

     

    接下来进行区域分析 

    1. # 区域分析
    2. data["区域位置"] = data["区域位置"].astype("category")
    3. data.boxplot(column="总价", by="区域位置",boxprops={'color':'blue'})
    4. plt.xlabel("区域")
    5. plt.ylabel("总价")
    6. plt.title("不同区域的总价箱线图")
    7. plt.show()

     

    # 绘制不同户型的平均总价柱状图

    1. data.groupby("户型结构")["总价"].mean().plot(kind="bar",color='orange')
    2. plt.xlabel("户型")
    3. plt.ylabel("平均总价")
    4. plt.title("不同户型的平均总价柱状图")
    5. plt.show()

    接下来计算特征直接的相关系数

    1. correlation_matrix = data.corr()
    2. correlation_matrix

     

    热力图:

    1. plt.figure(figsize=(10, 8))
    2. sns.heatmap(correlation_matrix, annot=True, cmap="coolwarm")
    3. plt.title("相关系数热力图")
    4. plt.show()

    接下来进行聚类分析,首先进行特征选择,选择特征:关注度、总价、卫生间数量、建筑面积,然后标准化特征

    随后使用手肘方法和轮廓系数确定最佳 K 值

    1. sse = {}
    2. silhouette_scores = {}
    3. for k in range(2, 11): # 从 2 开始,因为轮廓系数至少需要 2 个簇
    4. kmeans = KMeans(n_clusters=k, random_state=42).fit(scaled_selected_features)
    5. sse[k] = kmeans.inertia_
    6. silhouette_scores[k] = silhouette_score(scaled_selected_features, kmeans.labels_)
    1. # 绘制手肘图
    2. plt.figure(figsize=(10, 6))
    3. plt.subplot(2, 1, 1)
    4. plt.plot(list(sse.keys()), list(sse.values()), marker='o')
    5. plt.xlabel("Number of Clusters (K)")
    6. plt.ylabel("SSE (Sum of Squared Errors)")
    7. plt.title("Elbow Method for Determining Optimal K Value")
    8. plt.grid(True)

    接下来使用 PCA 进行降维以便于可视化

    1. pca = PCA(n_components=2) # 降至 2 维
    2. pca_result = pca.fit_transform(scaled_selected_features)
    3. # 可视化聚类结果
    4. plt.figure(figsize=(10, 6))
    5. plt.scatter(pca_result[:, 0], pca_result[:, 1], c=labels, cmap='viridis', marker='o')
    6. plt.xlabel('Principal Component 1')
    7. plt.ylabel('Principal Component 2')
    8. plt.title(f'K-means Clustering with K={k} (PCA Reduced)')
    9. plt.grid(True)
    10. plt.show()

    随后得出聚类中心

     

    接下来根据聚类中心画出雷达图

    1. # 标签,用于表示不同的聚类中心
    2. labels = ['Cluster 1', 'Cluster 2', 'Cluster 3', 'Cluster 4']
    3. # 特征数
    4. num_features = len(centers[0])
    5. angles = np.linspace(0, 2 * np.pi, num_features, endpoint=False).tolist()
    6. # 将第一个特征点重复以闭合雷达图
    7. centers = np.concatenate((centers, centers[:,[0]]), axis=1)
    8. angles += angles[:1]
    9. fig, ax = plt.subplots(figsize=(8, 8), subplot_kw=dict(polar=True))
    10. ax.set_theta_offset(np.pi / 2)
    11. ax.set_theta_direction(-1)
    12. # 绘制雷达图
    13. for i in range(len(centers)):
    14. ax.plot(angles, centers[i], linewidth=2, label=labels[i])
    15. ax.fill(angles, centers[i], alpha=0.25)
    16. # 添加标题和图例
    17. plt.title('Radar Chart of Clusters')
    18. plt.legend(loc='upper right', bbox_to_anchor=(1.1, 1.1))
    19. plt.show()

    接下来可视化主成分

    1. # 可视化主成分 1 的载荷
    2. plt.figure(figsize=(8, 4))
    3. colors = ['red', 'green', 'blue', 'yellow', 'purple', 'orange', 'pink', 'brown', 'gray', 'cyan']
    4. plt.bar(pca_loadings_df.columns, pca_loadings_df.loc['PC1'], color=colors)
    5. plt.xlabel('Features')
    6. plt.ylabel('Loadings for PC1')
    7. plt.title('PCA Loadings for Principal Component 1')
    8. plt.show()
    9. # 可视化主成分 2 的载荷
    10. plt.figure(figsize=(8, 4))
    11. plt.bar(pca_loadings_df.columns, pca_loadings_df.loc['PC2'], color=colors)
    12. plt.xlabel('Features')
    13. plt.ylabel('Loadings for PC2')
    14. plt.title('PCA Loadings for Principal Component 2')
    15. plt.show()

     

     三、小结

    本研究通过对房价数据的聚类分析,将房价数据分为了不同的类别,发现了房价的分布特征和规律。通过特征选择和标准化处理,提高了聚类分析的准确性和可靠性。使用手肘方法和轮廓系数确定了最佳的 K 值,为聚类分析提供了科学依据。通过 PCA 进行降维,可视化了主成分,进一步深入了解了房价数据的内在结构。本研究的结果对于购房者、房地产开发商、政府部门等都具有重要的参考价值,可以为相关决策提供科学依据。

    创作不易,希望大家多点赞关注评论!!!(类似代码或报告定制可以私信)

  • 相关阅读:
    将 Figma 轻松转换为 Sketch 的免费方法
    华为云云耀云服务器L实例评测|安装Java8环境 & 配置环境变量 & spring项目部署 &【!】存在问题未解决
    【软件开发与重构】基本知识、编程范式
    练习:使用servlet显示试卷页面
    Layui之用户(CURD)
    Java系列 - 新版MybatisPlus代码生成
    AIX 系统基线安全加固操作
    好用的工作日志软件
    华为云云耀云服务器L实例评测|StackEdit中文版在线Markdown笔记工具
    十三.国民技术MCU开发之 UART模块 IRDA模式
  • 原文地址:https://blog.csdn.net/m0_62638421/article/details/139650991