• 第七天项目实战一


    电信运营商用户流失名单预测

    项目背景

    国内通信市场逐渐的成熟,三大运营商营销模式业务日益趋同,竞争压力比较大,高新增用户已经成为过去式,用户的流失率提高已经成为普遍现象。在通信市场上,电信运营商面临竞争者之间的强大挑战。如何提高用户的满意度,降低流失率成为主要问题,有效的发展客户,进而提高收入,成为了电信运营商运营管理者的主要问题。
    在这里插入图片描述

    需求拆解

    用户流失的原因:信号不稳定,网速慢,价格不划算
    交付:每周提交一次用户流失概率比较大的人员名单

    收集数据

    价格不划算: 套餐价格(对比竞品)
    超出套餐部分的通话费用比较贵:对即将超出套餐的进行提醒,并合理推荐套餐
    超出套餐部分的流量费用比较贵:对即将超出套餐的进行提醒,并合理推荐套餐

    这里整理了一份电信运营商都数据,数据字段格式如下,我们先将数据读入内存:
    在这里插入图片描述

    import pandas as pd
    data = pd.read_excel('CustomerSurvival.xlsx')
    data.head()
    
    • 1
    • 2
    • 3

    数据处理

    缺失值

    可见数据不存在缺失值,这里就不需要进行特殊处理了,下面进行异常值的处理

    data.info()
    
    <class 'pandas.core.frame.DataFrame'>
    RangeIndex: 4975 entries, 0 to 4974
    Data columns (total 10 columns):
     #   Column  Non-Null Count  Dtype  
    ---  ------  --------------  -----  
     0   ID      4975 non-null   int64  
     1   套餐金额    4975 non-null   int64  
     2   额外通话时长  4975 non-null   float64
     3   额外流量    4975 non-null   float64
     4   改变行为    4975 non-null   int64  
     5   服务合约    4975 non-null   int64  
     6   关联购买    4975 non-null   int64  
     7   集团用户    4975 non-null   int64  
     8   使用月数    4975 non-null   int64  
     9   流失用户    4975 non-null   int64  
    dtypes: float64(2), int64(8)
    memory usage: 388.8 KB
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19

    异常值

    data['额外通话时长'].quantile([0,0.25,0.5,0.75,1])
    
    0.00   -2828.333333
    0.25    -126.666667
    0.50      13.500000
    0.75     338.658333
    1.00    4314.000000
    Name: 额外通话时长, dtype: float64
    
    (data['额外通话时长'] > 339).sum()
    1241
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11

    可见四分位数中存在差值较大的情况,同时看到时常超过339的也很多,所以我们将范围超过3000的数据作为异常数据处理。

    # 在业务指标值中,认定超过3000,或者剩余3000为异常值
    data = data[data['额外通话时长'] < 3000]
    data = data[data['额外通话时长'] > -3000]
    
    • 1
    • 2
    • 3

    特征工程

    # 删除ID列,这一列与结果无关,所以属于无用列,我们进行删除
    del data['ID']
    
    # 连续数据,离散化
    extra_time_cut = [[-3000,-1000,0,1000,3000],[2,4,3,1]]
    
    data['额外通话时长'] = pd.cut(data['额外通话时长'],
                                bins=[-3000,-1000,0,1000,3000],
                                labels=[2,4,3,1])
    
    data['额外流量'] = np.where(data['额外流量']>0,2,1)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11

    模型选择

    # 单科决策树,Adaboost,GBDT,随机森林  (谁好选谁)
    import sklearn.model_selection as ms #模型选择
    import sklearn.tree as st #决策树
    import sklearn.ensemble as se #集成学习
    import sklearn.metrics as sm #评估模块
    
    # 整理输入和输出
    x = data.iloc[:,:-1]
    y = data.iloc[:,-1]
    
    train_x,\
    test_x,\
    train_y,\
    test_y = ms.train_test_split(x,y,
                                 test_size=0.1,
                                 random_state=7,
                                 stratify=y)
    
    def select_model(name,model):
        print('--------',name,'----------')
        model.fit(train_x,train_y)
        pred_test_y = model.predict(test_x)
        print(sm.classification_report(test_y,pred_test_y))
        
    model_dict = {'单颗决策树':st.DecisionTreeClassifier(),
                  'Adaboost':se.AdaBoostClassifier(st.DecisionTreeClassifier(),
                                                   n_estimators=100),
                  'GBDT':se.GradientBoostingClassifier(n_estimators=100),
                  '随机森林':se.RandomForestClassifier(n_estimators=100)}
    
    for name,obj in model_dict.items():
        select_model(name,obj)
    
    -------- 单颗决策树 ----------
                  precision    recall  f1-score   support
    
               0       0.95      0.92      0.93       107
               1       0.98      0.99      0.98       383
    
        accuracy                           0.97       490
       macro avg       0.96      0.95      0.96       490
    weighted avg       0.97      0.97      0.97       490
    
    -------- Adaboost ----------
                  precision    recall  f1-score   support
    
               0       0.95      0.92      0.93       107
               1       0.98      0.99      0.98       383
    
        accuracy                           0.97       490
       macro avg       0.96      0.95      0.96       490
    weighted avg       0.97      0.97      0.97       490
    
    -------- GBDT ----------
                  precision    recall  f1-score   support
    
               0       0.98      0.90      0.94       107
               1       0.97      0.99      0.98       383
    
        accuracy                           0.97       490
       macro avg       0.98      0.95      0.96       490
    weighted avg       0.97      0.97      0.97       490
    
    -------- 随机森林 ----------
                  precision    recall  f1-score   support
    
               0       0.96      0.90      0.93       107
               1       0.97      0.99      0.98       383
    
        accuracy                           0.97       490
       macro avg       0.97      0.94      0.95       490
    weighted avg       0.97      0.97      0.97       490
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37
    • 38
    • 39
    • 40
    • 41
    • 42
    • 43
    • 44
    • 45
    • 46
    • 47
    • 48
    • 49
    • 50
    • 51
    • 52
    • 53
    • 54
    • 55
    • 56
    • 57
    • 58
    • 59
    • 60
    • 61
    • 62
    • 63
    • 64
    • 65
    • 66
    • 67
    • 68
    • 69
    • 70
    • 71
    • 72

    模型的优化

    这里以Adaboost为例子来说明有子模型的模型如何优化。

    #单颗树
    sub_model = st.DecisionTreeClassifier()
    params = {'criterion':['gini','entropy'],
              'max_depth':np.arange(2,9),
              'min_samples_split':np.arange(2,21),
              'min_samples_leaf':np.arange(1,11)}
              
    sub_GS = ms.GridSearchCV(sub_model,params,cv=3)
    sub_GS.fit(x,y)
    
    #AdaBoost
    main_model = se.AdaBoostClassifier(sub_GS.best_estimator_)
    params = {'n_estimators':np.arange(20,201,10)}
    
    main_GS = ms.GridSearchCV(main_model,params,cv=3)
    main_GS.fit(x,y)
    
    
    best_model = main_GS.best_estimator_
    pred_best_y = best_model.predict(test_x)
    print(sm.classification_report(test_y,pred_best_y))
    
    precision    recall  f1-score   support
    
               0       0.98      0.95      0.97       107
               1       0.99      0.99      0.99       383
    
        accuracy                           0.99       490
       macro avg       0.98      0.97      0.98       490
    weighted avg       0.99      0.99      0.99       490
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30

    保存模型

    import pickle
    dict_info = {'数据结构':data.columns[:-1],
                 '数据转换':{'额外通话时长':extra_time_cut,
                            '额外流量':{'条件>':0,'True':2,'False':1}},
                 '模型':best_model}
               
    with open('用户流失预测模型.pickle','wb') as f:
        pickle.dump(dict_info,f)
    print('模型保存成功')
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9

    加载模型

    with open('./联通用户流失预测模型.pickle','rb') as f:
        obj = pickle.load(f)
        
    
    obj['数据结构']
    
    Index(['套餐金额', '额外通话时长', '额外流量', '改变行为', '服务合约', '关联购买', '集团用户', '使用月数'], dtype='object')
    
    
    need_data = [[1,1000,500,0,0,1,0,25],
                 [2,0,0,1,1,2,1,25],
                 [1,-500,-500,0,1,0,1,13]]
    need_data = pd.DataFrame(need_data,columns=obj['数据结构'])
    
    
    need_data['额外通话时长'] = pd.cut(need_data['额外通话时长'],bins=obj['数据转换']['额外通话时长'][0],
                                     labels=obj['数据转换']['额外通话时长'][1])
    
    need_data['额外流量'] =np.where(need_data['额外流量']>obj['数据转换']['额外流量']['条件>'],
                                  obj['数据转换']['额外流量']['True'],
                                  obj['数据转换']['额外流量']['False'])
    
    #得到置信概率
    need_data['流失概率'] = obj['模型'].predict_proba(need_data)[:,-1] #将训练数据丢入模型可以得到置信概率
    
    # 交付流失概率前50名的数据
    res = need_data.sort_values(by='流失概率',ascending=False).head(50)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27

    置信概率得到的是一个可信与不可信的二维数据
    在这里插入图片描述

    交付内容

    res.to_csv('流失预测结果.csv')
    
    • 1
  • 相关阅读:
    nignx配置文件种的跳转
    Charles 乱码解决办法
    CodeForces 570D Tree Requests
    mysql基于Spring boot开发电子宿舍管理系统毕业设计源码132056
    ansible自动化运维工具
    Linux系统firewalld防火墙的进阶操作(日志保存 IP网段 ssh服务)
    面向千兆宽带网络业务应用的高质量用户体验研究
    docker使用nginx
    vue-cli2 与vue-cli3,vue2与vue3 初始化项目,本地vue项目,详细解析区别(2024-04-19)
    工作中遇到的问题与解决办法(三)
  • 原文地址:https://blog.csdn.net/weixin_45256637/article/details/126166601