信贷行业的风控策略挖掘是一个综合过程,需要综合考虑风控规则分析结果、效果评估、线上实时监测和业务管理需求等多个方面,以发现和制定有效的信贷风险管理策略。这些策略可能涉及贷款审批标准的调整、贷款利率的制定、贷款额度的设定等,在贷款违约风险可控的前提下最大程度地提升银行的收益规模,确保银行的贷款业务能够稳健运营。
在信贷风控策略挖掘工作中,风控策略专家通常基于业务需求和业务经验,设计组合特征规则,该过程非常依赖策略专家对业务的理解和经验,过程往往非常耗时。逐渐地,基于决策树算法的策略挖掘方法体现出了其优越性。在面对高维度特征集时,基于决策树的自动化规则集策略挖掘的性能明显优于人工分析和设计,如此一来,策略专家只需要对自动挖掘得到的规则集进行检视和优化即可。
那么,如何实现自动化的决策树生成?拥有10余年经验的国内某互联网银行的风控模型主管给出答案。他在对数据的清洗、探索和特征组合加工后,这位模型专家又继续信贷风控策略的挖掘,这一期,他和小编雀跃的分享到“我只通过两个参数设置的步骤就完成了自动化的决策树生成,这对日常工作的提效是神助力”!让我们来看看他是如何实现的吧。
01、什么是“信贷风控策略挖掘”?
信贷风控策略挖掘是指通过对申请客户的信贷数据和行为数据进行深入分析和挖掘,以发现有效的信贷风险管理策略的过程。这些策略旨在识别和降低贷款违约和信用风险,确保银行的贷款业务能够健康稳健运营,并取得良好的收益率。
具体来讲,信贷风控策略挖掘通常包括以下主要环节:
1)数据收集和准备:首先,需要收集和整理与客户信贷业务相关的各类数据,包括个人基本信息、人行征信报告、消费支付信息、信贷历史行为等,这些数据将被用于后续的策略分析和挖掘。在完成数据收集之后,按照我们前序文章《数据清洗》所介绍的方法,对数据集进行预处理。
2)数据分析和特征工程:在完成数据清洗之后,需要对数据进行分析和处理。如前序文章《数据探索》和《特征组合》所介绍的内容,对数据集进行探索性数据分析、特征组合挖掘等步骤,提取有用的特征并准备用于策略挖掘的数据集。
3)规则集挖掘分析:需要选择适当的挖掘分析方法,得到的规则集需要在历史数据上进行验证和测试。
4)规则集部署与线上监测:挖掘得到的规则集在历史数据上取得了良好的表现,就需要将其部署至生产环境,进行无决策运行,即在实际业务中运行并观测效果。
5)风控策略制定:经过一定时间的线上运行,规则集的效果得到实际验证,并且积累了足够量的生产测试数据,策略人员根据业务要求,综合考量对业务规模和贷后风险水平的把控,将规则集制定为有效的风控策略。
02、运用决策树算法进行策略挖掘
决策树算法在诸多分类算法中,作为决策模型其整体分类性能并不出色,但是决策树的叶子节点的分类准确率却可以很高。我们应当利用好决策树的这个特点,提取决策树的叶子节点的分支规则,筛选识别准确率较高的叶子节点并结合节点判断逻辑的业务含义进行选定并使用。
深入分析,决策树算法为什么适合用于风控策略挖掘呢,其主要原因包括:
1)可解释性强:决策树算法生成的组合规则易于理解和解释,可以清晰地展示出影响决策的因素和决策逻辑,有助于业务人员和决策者理解规则的逻辑和预期。
2)灵活处理混合类型数据:决策树算法能够处理包含类别型特征和数值型特征的混合类型数据,不需要对数据进行特殊的编码或转换。
3)能够处理高维度特征数据:决策树算法具有较高的计算效率,能够处理大规模特征数据集,在实际应用中具有较好的可扩展性。
4)对异常值和缺失值具有鲁棒性:决策树算法对于异常值和缺失值具有较好的鲁棒性,不会对异常值和缺失值过于敏感,在一定程度上可处理异常缺失数据。
5)可量化评估特征重要性:通过决策树算法,可以计算各个特征在决策过程中的重要性,帮助策略人员了解哪些特征对于决策树预测的量化贡献最大,从而更好地理解业务特征数据。
6)易于调优和优化:决策树模型具有较多的参数可以调整,如树的深度、分裂节点的最小样本数和比例、节点分裂策略等,通过调整这些参数可以优化决策树的性能,使其更好地适应不同的业务场景和数据特点。
综上所述:决策树模型在风控策略挖掘中具有较好的可解释性、适用性和效率,因此被广泛应用于风控领域。
RapidMiner 的决策树策略挖掘功能非常好的提升用户的效率,其中,Interactive Analysis 模块的“交互式分析”功能尤为适合所有的用户利用这个工具提效。
03、RapidMiner 中的 Interactive Analysis 模块
Interactive Analysis 模块的“交互式分析”简明的步骤式引导大大提升了使用者的挖掘效率。
1)加载数据集 Load Data
如图1,为进入Interactive Analysis模块后的交互界面,选择数据集后,界面右侧会展示数据集概况,包括样本数、变量数、目标变量信息、字段名等。
图1 Interactive Analysis 模块数据加载
2)模型设置 Model Settings
图2 Interactive Analysis 模块模型参数设置
完成数据集加载之后,就来到决策树模型的参数设置步骤,Interactive Analysis 模块模型参数设置界面如图2所示。RapidMiner Interactive Analysis 支持多种分裂搜索方法,支持分裂增益度量方式设置。
RapidMiner Interactive Analysis 支持灵活的变量选择,并且可以直观展示候选变量在相关性 Correlation、ID 属性程度 ID-ness、集中度 Stability、缺失率 Missing、文本属性 Text-ness 共5个维度的程度,并综合给予可用性评价,十分方便策略人员进行特征筛选。
3)决策树生长参数设置
图3 Interactive Analysis 模块决策树生长参数设置
完成决策树模型参数设置,就来到决策树生长参数设置步骤,Interactive Analysis 模块模型参数设置界面如图3所示。我们将叶子节点的最小样本比例设置为1%,非叶子节点的最小样本比例设置为3%,一旦不满足以上规则,决策树则停止生长。
在执行完上述步骤后,即可开启自动化组合规则挖掘。
04、Interactive Analysis 模块实操决策树策略挖掘
下面我们使用 RapidMiner Interactive Analysis 模块在UCI 台湾信用卡数据集上来实操一下决策树策略挖掘工作。按照 RapidMiner 的操作指引,一次完成数据加载、模型参数设置、决策树生长参数设置,软件即可自动开启挖掘分析。
图4 树深度为2时的挖掘结果
我们首先讲决策树的深度设定为2,即仅通过一个变量对数据集进行划分,得到结果如图4。可见模型选择了变量 PAY_0(2005年9月的还款状态,-2-未消费、-1-按时还款、1-延迟1个月还款、2-延迟2个月还款,依次类推,8-延迟8个月还款、9-延迟9个月还款),且“PAY_0 = 2”和“PAY_0 >= 3”两个分支节点的目标变量占比要远远高于整体水平。
下一步我们再将决策树的深度设定为3,即通过最多两个变量组合的方式对数据集进行划分。如图5,RM挖掘得到了一个目标变量占比更高的分组组合规则1 :
“PAY_0=2 且 PAY_6 ∈ [2:8]”(业务含义为,客户在6个月前发生延迟2个月以上还款 且 上个月发生延迟2个月还款)。
如图6,RM 亦挖掘得到了一个目标变量占比远低于全局的分组组合规则2:
“PAY_0 = -2 且 PAY_AMT1 >= 5000”(业务含义为,上个月客户未消费且还账单金额和存入信用卡金额大于等于5000元)。
图5 树深度为3时的挖掘结果1
图6 树深度为3时的挖掘结果2
在策略应用层面,上述两个组合规则均具有较好的业务应用价值,且业务解释性较。组合规则1可设定为拒绝策略,组合规则2可作为优质客户筛选规则,为其设置利率优惠或额度提升策略
05、RapidMiner 在决策树策略挖掘中的优势与特点
使用体验下来,我总结了 RapidMiner 在决策树策略挖掘中三个特点:
第一,智能化、自动化。RapidMiner 的 Interactive Analysis 模块高度自动化,仅通过两个参数设置的步骤即可完成自动化的决策树生成。
第二,提高效率。在面对高维数据时,交互式决策树分析的性能明显优于人工策略设计挖掘,策略专家可将精力放在对规则集进行审查优化和筛选上。
第三,交互体验好,应用技术门槛低。RapidMiner 的Interactive Analysis 模块通过简易的操作步骤大大降低了策略挖掘的技术门槛,没有算法技术背景的产品专家或业务专家在 RapidMiner 的赋能下,亦可快速完成决策树策略分析挖掘工作。
本篇文章就到这里啦,感兴趣的朋友欢迎关注我们,查看往期内容~
如您对数据分析以及人工智能感兴趣,想要站在全球视野看待人工智能的发展,
那么,一定不要错过6月20日由Altair主办的全球线上会议“AI for Engineers”
会议将邀请全球知名专家与权威学者,共同探讨生成式人工智能(GenAI) 如何助力产品设计研发,
关于 Altair RapidMiner
Altair RapidMiner 数据分析与人工智能平台,是 Altair 澳汰尔公司旗下仿真、HPC 和数据分析三块主营业务中的解决方案,它在数据分析领域最早实现将自动化数据科学、文本分析、自动特征工程和深度学习等多种功能同时集成的一站式数据分析平台,帮助用户解决从数据清洗、准备、数据科学建模到模型管理和部署,同时又支持数据和流数据的实时分析可视化的数据分析平台。
欲了解更多信息,欢迎访问:
www.altair.com.cn