《机器学习实战》11.Apriori算法进行关联分析

Apriori算法的两个输入参数分别是最小支持度和数据集。该算法首先会生成所有单个物品的项集列表。接着扫描交易记录来查看那些项集满足最小支持度要求，那些不满足最小支持度的集合会被去掉。然后，对剩下来的几何进行组合以生成包含两个元素的项集。接下来，再重新扫描交易记录没去掉不满足最小支持度的项集。该过程重复到所有项集都被去掉。

3.1 生成候选项集

数据集扫描的伪代码：

对数据集中的每条交易记录tran：

对每个候选项集can：

检查一下can是否是tran的子集

如果是，则增加can的计数值

对每个候选项集：

如果其支持度不低于最小值，则保留该项集

返回所有频繁项集列表


# 创建一个用于测试的简单数据集
def loadDataSet():
    return [[1,3,4],[2,3,5],[1,2,3,5],[2,5]]
 
# 构建集合C1
            #  数据集
def createC1(dataSet):
    # C1是大小为1的所有候选项集的集合
    C1=[]
    # 遍历所有交易记录
    for transaction in dataSet:
        # 遍历所有交易记录中的每一个项
        for item in transaction:
            if not [item] in C1:
                # 添加一个列表，为每个物品构建一个集合
                C1.append([item])
    C1.sort()
    # frozenset时不可变集合，将C1中的每一个物品变程不可变集合
    return list(map(frozenset,C1))
 
 
def scanD(D,Ck,minSupport):
    ssCnt={}
     #统计项集在数据中的出现次数
    for tid in D:
        for can in Ck:
            # issubset函数用于判断集合的所有元素是否都包含在指定集合中
            if can.issubset(tid):
                ssCnt[can] = ssCnt.get(can,0) + 1
                # if can not in ssCnt:
                # if not ssCnt.has_key(can):   python3中已经废除了has_key函数
                    # ssCnt[can]=1
                # else:
                    # ssCnt[can]+=1
    # print(list(D))
    numItems=float(len(D))
    # print(numItems)
    retList=[]
    supportData={}
    for key in ssCnt:
        support=ssCnt[key]/numItems
        if support>=minSupport:
            retList.insert(0,key)
        supportData[key]=support
    return retList,supportData

3.2 组织完整的Apriori算法

伪代码如下：

当集合中项的个数大于0时：

构建一个k个项组成的候选项集的列表

检查数据已确认每个项集都是频繁的

保留频繁项集并构建k+1项组成的候选项集的列表


# 创建候选集Ck
def aprioriGen(Lk ,k):
    retList=[]
    lenLk=len(Lk)
    for i in range(lenLk):
        for j in range(i+1,lenLk):
            L1=list(Lk[i])[:k-2]
            L2=list(Lk[j])[:k-2]
            L1.sort()
            L2.sort()
            if L1==L2:
                # 集合的合并操作：|
                retList.append(Lk[i]|Lk[j])
    return retList
 
# 主函数
def apriori(dataSet,minSupport=0.5):
    C1=createC1(dataSet)
    D=list(map(set,dataSet))
    # print(list(D))
    L1,supportData=scanD(D,C1,minSupport)
    L=[L1]
    k=2
    while len(L[k-2])>0:
        Ck=aprioriGen(L[k-2],k)
        Lk,supK=scanD(D,Ck,minSupport)
        supportData.update(supK)
        L.append(Lk)
        k+=1
    return L,supportData

我们来测试一下这个算法：


# 测试函数
dataSet=loadDataSet()
print(dataSet)
C1=createC1(dataSet)
# print(C1)
L,suppData=apriori(dataSet)
L,suppData

得到的输出结果为：

4 从频繁项集中挖掘关联规则

对于关联规则，我们也有类似的量化方法，这种量化指标称为可信度。

关联规则的性质：如果某条规则并不满足最小可信度要求，那马尔该规则的所有自己也不会满足最小可信度要求

减少测试的规则数目：首先从一个频繁项集开始，接着创建一个规则列表，其中规则右部只包含一个规则元素，然后对这些规则进行测试。接下来合并所有剩余规则来创建一个新的规则列表，其中规则右部包含两个元素。这种方法也叫做分级法。


# 主函数：
# 频繁项集列表 包含那些频繁项集支持数据的字典 最小可信度阙值
def generateRules(L,supportData,minConf=0.7):
    bigRuleList=[]
    for i in range(1,len(L)):
        for freqSet in L[i]:
            H1=[frozenset([item]) for item in freqSet]
            if(i>1):
                rulesFromConseq(freqSet,H1,supportData,bigRuleList,minConf)
            else:
                calcConf(freqSet,H1,supportData,bigRuleList,minConf)
    # 包含可信度的规则列表
    return bigRuleList
 
# 生成候选规则集合
def calcConf(freqSet,H,supportData,br1,minConf=0.7):
    prunedH=[]
    for conseq in H:
        conf=supportData[freqSet]/supportData[freqSet-conseq]
        if conf>=minConf:
            print(freqSet-conseq,'-->',conseq,'conf:',conf)
            br1.append((freqSet-conseq,conseq,conf))
            prunedH.append(conseq)
    return prunedH
 
# 对规则进行评估
def rulesFromConseq(freqSet,H,supportData,br1,minConf=0.7):
    m=len(H[0])
    if(len(freqSet)>(m+1)):
        Hmp1=aprioriGen(H,m+1)
        Hmp1=calcConf(freqSet,Hmp1,supportData,br1,minConf)
        if(len(Hmp1)>1):
            rulesFromConseq(freqSet,Hmp1,supportData,br1,minConf)

测试一下算法


rules=generateRules(L,suppData)
rules

得到的输出结果为：

5 示例：发现国会投票中的模式

①收集数据：使用votesmart模块来访问投票纪录

②准备数据：构造一个函数来将投票转化为遗传交易记录

③分析数据：再python提示符下查看准备的数据以确保数据的准确性

④训练算法：使用之前写的apriori函数和generateRules函数来发现投票纪录中的有趣信息

⑤测试算法：没有测试过程

⑥使用算法：这里知识出于娱乐的目的，不过也可以使用分析结果来为政治竞选活动服务，或者预测官员会如何投票

该部分API已经不再进行使用，因此跳过

6 示例：发现毒蘑菇的相似特征


mushDatSet=[line.split() for line in open('mushroom.dat').readlines()]
L,suppData=apriori(mushDatSet,minSupport=0.3)
# print(L)
for item in L[1]:
    if item.intersection('2'):
        print (item)

得到的输出结果为：

7 本章小结

关联分析是用于发大数据集中元素间有趣关系的一个工具集，可以采用两种方式来量化这种有趣的关系。频繁项集和关联规则

相关阅读:
maven==docker搭建私有maven仓库，编写starter并发布到私有maven仓库，在项目中使用私有仓库中的starter
华清远见（上海中心）22071
算法leetcode｜1656. 设计有序流（rust和go重拳出击）
Dopamine-PEG-N3，DOPA-PEG-azide，水溶性PEG试剂供应
 RCS认证要求及审核注意事项
 SpringBoot测试用例设置随机数据
 重新定义商业——以用户为中心的全新商业模式
 C++11标准模板（STL）- 算法（std::upper_bound）
愚人杯的RE题
 vhost-user
原文地址：https://blog.csdn.net/weixin_46182244/article/details/128137634