• 朴素贝叶斯算法


    3.4.1什么是朴素贝叶斯算法

    朴素贝叶斯方法是在 贝叶斯 算法的基础上进行了相应的简化,即假定给定目标值时属性之间相互条件独立。. 也就是说没有哪个属性变量对于决策结果来说占有着较大的比重,也没有哪个属性变量对于决策结果占有着较小的比重。. 虽然这个简化方式在一定程度上降低了贝叶斯分类算法的分类效果,但是在实际的应用场景中,极大地简化了贝叶斯方法的复杂性 

    3.4.2 概率基础

    1 概率定义

    3.4.3 联合概率 条件概率与相互独立

    联合概率 包含多个条件,且所有条件同时成立的概率

    p(a|b) = p(a)p(b) <==> 事件a和事件b相互独立

    朴素:假设特征之间相互独立

    优点:对确实数据不太敏感,算法比较简单,常用与对文本进行分类,分类准确度高,速度快

    缺点:由于使用了样本属性独立性的假设,所以如果特征属性有关联时效果不佳 

    1. def nb_news():
    2. """
    3. 用朴素贝叶斯算法对新闻进行分类
    4. :return:
    5. """
    6. # 1)获取数据集
    7. news = fetch_20newsgroups(subset="all")
    8. # 2)划分数据集
    9. x_train, x_test, y_train, y_test = train_test_split(news.data, news.target)
    10. # 3)特征工程:文本特征抽取-tfidf
    11. transfer = TfidfVectorizer()
    12. x_train = transfer.fit_transform(x_train)
    13. x_test = transfer.transform(x_test)
    14. # 4)朴素贝叶斯算法预估器流程
    15. estimator = MultinomialNB()
    16. estimator.fit(x_train, y_train)
    17. # 5)模型评估
    18. # 方法1 直接比对真实值和预测值
    19. y_predict = estimator.predict(x_test)
    20. print("y_predict:\n", y_predict)
    21. print("直接比对真实值和预测值:\n", y_test == y_predict)
    22. # 方法2 计算准确率
    23. score = estimator.score(x_test, y_test)
    24. print("准确率为:\n", score)
    25. return None

     

     3.5 决策树

    3.5.1认识决策树

    如何高效的进行决策:特征的先后顺序

    3.5.2 决策树分类原理详解

    信息论基础

    1)信息

    消除随机不定性的东西

    2)信息的衡量

    信息量 信息熵

    3.5.3决策树的API

    class sklearn.tree.DecisionTreeClassifier='gini'

    max_depth=None,random_state=None

    决策树分类器

    criterion:默认是‘gini’系数,也可以选择增益的熵‘entropy’

    max_depth:树的深度

    random_state:随机数种子

    1. def decision_iris():
    2. """
    3. 用决策树对鸢尾花进行分类
    4. :return:
    5. """
    6. # 1)获取数据集
    7. iris = load_iris()
    8. # 2)划分数据集
    9. x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=22)
    10. # 3)决策树预估器
    11. estimator = DecisionTreeClassifier(criterion="entropy")
    12. estimator.fit(x_train, y_train)
    13. # 4)模型评估
    14. # 方法1 直接比对真实值和预测值
    15. y_predict = estimator.predict(x_test)
    16. print("y_predict:\n", y_predict)
    17. print("直接比对真实值和预测值:\n", y_test == y_predict)
    18. # 方法2 计算准确率
    19. score = estimator.score(x_test, y_test)
    20. print("准确率为:\n", score)
    21. return None

    1. def decision_iris():
    2. """
    3. 用决策树对鸢尾花进行分类
    4. :return:
    5. """
    6. # 1)获取数据集
    7. iris = load_iris()
    8. # 2)划分数据集
    9. x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=22)
    10. # 3)决策树预估器
    11. estimator = DecisionTreeClassifier(criterion="entropy")
    12. estimator.fit(x_train, y_train)
    13. # 4)模型评估
    14. # 方法1 直接比对真实值和预测值
    15. y_predict = estimator.predict(x_test)
    16. print("y_predict:\n", y_predict)
    17. print("直接比对真实值和预测值:\n", y_test == y_predict)
    18. # 方法2 计算准确率
    19. score = estimator.score(x_test, y_test)
    20. print("准确率为:\n", score)
    21. # 可视化决策树
    22. export_graphviz(estimator, out_file="iris_tree.dot", feature_names=iris.feature_names)
    23. return None

     

     

     决策树总结:

    优点:简单的理解和解释,树木可视化

    缺点:决策树学习者可以创建不能很好的推广数据过于复杂的数,这被称为过拟合

    改进:减枝cart算法

    随机森林

  • 相关阅读:
    为什么mac会卡顿,mac电脑卡顿怎么解决
    2022-01-15 开发代码感悟
    适合女生佩戴的蓝牙耳机有什么推荐?五款高性价比蓝牙耳机
    Perl 6 - CPAN
    一文全面了解:react-antd-admin 如何封装 axios
    go语言慢速入门——流程控制语句
    AI计算机视觉进阶项目(一)——带口罩识别检测(4)
    如何在Postman中使用静态HTTP
    2059authentication plugin
    伺服丝杠系统常用运算功能块
  • 原文地址:https://blog.csdn.net/m0_62329504/article/details/126243191