码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 【Kaggle】如何快速上手少走弯路?


    Catalogue

        • 1 理解Titanic中most vote kernel的code
        • 2 深入理解快速拿牌的大佬思路
        • 3 一些可以研究的框架
        • 4 参考阅读

    关于kaggle,之前也仅仅做浅浅的了解,在里面跑过MRI的程序,同时,这段时间也是我数模国赛结束后的一段时间,我仍然希望可以在数模和算法方面有一个合适的机会进行进一步学习。之前只知道kaggle是ml打比赛的地方,但没有详细的了解过它,在知乎看过一些人的分享和看过一些competitions的code之后,我发现了几个现象:

    • kaggle其实包含了很多关于数模的算法,而研究生数模国赛也逐渐在往ml靠近的趋势,我觉得可以提前铺路。同时,我也希望kaggle可以促进我的项目侧重心转移过程。
    • 有一些没有ml和cs背景的人也可以取得不错的成绩,他们的方法一般是先选择一个top的kernel最为base model,然后参考其他的public model和discussion,对base model进行优化修改,从而达到更好的score。(对了,作者还提了一下xgboost)。 -参考零基础自学两月后三月三次轻松进入kaggle比赛top20小结 -知乎和Kaggle新手七天拿铜牌经验 -知乎
    • 模型融合很重要!

    附上一些个人认为有价值的评论:

    1.我不做图像,文本涉及也少。如果只是为了解决工程问题,其实结构化数据的问题,劈开业务逻辑外,死扣概念是没有啥意义的。**分类聚类回归推荐本质上没有区别。聚类分类本质上就是利用距离做特征计算概率,概率的计算对于电脑而言又是一个回归的计算,推荐同理。忘记概念的条条框框,你的思路会活络很多。**这方面,思路越活越容易玩出骚路子。我和作者态度一样,咱们不指望成为业界泰斗,对理论功底的要求也就那么回事,能听懂别人说啥就行,什么手撕公式真没兴趣。数据分析的目标是解决问题,所有不能对你分析问题有直接增益的东西都是细枝末节
    2.兄弟,你这法子还是麻烦了点,我只需要调public kernel的seed提交2次就拿铜牌。
    3.不错,我也写了篇总结。最后三天有人发的2204的kernel就是直接blend几个相关性低的public kernel。还好这次没有强开源,不然又和talkingdata那样了😂
    4.发现大部分还都是ml的工作,xgboost太强了。。 dl一般都不会公开这么高的baseline


    1 理解Titanic中most vote kernel的code

    看了kaggle上的Titanic的competition【link】,Titanic也被众多大神称作入门最适合参加的第一个competition,在以学习的态度看了most votes的code之后,我学到了很多东西。Author用notebook的方式阐述了思考的过程,如何进行原始数据的转换和分析,把一些字符串、不规则的数据类型转换为可供分析的定量数据;再数据转换完之后,author又展示了如何将数据集放入sklearn来调用

    • Logistic Regression
    • KNN or k-Nearest Neighbors
    • Support Vector Machines
    • Naive Bayes classifier
    • Decision Tree
    • Random Forrest
    • Perceptron
    • Artificial neural network
    • RVM or Relevance Vector Machine

    这些模型,并使用svc.score(X_train, Y_train)对模型进行置信度评价。

    sklearn对这些机器学习和预测的算法封装的特别好,感谢前人的探索和努力。

    这张图让我对这些预测分析的算法有了一种更直观的了解。
    image.png


    2 深入理解快速拿牌的大佬思路

    在浅浅的入手了几个kernel之后,我发现调参并不像想象中的容易,比如像num_boost_round,verbose_eval等hyper-parameter,可以说明的是,我不可能会一点一点理解每一个参数的含义,因为在这之前我甚至连这个算法framework都没有一个很清晰的概念,只知道他们的input和ouput,所以调整这些参数对我来说有一些难度。

    深入分析Kaggle新手七天拿铜牌经验 -知乎中作者的思路,


    3 一些可以研究的框架

    • xgboost -竞赛必备
    • GridSearchCV -调参利器 -参考https://www.kaggle.com/code/odaymourad/detailed-and-typical-solution-ensemble-modeling/
    • LightGBM -xgboost的改进

    4 参考阅读

    • Kaggle如何入门? -知乎
    • Kaggle首战拿金牌总结! -csdn
    • Kaggle 的比赛在 Machine Learning 领域中属于什么地位? -知乎
    • 零基础自学两月后三月三次轻松进入kaggle比赛top20小结 -知乎
    • Kaggle新手七天拿铜牌经验 -知乎
    • kaggle比赛经历对于找算法类的工作有帮助吗?-知乎
    • 非常详细的sklearn介绍 -csdn
  • 相关阅读:
    面试必备:消息队列原理和选型(荣耀典藏版)
    Sping Security前后端分离两种方案
    C++ 组合模式
    PyTorch实现苹果M1芯片GPU加速:训练速度提升7倍,性能最高提升21倍
    pytorch基础学习(4)
    “蔚来杯“2022牛客暑期多校训练营4 ADHK题解
    NF-ResNet:去掉BN归一化,值得细读的网络信号分析 | ICLR 2021
    腾讯、阿里、滴滴后台面试题汇总总结—(含答案)
    即时通讯开发如何撸一个WebSocket服务器
    Android一个有用又有趣的知识点:BindingAdapter
  • 原文地址:https://blog.csdn.net/linZinan_/article/details/127781322
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号