2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开
测开的话,你就得学数据库,sql,oracle,尤其sql要学,当然,像很多金融企业、安全机构啥的,他们必须要用oracle数据库
这oracle比sql安全,强大多了,所以你需要学习,最重要的,你要是考网络警察公务员,这玩意你不会就别去报名了,耽误时间!
与此同时,既然要考网警之数据分析应用岗,那必然要考数据挖掘基础知识,今天开始咱们就对数据挖掘方面的东西好生讲讲
数据挖掘知识系列文章
【1】数据挖掘与分析应用:理解业务和数据,准备数据,数据清洗,标准化,缺失值处理,构建数据集
【2】数据挖掘与分析应用:算法模型选择与训练、评估模型、上线部署,回到准备数据阶段
k个分类,相邻的分类
特征相似的同一类人
住别墅的往往是有钱人
样本多,指,距离跟他们近的大多数
富人之间的房子距离很近,它就是富人
那个房子跟穷人的距离很远,它不可能是穷人
适合小数据,数据太多,每一个遍历运算,那耗费时间空间
gg
有的类别太多,太少也没法算距离
d要标准化,量纲不同就不行
k太小不可以——过拟合
k太大,也不行——欠拟合
1++++
选取一个准确率最好的
错误率最低的那个手肘法
一堆男人决定追女神
女神怎么说
男生发简历
先看颜值
再看薪资
再看学历
身高
第一个人
第二个
第三个
还可以
特征到底好不好呢?
根节点是谁?
CART最牛逼
后来的GBDT很牛逼的模型
就是CART搞的
很强
可解释性强
预测速度快,只需要一条路,if通
当然,容易过拟合
非走不可
特征差距大,泛化不合适
剪枝可以解决问题
大杀器
这貌似被判赔偿了吧
现在呢
分母+小数
避免为0
有相关性,就不好搞
依赖一个
1995年出生
那几个距离直线最近的点,就是支持向量
公式推导很复杂
理论丰富
全局最优解
局部还是决策树
鲁棒性取决于支持向量
但运算量不小
SVM二分类
类别多了就gg
ANN模型
就是一个线性回归模型
但是后续
重点还是后面的激活函数,非线性映射,这是重点
电信号累加到一定的水平
激活
深度学习
xgboost是决策树
想要这种效果
特征
语言不通,数字不通
描述不通,标签或者文段
地址要谨慎,千万别整错
汉语数字转阿拉伯数字
二次需要人力的
分类算法暂时告一段落
提示:重要经验:
1)
2)学好oracle,即使经济寒冬,整个测开offer绝对不是问题!同时也是你考公网络警察的必经之路。
3)笔试求AC,可以不考虑空间复杂度,但是面试既要考虑时间复杂度最优,也要考虑空间复杂度最优。