• 数据科学面试你应该知道的10个统计概念


    统计数据有时会让人感到非常压倒性,也就不足为奇了,因为统计学的实践已经存在了几千年!

    然而,当涉及到数据科学面试时,面试官测试的概念只有这么多。在经历了数百个数据科学面试问题之后,我汇编了10个统计概念,这些概念是最常见的。

    在这篇文章中,我将介绍这 10 个概念,它们全部是关于什么的,以及它们为什么如此重要。

    话虽如此, 我们开始吧!

    p 值最技术、最精确的定义是,如果零假设也是,则获得的结果的概率与结果一样极端或更极端。

    想想看,这是有道理的。实际上,如果 p 值小于 alpha,例如 0.05,则我们说,结果可能偶然发生的概率小于 5。同样,p 值 0.05 与说5 的时间,我们会偶然看到这一点相同。

    所以,如果初始定义不坚持你,记住我刚刚举的例子!

    置信区间和假设检验有着非常密切的关系。置信区间建议未知参数的值范围,然后与真实参数在建议范围内的置信水平关联。信心区间在医学研究中往往非常重要,为研究人员的估计提供了更强有力的依据。

    置信区间可以显示为10 +/- 0.5或 [9.5,10.5]来举例说明。

    假设测试是任何研究问题的基础,往往归结到试图证明某事不是偶然发生的。例如,你可以尝试证明在滚动染料时,一个数字更有可能出现比其余的。

    了解 z 测试和 t 测试之间的差异,以及您选择使用它们时应如何以及何时使用,在统计学中是无价的。

    Z 检验是使用 z 统计的正态分布的假设检验。当您知道总体方差或不知道总体方差但样本量较大时,使用 z 检验。

    您可以看到下图作为参考,以指导您应该使用哪个测试:

    线性回归是用于对依赖变量和一个或多个独立变量之间的关系建模的最基本算法之一。在更简单的术语中,它涉及查找表示两个或多个变量的最佳拟合线。

    最佳拟合线通过最小化点与最佳拟合线之间的平方距离来找到 - 这称为最小化平方残差之和。残差仅等于预测值减去实际值。

    万一还没有意义,请考虑上图。将最适合红线的绿线进行比较,请注意绿线的垂直线(残差)比红线大得多。这是有道理的, 因为绿线离点太远, 它一点也不好表示数据!

    有四个假设与线性回归模型相关:

    1.线性度:X 和 Y 均值之间的关系是线性的。

    2.同性:对于 X 的任何值,残差的方差相同。

    3.独立性:观察是相互独立的。

    4.正态性:对于 X 的任何固定值,Y 是正态分布的。

    逻辑回归类似于线性回归,但用于对离散结果数(通常为两个)的概率进行建模。例如,您可能想要预测一个人是活着还是死了,因为他们的年龄。

    一目了然,逻辑回归听起来比线性回归复杂得多,但实际上只有一个额外的步骤。

    首先,使用类似于线性回归最佳拟合线的方程来计算分数。

    额外的步骤是提供您以前在下面的 sigmoid 函数中计算的分数,以便您获得回报的概率。然后,此概率可以转换为二进制输出,1 或 0。

     

    要查找初始方程的权重以计算分数,可以使用梯度下降或最大可能性等方法。因为它超出了本文的范围,我不会进入更多的细节,但现在你知道它是如何工作的!

    有 5 种主要方法可以对数据进行采样:简单随机、系统化、方便、群集和分层采样:

    简单随机采样

    简单的随机抽样需要使用随机生成的数字来选择样本。更具体地说,它最初需要一个采样框架、一个列表或一个人口所有成员的数据库。然后,您可以使用 Excel 等方法随机生成每个元素的数字,并采集所需的前 n 个样本。

    系统采样可以更容易地执行,您只需从样本中包含一个元素,跳过预定义量 (n),然后采用下一个元素。回到我们的示例,你可以把名单上的每四个名字。

    方便采样

    方便抽样从易于联系的小组中收集样本,例如询问购物中心外的人。你只要品尝你遇到的第一个人。由于您的数据可能被视为偏置,因此通常认为这种技术使用不良做法。

    群集采样

    群集采样首先将总体划分为组或群集。分层抽样的不同情况是,每个集群都必须代表人口。然后,随机选择要采样的整个群集。

    例如,如果一所小学有五个不同的八年级班级,则可以使用聚类随机抽样,并且只有一个班级被选为样本。

    分层采样

     

    分层随机抽样首先将总体划分为具有相似属性的组。然后从每个组中随机采样。此方法用于确保总体中不同的段具有相等的表示。举个例子,假设在学校进行一项调查,以确定总体满意度。在这里,使用分层随机抽样来平等地代表每个系学生的意见可能很有意义。

    7) 中央极限定理

    中央极限定理非常强大 - 它指出样本的分布意味着近似于正态分布。

    为了举一个例子,您需要从数据集中学习一个示例并计算该样本的均值。多次重复后,您将将所有手段及其频率绘制到图形上,并看到已创建钟形曲线(也称为正态分布)。

    此分布的均值将与原始数据的均值非常相似。通过采集更大的数据样本和更多的样本,可以提高平均值的准确性并降低标准偏差。

    组合和排列是两种略有不同的方式,可以从集合中选择对象以形成子集。排列考虑了子集的顺序,而组合不考虑。

    如果您要处理网络安全、模式分析、操作研究等,则组合和排列非常重要。让我们进一步详细回顾一下两者中各一个内容:

    排列

    定义:n 元素的排列是这些 n 元素按一个明确顺序排列的任何排列。有 n 种性 (n!) 方法来排列 n 个元素。注意粗体:顺序很重要!

    一次取 r 的 n 项的排列数定义为可以从 n 个不同的元素中取取的 r-tuples 数,并等于以下等式:

     示例问题:车牌中有多少个排列,有 6 位数字?

    组合

    定义:从顺序并不重要的 n 个对象中选择 r 的方法数。

    一次采取 r-1 的 n 项的组合数定义为具有具有 n 个元素集的 r 元素的子集数,并等于以下等式:

    示例问题:从 52 张牌的一副牌中可以画出 6 张牌, 有多少种方法?

     

    请注意,这些都是非常简单的问题,它可以变得比这更复杂,但你应该有一个好主意,它是如何工作的与上面的例子!

    9) 贝叶定理/条件概率

    贝叶斯定理是一个条件概率语句,它本质上是一个事件 (B) 发生的概率,因为另一个事件 (A) 已经发生了。

    最流行的机器学习算法之一,奈夫·贝叶斯,是建立在这两个概念之上的。此外,如果您进入在线机器学习领域,则很可能使用贝叶斯方法。

    概率分布是查找实验中不同可能结果概率的一种简单方法。有很多不同的分布类型,你应该了解,但一些我推荐的是正常,均匀,泊松。

    正态分布

    正态分布,也称为高斯分布,是一种钟形曲线,在许多分布中相当突出,包括人的高度和智商分数。

    正态分布的均值等于μ方差等于σ。

    泊松分布

    泊松分布是一个离散分布,提供在固定时间发生的独立事件数的概率。使用此值的一个示例是,如果您想要确定 X 患者在给定小时内进入医院的可能性。

    均值和方差均等于 + 。

    统一分布

    当所有结果都同样可能时,使用统一分布。例如,硬币具有均匀的分布和染料。

    感谢您的阅读!

    就这些!我希望这有助于你的面试准备,我祝你在未来的努力中好运。对这十个概念有强烈的理解,将成为数据科学和机器学习领域进一步学习的坚强基础。

    一如既往,祝你一切顺利!

     

     

     

     

     

     

     

     

     

     

     

  • 相关阅读:
    论文辅助笔记:T2VEC一个疑虑:stackingGRUCell和GRU的区别在哪里?
    python实现冒泡排序
    Wlan三层组网+三层漫游
    cobol-简介
    Win10系统下torch.cuda.is_available()返回为False的问题解决
    problem B.Genshin Impact(2022合肥icpc)
    Hadoop 2.x和Hadoop 3.x比较
    Windows电脑如何录制电脑桌面?
    SQL User-Agent注入详解
    在项目中,为什么有 全英文大写的 变量?
  • 原文地址:https://blog.csdn.net/AudiA6LV6/article/details/126938010