• 数分面试题2-牛客


    1、参数估计和假设检验分别是什么?区别在哪里?

    参数估计:通过样本统计量来对总体参数进行估计,包括点估计和区间估计。
    假设检验:通过对总体参数提出一个假设,然后利用样本统计量来验证假设是否成立,从而做出拒绝或者接受原假设的决定。### 2、假设检验的显著性水平
    AB测试是假设检验的应用。

    两者联系:参数估计和假设检验都是样本去估计总体,都是建立在概率基础上的统计,可以相互转换
    两者区别是:1,参数估计是用样本统计量估计总体参数的方法;假设检验是先对总体参数提出一个假设,然后利用样本信息去检验这个假设是否成立 2,参数估计是以置信区间(大概率)估计总体参数;假设检验是利用小概率事件是否发生来判断假设是否成立

    3、怎么降低第一类错误,如何同时降低第一类和第二类错误

    当样本容量n固定时,α、β不能同时都小,α变小时β就变大,而β变小时α就变大。
    只有当样本容量n增大时,才有可能使两者变小。在实际应用中,一般原则是控制犯第一类错误的概率,即给定α,然后通过增大样本容量n来减小β。

    这种着重对第一类错误的概率α加以控制的假设检验称为显著性检验,α就是显著性水平

    统计功效=1-第二类错误,也即当AB两组实际有差异时,能被我们检测出来差异的概率

    4、SQL、Python、R等分析工具,分别有什么用?

    EXCEL用于小样本量中基本的数据处理操作,
    而SQL用于从数据库中取数操作,做一些简单的数据处理工作,通过表连接、嵌套查询等动作完成最终的数据统计工作。
    Python和R可以借助多种多样的工具库,可以通过数据建模,可用于有监督或无监督模型的训练,解决分类或预测问题。

    5、说一下显著性水平、置信区间、假设检验

    显著性水平:其实就是第一类错误也叫弃真错误,也即原假设为真时被拒绝的概率
    置信区间:在区间估计中,由样本统计量所构造的总体参数的估计区间称为置信区间
    假设检验:先对总体要估计的值提出一个假设,然后利用样本信息去检验这个假设是否成立

    6、Union和Join的区别

    UNION是两张表进行上下拼接,产生的两个记录集(字段要一样的)并在一起,成为一个新的记录集,分为UNION和UNION ALL两种方法;

    JOIN 是两张表进行左右连接,条件匹配的记录将合并产生一个记录集,有LEFT JOIN、RIGHT JOIN、INNER JOIN、OUTER JOIN等多种方法。

    7、SQL窗口函数并举例

    聚合函数:sum,count,avg,max,min;排序函数:row_number,rank,dense_rank;偏移函数,lead,向后偏移,lag向前偏移,nitile函数,等份分割

    8、SQL里面的like的用法

    like的作用是模糊查询,
    “%”(百分号):代表任意字符序列(包括空字符序列)。
    “_”(下划线):代表任意单个字符
    可以用在where子句中限定查询结果的条件

    9、SQL语句求单日留存及一个月的每日留存

    1.统计每个用户首次访问的日期;
    2.按用户首次访问的日期分组,统计每个日期的单日留存用户数和30日留存用户数及当前日期的新增用户数;
    3.单日留存率=单日留存用户数/当前日期下的新增用户数

    10、sql如何进行优化

    用groupby代替distinct 去重,
    表关联之前先用where过滤,防止数据倾斜
    建立合适的索引,
    减少不必要的字段查询;
    少使用like,减少模糊查询
    用临时表with as,
    如果是并集,多使用union all,
    在Oracle中可以使用decode代替case when
    合理利用分区

    11、数据分析流程

    第一步:与业务方沟通问题,明确分析目标;
    第二步:对目标进行拆解,可以采用两步分析法,也可以采用人货场分析法,通过数据定位问题源头; 第三步:与产品、运营和技术沟通,找到问题原因。

    1.发现问题,明确问题;2.收集数据;3.数据清洗;4.数据统计、数据分析;5.可视化;6.报告撰写。

    12、游戏内数据分析涉猎的少,如何证明自己有能力胜任?–学习话术

    虽然我对游戏数据分析的经验较少,但是我认为对于应届生而言,更重要的是学习能力以及对该行业的热情。我的学习能力不错(举例说明,最好结合实习的例子,其次是在学校学习的例子等);并且我非常热爱网络游戏,自身职业规划也和游戏相关,希望能在这个行业里深耕;最后我认为数据分析的方法是相通的,我学习的其他数据分析方法论也可以应用其中。

    13、你认为字节小游戏平台分析需要涉及哪些指标?—看思路

    从产品自身出发、从用户角度出发、
    从游戏自身出发:核心玩法的参与度,游戏留存等; 从游戏玩家出发:ARPU,DAU,留存率; 从游戏性能出发:闪退率,卡顿率等。 最重要的是游戏的渗透率,因为字节游戏主要依靠从字节跳动或今日头条引流用户,如何把内容用户转变为游戏用户,是字节游戏现在最重要的事情

    14、你对数据分析的认知是什么,那你是如何学习数据分析的

    数据分析是通过数据的角度,发现业务的痛点和痒点,通过分析原因得出解决策略,并推动策略落地,达到提升业务质量的过程。主要通过课外阅读以及实习来学习数据分析,通过把在“人人都是产品经理”网站、公众号文章、知乎文章等学习到的数据分析方法论,通过实习的方法实践出来,也让我对数据分析有了更加清晰的认识。

    数据分析目的:数据角度出发,发现业务问题,通过分析提出解决方法,从而提升业务
    学习路径:网站、公众号、实践

    15、你觉得数据分析应该具备的能力是什么

    快速学习能力、数据化思维和较强的业务逻辑化能力、沟通能力

    数据分析师需要接触不同的业务,在学习新的业务中,我们需要快速学习能力,来提高我们工作的效率;数据化思维能够帮助数据分析师提高数据敏感度,对异常数据有敏感的识别能力;业务逻辑化能力能够让我们与业务方沟通时更加顺畅,数据分析并非独立完成的,是需要与其他人协同产出的。
    数据分析者应具备的能力包括:问题拆解能力、业务理解能力、数据挖掘能力等

    16、以往经历中,你是怎么做数据分析报表

    在学校的学习中,主要使用Python和Excel产出可视化报表,所以我对这两项工具的使用也非常熟练。在公司的实习中,主要使用Tableau和公司的报表平台,我也能够熟练的使用这两项工具,对于不同的平台也有较快的上手能力。

    17、对做数据分析做了哪些准备

    业务学习、工具学习、理论学习三个层面

    业务学习:在人人都是产品经理、知乎、公众号阅读了大量数据分析的文章,并进行方法论总结。
    工具学习:熟练掌握Sql、Python、Excel、Tableau等数据分析工具。
    理论学习:对数据分析所用的统计学理论、机器学习理论有较为全面的理解掌握

    18、SVM

    SVM是在特征空间上找到最佳的分离超平面,使得训练集上的正负样本间隔最大。是用来解决二分类问题的有监督学习算法,在引入核方法后也可以解决非线性问题。

    19、说一个无监督学习算法,阐述原理,优缺点,实际应用点

    k-means聚类算法。
    原理:首先选择k个点作为初始点,随后将每个点指派到最近的质心,形成k个簇并重新计 算每个簇的质心,直到簇不发生变化或达到最大迭代次数。
    优缺点:优点是处理大数据时较为高效且伸缩性较好;缺点是需要事先确定k,不适合非凸集合的聚类。 实际应用点:潜在的簇是凸面,且簇之间区别明显,大小相近,适用于大数据。 选取较为简单的即可。

  • 相关阅读:
    单例模式--饿汉模式, 懒汉模式
    jib插件打包docker镜像(IDEA)
    MySQL之优化SELECT语句
    【Stream】Java中List<Object>,List<~> 使用Stream函数式
    柚子树环割机设计
    30张图说清楚 TCP 协议
    实时数据仓库==(总结)
    模拟实现map/set[改编红黑树实现map/set容器底层]
    vue elementUI table表格自定义样式滚动
    CLR via C#-托管堆和垃圾回收
  • 原文地址:https://blog.csdn.net/Sun123234/article/details/132810846