数据分析面试考点!划重点!
小职 2021-05-08 来源 :https://www.omegaxyz.com/2020/02/17/data-analysis- 阅读 119 评论 0

摘要:本篇主要总结了数据分析面试考点重点,希望对面试数据分析中的你有所帮助。

本篇主要总结了数据分析面试考点重点,希望对面试数据分析中的你有所帮助。

数据分析面试考点!划重点!


1. 业务逻辑

数据分析遵循一定的流程,不仅可以保证数据分析每一个阶段的工作内容有章可循,而且还可以让分析最终的结果更加准确,更加有说服力。


一般情况下,数据分析分为以下几个步骤:

业务理解,确定目标、明确分析需求

数据理解,收集原始数据、描述数据、探索数据、检验数据质量

数据准备,选择数据、清洗数据、构造数据、整合数据、格式化数据

建立模型,选择建模技术、参数调优、生成测试计划、构建模型

评估模型,对模型进行较为全面的评价,评价结果、重审过程

成果部署,分析结果应用


2. 特征工程

包括特征提取、特征构建、特征选择。特征工程的目的是筛选出更好的特征,获取更好的训练数据。因为好的特征具有更强的灵活性,可以用简单的模型做训练,更可以得到好的结果。


3. 数据采集 / 清洗 / 采样

 1. 数据采集


数据采集前需要明确采集哪些数据,一般的思路为:哪些数据对最后的结果预测有帮助?数据我们能够采集到吗?线上实时计算的时候获取是否快捷?


举例1:我现在要预测用户对商品的下单情况,或者我要给用户做商品推荐,那我需要采集什么信息呢?

 

店家:店铺的评分、店铺类别……

 

商品:商品评分、购买人数、颜色、材质、领子形状……

 

用户:历史信息(购买商品的最低价最高价)、消费能力、商品停留时间……


2. 数据清洗


数据清洗也是很重要的一步,机器学习算法大多数时候就是一个加工机器,至于最后的产品如何,取决于原材料的好坏。数据清洗就是要去除脏数据,比如某些商品的刷单数据。


那么如何判定脏数据呢?

 简单属性判定:一个人身高3米+的人;一个人一个月买了10w的发卡。

组合或统计属性判定:你要判定一个人是否会买篮球鞋,样本中女性用户85%?

补齐可对应的缺省值:不可信的样本丢掉,缺省值极多的字段考虑不用。


数据清洗标准:

数据的完整性—-例如人的属性中缺少性别、籍贯、年龄等

数据的唯一性—-例如不同来源的数据出现重复的情况

数据的权威性—-例如同一个指标出现多个来源的数据,且数值不一样

数据的合法性—-例如获取的数据与常识不符,年龄大于150岁

数据的一致性—-例如不同来源的不同指标,实际内涵是一样的,或是同一指标内涵不一致


3. 数据采样


采集、清洗过数据以后,正负样本是不均衡的,要进行数据采样。采样的方法有随机采样和分层抽样。但是随机采样会有隐患,因为可能某次随机采样得到的数据很不均匀,更多的是根据特征采用分层抽样。


正负样本不平衡处理办法:

正样本 >> 负样本,且量都挺大 => downsampling

正样本 >> 负样本,量不大 =>


4. 数据标准化和归一化

max-min:这种方法有一个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。


Z-score:最常见的标准化方法就是Z标准化,也是SPSS中最为常用的标准化方法,spss默认的标准化方法就是z-score标准化。也叫标准差标准化,这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1,其转化函数为:x∗=x−μσ,其中μ为所有样本数据的均值,σ为所有样本数据的标准差。z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。


5. ROC与AOC

ROC(Receiver Operating Characteristic)曲线即受试者工作特征曲线 (receiver operating characteristic curve,简称ROC曲线),又称为感受性曲线(sensitivity curve),用来评价一个二值分类器(binary classifier)的优劣。


AUC(Area Under Curve)被定义为ROC曲线下的面积,这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而作为一个数值,对应AUC更大的分类器效果更好。为什么呢,因为ROC曲线越接近左上角,AUC面积就越大,分类器性能就越好。


6. 辛普森悖论

分组比较中都占优势的一方,在总评中有时反而是失势的一方。即,数据集分组呈现的趋势与数据集聚合呈现的趋势相反的现象。


如下图,按照性别分组的结果与总体的结果不同。

数据分析面试考点!划重点!


我是小职,记得找我

✅ 解锁高薪工作

✅ 免费获取基础课程·答疑解惑·职业测评

数据分析面试考点!划重点!

本文由 @小职 发布于职坐标。未经许可,禁止转载。
喜欢 | 0 不喜欢 | 0
看完这篇文章有何感觉?已经有0人表态,0%的人喜欢 快给朋友分享吧~
评论(0)
后参与评论

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场 匹配合适岗位
验证码手机号,获得海同独家IT培训资料
选择就业方向:
人工智能物联网
大数据开发/分析
人工智能Python
Java全栈开发
WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了,明天再试试吧!

提交

我们会在第一时间安排职业规划师联系您!

您也可以联系我们的职业规划师咨询:

小职老师的微信号:z_zhizuobiao
小职老师的微信号:z_zhizuobiao

版权所有 职坐标-一站式IT培训就业服务领导者 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
 沪公网安备 31011502005948号    ICP许可  沪B2-20190160

站长统计