数据分析也有BUG!劝你不要过度迷信数据分析……
小职 2020-10-27 来源 : 阅读 804 评论 0

摘要:本篇介绍了常见的几种数据分析的错误,数据来源偏差,数据解读陷阱,人为操作误导,希望了解了这些数据分析的错误之后,在进行数据分析时,能够带着怀疑的态度看数据。

本篇介绍了常见的几种数据分析的错误,数据来源偏差,数据解读陷阱,人为操作误导,希望了解了这些数据分析的错误之后,在进行数据分析时,能够带着怀疑的态度看数据。

数据分析也有BUG!劝你不要过度迷信数据分析……

对于数据分析来说,一直存在一个伪命题,那就是数据分析真的有必要做吗,做出来的数据分析在实际场景中占有怎样的地位,得出的数据分析结论是否适用于业务场景,数据分析的结论是否混淆了答案。


上面这个问题我也曾经想过。近年来很多人都在神话数据分析,遇到任何问题不管三七二十一,都要拿出来数据来分析一通。其实,这是过度追求数据分析的表现,数据往往不一定就是真实客观的,做数据分析的人也会被数据给欺骗,所以太过迷信数据,反而容易出现问题,而最常见的几种数据分析的错误有:数据来源偏差,数据解读陷阱,人为操作误导。希望了解过这些数据错误之后,在看数据报告或者做数据报告的时候,带着怀疑的精神看数据,不要掉入陷阱。



数据来源偏差

1. 样本量和代表性

你可能听说过“黑巧克力能减肥”这个说法,2015年约翰波哈博士在一篇期刊上登出了这项研究成果,媒体记者们纷纷转载。但其实这个事件都是波哈诺杜撰出来的,他随便找了16个人做样本基数,然后就推导出这么个结论,目的就是想看看谣言怎么变成权威媒体的头条,研究发表后没有一个记者来联系他问他这个实验的样本量是多少,代表性怎么样,过程是否合理,直接就发表和引用了“研究成果”。


所以,样本量和代表性是决定数据结果靠不靠谱的前提条件。


大厂们虽然看起来有“大”数据,但是由于数据孤岛的存在,其实数据也是有偏向的,比阿里虽然有淘宝几亿用户的消费数据,但是也拿不到这几亿用户的微信数据,而且大数据基本都是行为数据,和真实态度,心里预期等等态度数据还是有差别,再有就是用相关性推测因果也有不少坑。


作为非专业人士的我们,其实看报告或者数据时主要还是留个心眼,看看有没有提到数据源,数据源可能带来哪种偏差,带着思考去看报告。如果看到一些数据结论和你的认知有差别,甚至是相反的,不用立刻相信结论,扭转认知,而是想一想这数据来源靠谱嘛,发数据的机构有目的吗,另外,也不用太纠结于具体数据,而是去看背后的趋势,比较,差异。


2. 问题缺陷

刚才我们也提到大数据更多是行为数据,有时要拿到态度数据,还是要靠问卷问题的方式,在用问卷收集数据时,如何问问题就很有讲究了,比如这几种情况:


曾经有个某饮料品牌打算推出新口味的饮品,推出前心里没底,就做调查。他们问了一个问题“我们要推出一款口味更柔和的新产品,你会喜欢吗”数据收集回来之后,发现喜欢的比例高达90%,结果新品上市之后,消费者恶评如潮,现实和数据体现了如此大的反差,原因就在于问题中有一个很明显的正向诱导词“更柔和”。


所以无论是看别人的数据报告,还是自己做问卷,都得注意问的问题是不是客观无偏向,选项是不是合理,选项一般来说要尽可能符合MECE原则。


⏩ 第一条是完整性,说的是分解工作的过程中不要漏掉某项,要保证完整性

⏩ 第二条是独立性,强调了每项工作之间要独立,每项工作之间不要有交叉重叠


数据解读陷阱

数据解读可是说是遍地是坑,比较常见的有以下几种:

1. 相关不等于因果

相关和因果是解读数据绕不开的话题,特别是我们要用数据去预测趋势,解决问题,用一件事情去推测和判断另一件事,搞混相关和因果。


比如:

每年冰淇淋销量一升高,游泳溺亡人数就开始增长,所以禁止销售冰淇淋,有助于挽救生命。


其实,事件A和事件B有相关关系,但可能有因果关系也可能没有因果关系这个道理说起来很简单,好像人人也都知道,但是很多时候,甚至经验的分析人员也会在这上面犯错。其实很多时候我们都是带着期待,带着目的去看数据,我们希望数据能告诉我们真相,给我们解答,告诉我们为什么,好让我们做出决策。所以看到两条曲线趋势有规律,看到两组数据有相关,就会开始兴奋,感觉自己好像抓到了答案,但这时候就往往容易过度解读。


数据只是数据而已,所谓答案其实不是数据告诉你的,而是你自己推出来的,越是这时候就越应该冷静一下,多思考,不要轻易下判断。


2. 幸存者偏差

还有一个特别著名的误导,幸存者偏差。


二战时期,美军计划在飞机上安装厚钢板来抵挡攻击,提升飞机员生存率,但是因为重量限制,只能给最关键的部位安装,他们仔细检查了所有返航回来的飞机机身上的弹孔分布,发现大部分都位于机翼和飞机尾部,于是大家就热火朝天准备给机翼加钢板。


但是这个时候,数学家瓦尔德就站出来反对,他说要加强那些没有弹孔的位置,比如发动起和驾驶舱。


3. 自选择偏差

有时候我们自以为找到了支持自己的想法的客观数据,但其实我们是先有了想法,再找数据来支持自己的想法,那些不符合我们假设的数据会被忽视掉,这就是“选择偏差”。


4. 辛普森悖论

两组数据分别看时都满足某种结果/趋势,但加起来就呈现相反结果/趋势。


下表无论是从文科还是理科来看,录取率比较高的是男生,但是从整体来看,则是女生的录取率比较高。

数据分析也有BUG!劝你不要过度迷信数据分析……

人为操作误导

前面讲的那些坑很多时候是无意之举,而这部分就不一样,很多数据其实稍加修饰,就成了一个陷阱。


1. 放大尺度

从下面两个数据图标对比可以看出,不同尺寸下对比增长的幅度有明显的不同。

数据分析也有BUG!劝你不要过度迷信数据分析……

2. 重新定级

对于数据的定级不同,可以看出数据的差距也是特别大。

数据分析也有BUG!劝你不要过度迷信数据分析……

3. 提自己,不做对比

购买A类产品的用户中80%都是甲类用户,是不是就应该给甲类用户推荐更多A类产品。


这个结论乍一看没有问题,但是如果B类产品的用户中90%都是甲类用户呢?如果B类产品中只有20%是甲类用户,但是B类产品基数远大于A类呢?


很多时候,数据还是要对比才有有意义。


4. 自定标准

只要你敢加的标签足够多,你就永远是名列前茅,虽然小明考试考了班里的40名,但是他在第四列所有身高1.7以上的学生中排名第2。


所以在看到有广告声称自己产品排名怎么怎么样,可以想一想这排名是怎么排出来的。


5. 片面释放

为什么每次平均收入一公布,大家都觉得自己拖后腿了?


其实数据分布情况不一样,平均数有时并不能描述“平均情况”。还有中位数,众数等评价指标。



总而言之,数据只是数据,它来帮助我们理解复杂的世界中庞大的信息,但是不是万能的,是来帮我们解释,而不是替我们思考的。





关注“职坐标在线”(Zhizuobiao_Online)公众号,免费获取最新技术干货教程资源哦



本文由 @小职 发布于职坐标。未经许可,禁止转载。
喜欢 | 0 不喜欢 | 0
看完这篇文章有何感觉?已经有0人表态,0%的人喜欢 快给朋友分享吧~
评论(0)
后参与评论

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场 匹配合适岗位
验证码手机号,获得海同独家IT培训资料
选择就业方向:
人工智能物联网
大数据开发/分析
人工智能Python
Java全栈开发
WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了,明天再试试吧!

提交

我们会在第一时间安排职业规划师联系您!

您也可以联系我们的职业规划师咨询:

小职老师的微信号:z_zhizuobiao
小职老师的微信号:z_zhizuobiao

版权所有 职坐标-一站式IT培训就业服务领导者 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
 沪公网安备 31011502005948号    

©2015 www.zhizuobiao.com All Rights Reserved

208小时内训课程