一文读懂相关分析

线上365bet体育 2026-02-08 23:05:35 admin

什么是相关性

“万物皆有联”,是大数据一个最重要的核心思维。

所谓联,这里指的就是事物之间的相互影响、相互制约、相互印证的关系。而事物这种相互影响、相互关联的关系,就叫做相关关系,简称相关性。

世界上的所有事物,都会受到其它事物的影响:

HR经常会问:影响员工离职的关键原因是什么?是工资还是发展空间?

销售人员会问:哪些要素会促使客户购买某产品?是价格还是质量?

营销人员会问:影响客户流失的关键因素有哪些?是竞争还是服务等?

产品设计人员:影响汽车产品受欢迎的关键功能有哪些?价格、还是动力等?

……

所有的这些商业问题,转化为数据问题,不外乎就是评估一个因素与另一个因素之间的相互影响或相互关联的关系。而分析这种事物之间关联性的方法,就是相关性分析方法。

当然,有相关关系,并不一定意味着是因果关系。但因果关系,则一定是相关关系。

在过去,主要是要寻找影响事物的因果关系,所以过去也叫影响因素分析。但是,从统计学方法来说,因果关系一定会有统计显著,但统计显著并不一定就是因果关系,所以准确地说,影响因素分析应该改为相关性分析。

所以,在不引起混淆的情况下,我们也会用影响因素分析。

相关性与影响因素分析

▷ 相关性种类

客观事物之间的相关性,大致可归纳为两大类:一类是函数关系,一类是统计关系。

函数关系,就是两个变量的取值存在一个函数来唯一描述。比如,销售额与销售量之间的关系,可用函数y=px(y表示销售额,p表示单价,x表示销售量)来表示。所以,销售量和销售额存在函数关系。这一类关系,不是我们关注的重点。

统计关系,指的是两事物之间的非一一对应关系,即当变量x取一定值时,另一个变量y虽然不唯一确定,但按某种规律在一定的范围内发生变化。比如,子女身高与父母身高、广告费用与销售额的关系,是无法用一个函数关系唯一确定其取值的,但这些变量之间确实存在一定的关系。大多数情况下,父母身高越高,子女的身高也就越高;广告费用花得越多,其销售额也相对越多。这种关系,就叫做统计关系。

进一步,统计分析如果按照相关的形态来说,可分为线性相关和非线性相关(曲线相关);如果按照相关的方向来分,可分为正相关和负相关,等等。详细见下面的图形。