一个生活常识:男人去超市买尿不湿时会顺便去买瓶啤酒。 婴儿尿不湿 —> 啤酒 { 支持度=10%,置信度=70%}
上述式子表明,在所有顾客中,有10%(支持度)同时购买了婴儿尿不湿和啤酒,而在所有购买了尿不湿的顾客中, 占70%(置信度)还同时购买了啤酒。 ==>X对Y的支持度:事物全体中包含 XY 的事物百分比。主要衡量规则的有用性,若太小说明只是偶然事件。 ==>X对Y的置信度:既包含了X又包含了Y的事物总量占所有包含了X的事物数量的百分比。衡量的是规则的确定性 ,或者说是可预测性。
y01x12x2 . ..pxp
ps: 当p=1时,就是最简单的一元线性回归方程,即通过一个自变量来解释因变量。
1,2,...,p:自变量的系数。 ε:残差,一般假设为满足正态分布, ~N(0,1)
如何解释因变量的变化: a. 系统性变化,这个是由自变量引起的(也就是可以用自变量进行解释); b. 随机变化,不能由自变量进行解释,由残差所造成。
.
19
example:
•以影响房地产价格的因素为例:
人口数量(x1)、 人口密度(x2)、 城市化程度(x3)、 社会稳定情况(x4)、
国民经济水平(y1)、 税率(y2)、
平均工资(y3)、 银行利率(y4)、
线性组合
X=a1*x1+a2*x2+a3*x3+a4*x4 社会因素
Y=b1*y1+b2*y2+b3*y3+b4*y4 经济因素
描述:所谓关联分析,主要目的就是寻找数据集中频繁模式,通俗的说也就是两个或多个变量多次同时出现的关系。
应用:应用关联分析最经典的案例就是“购物篮分析”,通过分析顾客购物篮中物品之间的关联,可以挖掘顾客的购 物习惯,从而帮助零售商更好的制定有针对性的营销策略。(当当网、亚马逊等常用的推荐算法Apriori)