第2章 数据
3.序列数据 记录型数据与图数据都忽视了时间和空间因素,而序列 数据的特点是强调顺序关系,其信息提取与模式解释需要兼 顾顺序关系。典型的序列数据包括时间序列数据、遗传序列 数据及空间序列数据等。 (1)时间序列数据:在不同时间上收集的数据,用于描述与 刻画事物随时间变化的情况,反映了某一事物、现象等随时 间的变化状态或程度。很多计量经济学的模型也用到了时间 序列数据。
合,其中记录之间不存在明显的关联关系,而且每个记录具有 相同的属性。这些特性使得数据可以采用表格或者矩阵的 形式来展示与存储,例如关系型数据库中的数据表格都属于 记录型数据。典型的记录型数据包括表格数据、事务数据、 数据矩阵、词频矩阵等,如图2-2所示。
第2章 数据
图2-2-典型的记录型数据
第2章 数据
交易事务数据(又称购物篮数据)是一类特殊的记录型数 据,其中每一个事务(记录)包含顾客某次所购买商品的集合, 例如图2-2(b)中就是某超市5条交易事务数据,每一行表示一 条交易事务,所对应的表格记录该交易事务所包含的商品。
第2章 数据
2.图数据 图数据是指包含数据对象之间存在关联关系的数据,其 中图节点表示数据对象,边表示对应的数据对象之间存在一 定的关联关系。记录型数据对象具有都不存在关联性的特 点,而图数据比记录型数据包含更多的信息。 在生物网络中,基因采用节点表示,基因之间的相互作用 利用边来表示,如图1 8所示。
第2章 数据
定义2.6(严格定义) 相似度是一个函数f,给定数据对象a、 b,相似度函数f 刻画数据对象之间的相似程度,同时应满足如 下三个条件:
(1)非负性,即f(a,b)≥0; (2)对称性,即f(a,b) =f(b,a); (3)有界性,即f(a,b) ∈[0,1]。 相似度与相异度的区别与联系如图2-3所示。