当前位置:文档之家› 互联网数据挖掘基本概念

互联网数据挖掘基本概念

互联网数据挖掘基本概念
互联网数据挖掘基本概念

【最新资料,Word版,可自由编辑!】

介绍邦弗朗尼原理(Bonferroni’sprinciple),该原理实际上对数据挖掘的过度使用提出了警告。本章还概述了一些非常有用的思想,它们未必都属于数据挖掘的范畴,但是却有利于理解数据挖掘中的某些重要概念。这些思想包括度量词语重要性的TF.IDF权重、哈希函数及索引结构的性质、包含自然对数底e 的恒等式等。最后,简要介绍了后续章节所要涉及的主题。

1.1数据挖掘的定义

最广为接受的定义是,数据挖掘(datamining)是数据“模型”的发现过程。而“模型”却可以有多种含义。下面介绍在建模方面最重要的几个方向。

1.1.1统计建模

最早使用“datamining”术语的人是统计学家。术语“datamining”或者“datadredging”最初是贬义词,意指试图抽取出数据本身不支持的信息的过程。1.2节给出了这种挖掘情况下可能犯的几类错误。当然,现在术语“datamining”的意义已经是正面的了。目前,统计学家认为数据挖掘就是统计模型(statisticalmodel)的构建过程,而这个统计模型指的就是可见数据所遵从的总体分布。

例1.1假定现有的数据是一系列数字。这种数据相对于常用的挖掘数据而言显得过于简单,但这只是为了说明问题而采用的例子。统计学家可能会判定这些数字来自一个高斯分布(即正态分布),并利用公式来计算该分布最有可能的参数值。该高斯分布的均值和标准差能够完整地刻画整个分布,因而成为上述数据的一个模型。

1.1.2机器学习

有些人将数据挖掘看成是机器学习的同义词。毫无疑问,一些数据挖掘方法中适当使用了机器学习算法。机器学习的实践者将数据当成训练集来训练某类算法,比如贝叶斯网络、支持向量机、决策树、隐马尔可夫模型等。

某些场景下上述的数据利用方式是合理的。机器学习擅长的典型场景是人们对数据中的寻找目标几乎一无所知。比如,我们并不清楚到底是影片的什么因素导致某些观众喜欢或者厌恶该影片。因此,在Netflix竞赛要求设计一个算法来预测观众对影片的评分时,基于已有评分样本的机器学习算法获得了巨大成功。在9.4节中,我们将讨论此类算法的一个简单形式。

另一方面,当挖掘的目标能够更直接地描述时,机器学习方法并不成功。一个有趣的例子是,WhizBang!实验室1曾试图使用机器学习方法在Web上定位人们的简历。但是不管使用什么机器学习算法,最后的效果都比不过人工设计的直接通过典型关键词和短语来查找简历的算法。由于看过或者写过简历的人都对简历包含哪些内容非常清楚,Web页面是否包含简历毫无秘密可言。因此,使用机器学习方法相对于直接设计的简历发现算法而言并无任何优势。

1.1.3建模的计算方法

1 该初创实验室试图使用机器学习方法来进行大规模数据挖掘,并且雇用了大批机器学习高手来实

现这一点。遗憾的是,该实验室并没有能够生存下来。

近年来,计算机科学家已将数据挖掘看成一个算法问题。这种情况下,数据模型仅仅就是复杂查询的答案。例如,给定例1.1中的一系列数字,我们可以计算它们的均值和标准差。需要注意的是,这样计算出的参数可能并不是这组数据的最佳高斯分布拟合参数,尽管在数据集规模很大时两者非常接近。

数据建模有很多不同的方法。前面我们已经提到,数据可以通过其生成所可能遵从的统计过程构建来建模。而其他的大部分数据建模方法可以描述为下列两种做法之一:

(1)对数据进行简洁的近似汇总描述;

(2)从数据中抽取出最突出的特征来代替数据并将剩余内容忽略。

在接下来的内容中,我们将探究上述两种做法。

1.1.4数据汇总

一种最有趣的数据汇总形式是PageRank,它也是使谷歌成功的关键算法之一,我们将在第5章对它进行详细介绍。在这种形式的Web挖掘当中,Web的整个复杂结构可由每个页面所对应的一个数字归纳而成。这种数字就是网页的PageRank值,即一个Web结构上的随机游走者在任意给定时刻处于该页的概率(这是极其简化的一种说法)。PageRank的一个非常好的特性就是它能够很好地反映网页的重要性,即典型用户在搜索时期望返回某个页面的程度。

另一种重要的数据汇总形式是聚类,第7章将予以介绍。在聚类中,数据被看成是多维空间下的点,空间中相互邻近的点将被赋予相同的类别。这些类别本身也会被概括表示,比如通过类别质心及类别中的点到质心的平均距离来描述。这些类别的概括信息综合在一起形成了全体数据集合的数据汇总结果。

例1.2一个利用聚类来解决问题的着名实例发生在很久以前的伦敦,在整个问题的解决中并没有使用计算机2。内科医生JohnSnow在处理霍乱爆发时在城市地图上标出了病例的发生地点。图1-1给出了该图的一个小片段,展示了病例的传播情况。

图1-1在伦敦市地图上标出的霍乱病例的传播情况示意图

图中显示,病例聚集在某些交叉路口。这些路口的水井已经被污染,离这些水井最近的居民染上了疾病,而清洁的水井附近的居民则没有染病。如果没对这些数据进行聚类,霍乱的病因就难以揭开。

1.1.5特征抽取

典型的基于特征的模型会从数据中寻找某个现象的最极端样例,并使用这些样例来表示数据。熟悉机器学习的一个分支——贝叶斯网络(并不在本书的讨论范围内)的读者应该会知道,在贝叶斯网络中,可以利用寻找对象间的最强统计依赖来表示所有统计关联,从而表示出对象之间的复杂关系。我们将要介绍大规模数据集下的一些重要的特征抽取类型,它们包括以下两种。

(1)频繁项集(frequentitemset)该模型适用于多个小规模项集组成的数据,就像我们将在第6章讨论的购物篮问题(market-basketproblem)一样。我们寻找那些在很多购物篮中同时出现的小规模项集,这些频繁项集就是我们要找的刻画数据的特征。这种挖掘的原始应用的的确确发生在真实的购物篮场景下:在商店或者超市收银台结账的时候确实会发现某些物品会被顾客同时购买,例如汉堡包和番茄酱,这些物品就组成所谓的项集。

(2)相似项(similaritem)很多时候,数据往往看上去相当于一系列集合,我们的目标是寻找那些共同元素比例较高的集合对。一个例子是将在线商店(如Amazon)的顾客看成是其已购买的商品的集合。为了使Amazon能够向某顾客推荐他可能感兴趣的其他商品,Amazon可以寻找与该顾客相似的顾客群,并把他们当中大部分人购买过的商品也推荐给他。该过程称为协同过滤(collaborativefiltering)。如果顾客的兴趣都很单一,即他们只购买某一类的商品,那么将顾客聚类的方法可能会起作用。然而,由于顾客大都对许多不同的商品感兴趣,因此对每个顾客而言,寻找兴趣相似的那部分顾客并根据这些关联对数据进行表示的做法会更有用。我们将在第3章讨论相似性。

1.2数据挖掘的统计限制

一类常见的数据挖掘问题涉及在大量数据中发现隐藏的异常事件。本节主要讨论这个问题,并介绍对数据挖掘的过度使用进行警告的邦弗朗尼原理。

1.2.1 整体情报预警

2002年,美国布什政府提出了一项针对所有可获得的数据进行挖掘的计划,目的用于追踪恐怖活动,这些数据包括信用卡收据、酒店记录、旅行数据以及许多其他类型的情报。该计划被称为整体情报预警(TotalInformationAwareness ,TIA )。TIA 计划无疑在隐私倡导者当中受到了极大关注,虽然最终它并没有被国会通过,但其实我们并不清楚这种计划是否已被冠以其他名称而得以真正实施。隐私和安全的折中困难姑且不在本书的讨论目的之列,然而,TIA 或类似系统若想进一步发展,在其可行性和所依赖假设的现实性方面还需做更多的技术改进。

很多人关心的是,如果浏览了这么多数据,并且想从这些数据当中发现疑似的恐怖行为,那么难道最终就不会找出很多无辜的行为?乃至虽然非法但不是恐怖行为的行为?这些发现会导致警察的登门造访甚至更糟的情形。答案取决于所定义行为的严密程度。统计学家已经发现了该问题的各种伪装形式,并且提出了一个理论。该理论将在下一节介绍。

1.2.2 邦弗朗尼原理

假定人们有一定量的数据并期望从该数据中找到某个特定类型的事件。即使数据完全随机,也可以期望该类型事件会发生。随着数据规模的增长,这类事件出现的数目也随之上升。任何随机数据往往都会有一些不同寻常的特征,这些特征看上去虽然很重要,但是实际上并不重要,除此之外,别无他由,从这个意义上说,这些事件的出现纯属“臆造”。统计学上有一个称为邦弗朗尼校正(Bonferronicorrection )的定理,该定理给出一个在统计上可行的方法来避免在搜索数据时出现的大部分“臆造”正响应。这里并不打算介绍定理的统计细节,只给出一个非正式的称为邦弗朗尼原理的版本,该原理可以帮助我们避免将随机出现看成真正出现。在数据随机性假设的基础上,可以计算所寻找事件出现次数的期望值。如果该结果显着高于你所希望找到的真正实例的数目,那么可以预期,寻找到的几乎任何事物都是臆造的,也就是说,它们是在统计上出现的假象,而不是你所寻找事件的凭证。上述观察现象是邦弗朗尼原理的非正式阐述。

以寻找恐怖分子为例,可以预期在任何时候都几乎没有恐怖分子在活动。按照邦弗朗尼原理,只需要寻找那些几乎不可能出现在随机数据中的罕见事件来发现恐怖分子即可。下一节将给出一个扩展的例子。

1.2.3 邦弗朗尼原理的一个例子

假设我们确信在某个地方有一群恶人,目标是把他们揪出来。再假定我们有理由相信,这些恶人会定期在某个宾馆聚会来商讨他们的作恶计划。为限定问题的规模,我们再给出如下假设:

(1)恶人数目可能有10亿;

(2)每个人每100天当中会有一天去宾馆;

(3)一个宾馆最多容纳100个人。因此,100000个宾馆已足够容纳10亿人中的1%在某个给定的日子入住宾馆;

(4)我们将对1000天的宾馆入住记录进行核查。

为了在上述数据中发现恶人的踪迹,我们可以找出那些在两个不同日子入住同一宾馆的人。但是假设并没有恶人,也就是说,给定某一天,对每个人来说,他们都是随机地确定是否去宾馆(概率为0.01),然后又是随机地从105个宾馆中选择一个。从上述数据中,我们能否推断出某两个人可能是恶人?

接下来我们做个简单的近似计算。给定某天,任意两个人都决定去宾馆的概率为0.0001,而他们入住同一宾馆的概率应该在0.0001基础上除以105(宾馆的数量)。因此,在给定某天的情况下,两个人同时入住同一宾馆的概率是10?9。而在任意给定的不同的两个日子,两人入住同一宾馆的概率就是10?9的平方,即10?18。需要指出的是,上述推理中只需要两人两次中每次住的宾馆相同即可,并不需要两次都是同一家宾馆3。

基于上述计算,我们必须要考虑到底事件出现多少次才意味着作恶事件的发生。上例中,“事件”

的含义是指“两个人在两天中的每一天入住相同宾馆”。为简化数字运算,对于较大的n ,2n ?? ???

大概等

3如第一天大家都住A ,第二天都住B 。但A 可以不等于B 。——译者注

于n2/2。下面我们都采用这个近似值。因此在109中的人员组对个数为

9

10

2

??

?

??

=5×1017,而在1000天内

任意两天的组合个数为

1000

2

??

?

??

=5×105。疑似作恶事件的期望数目应该是上述两者的乘积再乘上“两个

人在两天中的每一天入住相同宾馆”的概率,结果为

5×1017×5×105×10?18=250000

也就是说,大概有25万对人员看上去像恶人,即使他们根本不是。

现在假定实际上只有10对人员是真正的恶人。警察局需要调查25万对人员来寻找他们。除了会侵犯近50万无辜人们的生活外,所需的工作量非常大,以至于上述做法几乎是不可行的。

1.2.4习题

习题1.2.1基于1.2.3节的信息,如果对数据做如下改变(其他数据保持不变),那么可能的嫌疑人员对的数目是多少?

(1)观察的天数从1000天增加到2000天。

(2)要观察的总人员数目上升到20亿(因此需要200000个宾馆)。

(3)只有在不同的三天内的同一时刻两个人入住相同宾馆的情况下,才进行嫌疑报告。

!习题1.2.2假定有1亿人的超市购物记录,每个人每年都会去超市100次,每次都会买超市中1000种商品中的10种。我们相信,两个恐怖分子会在一年中的某个时段购买相同的10种商品(比如制造炸弹的材料)。如果对购买相同商品集合的人员对进行搜索,那么能否期望我们发现的任何这类人员都是真正的恐怖分子?4

1.3相关知识

本节中,我们将简要介绍一些有用的主题,读者可能在其他课程的研究中接触过或者根本没有接触过这些主题,但是它们却对于数据挖掘的研究相当有益。这些主题包括:

(1)用于度量词语重要性的TF.IDF指标;

(2)哈希函数及其使用;

(3)二级存储器(磁盘)及其对算法运行时间的影响;

(4)自然对数的底e及包含它的一系列恒等式;

(5)幂定律(powerlaw)。

1.3.1词语在文档中的重要性

数据挖掘的不少应用都会涉及根据主题对文档(词语的序列)进行分类的问题。一般来说,文档的主题主要通过找到一些特定的能够体现主题的词语来刻画。例如,有关棒球(baseball)的文章当中往往会出现类似“ball”(球)、“bat”(球棒)、“pitch”(投球)以及“run”(跑垒)之类的词语。一旦将文档分到确实是关于棒球的主题类中,不难发现上述词语在文档当中的出现往往十分频繁。但是,在没有分类之前,并不能确定这些词语就刻画了棒球的主题类别。

因此,分类的第一步往往是考察文档并从中找出重要的词语。为达到这个目的,我们首先猜测文档中最频繁出现的词语应该最重要。但是,这个直觉和实际情况恰恰相反。出现最频繁的大部分词语肯定都是那些类似于“the”或者“and”的常见词,这些词通常都用于辅助表达但本身不携带任何含义。实际上,英语中几百个最常见的词(称为停用词)往往都在文档分类之前就被去掉。

事实上,描述主题的词语往往都相对罕见。但是,并非所有罕见词在做指示词时都同等重要。一方面,某些在整个文档集合中极少出现的词语(如“notwithstanding”或“albeit”)并不能提供多少有用的信息。另一方面,某个如“chukker”(马球比赛中的一局)的词虽然和上述词语一样罕见,但是该词语却能提示我们文档明显和马球运动有关。上述两类罕见词的区别与它们是否在部分文档中反复出现有关。也就是说,类似“albeit”的词语在文档中出现并不会增加它多次出现的可能性。但是,如果一篇文章有一次提到“chukker”,那么文档可能会提到“firstchukker”(第一局)发生什么,接着提到

4也就是说,假定恐怖分子一定会在一年中的某个时段购买相同的10件商品。这里不考虑恐怖分子是否必须要这样做。

“secondchukker”(第二局)发生什么,以此类推。也就是说,如果这类词在文档中出现那么它们很可能会反复出现。

这种度量给定词语在少数文档中反复出现程度的形式化指标称为TF.IDF(TF指词项频率,是TermFrequency的缩写,IDF指逆文档频率,是InverseDocumentFrequency的缩写,TF.IDF表示词项频率乘以逆文档频率)。它通常采用如下方式计算。假定文档集中有N篇文档,f ij为词项i在文档j中出现的频率(即次数),于是,词项i在文档j中的词项频率TF ij定义为

也就是词项i在文档j中的词项频率f ij归一化结果,其中归一化通过f ij除以同一文档中出现最多的词项(可能不考虑停用词的频率)的频率来计算。因此,文档j中出现频率最大的词项的TF值为1,而其他词项的TF值都是分数5。

假定词项i在文档集的n i篇文档中出现,那么词项i的IDF定义如下:

于是,词项i在文档j中的得分被定义为TF ij×IDF i,具有最高TF.IDF得分的那些词项通常都是刻画文档主题的最佳词项。

例1.3假定文档集中有220=1048576篇文档,假定词语w在其中的210=1024篇文档中出现,那么IDF w=log2(220/210)=log2(210)=10。考虑一篇文档j,w在该文档中出现20次,这也是文档当中出现最多的词(停用词可能已经去掉)。那么TF wj=1,于是w在文档j中的TF.IDF得分为10。

假定在文档k中,词语w出现一次,而该文档中任一词语最多出现20次。于是有TF wk=1/20,w在文档k中的TF.IDF得分为1/2。

1.3.2哈希函数

读者或许听说过哈希表,也可能在Java类或类似软件包当中使用过哈希表。实现哈希表的哈希函数在多个数据挖掘算法中都是核心要素,不过在这些数据挖掘算法中,哈希表却和一般常见的形式有所不同。下面我们将介绍哈希函数的基本知识。

首先,哈希函数h的输入是一个哈希键值(hash-key),输出是一个桶编号(bucketnumber)。假定桶的个数为整数B,则桶编号通常是0到B-1之间的整数。哈希键值可以是任何类型的数据。哈希函数的一个直观性质是它们将哈希键值“随机化”(randomize)。更精确地说,如果哈希键值随机地从某个合理的可能的哈希键分布中抽样而成,那么函数h将会把数目近似相等的哈希键值分配到每个桶中。这一点有可能做不到,比如当所有可能的哈希键值数目少于桶数目B时就是如此。当然我们可以认为该总体不具有“合理”分布。然而,可能存在更细微的原因导致哈希函数的结果不能近似均匀地分布。

例1.4假设所有的哈希键都是正整数。一个普遍且简单的哈希函数是h(x)=x mod B,即x除以B之后的余数。如果哈希键的总体是所有的正整数,那么上述哈希函数产生的结果会非常均匀,即1/B的整数将被分到每个桶中。但是,如果哈希键只能是偶数值,并且如果B=10,那么h(x)的结果只能是0、2、4、6和8,也就是说,此时哈希函数的行为明显不够随机。另一方面,如果选择B=11,那么会有1/11的偶数会分到每个桶中,这时候哈希函数的效果又会很好。

对上例进行一般化,当哈希键都是整数时,如果选用一个与所有可能的哈希键(或者大部分)都具有公因子的B时,将会导致分配到桶中的结果不随机。因此,通常都首选将B取为素数。尽管这种情况下我们还必须要考虑所有的哈希键以B为因子的可能性,但是上述选择方法减少了非随机行为的可能性。当然,还有很多其他类型的哈希函数并不基于取模运算。这里也并不打算概括所有可能的哈希函数类型,但是在最后一节的参考文献讨论当中也提到了一些相关的信息来源。

如果哈希键不是整数,要如何处理呢?在某种意义上说,所有数据类型的值都由比特位组成,而比特位序列常常可以解释成整数。但是,有一些简单的规则可以将通用的类型转化成整数。例如,如果哈希键是字符串,那么可以将每个字符转换成其对应的ASCII码或Unicode码,每个码可以解释为一个小整数。在除以B之前可以将这些整数求和,只要B小于字符串总体中各字节字符码的典型求和结果,那么最后对B取模的结果相对还是比较均匀的。如果B更大,那么可以将字符串拆分成多个组,每个组包含多个字符,一组字符可以连在一起看成一个整数。然后,将每组字符对应的整数求和之后对B取模。比如,如果B在10亿上下或者说230,那么每四个字符合成一组对应一个32位的整数,多个32位整数的求和结果将会相当均匀地分配到10亿个桶中去。

对于更复杂的数据类型,可以对上述字符串转化为整数的思路进行扩展来递归式处理。

对于记录型数据,记录中每个字段都有自己的类型,那么可以采用适合该类型的算法将每个字段递归地转换成整数,然后将所有字段转换出的整数求和,最后对B取模来将整数分配到不同桶中去。

5 因为都是两个正整数词频相除。——译者注

对于数组型、集合型或包(bag)型6数据,数据中的每一个元素都是相同类型。可以先将每个元素的值转换成整数,然后求和并对B取模。

1.3.3索引

给定某种对象的一个或多个元素值,索引是一种能够支持对象高效查找的数据结构。最常见的一种情况是对象都是记录,而索引按照记录中的某个字段来建立。给定该字段的值v,基于索引能够快速返回该字段值等于v的所有记录。例如,假定有一个由一系列三元组<姓名,地址,电话号码>组成的档案记录表以及基于电话号码字段建立的索引。当给定一个电话号码时,基于索引就能快速找到包含该号码的一条或者多条记录。

实现索引的方法有很多,这里并不打算给出全面的介绍。参考文献部分给出了扩展阅读的建议。但是,哈希表是一种简单的索引构建方法。哈希函数的输入键是用于建立索引的一个或者多个字段。对于某条记录来说,哈希函数会基于其中哈希键的值进行计算,然后将整条记录分配到某个桶中,而桶的号码取决于哈希函数的结果。举例来说,这里的桶可以是内存或磁盘块中的一个记录表7。

于是,给定一个哈希键值,我们可以先求哈希函数的值,然后根据该值寻找相应的桶,最后只须在该桶中寻找包含给定哈希键值的记录即可。如果我们选取的桶数目B和档案中所有记录的数目大体相当,那么分配到每个桶的记录数目都会较小,这样在桶内部的搜索速度就会很快。

例1.5图1-2给出了包含姓名(name)、地址(address)和电话号码(phone)字段的记录的内存索引结构的大概样子。这里,索引基于电话号码字段构建,而桶采用链表结构。图中展示电话号码800-555-1212所对应的哈希到桶号码为17。对于桶头(bucketheader)构成的数组,其第i个元素实际上是第i个桶对应链表的头指针。图中展开了链表中的一个元素,它包含姓名、地址和电话号码字段的一条记录。事实上,该元素对应记录包含的电话号码正好是800-555-1212,但是该桶中的其他记录可能包含也可能不包含这个电话号码,我们只知道这些记录中的电话号码经过哈希变换之后结果都是17。

图1-2一个使用哈希表的索引,其中电话号码经过哈希函数映射到不同桶中,

桶的编号就是哈希结果值

1.3.4二级存储器

当处理大规模数据时,数据一开始在磁盘还是在内存那么计算的时间开销相差很大,很好地理解这一点相当重要。磁盘的物理特性是另外一个话题,对于这个话题有说不完的内容,但是本书当中只给出一点点介绍,感兴趣的读者可以按照参考文献的提示查阅相关资料。

磁盘组织成块结构,每个块是操作系统用于在内存和磁盘之间传输数据的最小单元。例如,Windows 操作系统使用的块大小为64KB(即216=65536字节)。需要大概10毫秒的时间来访问(将磁头移到块所在的磁道并等待在该磁头下进行块旋转)和读取一个磁盘块。相对于从内存中读取一个字的时间,磁盘的读取延迟大概要慢5个数量级(即存在因子105)。因此,如果只需要访问若干字节,那么将数据放在内存中将具压倒性优势。实际上,假如我们要对一个磁盘块中的每个字节做简单的处理,比如,将块看成哈希表中的桶,我们要在桶的所有记录当中寻找某个特定的哈希键值,那么将块从磁盘移到内存的时间会大大高于计算的时间。

我们可以将相关的数据组织到磁盘的单个柱面(cylinder)上,因为所有的块集合都可以在磁盘中心的固定半径内可达,因此可以不通过移动磁头就可以访问,这样可以以每块显着小于10ms的速度将柱面上的所有块读入内存。假设不论数据采用何种磁盘组织方式,磁盘上数据到内存的传送速度不可能超过100MB/s。当数据集规模仅为1MB时,这不是个问题,但是,当数据集在100GB或者1TB规模时,仅仅进行访问就存在问题,更何况还要利用它来做其他有用的事情了。

1.3.5自然对数的底e

6一种允许集合中元素重复的数据类型。——译者注

7由于多条记录可能会哈希哈希到同一个桶中,因此每个桶通常由多条记录所组成的表构成。——译者注

常数e=2.7182818···具有一些非常有用的特性。具体来讲,e是当x趋向于无穷大时,

1

1

x

x

??

+

?

??

的极

限。当x分别等于1、2、3和4时,上式的值分别近似为2、2.25、2.37和2.44,很容易相信该序列的极限大概在2.72左右。

一些看上去比较复杂的表达式可以通过代数公式来得到近似值。考虑(1+a)b,其中a很小(a>0)。该

式子可以重写成(1+a)(1/a)(ab),于是可以将a替换为1/x,即x=1/a,得到

()

1

1

x ab

x

??

+

?

??

,即

由于已经假定a很小,所以x很大,因此

1

1

x

x

??

+

?

??

接近极限e,于是上式可以通过e ab来近似。

当a为负值时,类似的等式也成立。也就是说,当x趋向无穷大时,

1

1

x

x

??

-

?

??

的极限为1/e。于是,

当a是一个绝对值很小的负数时,(1+a)b仍然近似等于e ab。换句话说,当a很小b很大时(a>0),(1?a)b 近似等于e?ab。

一些其他有用的等式来自e x的泰勒展开公式,即e x=

i=0

! i

x

∑或者说e x=1+x+x2/2+x3/6+x4/24+…。当x很大时,上述数列收敛速度较慢。当然对于任何常数x,由于n!会比x n增长得快得多,所以该数列一定会收敛。然而,当x较小时,不论它是正是负,上述数列都会快速收敛,也就是说不需要计算太多项就可以得到较好的近似值。

例1.6令x=1/2,有

e1/2=1+1/2+1/8+1/48+1/384+…

或约为e1/2=1.64844

令x=?1,有

e?1=1?1+1/2?1/6+1/24?1/120+1/720?1/5040+…

或约为e?1=0.36786。

1.3.6幂定律

在很多现象中,两个变量之间通过幂定律(powerlaw,也称幂律)关联起来,也就是说,两个变量在对数空间下呈现出线性关系。图1-3给出了这样的一种关系。该图中横坐标x和纵坐标y之间的关系为log10y=6?2log10x。

图1-3一个斜率为?2的幂定律关系图

例1.7我们来考察https://www.doczj.com/doc/6f17822842.html,上的图书销售情况,令x表示图书的销量排名,y对应的是销售排名为x的畅销图书在某个时间段的销量。图1-3表明,销售排行第1位的图书的销量是1000000册,而排行第10位的图书的销量为10000册,排行第100位的图书销量为100册,以此类推可以得出排名中所有图书的销量。从图中可以看到,排名超过1000的图书的销量是一个分数,这有些极端,实际上我们预测排名远远超过1000的图书销量的曲线应该变得比较平。

马太效应

当幂值大于1时,幂定律的存在往往通过马太效应(Mattheweffect)来解释,在《圣经·马太福音》中,存在关于“富者越富”的一段话。很多现象都表现出类似特性,即一旦在某个特性获得高价值,那么会导致该特性获得更大的价值。例如,如果某个Web网页有很多入链,那么人们更可能找到该网页并从他们自己的某个网页链向它。另一个例子是,如果一本书在Amazon上卖得很好,那么它很可能会登广告,而当顾客访问Amazon网站时会看到这则广告,其中的一些人会选择购买这本书,从而造成销量的继续增长。

关于x和y的幂定律的一般形式为log y=b+a log x,如果增大对数的底(实际上没有影响),比如采用自然对数e作为方程两边的值,则有y=e b e a log x=e b x a,由于e b是一个常数,所以可以用常数c代替,于是幂定律可以写成y=cx a,其中a和c都是常数。

例1.8在图1-3中,当x=1时y=106,当x=1000时y=1。第一次代入后有106=c,第二次代入后有1=c(1000)a,我们知道c=106,通过第二次代入后,得出1=106(1000)a,于是a=?2。也就是说,图1-3表示的幂定律可以表示为y=106x?2或y=106/x2。

本书中将有多处数据都满足幂定律,举例如下。

(1)Web图当中节点的度按照网页的入链数对所有网页排序,令x为网页在排序结果的序

号,y为序号为x的网页的入链数。则y和x之间的关系和图1-3非常类似,只是这里的幂要稍大于图中的幂 2,已经发现在这种现象中的幂值接近2.1。

(2)商品的销量将商品(如https://www.doczj.com/doc/6f17822842.html,上的图书)按照去年一年的销量多少来排序,假定销量第x 位的商品的实际销量为y。那么y和x的函数关系和图1-3也类似。在9.1.2节中,我们将讨论这种销量分布的影响,那时我们还会提到其中的“长尾”现象。

(3)Web网站的大小计算Web站点上的网页数目,根据该数目对网站排序。假定第x个网站的网页数目为y,那么函数y(x)也服从幂定律。

(4)Zipf定律该幂定律最初来源于文档集中的词频统计。如果将词语按照出现频率排序,y表示排名第x位的词出现的次数,则可以得到一个幂定律,不过其坡度比图1-3的要平缓得多。Zipf的观察结果为y=cx?1/2。有趣的是,有不少其他类型的数据也满足这个特定的幂定律。比如,如果将美国的州按照人口数量排序,令y为人口第x多的州的人口数,则y和x近似地满足Zipf定律。

1.3.7习题

习题1.3.1假定一个由1000万篇文档组成的文档集,如果单词出现在(a)40篇或(b)10000篇文档中,那么它的IDF值是多少(给出最接近的整数值)?

习题1.3.2假定一个由1000万篇文档组成的文档集,某个词w出现在其中的320篇文档中。且在一篇具体的文档d中,出现最多的词出现了15次,那么w出现(a)1次或(b)5次情况下的TF.IDF得分分别是多少?

!习题1.3.3假定哈希键都来自某个常数c的所有非负整数倍,而哈希函数为h(x)=x mod15,那么常数c取何值时,h是一个合适的哈希函数?也就是说,此时大量随机的哈希键选择能够近乎均匀地分到不同桶当中。

习题1.3.4基于e的形式来近似表示下列数值。

(a)(1.01)500(b)(1.05)1000(c)(0.9)40

习题1.3.5采用e x的泰勒展开公式计算下列表达式直到小数点后3位小数。

(a)e1/10(b)e?1/10(c)e2

互联网数据挖掘期末考试论述题

1、 阐述互联网搜索系统的基本框架,比较当前主流中文互联网搜索系统的优缺点,并讨论如何改善现有中文搜索引擎。 简单地说,搜索引擎由抓取器、索引器、排序器、用户界面组成。抓取器从互联网上抓取网页,将垃圾网页过滤;索引器分析网页的内容,计算网页的重要度,将网页索引;用户界面接受查询语句,分析查询语句的内容;排序器从索引中检索出含有查询词的网页,实行查询语句与网页的匹配,将网页按相关度、重要度等进行排序;用户界面将排序结果展示给用户,同时收集用户搜索行为数据。 百度的优点: 1、对于中国人的阅读和浏览更为熟悉,服务更加本土化 2、提供RSS新闻订阅服务 3、提供历史和各省市新闻查阅 百度的缺点: 1、页面布局不合理页面没有充分利用 2、更新时间迅速的优势没有充分发挥 3、商业味太重,你搜索的关键字的首页基本都价排名出价高的企业占据了,很难找到你需要的真正自然搜索的结果,百度的搜索排名技术不够权威; 4、搜索结果中广告、垃圾网站和死链比较多 Google的优点: 1、容量大和范围广:其数据库如今是最大的,包括了PDF、DOC、PS及其他许多文件类型。 2、易用性较强。 3、根据站点的链接数和权威性进行相关性排序。 4、网页缓存归档,浏览过的网页被编入索引。 Google的缺点: 1、搜索特性有限,没有嵌套搜索,没有截词搜索,不支持全部的布尔逻辑检索。 2、链接搜索必须准确,而且不完整。 3、只能把网页的前101KB和PDF的大约前120KB编入索引。可能会在不告诉你的情况下,检索复数/单数、同义词和语法变体。

4、死链率比较高,中文网站检索的更新频率不够高,不能及时淘汰过时的链接。 雅虎的优点: 1、搜索引擎数据库庞大而且新颖。 2、包括页面的缓存拷贝。 3、也包括指向雅虎目录的链接。 4、支持全部的布尔逻辑检索。 雅虎的缺点: 1、缺少某些高级的搜索特性,譬如截词搜索。 2、只能把网页的前500KB(不过仍超过Google的101KB)编入索引。 3、连接搜索需要加入http://。包括有些付费才能加入的站点。 4、死链率较高而且缺少一些应有的高级搜索功能。 5、搜索结果的描述和在用户搜索过程中的提示说明也不太清晰、明了,搜索的易用性稍差。 1“百度”全球最大的中文搜索引擎,也是人们最常用的搜索引擎之一,常用于搜索网页、图片和mp3。搜索结果中广告、垃圾网站和死链比较多。 2、“Google”是功能强大,易用性最强的搜索网站,搜索速度快而且提供了最丰富的高级搜索功能。死链率比较高是Google最大的问题,中文网站检索的更新频率不够高,不能及时淘汰已经过时的链接。虽然通过“网页快照”功能,可以减少目标页面不存在的现象,但Google的“网页快照”功能在国内经常出现不可访问的问题,令用户无所适从。 3、“ 雅虎”中规中矩,网页搜索表现不错,但死链率较高而且缺少一些应有的高级搜索功能。 3.1.1增加标引的深度 目前的网络信息挖掘是基于形式的,如关键词、标题和URL等,所获得的信息与设定的要求只是简单的匹配,对于中文搜索引擎,要运用网络的数据挖掘和知识发现来分析信息的内容及其关系,增加标引的深度,以提高用户的检准率。3.1.2开发中文元搜索引擎 元搜索引擎由多个独立搜索引擎汇集而成,通常以一个统一的界面向用户开放,用户只需要进行一次提问,元搜索引擎便可将提问转给不同的搜索引擎,甚至可以对结果进一步处理,将重复结果删除后再输出。元搜索引擎的技术重心在于查询前的处理和结果的集成。元搜索引擎可以灵活选择所要采用的独立搜索引擎,一般都是选择那些比较典型的性能优异的独立搜索引擎,这种强强联合的结果保证了搜索结果的权威性和可靠性,它还可以充分发挥各个独立搜索引擎在某个搜索领域的功能,弥补独立搜索引擎信息覆盖面的局限性。 3.1.3改善检索性能 评价检索性能的指标有查全率、查准率、响应时间和检索结果输出格式等,可以从这些方面入手,有针对性地加强各个环节,改善检索性能。首先,要充分考虑各层次用户的水平,网络用户大多未经过网络检索的培训,对搜索引擎设置的各

网购的基本概念!(同名27035)

网络购物的基本概念 1999年底,随着互联网高潮来临。中国网络购物的用户规模不断上升。2010年中国网络购物市场延续用户规模、交易规模的双增长态势。据《2013-2017中国网络购物行业市场前瞻与投资预测分析报告》[2]统计数据显示,2010年中国网络购物市场交易规模接近5000亿,达4980.0亿元,占到社会消费品零售总额的3.2%;同时,网络购物用户规模达到1.48亿,在网民中的渗透率达30.8%。前瞻网认为对于一些传统企业而言,通过一些传统的营销手段已经很难对现今的市场形成什么重大的改变了。如果想将企业的销售渠道完全打开,企业就必需引进新的思维和新的方法。而网络购物正好为现今的传统企业提供了一个很好的机会与平台,传统企业通过借助第三方平台和建立自有平台纷纷试水网络购物,构建合理的网络购物平台、整合渠道、完善产业布局成为传统企业未来发展重心和出路。 中国的发展概况 中国第一宗网络购物发生在1996年的11月,购物人是加拿大驻中国大使贝详,他通过 实华开公司的网点,购进了一只景泰蓝“龙凤牡丹”。继北京之后,上海也于去年年底开张了第一家网络商店。一街道居民替儿子过生日,通过网上商店订购一只哈尔滨食品厂的大蛋糕,半小时后蛋糕就准时送到了门上。早在1999年以前,中国互联网的先知们就开始建立B2C网站,致力于在中国推动网络购物。但这种做法在当时遭到了经济学界的普遍质疑。 这种质疑主要来自三个方面: 第一,是否会有足够多的消费者会在线购物?答案是没有。到2000年,中国的网民人数仅为890万,而且大部分人并没有形成网络购物的习惯。所以,网络购物不会有很大市场。 第二,网络购物能否解决物流配送的问题?答案是不能。网络购物需要全国性的物流配送体系,而当时的快速物流、快速递送行业还只是处于起步阶段。很多经济学家一谈物流配送,就想到中国邮政,愈发觉得物流配送问题的不可解决性。

学习18大经典数据挖掘算法

学习18大经典数据挖掘算法 本文所有涉及到的数据挖掘代码的都放在了github上了。 地址链接: https://https://www.doczj.com/doc/6f17822842.html,/linyiqun/DataMiningAlgorithm 大概花了将近2个月的时间,自己把18大数据挖掘的经典算法进行了学习并且进行了代码实现,涉及到了决策分类,聚类,链接挖掘,关联挖掘,模式挖掘等等方面。也算是对数据挖掘领域的小小入门了吧。下面就做个小小的总结,后面都是我自己相应算法的博文链接,希望能够帮助大家学习。 1.C4.5算法。C4.5算法与ID3算法一样,都是数学分类算法,C4.5算法是ID3算法的一个改进。ID3算法采用信息增益进行决策判断,而C4.5采用的是增益率。 详细介绍链接:https://www.doczj.com/doc/6f17822842.html,/androidlushangderen/article/details/42395865 2.CART算法。CART算法的全称是分类回归树算法,他是一个二元分类,采用的是类似于熵的基尼指数作为分类决策,形成决策树后之后还要进行剪枝,我自己在实现整个算法的时候采用的是代价复杂度算法, 详细介绍链接:https://www.doczj.com/doc/6f17822842.html,/androidlushangderen/article/details/42558235 3.KNN(K最近邻)算法。给定一些已经训练好的数据,输入一个新的测试数据点,计算包含于此测试数据点的最近的点的分类情况,哪个分类的类型占多数,则此测试点的分类与此相同,所以在这里,有的时候可以复制不同的分类点不同的权重。近的点的权重大点,远的点自然就小点。 详细介绍链接:https://www.doczj.com/doc/6f17822842.html,/androidlushangderen/article/details/42613011 4.Naive Bayes(朴素贝叶斯)算法。朴素贝叶斯算法是贝叶斯算法里面一种比较简单的分类算法,用到了一个比较重要的贝叶斯定理,用一句简单的话概括就是条件概率的相互转换推导。 详细介绍链接:https://www.doczj.com/doc/6f17822842.html,/androidlushangderen/article/details/42680161 5.SVM(支持向量机)算法。支持向量机算法是一种对线性和非线性数据进行分类的方法,非线性数据进行分类的时候可以通过核函数转为线性的情况再处理。其中的一个关键的步骤是搜索最大边缘超平面。 详细介绍链接:https://www.doczj.com/doc/6f17822842.html,/androidlushangderen/article/details/42780439 6.EM(期望最大化)算法。期望最大化算法,可以拆分为2个算法,1个E-Step期望化步骤,和1个M-Step最大化步骤。他是一种算法框架,在每次计算结果之后,逼近统计模型参数的最大似然或最大后验估计。

能源互联网发展趋势及展望

能源互联网发展趋势及展望 一、导论 能源互联网是互联网技术、能源技术与现代电力系统的结合,是信息技术与能源电力技术融合发展的必然趋势。因此如果以开放、互联、对等、分享的原则对电力系统网络进行重构,可以提高电网安全性和电力生产的效率,使得能源互联网内可以跟互联网一样信息分享无比便捷。在能源互联网提出来前,智能电网概念已经得到业内认可,智能电网的理论都已经非常成熟,从手段、理念到目标都非常清晰。正因如此,去年国家发改委和能源局出台了智能电网的有关指导性文件。 在智能电网的基础上,让互联网和智能电网深度融合,才会走向能源互联网。能源互联网不能简单认为是能源修饰互联网。如果简单从字面理解,能源互联网更多指向二次能源甚至新能源的互联网,这不全面。能源互联网应该是让包括新能源、非化石能源在内的更多的创新性能源技术,在互联网背景下的信息时代,整合得更坚实有力。能源互联网是互联网理念在能源领域的应用,但其并非能源与互联网的简单相加,而是一种新型的信息与能源深度融合的“广域网”,它以现有的大电网作为“主干网”,并以微网和分布式能源等能量自治单元为“局域网”,构建开放、互联、对等和分享的信息与能源一体化架构,以真正实现能量的按需分配与动态平衡使用,最大限度地灵活接入分布式可再生能源。通过信息化和智能化,智能电网力图在一定程度上解决电力系统自身的问题,提高设备的利用率、安全可靠性、电能质量等等,而能源互联网的基本出发点则是要解决未来大规模分布式能源和可再生能源与用户之间的开放互联问题,互联式的电网是最可行的方式。因此,能源互联网的核心在于能量的交换,信息通信控制是为了更好地支撑,信息物理融合在能源互联网中也非常重要。 形象地说,其实未来能源互联网的场景也很容易理解,就是源的极端动态(如间歇性的可再生能源达到50%以上)、负载动态加上个性化需求(如电能质量等),那么应如何构建能源互联网?能源互联网在一定程度上可以借鉴互联网的理念和技术,实现能量的交换。事实上,互联网从一开始面对的就是这样的需求——信息随时要求开放的接入(“源”是动态且开放的)、用户要求随时随地获取信息(“用”是动态且内容不断变化的),而且互联网需求的增长也非常迅速,应该说互联网架构演进到今天,虽然还存在很多问题,但基本上满足了这样的需求。 二、用户端 能源互联网,首先用户端就要联上网。“智能电表”的概念应运而生。智能电表是什么?智能电表是智能电网的智能终端和数据入口,为了适应智能电网,智能电表具有双向多种费率计量、用户端实时控制、多种数据传输模式、智能交互等多种应用功能。智能电表在智能电网数据资源整合中扮演着重要角色。在国家的“十二五”规划明确提出,物联网将会在智能电网、智能交通、智能物流等十大领域重点部署,其中智能电网总投资预计达2万亿元,位居首位。2015年8月,发改委7个物联网立项中首个验收工程“国家智能电网管理物联网应用示范工程”验收成功。之后国家能源局印发的《配电网建设改造行动计划(2015—2020年)》提出“推进用电信息采集全覆盖”、“2020年,智能电表覆盖率达到90%”以及“以智能电表为载体,建设智能

网络基本概念(一)

网络基本概念(一) (总分:96.00,做题时间:90分钟) 一、{{B}}选择题{{/B}}(总题数:50,分数:50.00) 1.组建一个星形网络通常比组建一个总线型网络昂贵,是因为________。 (分数:1.00) A.星形集线器非常昂贵 B.星形网络在每一根电缆的末端需要昂贵的连接头 C.星形网络接口卡比总线型接口卡昂贵 D.星形网络较之总线型需要更多的电缆√ 解析: 2.网络协议精确地规定了交换数据的________。 (分数:1.00) A.格式和结果 B.格式和时序√ C.结果和时序 D.格式、结果和时序 解析: 3.在下列传输介质中,________的抗电磁干扰性最好。 (分数:1.00) A.双绞线 B.同轴电缆 C.光缆√ D.无线介质 解析: 4.关于因特网,以下说法错误的是________。 (分数:1.00) A.用户利用HTTP协议使用WEB服务 B.用户利用NNTP协议使用电子邮件服务√ C.用户利用FTP协议使用文件传输服务 D.用户利用DNS协议使用域名解析服务 解析: 5.下列有关网络拓扑结构的叙述中,正确的是________。 (分数:1.00) A.网络拓扑结构是指网络结点间的分布形式 B.目前局域网中最普遍采用的拓扑结构是总线结构 C.树形结构的线路复杂,网络管理也较困难√ D.树形结构的缺点是,当需要增加新的工作站时成本较高 解析: 6.在网络环境下,每个用户除了可以访问本地机器上本地存储之外,还可以访问服务器上的一些外存,这种配备大容量的海量存储器的服务器是________。 (分数:1.00) A.文件服务器 B.终端服务器 C.磁盘服务器√ D.打印服务器 解析:

数据挖掘在互联网金融客户关系管理中的应用分析

数据挖掘在互联网金融客户关系管理中的应用分析 This model paper was revised by the Standardization Office on December 10, 2020

数据挖掘在零售银行客户关系管理中的应用分析 蔡洋萍1 (湖南农业大学经济学院湖南长沙 410128) 摘要:银行传统的商业模式发生了巨大变化,银行之间的竞争也日趋激烈。其竞争焦点由产品的竞争转变为争夺客户的竞争,拥有客户也就意味着拥有了市场,就能在激烈的竞争中取胜。因此,客户关系管理正越来越受到银行的重视。商业银行要获取客户,就需要深入了解客户的偏好,明晰客户需求。数据挖掘正是达到这一目的实现有效客户关系管理的关键技术。研究分析大数据时代零售银行客户关系管理,重点分析大数据技术在零售银行客户获取、客户情绪分析、客户行为预测、客户市场细分当中的应用。 关键词:数据挖掘零售银行客户关系管理 在我国利率市场化进程不断推进的背景下,长期以往以经营传统对公存贷业务为重心的商业银行利润空间将因利差收益缩窄而营收面临考验,商业银行不得不从新思索新的经营方向与营收来源。从国际商业银行的发展历程演变看,零售银行业务将是我国商业银行新的利润增长点。但是,随着我国互联网金融在“草根”阶层的深化,商业银行面临来自利率市场化与互联网企业跨界开展金融业务的双重挑战。因此,长期以来粗放式经营零售业务的商业银行不得不开始思索其零售银行业务如何转型与发展。当前,尽管商业银行 1基金项目:湖南省社科基金项目“我国村镇银行风险控制问题研究(13YBB102)”阶段性研究成果。 作者简介:蔡洋萍(1982-),女,汉族,江西宜春人,金融学博士,湖南农业大学经济学院讲师,研究方向:中小企业融资、农村金融。 联系方式:,E-mail,地址:长沙市芙蓉区湖南农业大学经济学院 410128。

数据挖掘分类算法比较

数据挖掘分类算法比较 分类是数据挖掘、机器学习和模式识别中一个重要的研究领域。通过对当前数据挖掘中具有代表性的优秀分类算法进行分析和比较,总结出了各种算法的特性,为使用者选择算法或研究者改进算法提供了依据。 一、决策树(Decision Trees) 决策树的优点: 1、决策树易于理解和解释.人们在通过解释后都有能力去理解决策树所表达的意义。 2、对于决策树,数据的准备往往是简单或者是不必要的.其他的技术往往要求先把数据一般化,比如去掉多余的或者空白的属性。 3、能够同时处理数据型和常规型属性。其他的技术往往要求数据属性的单一。 4、决策树是一个白盒模型。如果给定一个观察的模型,那么根据所产生的决策树很容易推出相应的逻辑表达式。 5、易于通过静态测试来对模型进行评测。表示有可能测量该模型的可信度。 6、在相对短的时间内能够对大型数据源做出可行且效果良好的结果。 7、可以对有许多属性的数据集构造决策树。 8、决策树可很好地扩展到大型数据库中,同时它的大小独立于数据库的大小。 决策树的缺点: 1、对于那些各类别样本数量不一致的数据,在决策树当中,信息增益的结果偏向于那些具有更多数值的特征。 2、决策树处理缺失数据时的困难。 3、过度拟合问题的出现。 4、忽略数据集中属性之间的相关性。 二、人工神经网络 人工神经网络的优点:分类的准确度高,并行分布处理能力强,分布存储及学习能力强,对噪声神经有较强的鲁棒性和容错能力,能充分逼近复杂的非线性关系,具备联想记忆的功能等。 人工神经网络的缺点:神经网络需要大量的参数,如网络拓扑结构、权值和阈值的初始值;不能观察之间的学习过程,输出结果难以解释,会影响到结果的可信度和可接受程度;学习时间过长,甚至可能达不到学习的目的。

能源互联网概念和发展分析

能源互联网概念和发展分析 人类的生存和发展离不开能源,其推动着经济发展和社会进步,每一次工业革命都伴随着能源类型的变化和能源使用方式的革新。目前,第三次工业革命正在世界范围内发生,而能源互联网是第三次工业革命的核心之一。以深入融合可再生能源与互联网信息技术为主要特征的能源互联网是未来能源行业 发展的方向,将成为开启能源革命的重要战略支点[1-3]。 目前,对能源互联网的概念及特征有多种理解及认知,为了辨识能源互联网的概念与特征,有效推进能源互联网实质性发展,有必要深入辨析能源互联网的概念、辨识能源互联网的特征。 本文首先调研分析了能源互联网的发展过程,提出到目前为止能源互联网大致经过3个发展阶段;进而,从3个角度对比剖析能源互联网的基本内涵,提出了能源互联网的定义;最后,给出了能源互联网的4层组成构架与两大分类,进一步对能源互联网进行特征辨识。 1 能源互联网发展历程 1.1 能源互联网概念孕育及提出阶段 能源互联网概念孕育及提出阶段始于20世纪70年代。巴克敏斯特·富勒首先提出“全球能源互联网战略”。1986年,彼得·迈森创立了Global Ener gy Network Institute(GENI-全球能源网络学会),旨在通过国与国之间的电力输电线路充分利用全球丰富的可再生能源[4]。20世纪80年代,清华大学

前校长高景德提出了现代电力系统是一个深度融合的系统,其将深度融合计算机技术、通信技术、控制技术与电力电子技术。 能源互联网概念孕育及提出阶段仅提出了能源互联网的初步概念及愿景,缺少对能源互联网内涵、结构、特征和形态等方面的探讨。 1.2 能源互联网系统结构及功能研究阶段 2004年3月11日,《经济学人》发表了《建设能源互联网》[5],首次提出了基于互联网特点及技术建设智能化、自动化、自愈化的能源互联网。这是能源互联网系统结构及功能研究阶段的起点,标志着现代能源互联网研究的开始。 2008年,德国联邦政府发起E-Energy项目,致力于建设高效的能源系统,主要通过ICT技术实现能源的生产、传输、转换、应用和储能全环节的智能化,德国成为首个实践能源互联网的国家[6-7]。2008年,美国北卡州立大学启动“未来可再生电能传输与管理系统”项目,研究高效智能化的配电系统,可有效支撑高渗透率分布式可再生能源的接入以及分布式储能的并网,并将其称为能源互联网[8-10]。2010年,日本开始实施“数字电网”计划,通过该计划的实施试图建立一种新型能源网[11-12],能源网络中各种设备可以通过IP来实现信息和能量的传递。2010年,瑞士联邦政府能源办公室和产业部门发起Vision of Future Energy Networks,重点研究多能源传输系统的利用和分布式能源的转换和存储[13-14]。

互联网广告的基本概念

互联网广告 基本含义 网络广告就是在网络上做的广告。利用网站上的广告横幅、文本链接、多媒体的方法,在互联网刊登或发布广告,通过网络传递到互联网用户的一种高科技广告运作方式。与传统的四大传播媒体(报纸、杂志、电视、广播)广告及近来备受垂青的户外广告相比,网络广告具有得天独厚的优势,是实施现代营销媒体战略的重要一部分。Internet是一个全新的广告媒体,速度最快效果很理想,是中小企业扩展装大的很好途径,对于广泛开展国际业务的公司更是如此。 简单地说,网络广告就是在网络上做的广告。利用网站上的广告横幅、文本链接、多媒体的方法,在互联网刊登或发布广告,通过网络传递到互联网用户的一种高科技广告运作方式。 与传统的四大传播媒体(报纸、杂志、电视、广播)广告及近来备受垂青的户外广告相比,网络广告具有得天独厚的优势,是实施现代营销媒体战略的重要一部分。Internet是一个全新的广告媒体,速度最快效果很理想,是中小企业扩展壮大的很好途径,对于广泛开展国际业务的公司更是如此。 目前网络广告的市场正在以惊人的速度增长,网络广告发挥的效用越来越显得重要。以致广告界甚至认为互联网络将超越路牌,成为传统四大媒体(电视、广播、报纸、杂志)之后的第五大媒体。因而众多国际级的广告公司都成立了专门的“网络媒体分部”,以开拓网络广告的巨大市场。 起源 追本溯源,网络广告发源于美国。1994年10月27日是网络广告史上的里程碑,美国著名的Hotwired杂志推出了网络版的Hotwired,并首次在网站上推出了网络广告,这立即吸引了AT&T 等14个客户在其主页上发布广告Banner,这标志着网络广告的正式诞生。更值得一提的是,当时的网络广告点击率高达40%。 发展史 中国的第一个商业性的网络广告出现在1997年3月,传播网站是Chinabyte,广告表现形式为468×60像素的动画旗帜广告。Intel和IBM是国内最早在互联网上投放广告的广告主。我国网

数据挖掘及决策树

理工大学信息工程与自动化学院学生实验报告 ( 2016 — 2017 学年第学期) 信自楼444 一、上机目的及容 目的: 1.理解数据挖掘的基本概念及其过程; 2.理解数据挖掘与数据仓库、OLAP之间的关系 3.理解基本的数据挖掘技术与方法的工作原理与过程,掌握数据挖掘相关工具的使用。 容: 给定AdventureWorksDW数据仓库,构建“Microsoft 决策树”模型,分析客户群中购买自行车的模式。 要求: 利用实验室和指导教师提供的实验软件,认真完成规定的实验容,真实地记录实验中遇到的 二、实验原理及基本技术路线图(方框原理图或程序流程图) 请描述数据挖掘及决策树的相关基本概念、模型等。 1.数据挖掘:从大量的、不完全的、有噪音的、模糊的、随机的数据中,提取隐含在其中的、 人们事先不知道的、但又潜在有用的信息和知识的过程。

项集的频繁模式 分类与预测分类:提出一个分类函数或者分类模型,该模型能把数据库中的数据项 映射到给定类别中的一个; 预测:利用历史数据建立模型,再运用最新数据作为输入值,获得未来 变化趋势或者评估给定样本可能具有的属性值或值的围 聚类分析根据数据的不同特征,将其划分为不同数据类 偏差分析对差异和极端特例的描述,揭示事物偏离常规的异常现象,其基本思想 是寻找观测结果与参照值之间有意义的差别 3.决策树:是一种预测模型,它代表的是对象属性与对象值之间的一种映射关系。树中每个 节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从 根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输 出,可以建立独立的决策树以处理不同输出。 算法概念 ID3 在实体世界中,每个实体用多个特征来描述。每个特征限于在一 个离散集中取互斥的值 C4.5 对ID3算法进行了改进: 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选 择取值多的属性的不足;在树构造过程中进行剪枝;能够完成对 连续属性的离散化处理;能够对不完整数据进行处理。 三、所用仪器、材料(设备名称、型号、规格等或使用软件) 1台PC及Microsoft SQL Server套件 四、实验方法、步骤(或:程序代码或操作过程) (一)准备 Analysis Services 数据库 1.Analysis Services 项目创建成功

数据挖掘复习知识点整理超详细

必考知识点: 信息增益算法/ ID3决策树(计算) (详细见教材) 使用朴素贝叶斯分类预测类标号(计算) FP-TREE(问答) (详细见教材) 数据仓库的设计(详见第二章)(问答) (见PPT) 数值规约Equi-depth、equi-width、v-optimal、maxdiff(问答) (详细见教材) BUC (这个也要考,但不记得怎么考的了) 后向传播神经网络(名词解释) K-平均,K-中心点,DBSCAN 解析特征化(这个也要考) 总论 数据挖掘:是从大量数据中发现有趣(非平凡的、隐含的、先前未知、潜在有用)模式,这些数据可以存放在数据库,数据仓库或其他信息存储中。 挖掘流程: (1)学习应用域(2)目标数据创建集(3)数据清洗和预处理(4)数据规约和转换(5)选择数据挖掘函数(总结、分类、回归、关联、分类)(6)选择挖掘算法(7)找寻兴趣度模式(8)模式评估和知识展示(9)使用挖掘的知识 概念/类描述:一种数据泛化形式,用汇总的、简洁的和精确的方法描述各个类和概念,通过(1)数据特征化:目标类数据的一般特性或特征的汇总;(2)数据区分:将目标类数据的一般特性与一个或多个可比较类进行比较;(3)数据特征化和比较来得到。 关联分析:发现关联规则,这些规则展示属性-值频繁地在给定数据集中一起出现的条件,通常要满足最小支持度阈值和最小置信度阈值。 分类:找出能够描述和区分数据类或概念的模型,以便能够使用模型预测类标号未知的对象类,导出的模型是基于训练集的分析。导出模型的算法:决策树、神经网络、贝叶斯、(遗传、粗糙集、模糊集)。 预测:建立连续值函数模型,预测空缺的或不知道的数值数据集。 孤立点:与数据的一般行为或模型不一致的数据对象。 聚类:分析数据对象,而不考虑已知的类标记。训练数据中不提供类标记,对象根据最大化类内的相似性和最小化类间的原则进行聚类或分组,从而产生类标号。 第二章数据仓库 数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程。从一个或多个数据源收集信息,存放在一个一致的模式下,并且通常驻留在单个站点。数据仓库通过数据清理、变换、继承、装入和定期刷新过程来构造。面向主题:排除无用数据,提供特定主题的简明视图。集成的:多个异构数据源。时变的:从历史角度提供信息,隐含时间信息。非易失的:和操作数据的分离,只提供初始装入和访问。 联机事务处理OLTP:主要任务是执行联机事务和查询处理。 联系分析处理OLAP:数据仓库系统在数据分析和决策方面为用户或‘知识工人’提供服务。这种系统可以用不同的格式和组织提供数据。OLAP是一种分析技术,具有汇总、合并和聚集功能,以及从不同的角度观察信息的能力。

数据挖掘十大算法

数据挖掘十大算法 数据挖掘十大算法—K 近邻算法 k -近邻算法是基于实例的学习方法中最基本的,先介绍基于实例学习的相关概念。 一、基于实例的学习。 1、已知一系列的训练样例,很多学习方法为目标函数建立起明确的一般化描述;但与此不同,基于实例的学习方法只是简单地把训练样例存储起来。 从这些实例中泛化的工作被推迟到必须分类新的实例时。每当学习器遇到一个新的查询实例,它分析这个新实例与以前存储的实例的关系,并据此把一个目标函数值赋给新实例。 2、基于实例的方法可以为不同的待分类查询实例建立不同的目标函数逼近。事实上,很多技术只建立目标函数的局部逼近,将其应用于与新查询实例邻近的实例,而从不建立在整个实例空间上都表现良好的逼近。当目标函数很复杂,但它可用不太复杂的局部逼近描述时,这样做有显著的优势。 3、基于实例方法的不足: (1)分类新实例的开销可能很大。这是因为几乎所有的计算都发生在分类时,而不是在第一次遇到训练样例时。所以,如何有效地索引训练样例,以减少查询时所需计算是一个重要的实践问题。(2)当从存储器中检索相似的训练样例时,它们一般考虑实例的所有属性。如果目标概念仅依赖于很多属性中的几个时,那么真正最“相似”的实例之间很可能相距甚远。 二、k-近邻法基于实例的学习方法中最基本的是k -近邻算法。这个算法假定所有的实例对应于n 维欧氏空间?n 中的点。一个实例的最近邻是根据标准欧氏距离定义的。更精确地讲,把任意的实例x 表示为下面的特征向量:其中a r (x ) 表示实例x 的第r 个属性值。那么两个实例x i 和x j 间的距离定义为d (x i , x j ) ,其中: 说明: 1、在最近邻学习中,目标函数值可以为离散值也可以为实值。 2、我们先考虑学习以下形式的离散目标函数。其中V 是有限集合 {v 1,... v s }。下表给出了逼近离散目标函数的k-近邻算法。 3、正如下表中所指出的,这个算法的返回值f' (x q ) 为对f (x q ) 的估计,它就是距离x q 最近的k 个训练样例中最普遍的f 值。 4、如果我们选择k =1,那么“1-近邻算法”

能源互联网

能源互联网:信息与能源、电力技术深度融合的必然趋势能源互联网将代表未来信息与能源-电力技术深度融合的必然趋势、是新一代工业革命大潮的重要标志、是智能电网的重要组成部分和未来发展前沿。能源互联网借鉴互联网思维和理念构建新型信息-能源融合“广域网”,它以大电网为“主干网”,以微网、分布式能源等能量自治单元为“局域网”,以开放对等的信息-能源一体化架构真正实现能量的双向按需传输和动态平衡使用,因此可以最大限度的适应新能源的接入。本文在介绍能源互联网的基本概念、内涵与外延的基础上,分析了需要重点解决的关键技术问题,即能源互联网总体架构与标准体系、能源互联网组网与互操作模型与技术、能源互联网建模、仿真与分析技术、能源互联网运行与控制装备与技术、能源互联网的安全防护、质量监督与认证体系、能源互联网量测、评价与技术经济分析。 1.能源互联网概念及范畴 1.1基本概念 能源互联网是以互联网思维与理念构建的新型信息-能源融合“广域网”,它以大电网为“主干网”,以微网、分布式能源等能量自治单元为“局域网”,以开放对等的信息-能源一体化架构真正实现能源的双向按需传输和动态平衡使用,因此可以最大限度的适应新能源的接入。虽然能源形式多种多样,电能源仅仅是能源的一种,但

电能在能源传输效率等方面具有无法比拟的优势,未来能源基础设施在传输方面的主体必然还是电网,因此未来能源互联网基本上是以互联网式的电网为枢纽构成的能源-信息系统。 能源互联网基本架构如图1所示。微网、分布式能源等能量自治单元可以作为能源互联网中的基本组成元素,通过新能源发电、微能源的采集、汇聚与分享以及微网内的储能或用电消纳形成“局域网”。能源互联网是此基础上的广域联接形式,作为分布式能源的接入形式,是从分布式能源的大型、中型发展到了任意的小型、微型的“广域网”实现。大电网的形成有其必然性,在传输效率等方面仍然具有无法比拟的优势,将来仍然是能源互联网中的“主干网”。微网或分布式能源接入、互联和调度灵活但存在供电可靠性较高等问题,大电网供电可靠性较高但尚难以适应大量新能源的灵活接入和双向互动,能源互联网可以起到衔接作用,综合两方面的优势。能源互联网是采取自下而上分散自治协同管理的模式,与目前集中大电网模式相辅相成,符合电网发展集中与分布相结合的大趋势。

计算机网络基本概念及简答

1.广域网覆盖范围从几十千米到几千千米,可以将一个国家、地区或横跨几个洲的计算机和网络互联起来的网络 2.城域网可以满足几十公里范围内的大量企业、机关、公司的多个局域网互联的需要,并能实现大量用户与数据、语音、图像等多种信息传输的网络。 3.局域网用于有限地理范围(例如一幢大楼),将各种计算机、外设互连的网络。 4.无线传感器网络一种将Ad hOC网络技术与传感器技术相结合的新型网络 5.计算机网络以能够相互共享资源的方式互联起来的自治计算机系统的集合。 6.网络拓扑通过网中结点与通信线路之间的几何关系来反映出网络中各实体间的结构关系 7.ARPANET 对Internet的形成与发展起到奠基作用的计算机网络 8.点对点线路连接一对计算机或路由器结点的线路 9.Ad hOC网络一种特殊的自组织、对等式、多跳、无线移动网络。 10.P2P所有的成员计算机在不同的时间中,可以充当客户与服务器两个不同的角色,区别于固定服务器的网络结构形式 1.0SI参考模型由国际标准化组织IS0制定的网络层次结构模型。 2.网络体系结构.计算机网络层次结构模型与各层协议的集合。 3.通信协议为网络数据交换而制定的规则、约定与标准。 4.接口同一结点内相邻层之间交换信息的连接点。 5.数据链路层该层在两个通信实体之间传送以帧为单位的数据,通过差错控制方法,使有差错的物理线路变成无差错。 6.网络层负责使分组以适当的路径通过通信子网的层次。 7.传输层负责为用户提供可靠的端到端进程通信服务的层次。 8.应用层.0SI参考模型的最高层。 1.基带传输在数字通信信道上直接传输基带信号的方法 2.频带传输利用模拟通信信道传输数字信号的方法 3.移频键控通过改变载波信号的角频率来表示数据的信号编码方式 4.振幅键控通过改变载波信号的振幅来表示数据的信号编码方式 5.移相键控通过改变载波信号的相位值来表示数据的信号编码方式。 6.单模光纤光信号只能与光纤轴成单个可分辨角度实现单路光载波传输的光纤 7.多模光纤光信号可以与光纤轴成多个可分辨角度实现多路光载波传输的光纤 8.单工通信在一条通信线路中信号只能向一个方向传送的方法 9.半双工通信在一条通信线路中信号可以双向传送,但同一时间只能向一个方向传送数据 10.全双工通信在一条通信线路中可以同时双向传输数据的方法 11.模拟信号信号电平连续变化的电信号 12.数字信号用0、1两种不同的电平表示的电信号 13.外同步法发送端发送一路数据信号的同时发送一路同步时钟信号 14.内同步法从自含时钟编码的发送数据中提取同步时钟的方法 15.波分复用在一根光纤上复用多路光载波信号 16.脉冲编码调制. 将语音信号转换为数字信号的方法 1.纠错码让每个传输的分组带上足够的冗余信息,以便在接收端能发现并自动纠正传输差错的编码方法 2.检错码让分组仅包含足以使接收端发现差错的冗余信息,但是不能确定哪个比特出错,并且自己不能纠正传输差错的编码方法。 3.误码率二进制比特在数据传输系统中被传错的概率 4.帧数据链路层的数据传输单元 5.数据链路层协议为实现数据链路控制功能而制定的规程或协议。

数据挖掘算法

数据挖掘的10大经典算法 国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART. 不仅仅是选中的十大算法,其实参加评选的18种算法,实际上随便拿出一种来都可以称得上是经典算法,它们在数据挖掘领域都产生了极为深远的影响。 1. C4.5 C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进: 1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足; 2) 在树构造过程中进行剪枝; 3) 能够完成对连续属性的离散化处理; 4) 能够对不完整数据进行处理。 C4.5算法有如下优点:产生的分类规则易于理解,准确率较高。其缺点是:在 构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。 2. The k-means algorithm 即K-Means算法 k-means algorithm算法是一个聚类算法,把n的对象根据他们的属性分为k个分割,k < n。它与处理混合正态分布的最大期望算法很相似,因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量,并且目标是使各个群组内部的均方误差总和最小。 3. Support vector machines 支持向量机,英文为Support Vector Machine,简称SV机(论文中一般简称SVM)。它是一种監督式學習的方法,它广泛的应用于统计分类以及回归分析中。支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大,分类器的总误差越小。一个极好的指南是C.J.C Burges的《模式识别支持向量机指南》。van der Walt 和 Barnard 将支持向量机和其他分类器进行了比较。 4. The Apriori algorithm

什么是“能源互联网”

【行业知识】什么是“能源互联网”? 能源互联网可理解是综合运用先进的电力电子技术, 信息技术和智能管理技术, 将大量由分布式能量采集装置, 分布式能量储存装置和各种类型负载构成的新型电力网络节点互联起来, 以实现能量双向流动的能量对等交换与共享网络。 从政府管理者视角来看,能源互联网是兼容传统电网的,可以充分、广泛和有效地利用分布式可再生能源的、满足用户多样化电力需求的一种新型能源体系结构;从运营者视角来看,能源互联网是能够与消费者互动的、存在竞争的一个能源消费市场,只有提高能源服务质量,才能赢得市场竞争;从消费者视角来看,能源互联网不仅具备传统电网所具备的供电功能,还为各类消费者提供了一个公共的能源交换与共享平台。 能源企业普遍认为,能源的市场化、民主化、去中心化、智能化、物联化等趋势将注定要颠覆现有的能源行业。新的能源体系特征需要“能源互联网”,同时“能源互联网”将具备“智慧、能自学习、能进化”的生命体特征。 物联是基础 “能源互联网”用先进的传感器、控制和软件应用程序,将能源生产端、能源传输端、能源消费端的数以亿计的设备、机器、系统连接起来,形成了能源互联网的“物联基础”。大数据分析、机器学习和预测是能源互联网实现生命体特征的重要技术支撑:能源互联网通过整合运行数据、天气数据、气象数据、电网数据、电力市场数据等,进行大数据分析、负荷预测、发电预测、机器学习,打通并优化能源生产和能源消费端的运作效率,需求和供应将可以进行随时的动态调整。 “能源互联网”将有助于形成一个巨大的“能源资产市场” (Market place),实现能源资产的全生命周期管理,通过这个“市场”可有效整合产业链上下游各方,形成供需互动和交易,也可以让更多的低风险资本进入能源投资开发领域,并有效控制新能源投资的风险。 “能源互联网”还将实时匹配供需信息,整合分散需求,形成能源交易和需求响应。当每一个家庭都变成能源的消费者和供应者的时候,无时无刻不在交易电力,比如屋顶分布式光伏电站发电、当为电动汽车充放电的时候。 能源互联网的特征 能源互联网具备如下五大特征 可再生:可再生能源是能源互联网的主要能量供应来源。可再生能源发电具有间歇性、波动性,其大规模接入对电网的稳定性产生冲击,从而促使传统的能源网络转型为能源互联网。 分布式:由于可再生能源的分散特性,为了最大效率的收集和使用可再生能源,需要建立就地收集、存储和使用能源的网络,这些能源网络单个规模小,分布范围广,每个微型能源网络构成能源互联网的一个节点。 互联性:大范围分布式的微型能源网络并不能全部保证自给自足,需要联起来进行能量交换才能平衡能量的供给与需求。能源互联网关注将分布式发电装置、储能装置和负载组成的微型能源网络互联起来,而传统电网更关注如何将这些要素“接进来”。 开放性:能源互联网应该是一个对等、扁平和能量双向流动的能源共享网络,发电装置、储能装置和负载能够“即插即用”,只要符合互操作标准,这种接入是自主的,从能量交换的角度看没有一个网络节点比其它节点更重要。 智能化:能源互联网中能源的产生、传输、转换和使用都应该具备一定的智能。 能源互联网与传统电力系统的对比 能源互联网与其他形式的电力系统相比, 具有以下4 个关键技术特征: 1可再生能源高渗透率 能源互联网中将接入大量各类分布式可再生能源发电系统, 在可再生能源高渗透率的环境下, 能源互联网的控制管理与传统电网之间存在很大不同, 需要研究由此带来的一系列新的科学与技术问题。 2非线性随机特性 分布式可再生能源是未来能源互联网的主体, 但可再生能源具有很大的不确定性和不可控性, 同时考虑实时电价, 运行模式变化, 用户侧响应, 负载变化等因素的随机特性, 能源互联网将呈现复杂的随机特性, 其控制, 优化和调度将面临更大挑战。 3多源大数据特性 能源互联网工作在高度信息化的环境中, 随着分布式电源并网, 储能及需求侧响应的实施, 包括气象信息, 用户用电特征, 储能状态等多种来源的海量信息。而且, 随着高级量测技术的普及和应用, 能源互联网中具有量测功能的智能终端的数量将会大大增加, 所产生的数据量也将急剧增大。 4多尺度动态特性 能源互联网是一个物质, 能量与信息深度耦合的系统, 是物理空间、能量空间、信息空间乃至社会空间耦合的多域, 多层次关联, 包含连续动态行为、离散动态行为和混沌有意识行为的复杂系统。作为社会/信息/物理相互依存的超大规模复合网络, 与传统电网相比,具有更广阔的开放性和更大的系统复杂性, 呈现出复杂的, 不同尺度的动态特性。

网络基本概念..

第1章计算机网络基础 习题: ⒈什么是计算机网络? 答:所谓计算机网络是指利用通讯手段,把地理上分散的、能够以相互共享资源(硬件、软件和数据等)的方式有机地连接起来的、而又各自具备独立功能的计算机系统的集合。 ⒉计算机网络有哪些基本功能? 答:计算机网络具有下述功能: ⑴数据通信。网络中的计算机之间可以进行数据传输,这是网络最基本的功能。 ⑵资源共享。入网的用户可以共享网络中的数据、数据库、软件和硬件资源,这是网络的主要功能。 ⑶可提高系统的可靠性。用户可以借助硬件和软件的手段来保证系统的可靠性。 ⑷能进行分布处理。可以把工作分散到网络中的各个计算机上完成。 ⑸可以集中控制、管理和分配网络中的软件、硬件资源。 ⒊计算机网络由哪些部分组成? 答:计算机网络都应包含三个主要组成部分:若干台主机(Host)、一个通讯子网和一系列的通信协议。 1.主机(Host):用来向用户提供服务的各种计算机。 2.通讯子网:用于进行数据通信的通信链路和结点交换机。 3.通信协议:这是通信双方事先约定好的也是必须遵守的规则,这种约定保证了主机与主机、主机与通信子网以及通信子网中各节点之间的通信。 ⒋计算机网络体系结构是何含义? 答:网络体系结构:是指用分层研究方法定义的网络各层的功能,各层协议和接口的集合。国际标准化组织ISO于1977年提出了一个试图使各种计算机在世界范围内互相连通的标准框架,即“开放系统互连参考模型”简称OSI/RM。OSI参考模型共分七层结构:物理层、数据链路层、网络层、传输层、会话层、表示层和应用层。 ⒌简述广域网和局域网的区别。 答:局域网在距离上一般被限制在一定规模的地理区域内(如一个实验室、一幢大楼、一个校园。主要特点可以归纳为:⑴地理范围(小)有限,参加组网的计算机通常处在1~ 2km 的范围内;⑵信道的带宽大,数据传输率高,一般为1~ 1000Mbps;⑶数据传输可靠,误码率低;⑷局域网大多采用总线型、星型及环型拓扑结构,结构简单,实现容易;⑸网络的控制一般趋向于分布式,从而减少了对某个节点的依赖性,避免一个节点故障对整个网络的影响;⑹通常网络归一个单一组织所拥有和使用,不受公共网络管理规定的约束,容易进行设备的更新和新技术的引用,不断增强网络功能。 广域网最根本的特点就是机器分布范围广,一般从数千米到数千千米,因此网络所涉及 的范围可以为市、省、国家,乃至世界范围,其中最著名的就是Internet。广域网常常借用传统的公共传输(电报、电话)网来实现。数据传输率较低,再加上传输距离远,因此错误率也比较高。网络的通信控制比较复杂,要求联到网上的用户必须严格遵守各种标准和规程。

相关主题
文本预览
相关文档 最新文档