数据可视化工具PPT模板
- 格式:pptx
- 大小:606.02 KB
- 文档页数:13
数据可视化------文本数据可视化文本可视化背景Ø文本信息爆炸式增长需要高效的阅读方式Ø“一图胜千言”,图形表达信息的优势Ø标签云技术、信息文本图等文本可视化技术的不断发展01文本数据在大数据中的应用及提取02文本信息分析目录03文本信息可视化04本章小结Ø文本数据在大数据中的应用Ø文本信息层级•词汇级──一连串文本中提取的语义单元语义单元由一个或多个字符组成的词元,是文本信息的最小单元文本关键字属词汇级别•语法级──基于文本的语言机构对词汇级语义单元进行提取分析语义单元的语法属语法级信息,如词性、单复数语法级信息的提取过程被称作命名实体识别方法•语义级──研究文本整体所表达的语义内容信息和语义关系文本的最高层信息Ø文本数据在大数据中的应用Ø从数据大、类型多、处理速度快、价值密度低的大数据提取有用信息的重要性Ø图像和图形在信息表达上的优势和效率Ø需要从不同层级提取与呈现文本信息Ø不同级的信息挖掘方法也不同,词汇级当然是用各类分词算法,语法级用一些句法分析算法,语义级用主题抽取算法Ø文本数据在大数据中的应用Ø文本可视化流程•文本信息挖掘—文本数据的预处理、文本特征的抽取、文本特征的度量•视图绘制—图元设计、图元布局•人机交互Ø使用网络爬虫提取文本数据Ø网络爬虫•网络爬虫又称网络蜘蛛,将互联网比喻成一个蜘蛛网,Spider就是在网上爬的蜘蛛•网络爬虫就是根据网页的地址来寻找网页的,也就是URL•解析网页使用的语言为PythonØ使用网络爬虫提取文本数据•URL一般格式“protocol :// hostname[:port] / path / [;parameters][?query]#fragment”•第一部分:协议protocol,例如百度使用的就是https协议•第二部分:hostname[:port],主机名(还有端口号为可选参数,端口号一般默认为80)•第三部分:path是主机资源的具体地址,如目录和文件名等•网络爬虫就是根据URL对web信息进行获取的Ø使用网络爬虫提取文本数据ØPython爬虫架构•调度器•URL管理器•网页下载器•网页解析器•应用程序Ø使用网络爬虫提取文本数据Ø爬虫示例代码:爬虫结果:Ø分词技术和词干提取•分词技术和词干提取方法通常用于文本数据的预处理•分词:将一段文字划分为多个词项,剔除停词,从文中提取有意义的词项•词干提取:去除词缀得到词根,得到单词最一般写法的技术•词干提取避免了同一个词的不同表现形式对文本分析的干扰Ø分词技术和词干提取•以马汀路德金的“I have a dream”演讲的一段为例:I have a dream that one day this nation will rise up and live out the true meaning of itscreed: ”We hold these truths to be self-evident, that all men are created e qual.“剔除a,the,that等停词,经过分词后,这段话可提取出20个词项:I, have, dream, one, day, nation, rise, up, live, out, true, meaning, creed, hold,truths, self-evident, all, men, created, equal词干提取过程又会将“men”和“truths”分别还原为“man”和“truth”12文本信息分析Ø向量空间模型Ø词袋模型──将某一文本看作是一个词集合,忽略语法、词序文本中每个词相互独立,对其它词不依赖将一个文档的内容总结为在由关键词组成的集合上的加权分布向量在基于词袋模型计算的一维词频向量中,每个维度代表一个单词;每个维度的值等于单词在文本中出现的统计信息,单词间没有顺序关系13向量空间模型Ø词袋模型以Charles Dickens的《双城记》书中的一段文字为例:“It was the best of times,it was the worst of times,it was the age of wisdom,it was the age of foolishness.”这段文字共包含24个单词,在分词以后变为10个单词;经词干提取后,这段文字可表达为一个词频向量Ø向量空间模型ØTF-IDF──一种用于资讯检索与资讯探勘的常用加权技术;用以评估一个单词或字对于某文档集或语料库中的其中一份文档的重要程度;核心思想:字词的重要性随着其在文档出现的次数成正相关增加,同时会随着出现的频率而负相关下降定义:表示词w对于某个文档的相对重要性;是词w在文档中出现的次数;文档集中包含w的文档数目,N代表文档总数Ø主题抽取Ø主题模型,即文本的主题描述Ø文本主题的抽取算法大致分两类:基于矩阵分解的非概率模型──词项-文档矩阵投影到K维空间中每个维度代表一个主题在主题空间中,每个文档由K个主题的线性组合来表示隐含语义检索是代表性的非概率模型,它基于主题间的正交性假设,采用SVD分解词项-文档矩阵基于贝叶斯的概率模型──主题被当成多个词项的概率分布文档可以理解成由多个主题的组合而产生的概率隐含语义检索是广泛使用的方法16文本信息可视化Ø文本数据大体上可分为:单文本文档集合时序文本数据Ø以上对应的文本可视化分别为:文本内容的可视化文本关系的可视化文本多层面信息的可视化Ø基于关键词的文本内容可视化Ø标签云(Tag Cloud)•最简单、最常用的关键词可视化技术•将抽取的关键词按照一定规律整齐美观地排列在屏幕上•利用颜色和大小反映关键词在文本中分布的差异•将经过颜色映射后的字词按照其在文本中原有的位置或某种布局算法放置Ø基于关键词的文本内容可视化Ø标签云文本可视化示例Ø基于关键词的文本内容可视化Ø文档散(DocuBurst)采用径向布局来从词汇间语义层次角度可视总结文档的内容;外圈的词汇是里圈词的下义词;圆心处的关键词是文章所涉及内容的最上层概述;每个词的辐射范围覆盖其所有的下义词Ø基于关键词的文本内容可视化Ø文档散(DocuBurst)如右图文档散可视化文本示例:外层的词是内层词的下义词颜色饱和度的深浅用来体现词频的高低Ø基于关键词的文本内容可视化Ø文档卡片(Document Cards)采用文章的关键图片和关键词信息表达文本内容,并将其布局在一张卡片中;便于用户在不同尺寸设备中查看和对比每个文档信息Ø基于关键词的文本内容可视化Ø文档卡片(Document Cards)如右图示例,采用文档卡片法对一篇InfoVis论文的的可视化结果关键图片采用智能算法抽取图片并根据颜色直方图进行分类,从每一类图片中选取的代表性图片Ø时序性的文本可视化Ø主题河流•采用河流作为可视原语来编码文档集合中的主题信息•将主题隐喻为时间上不断延续的河流•提供宏观的主题演化结果•辅助用户观察主题的产生、变化和消失等Ø时序性的文本可视化Ø主题河流局限性•只能将每个主题在每个时间刻度上概括为一个简单数值•一个简单的度量数值不能完整描述主题的细节,如主题内容•避免以上局限性,衍生出TIARA系统Ø时序性的文本可视化ØTIARA•改进布局算法•在可视化中加入能够帮助用户理解文本主题的关键词信息•为每个文本主题在每个时间点上提取不同关键词•将关键词排布在相应色带上的相应位置•根据词的大小表示关键词在该时刻出现的频率Ø时序性的文本可视化ØTIARA可视示例•TIARA将标签云技术和主题流相结合•描述文本主题在内容上随时间推进而发生的变化Ø时序性的文本可视化ØStoryFlow•用来表示电影或者小说里的剧情线或者时间线•通过层次渲染的方式来生成一个StoryLine布局Ø时序性的文本可视化ØStoryFlow可视示例•如图是某部电影的StoryFlow的文本可视表达•横轴表示时间,每条线代表一个人物•当两个人在剧情中有某种联系的时候,就会在图中相交•StoryFlow允许用户实时交互,包括捆绑操作、删除、移动以及直线化等Ø文本特征的分布模式可视化Ø文本弧(TextArc)Ø文本弧方法用于可视化某文档中的词频和词的分布情况文本弧示例图Ø文本特征的分布模式可视化Ø文本弧示例图解释:Ø整篇文档用一条螺线来表示,螺线开头是文章的首句,末尾是文章的尾句Ø文档的句子按照文字的组织顺序有序布局在螺线上Ø文档中出现的单词填充在画布上,字的大小和颜色深度代表对应的词频Ø单词出现的位置和频率决定了单词在画布中的位置Ø靠近画布中心的词出现比较频繁,局部频繁出现的单词则靠近其相应的螺线区域Ø鼠标单击含所选单词,会绿色高亮表示Ø文本特征的分布模式可视化Ø文献指纹(Literature Fingerprinting)•帮助用户了解某一特征在全文中的分布规律•采用一系列像素图(文献指纹特征)表达整个文本中的分布•可呈现特征的全局分布情况Ø文本特征的分布模式可视化Ø文献指纹(Literature Fingerprinting)示例Ø文本特征的分布模式可视化Ø文献指纹示例说明:•文本的度量特征是句子的平均长度•每一个像素块代表一段文本•一组像素块就代表一本书的“句子平均长度指纹”,其颜色代表文本特征•能直观地看出不同作者的写作风格Ø文本特征的分布模式可视化Ø文本特征透镜(Featurs Lens)•用于可视化文本特征在一个文档集中不同粒度的分布情况•可视化不同层级的文本特征分布•既可从文本集合的高度概括性角度查看文本特征的分布•也可查看文本特征在底层文本中的分布•采用直方图度量频率分布情况,并用三个图来展示统计结果Ø文本特征的分布模式可视化Ø文本特征透镜示例Ø基于图的文本关系可视化Ø单词树(Word Tree)•从句法层面可视表达文本词汇的前缀关系•利用树型结构来可视化总结文本的句子•树的根节点是用户感兴趣的一个词•树的子节点是原文中搭配在父节点后面的词或短语•字体大小反映词或短语在文中出现的频率Ø基于图的文本关系可视化Ø单词树示例采用单词树方法可视化表达“I have a dream”演讲中有关单词“I”的所有句子Ø基于图的文本关系可视化Ø短语网络(Phrase Nets)•采用节点-链接图展示无结构文本中语义单元彼此间的关系•节点代表语义单元•边代表用户指定的关系•箭头指示关系的有向性•边的宽度指示这对短语关系在文本中出现的频率Ø基于图的文本关系可视化Ø短语网络示例采用短语网络可视表达某小说中的“* the *”关系Ø基于图的文本关系可视化Ø新闻地图(NewsMap)•树图方法也可用于刻画文本间的相似性•新闻地图采用树图组织类型相近的新闻Ø文档集合关系可视化Ø星系视图(Galaxy View)•采用仿生的方法可视表达文档间的相似性•通过投影将所有文档按照主题相似性投影为二维平面的点集•点之间的二维距离与其主题相似性成正比Ø文档集合关系可视化Ø星系视图示例•越密集的点就代表这一类主题的文档越多•多个点簇代表文档集合涉及的多个主题内容Ø文档集合关系可视化Ø主题地貌(ThemeScape)•对星系视图的改进•在投影基础上采用等高线方式可视表达文档集合中相似文档的分布情况•文档越相似,则点分布越密集,从而等高线越紧密,颜色越显著•山峰直观简洁地可视化文档集合中涉及的中心主题Ø文档集合关系可视化Ø主题地貌可视示例Ø文档集合关系可视化Ø基于范例的大文本集合投影•先少量投影文本到二维空间,再根据用户选取的样例,选择性地将相关的文本进行二维空间的投影Ø文档集合关系可视化Ø基于范例的大文本集合投影•上页图(a)──所有文本全部投影在二维空间中的结果•图(b)──显示每类文本中代表性文档的二维投影•图(c)──在(b)中用矩形框选中的样例文本的投影结果。