第6章 语义分析(1)
- 格式:ppt
- 大小:701.00 KB
- 文档页数:49
语义分析的一些方法语义分析的一些方法(上篇)•5040语义分析,本文指运用各种机器学习方法,挖掘与学习文本、图片等的深层次概念。
wikipedia上的解释:In machine learning, semantic analysis of a corpus is the task of building structures that approximate concepts from a large set of documents(or images)。
工作这几年,陆陆续续实践过一些项目,有搜索广告,社交广告,微博广告,品牌广告,内容广告等。
要使我们广告平台效益最大化,首先需要理解用户,Context(将展示广告的上下文)和广告,才能将最合适的广告展示给用户。
而这其中,就离不开对用户,对上下文,对广告的语义分析,由此催生了一些子项目,例如文本语义分析,图片语义理解,语义索引,短串语义关联,用户广告语义匹配等。
接下来我将写一写我所认识的语义分析的一些方法,虽说我们在做的时候,效果导向居多,方法理论理解也许并不深入,不过权当个人知识点总结,有任何不当之处请指正,谢谢。
本文主要由以下四部分组成:文本基本处理,文本语义分析,图片语义分析,语义分析小结。
先讲述文本处理的基本方法,这构成了语义分析的基础。
接着分文本和图片两节讲述各自语义分析的一些方法,值得注意的是,虽说分为两节,但文本和图片在语义分析方法上有很多共通与关联。
最后我们简单介绍下语义分析在广点通“用户广告匹配”上的应用,并展望一下未来的语义分析方法。
1 文本基本处理在讲文本语义分析之前,我们先说下文本基本处理,因为它构成了语义分析的基础。
而文本处理有很多方面,考虑到本文主题,这里只介绍中文分词以及Term Weighting。
1.1 中文分词拿到一段文本后,通常情况下,首先要做分词。
分词的方法一般有如下几种:•基于字符串匹配的分词方法。
此方法按照不同的扫描方式,逐个查找词库进行分词。
《编译原理》教学大纲大纲说明课程代码: 3225003总学时: 64 学时(讲课 48 学时,实验16 学时)总学分: 4课程类别:学科基础课适用专业 : 计算机科学与技术(专业)预修要求: C 语言程序设计、 C++ 程序设计、数据结构课程的性质、任务及地位:《编译原理》是计算机科学与技术专业的一门重要基础课。
通过对该课程的学习,使学生掌握编译过程中的相关原理和编译技术,让学生能初步进行编译程序的开发和维护,同时促进提高学生开发软件的能力。
教学目的与基本要求:本课程的目的,通过向学生讲述编译系统的结构、工作流程及编译程序各部分的设计原理和实现技术,使学生既掌握编译技术理论的基础与基本知识,也具有设计、实现、分析和维护编译程序等方面的初步能力。
本课程理论性较强。
因授课对象为工科学生,所以在强调编译系统的构造原理和实现方法的同时,为培养学生的实际工作能力,通过上机实践进一步加深学生对课堂教学内容的理解。
目的是要使学生牢固掌握相关的基本理论和基本方法,并能初步利用上述理论和方法解决简单实际问题。
教学方法和教学手段的建议:在教学方法上,贯彻理论联系实际、“精讲、多练”的原则,进行案例式、启发式的教学,对于一些实际性较强的问题要多采用课堂讨论等方式,以提高学生的思辨能力和学习的主动性;引导学生读书、理解、体悟、运用相结合;提高学生的学习兴趣与热情,培养与发挥学生的提出、分析及解决问题的能力。
教学手段:运用多媒体教学手段 +黑板 +上机实验的手段。
采取课堂讲授、课堂讨论、课后练习与自学等形式。
大纲的使用说明:大纲对课程性质、目的等作简单说明,同时列出各章节要学习的知识点、重点、难点,便于教学时教授重点的安排和学生自学安排。
大纲正文第一章引论学时: 4 学时(讲课 4 学时,实验 0 学时)了解编译的概念;理解编译程序的各组成部分及功能。
本章讲授要点:介绍程序设计语言与编译程序间的关系,主要内容包括:各级程序设计语言的定义、源程序的执行、编译程序的构造、编译程序的分类、形式语言理论与编译实现技术的联系。
第六讲语义指向分析6.16.1.1 我们在第四章把语义特征分为三类:词汇语义特征、结构语义特征和语用语义特征。
其中词汇语义特征决定词语在句法结构中的分布特征,或者词语之间相互组合的可能性;结构语义特征和语用语义特征则跟表达意图或话语环境有关,有时结构语义特征和语用语义特征可能相互重叠在一起。
例如:1a.b.c.d. (1)中各例的“香喷喷”在词汇语义特征上都跟“猪蹄”相容,但不同位置对“香喷喷”所赋予的结构语义特征有所不同:(1)a直述状态,具有[+直述]的结构语义特征;(1)b强调主观努力的状态,具有[+主观努力]的结构语义特征;(1)c强调行为结果的状态,具有[+强调]的结构语义特征;(1)d表示补充或说明,并无强调意味,具有[+补说]的结构语义特征。
这些由结构赋予的语义特征同时也是说话人根据话语环境对词语的语序自觉调适的结果,正是在这个意义上结构语义特征和语用语义特征有时具有一致性。
6.1.2 可以看出,词汇语义特征是稳定的,而结构语义特征和语用语义特征则随着结构或语序的变化而改变。
因此相比之下,词汇语义特征是第一位的,而结构语义特征和语用语义特征则是第二位的,前者是基础,后者是前者在言语活动中由结构或语序赋予的一种附加意义,或叫做寄生意义。
因此,一旦词语的词汇语义特征跟句中或句外相关实体不存在语义上相容的可能性,整个句子就变得不可理解,尽管其结构语义特征和语用语义特征仍然存在。
例如:2a.b.c.d. (2)b-c的“香喷喷”在人们的认知环境里,很少跟“中药”的味道发生联系,因此在受话人的解码过程中不能在句中找到具有与之相容的语义特征的词语,整个句子的合法性可疑。
这种情况说明,一个词语要进入句子发挥交际作用,就必定与句中别的成分或交际语境中的某一实体存在语义上的联系,反过来说,一个合法的句子的各个组成成分总是能够在句中或交际语境中找到与之组配的对象。
任何一厢情愿的组配都会造成不合格的句子。