当前位置：文档之家› 句法分析工具指南(parser guideline)

句法分析工具指南(parser guideline)

PARSER GUIDELINE

S tanford parser

一个简易的Stanford parser系统只需要包含四类文件，它们分别是：①java包(最新版本为stanford-parser-2011-04-20.jar)、②模板(英文：englishFactored.ser.gz/englishPCFG.ser.gz/wsjFactored.ser.gz/wsjPCFG.ser.gz。中文：chinesePCFG.ser.gz /chineseFactored.ser.gz/xinhuaFactored.ser.gz/xinhuaPCFG.ser.gz)、③输入文件(一般为.txt后缀的分词文件(、④输出文件(一般为.parse后缀的成分句法树文件或是以.dep 后缀的依存句法树文件)

1.英文句法分析

举例：

Java -mx1g -cp stanford-parser-2011-04-20.jar edu.stanford.nlp.parser.lexparser.LexicalizedParser -maxLength 100 –outputFormat oneline -sentences newline -outputFormatOptions removeTopBracket englishFactored.ser.gz input.txt > output.std_Factored_parse

参数解释：

①-mx1g：给java虚拟机分配的最大内存为1g(大小可自行设置)。

②-cp ：为了加载java包stanford-parser-2011-04-20.jar。

LexicalizedParser：parser类.

③-maxLength：指定句子单词长度最大为100。

④–outputFormat：指定输出句子的格式。

outputFormat具体选项值如下：

Oneline：成分句法分析输出文件的格式为每行一句的广义表形式的树结构。Penn：成分句法分析输出文件的格式为层次化树的形式。默认选项为penn。latexTree：格式类似于penn

Words：只给出分词格式。如：

继续播报详细的新闻内容。

wordsAndTags：给出分词文本和标记。如：

继续/VV 播报/VV 详细/VA 的/DEC 新闻/NN 内容/NN 。/PU

rootSymbolOnly：只给出ROOT结点

typedDependencies：给出依存句法分析结果。

mmod(播报-2, 继续-1)

rcmod(内容-6, 详细-3)

cpm(详细-3, 的-4)

nn(内容-6, 新闻-5)

dobj(播报-2, 内容-6)

conllStyleDependencies、conll2008：conll格式(每行一词，每词十项)如下：

1 继续_ VV _ _

2 _ _ _

2 播报_ VV _ _ 0 _ _ _

3 详细_ VA _ _

4 _ _ _

4 的_ DEC _ _ 6 _ _ _

5 新闻_ NN _ _

6 _ _ _

6 内容_ NN _ _ 2 _ _ _

7 。_ PU _ _ 2 _ _ _

⑤-escaper：字符的标准化(例如将英文的”(”改成”-LRB-”,默认情况即这样转换)。英文的escaper为edu.stanford.nlp.process.PTBEscapingProcessor。中文为：edu.stanford.nlp.trees.international.pennchinese.ChineseEscaper。

举例：

java -mx500m -cp stanford-parser.jar edu.stanford.nlp.parser.lexparser.LexicalizedParser -escaper edu.stanford.nlp.trees.international.pennchinese.ChineseEscaper -sentences newline chineseFactored.ser.gz chinese-onesent > chinese-onesent.stp

⑥-sentences：指定句子之间的边界，一般为newline ：输入文件的句子通过换行符分割。Parser得到的文本是每行一句，一句一句的进行分析。

⑦-encoding：指定输入输出文件的字符集。(中文默认为GB18030)

⑧-outputFormatOptions：进一步控制各种–outputFormat选项的输出行为(可以说是–outputFormat的附加选项)。

当–outputFormat为typedDependencies时，-outputFormatOptions可有如下选项(默认选项为collapsed dependencyies)：

basicDependencies：基本格式

treeDependencies：以树结构保存的压缩依存关系(去除依存图中一些边构成树)。collapsedDependencies：压缩依存(不一定为树结构)

cc(makes-11, and-12)

conj(makes-11, distributes-13)

转化为：

Conj_and(makes-11, distributes-13)

CCPropagatedDependencies:带有连词依存传播的压缩依存。

⑨-writeOutputFiles：产生对应于输入文件的输出文件，输出文件名同输入文件，只是增加了”.stp”的后缀。-outputFilesExtension：指定输出文件扩展名，默认为”.stp”

⑩-outputFilesDirectory :指定输出文件目录，默认为当前目录。

在这一小节中，我们用到的parser类为parser.lexparser.LexicalizedParser，这个类既能生成基于短语结构的成分句法树(指定输出格式为penn或oneline)，又可以生成基于依存结构的依存句法树(指定输出格式为typedDependencies)。

接下来，我们用到的类名为：trees.EnglishGrammaticalStructure。我们使用这个类将已经是成分句法树结构(penn Treebank-style trees)转化为依存句法树结构。这里的成分句法树来源，既可以是stanford parser生成的，又可以是其他种类的parser(如：berkeley parser、charniak parser)生成的。

2.依存句法分析

举例：

java -mx1g -cp "stanford-parser.jar;" edu.stanford.nlp.trees.EnglishGrammaticalStructure

-treeFile input.tree -basic -collapsed -extraSep -keepPunct -parserFile

englishPCFG.ser.gz >output.deptree

选项解释(与LexicalizedParser相同的选项省略)

输出文件的树结构可以通过以下参数直接指定：

-basic：basic dependencies

-conllx ：basic dependencies printed out in CoNLL X (CoNLL 2006) format

-collapsed：collapsed dependencies (not necessarily a tree structure)

-CCprocessed：collapsed dependencies with propagation of conjunctdependencies (not necessarily a tree structure)

-collapsedTree：collapsed dependencies that preserve a tree structure

-nonCollapsed：non-collapsed dependencies: basic dependencies as well as the extra ones which do not preserve a tree structure

其他参数：

-treeFile：指定输入文件，即成分句法树结构文件。

-extraSep：如果存在多种类型的输出格式，使用分隔符(------)将basicdependencies和其他形式的分隔开。

-keepPunct：默认不输出符号依存关系，可以通过该选项保留。

3. trees.EnglishGrammaticalStructure其他功能

①trees.EnglishGrammaticalStructure还可以将CoNLL格式的依存关系转化为其他类型的依存关系。可以通过-conllxFile来指定输入文件。

②它还可以parse分词文档，不过对输入文件的要求更高。必须是每行一句。只能指定依存类型，不能指定其他选项。用-sentFile替代-treeFile指定输入文件，需要用-parserFile 选项指定模板文件，使用-parseTree选项打印句法树。

举例：

java -mx100m edu.stanford.nlp.trees.EnglishGrammaticalStructure -sentFile file.txt

-collapsedTree -CCprocessed -parseTree –parserFile englishPCFG.ser.gz

4.中英文模板说明

Stanford parser不需要我们自己训练模板，它为我们提供了现成的模板。

英文模板：

englishFactored.ser.gz/englishPCFG.ser.gz/wsjFactored.ser.gz/wsjPCFG.ser.gz

englishPCFG.ser.gz仅仅包含一个未词汇化的概率上下文无关文法。englishFactored.ser.gz包含两种语法(a (simpler) PCFG parser and then an untyped dependency parser)。对英文来说，虽然上述两种模板的语法和分析方法都不同，但是两者的平均性能相似。所以，一般倾向于使用快一点的模板englishPCFG.ser.gz。对于其他语言(如中文)，由于factored模板包含词汇化信息，factored类型模板的性能也明显的好于PCFG模板的性能。

中文模板：

Xinhua grammars只在中国大陆《新华日报》语料中训练，更适合解析来自中国大陆的文本。chinese grammars还包含了部分香港和台湾的训练语料。

5.未分词文本直接parse举例：

java -mx500m -cp stanford-parser.jar edu.stanford.nlp.parser.lexparser.LexicalizedParser xinhuaFactoredSegmenting.ser.gz chinese-onesent-unseg.txt | & iconv -f gb18030 -t utf-8

解释“| & iconv -f gb18030 -t utf-8”如下：

Linux环境下，必须转换编码格式才可以显示parser的输出结果。此处使用管道将parser的结果送到unix字符集转换工具中。

6.parser运行时内存使用情况

Parser在运行时需要大量内存，碰到长句子可能会提示“https://www.doczj.com/doc/8915994388.html,ng.OutOfMemoryError”。可以通过-mx选项设定最大内存(32位机，物理内存为3G，最大可分配给java虚拟机的内存为1400M 左右，此时，可解析的英文句子长度大概为80。若把最大内存设置的过大，会提示“Could not create the Java virtual machine.”)。

Parser的内存使用依赖于以下因素：

①内存需求大致与句子长度成正比，可以通过-maxLength选项设定最大句子长度来跳过长

句子。

②在同样条件下，Factored类型模板需要的内存可能为PCFG类型模板的几倍，因为它同时

运行三个parser。

③Parser将整个文件先读入内存再解析。所以，将一个很大的文件分割成几个小文件分别

进行解析，会减少内存的使用。

④同样条件下，64位机比32位机要耗费更多的内存(java使用大量指针)。

⑤语法集合越大，使用内存越多。

下面的表格显示了句子长度和不同模板对内存的需求。

B erkeley parser

一个简易的berkeley parser只需要包含java包：berkeleyParser.jar。模板：中文为chn_sm5.gr，英文为eng_sm6.gr。输入文件、输出文件。Berkeley parser只能进行成分句法分析。进行parser 之前需要将分词文本中的英文小括号”(“和“)”分别转化为”-LRB-”和”-RRB-”。Berkeley parser 不能自动的进行这样的转化。中文parser输入输出标记不能用参数-inputFile和-outputFile，必须用”<””>”指定。否则会出现乱码问题。

Berkeley Parser使用举例及说明

1.java -jar berkeleyParser.jar

该命令将打印parser的所有选项:

-inputFile 读取输入文件

-gr 指定文法模板

-chinese 使词典的一些中文特有的特征起作用

-accurate 设置准确率门限

-outputFile 输出文件

-nThreads 用多线程进行解析 (默认值为1)

-maxLength 最大句子长度(Default = 200).

-h 帮助信息(选项内容)

2. 英文berkeley parser命令

java –mx1g -jar berkeleyParser.jar -gr eng_sm6.gr -inputFile input.txt -outputFile output.parse

输入：Bell a company which is based in LA makes and distributes cmputer products

输出：( (S (NP (NP (NNP Bell)) (NP (NP (DT a) (NN company)) (SBAR (WHNP (WDT which)) (S (VP

(VBZ is) (VP (VBN based) (PP (IN in) (NP (NNP LA))))))))) (VP (VBZ makes) (CC and) (VBZ distributes) (NP (NN cmputer) (NNS products)))) )

3.中文berkeley parser命令

java –mx1g -jar berkeleyParser.jar -gr chn_sm5.gr < input.txt > output.parse

输入：继续播报详细的新闻内容

输出：( (IP (VP (VV 继续) (VP (VV 播报) (NP (CP (IP (VP (VA 详细))) (DEC 的)) (NP (NN 新闻) (NN 内容)))))) )

C harniak parser

1.下载Charniak Parser (ftp://https://www.doczj.com/doc/8915994388.html,/pub/nlparser/) parser05Aug16.tar.gz

2.编译(Linux环境下)

解压后进入PARSE文件夹, 使用命令make parseIt, 得到如下错误:

/usr/bin/g++ -c -O Bchart.C

/usr/bin/g++ -c -O BchartSm.C

BchartSm.C:30: error: expected initializer before '*' token

BchartSm.C: In member function 'float Bchart::computepTgT(int, int)':

BchartSm.C:612: error: 'globalGi' was not declared in this scope

make: *** [BchartSm.o] Error 1

通过添加头文件，或作稍微改动，即可编译通过。

解决办法:可能是g++版本不对，我使用的g++版本为4.2.4, 最好是g++-3.3.3, 可安装g++

3.3version, 然后在makefile文件中，用g++-3.3替换g++

重新使用命令make parseIt编译，得到如下错误:

g++-3.3 Bchart.o BchartSm.o Bst.o FBinaryArray.o CntxArray.o ChartBase.o ClassRule.o CombineBests.o ECArgs.o Edge.o EdgeHeap.o Feat.o Feature.o FeatureTree.o Field..o FullHist.o GotIter.o InputTree.o Item.o Link.o Params.o ParseStats.o SentRep.o Term.o TimeIt.o UnitRules.o ValHeap.o edgeSubFns.o ewDciTokStrm.o extraMain.o fhSubFns.o headFinder.o headFinderCh.o utils.o MeChart.o parseIt.o -o parseIt

Bchart.o: In function `Bchart::put_in_reg(Item*)':

Bchart.C:(.text+0x4ae): undefined reference to

`std::_List_node_base::hook(std::_List_node_base*)'

Bchart.o: In function `__tcf_3':

Bchart.C:(.text+0x7be): undefined reference to `std::basic_string, std::allocator >::_Rep::_S_empty_rep_storage' ........................(省略), 还有很多类似错误，像是使用std出错.

解决办法:

往Bchart.h文件添加std的引用

using namespace std;

并删除Bchart.o文件，重新使用命令make parseIt编译

这次编译成功, 生成parseIt文件

3.准备中文CTB训练集和开发集

略

4.训练(由于Charniak parser没有自带的模板，需要自己训练)

预先将训练集和开发集存放于文件夹CTB2.0中，同时，将DATA/CH/文件夹下的文件拷贝至文件夹CTB2.0下

进入TRAIN文件夹，运行命令

./allScript Ch ../CTB2.0/ ../CTB2.0/ctb2.0_train.bracketed.txt ../CTB2.0/ctb2.0_deve.bracketed.txt 第一个参数Ch表示中文, 英文为En, 第二个参数为目录路径，里面存放有一些配置多个文件等, 同时将生成的模型文件存入此目录, 第三和第四参数为训练文件和开发文件名

(第一次运行些命令时会进行编译)

训练速度非常快, 只需1-2分钟

5.Parsing

Charniak parser也需要事先将英文的”(”和”)”转换成”-LRB-”和”-RRB-”。

待分析的文件在格式上跟其他parser工具不太一样, 这里, 每个句子需要使用 ~~...~~ 进行标识

例如: ~~中美在沪签订高科技合作协议~~

回到PARSE文件夹, 运行命令

./parseIt –LCh

-l200 ../CTB2.0/ ../CTB2.0/ctb2.0_test.cha.segmented.txt > ../CTB2.0/ctb2.0_test.cha.txt 第一个参数-LCh表示中文, -l200表示可以分析的句子最长为200个单词, 第三个参数为目录路径, 即模型文件存放的目录, 第四个参数为待分析的句子, 最后一个参数为分析结果文件

6.当需要重新对树库中的标记作修改时, 例如VP根据需要修改为VP, VP_1, VP_2共三类. 这时需要做以下的修改:

a. 修改配置文件中的terms.txt, 添加新的组块标记

b. 修改TRAIN目录下的headerFindCh.C文件, 即取中心词规则时将VP_*看作为VP

c. 删除headerFindCh.o文件

7.当添加一些新的类别非终极符时. 需要修改两个地方:

a. 修改配置文件中的terms.txt, 添加新的组块标记

b. 修改中心词规则headInfo.txt, 为新添加的组块添加中心词规则

补充：在Linux环境下，建立批处理脚本文件parser.sh,可批量解析大量文件。

假设分词文档放在文件夹files中，parser.sh文件和files文件夹均放在charniak目录下。分词文件扩展名为”.txt”,解析后文件扩展名为”.parse”，解析后的文档也放在files文件夹下。

源代码：

#! /bin/bash

for file in $(ls /home/pc/charniak/files) #files absolute path name

file_parser=${file/txt/parse} #repalce files extension from ".txt" to ".parse"

path='/home/pc/charniak/files/'

file_segment=$path$file

./PARSE/parseIt -LCh -l200 ./ctb5.1/ $file_segment > ./files/$file_parser done

限于能力，错误和疏漏在所难免，敬请大家批评指正。

现代汉语语法

层次分析法，又称“直接成分分析法”，是对句法单位（包括短语和句子）的直接成分进行结构层次分析的方法。由于切分过程中尽可能采用二分，所以层次分析法又称作“二分法”。 1、基本分析原则语法从表面上看是线性排列的符号序列。线性排列是指按照时间先后顺序说出或写出的形式。但是语法结构却是有层次性的，层次是指句法单位在组合时所反映出来的不同的先后顺序。表层的线性关系背后暗含着隐性的层次关系。小的语法单位是大语法单位的组成部分，大的语法单位是由小的语法单位组合而成的，本身又可以成为更大语法单位的组成部分。语法结构的每个层次一般直接包含比它小的两个语法单位，这两个小的语法单位就是直接成分。每一个直接成分又可以包含更小的直接成分。例如：我们进行社会调查 |主||____谓_______| |_述 | 宾____ | |_定）中 | 层次分析法就是逐层将一个句法单位（联合短语等由多个直接成分组成的短语除外）切分成两个直接成分，直到不能再切分为止的句子分析方法。 2、分析过程层次分析法的分析过程主要包括两个步骤：第一步是切分结构层次，第二步是确定结构关系。例如：他去年去了一趟美国。 |__||___________________| 主谓关系 |___||______________| 状中关系 |________| |__| 述宾关系 |_| |___| 述补关系

切分过程中应注意： ①第一步切分非常重要，第一步切分不当，后面便容易全都切错。 ②必须逐层切分，直至分析出每个实词，语素不需要切分。 ③为避免切分过程中的遗漏，一般采用从左到右、从上到下、逐块切分的分析步骤。 3、层次分析法的图解表示层次分析法中常用的图解表示法是切分法、组合法和树形图。 ①切分法切分法是最常用的方法，将所要分析的短语或句子作为一个整体，从大到小，逐层切分。例如：申奥成功有助于中国的改革与开放。 |_ 主 __| |______ 谓 ________________| |主| |谓| |_述_ |______ 宾___________| |__ 定_）_ 中 _______| | 联 + 合 | ②组合法组合法是把所要分析的短语或句子切分到单词，然后从小到大，依次组合起来。例如：他弟弟在北京念大学 |_定中_| |_介宾_| |_述宾_| | |____状中____| |_____主谓______| ③树形图

句法结构中的语义分析

句法结构中的语义分析学习要点：掌握句法结构分析中运用语义关系、语义指向、语义特征三种语义分析方法，并且能够运用这些分析法解释一些常见的语言现象。句法结构是句法形式和语义内容的统一体。对句法结构不仅要做形式分析，如句法层次分析、句法关系分析、以及句型分析等，还要做种种语义分析。句法结构中的语义分析主要指语义关系、语义指向、语义特征三种分析法。一、语义关系（一）句法关系和语义关系在句法结构中，词语与词语之间不仅发生种种语法关系，主谓、述补、述宾、偏正、联合等，而且发生种种语义关系。语义关系，语义学中指语言成分所表示的客观对象之间的关系，我们所说的语义关系是指动作和动作者、动作和受动者、动作和工具、动作和处所、事物和事物之间的关系等。句法关系和语义关系可能一致，也可能不一致。 ⑴吃面条。/削苹果。(句法、语义关系一致。) ⑵我吃完了。/饼干吃完了。/文章写好了。(句法、语义关系不一致) 前者“我”与“吃”是动作者（施事）和动作的关系，后者“饼干”和“吃”是受动者（受事）和动作的关系，结果和动作的关系。一种句法结构关系，可能包含着多种语义关系，如：修理家具。/挖了一个坑。/来了一个客人。/写毛笔。(述宾关系，受事、结果、施事、工具。)反之，一种语义关系也可能构成多种句法结构关系。 ⑶沙发上坐着一个人。 ⑷那个人坐在沙发上。 ⑸那个人在沙发上坐着。这几个句法结构的语义关系基本相同，“人”“沙发上”与“坐”之间都是“施事”“处所”与“动作”的关系；但句法结构关系却不一样。（二）动词和名词语义关系的类别汉语句法结构中的语义关系是多种多样的，句法分析的重点是动词跟名词性词语之间的语义关系。在各种语义关系中，名词性成分担任了一定的语义角色，如“受事、结果、施事、工具”等，这实际上也就是揭示了名词性成分跟动词之间的关系。名词性词语经常担任的语义角色主要有： 1、施事：指动作的发出者（可用介词“被、叫、让、给”引进）他在看书。/小狗啃完了骨头。/敌人被我们打败了。 2、受事：指动作行为的承受者（可用介词“把、将”引进）。小牛吃草。/张三修桌子。/毛把花瓶打碎了。 3、系事：指连系动词联接的对象（？）我们是教师。/小王成了大学生。 4、与事：指动作行为的间接的承受者（送、还？）（可用介词“给”引进）。张三还李四一支笔。/我给兰兰送去一些巧克力。 5、结果：指动作行为产生的结果。编草帽。/烙饼。/做烟斗。/打毛衣。/盖大楼。

空间句法的新方法_比尔_希利尔

54 世界建筑２００５／１１１　步行可达指数。图中显示了影响伦敦哈罗兹，金茨桥区域的步行活动的重要因素。／Ｗａｌｋａｂｉｌｉｔｙ　Ｉｎｄｅｘ．Ｂａｒ　ｃｈａｒｔ　ｓｈｏｗｉｎｇ　ｓｉｇｎｉｆｉｃａｎｔｆａｃｔｏｒｓ　ｉｎｆｌｕｅｎｃｉｎｇ　ｐｅｄｅｓｔｒｉａｎ　ｍｏｖｅｍｅｎｔ　ｉｎ　ｔｈｅ　ａｒｅａ　ａｒｏｕｎｄＨａｒｒｏｄｓ　ｉｎ　Ｋｎｉｇｈｔｓｂｒｉｄｇｅ，　Ｌｏｎｄｏｎ，　ａｓ　ｉｄｅｎｔｉｆｉｅｄ　ｂｙ　ｔｈｅ　ＷａｌｋａｂｉｌｉｔｙＩｎｄｅｘ．２　同一地区的步行活动预测图显示出了对新的联系（金茨桥和海德公园之间）的需求，可以同其他重要因素联系起来。预测等级通过不同空间句法是一种研究城市的方法，主要是了解社会和经济因素是如何逐步影响并形成空间的。用当今的流行术语来说就是把城市看成是自组织系统。空间句法最为人所知的方面也许是它建立了在建筑环境里分析空间模式或者说分析空间组构的方法。这些方法不仅揭示了城市中的空间结构，而且把它们和人的移动、停留和交流方式相联系。空间句法还能预测设计和规划所带来的中长期效果，因此，能让设计者和规划者在工作中遵循社会和经济发展规律，而不是违背它们。这些研究方法已经在一段时间内得到了成功地运用，其中包括轴线分析法（用来分析城市街道网络和步行系统）和“可视性分析”（用来分析公共空间内的视域模式）。但是同时新的分析方法正不断地由伦敦大学学院空间句法实验室以及它的商业合作伙伴空间句法有限公司开发和研究出来。本文将简要地介绍其中一些发展。组构的修正：步行可达指数正如空间句法理论所说，空间组构强烈地影响人的流动，但并不意味着组构完全决定了人流或者它的作用是放之四海皆准的。在一些案例中，组构的影响比较弱，所以，要理解人流模式或者预测设计结果就需要一些其他额外的信息。这些附加的信息包括一些相关因素，如交通节点、土地利用、临街建筑、基础设施、主要吸引物和美学因素等。现在这些其他因素都通过最近研发的一项称为步行可达指数的技术整合到了组构模式上。步行可达指数是建立在统计学方法的多重回归分析（ＭＲＡ）的基础上。多重回归分析是经验性地分析数据，以此来决定每个元素作为人流模型中所起的可变量作用。多重回归分析模型可以更好地理解与人流模式相关的问题，因为它强调了因素的相对重要程度，比如建筑高度、交通节点或者活跃的临街行为等等，有时它们和局部整合度（影响人流的主要组构量度）一样重要。同时，改变不同的输入变量的值，例如那些步行道的宽度或者活跃临街行为的数量，都可以帮助预测可能发生的人流模式。事实上，这些因素的结合是可以被分析和修改的，这也就有了一个灵活性的方法。步行可达指数在一些地区尤其有效，这些开发对空间结构、人流和土地利用的影响不同步，比如伦敦的大象城堡（Ｅｌｅｐｈａｎｔ　ａｎｄ　Ｃａｓｔｌｅ）地区（它的总图设计采用了很多空间句法分析）。实际上，对于这样一个技术的需求正好说明路网结构、人流和土地利用三者之间的协调发展是一个发育良好的城市的产物。这也许是为什么传统城市更为人称道的主要原因。这并不意味着城市必须设计得和过去一样，但是却意味着它们设计的根据应借鉴那些具有活力的城市的经验。更精确尺度的组构：线段分析空间句法的一个很大优势在于它可以同时在城市宏观和微观尺度上分析空间。线是都市分析的一个主要单位（这反映了一个事实：城市空间本质上是一个线性空间网络）。但是这并不是我们需要了解的最精确的尺度，因为这些线在交点之间的不同线段经常是起着不同作用的。同样重要的是要考虑到不同城市存在非常不同的几何形式，从更加网格状到更加有机状。为解决这些问题，现在发展出了一种新的句法模式。它仍然是建立在线网的基础上，但是它的基本单位是交点之间的线段。这种模式不仅能在更精确的尺度上进行结构分析，而且可以通过不同的方式定义一个节点和另外一个之间的距离来进行不同类型的分析：实际路程距离（从点Ａ到点Ｂ多远），最少转弯距离（一条路线有多少转弯），最小角度距离（两点之间的实际路径与连接两点的直线所形成的偏差角度大小）。这些不同的分析方法从不同的方面反映了都市的复杂程度。尽管这种新模型还在研究测试中，但是它已经被证明对于分析城市最微观尺度的土地利用变化非常有效。这个模式现在被用来分析更精确的人流模式，同时它也指明了路程、几何和拓扑３个元素的作用使得城市空间网络本身形成了人流。这个领域的重要新成果在不久的将来公布，某种程度上可能是惊人的成果。主观的组构：空间中智能行动者现在来介绍最新的发展：ＥＶＡＳ空间中智能行动者。它是从视线分析（ＶＧＡ）方法发展而来，已经被运用在很多公共空间项目上，包括最近的特拉法加广场（Ｔｒａｆａｌｇａｒ　Ｓｑｕａｒｅ）的重新设计。ＥＶＡＳ创造了虚拟环境（它建立在地图或者建筑图纸基础上），然后给虚拟的智能行动者赋予限制视角的朝前的视域。当这些智能行动者四处活动时，他们用“感知—行动”的规律来指导他们的运动行为，例如他们会被某个进入视野的特殊物体所吸引。如果环境改变（例如模拟一个新设计），ＥＶＡＳ会显示人流模式如何相应变空间句法的新方法 NEW METHODS IN SPACE SYNTAX 比尔?希利尔，克里斯?斯塔茨／Ｂｉｌｌ　Ｈｉｌｌｉｅｒ，　Ｃｈｒｉｓ　Ｓｔｕｔｚ作者简介：比尔?希利尔　，伦敦大学学院巴特雷特研究生院教授兼院长，空间句法咨询公司非执行董事。克里斯?斯图兹，空间句法咨询公司副主管。收稿日期：２００５－１０－０９１２颜色来表达，红色最高，蓝色最低。／Ｐｅｄｅｓｔｒｉａｎ　ｍｏｖｅｍｅｎｔｆｏｒｅｃａｓｔ　ｍａｐ　ｏｆ　ｓａｍｅ　ａｒｅａ　ｗｉｔｈ　ｐｒｏｐｏｓｅｄ　ｎｅｗ　ｌｉｎｋ　（ｂｅｔｗｅｅｎＫｎｉｇｈｔｓｂｒｉｄｇｅ　ａｎｄ　Ｈｙｄｅ　Ｐａｒｋ），　ｉｎｃｏｒｐｏｒａｔｉｎｇ　ｌｉｋｅｌｙ　ｅｆｆｅｃｔｓ　ｏｆｌａｙｏｕｔ／ｃｏｎｆｉｇｕｒａｔｉｏｎ　ａｎｄ　ｏｔｈｅｒ　ｓｉｇｎｉｆｉｃａｎｔ　ｆａｃｔｏｒｓ．Ｆｏｒｅｃａｓｔｌｅｖｅｌｓ　ｆｏｒ　ｅａｃｈ　ｓｅｇｍｅｎｔ　ａｒｅ　ｒｅｐｒｅｓｅｎｔｅｄ　ｏｎ　ａ　ｃｏｌｏｕｒ　ｓｃａｌｅ，　ｗｉｔｈｈｉｇｈｅｓｔ　ｌｅｖｅｌｓ　ｒｅｄ　ａｎｄ　ｌｏｗｅｓｔ　ｌｅｖｅｌｓ　ｂｌｕｅ．影响步行活动的因素／Ｆａｃｔｏｒｓ　ｉｎｆｌｕｅｎｃｉｎｇ　ｍｏｖｅｍｅｎｔ非常重要／Ｖｅｒｙ　ｓｉｇｎｉｆｉｃａｎｔ不重要／Ｎｏｔ　ｓｉｇｎｉｆｉｃａｎｔ重要／Ｓｉｇｎｉｆｉｃａｎｔ空间布局／Ｓｐａｔｉａｌ　ｌａｙｏｕｔ零售／Ｒｅｔａｉｌ地铁／Ｔｕｂｅ特殊因素／Ｓｐｅｃｉａｌ静止边界／Ｉｎａｃｔｉｖｅ　ｆｒｏｎｔａｇｅｓ哈罗兹／Ｈａｒｒｏｄｓ

现代汉语句法结构理解

《现代汉语》句法结构理解词与词组合构成句法结构.句法结构可以是词组也可以独立成句例如"他去"这个句法结构可以是主谓词组也可以单独成句.词组与句子的区别在"语法单位"一节已讨论过了.本章所涉及的"句法结构"(或"结构")若不用作句子与"词组"或"短语"同义. （注，本人在原文基础上用蓝字加注释，理解不一定对；令本人进行了文档结构编排，供学术研究之用，如有侵权，请联系本人文库账号） 1句法结构的分类 1.1从部组合的方式看 1.1.1基本结构句法结构的基本类型有主谓、动宾、偏正、补充、联合五种.这五种类型体现了汉语的基本语法关系我们把它们叫作基本句法结构分别称为主谓结构、动宾结构、偏正结构、补充结构和联合结构. 1.1.1.1主谓结构结构部两个成分之间有述和被述关系.例如: 鲜花盛开身体好今天晴天门开了窗台上放着一盆鲜花 1.1.1.2动宾结构结构部两个成分之间有支配与被支配关系.例如: 去是老师买一本写钢笔站着一个人 1.1.1.3偏正结构结构部两个成分之间有修饰和被修饰的关系.例如: A高尚的情操崇高理想南国风光春天般的温暖他的到来老人的孤独这部著作的出版 B都去很好应该去认真学习严格地训练慢慢地走 A组是"定语+中心语"(即为"定中关系")B组是"状语+中心语"(即"状中关系").

结构部两个成分之间有补充与被补充的关系.例如: 打扫干净好极了走出来跑了两趟好得很听得清楚高兴得跳起来 1.1.1.5联合结构结构部有两个或两个以上的成分它们之间有并列或选择关系.例如: 语言文学准确鲜明生动谦虚谨慎研究决定少而精讨论并通过容和形式今天或明天 1.1.2非基本结构除了上述五种句法结构以外还有同位连动兼语紧缩等结构. 1.1. 2.1同位结构结构部两个成分从不同的角度复指同一个人或事物.例如: 英雄城革命摇篮井冈山他们俩你自己雷锋同志坚医师工人周大勇 1.1. 2.2连动结构主语相同的两个或两个以上的动词性成分连用它们之间没有主谓动宾偏正补充联合等关系;中间没有语音停顿书面上没有逗号隔开没有关联词语;动词性成分之间有先后方式目的等关系.例如: 走过去开门站着说话坐在台上看球赛赖着不走借书看有理由提出（连动结构可以看成：基本结构的组合，走过去+开门整体式一个偏正结构，其中走过去是补充结构；站着说话：站着+说话是偏正，站着是补充；坐在台上看球赛：坐在台上+看球赛是偏正，坐在台上是补充，看球赛是动宾；赖着不走：赖着+不走是偏正，赖着是补充，不走是偏正；借书看：借书+看偏正，借书动宾） 1.1. 2.3兼语结构由一个动宾结构和一个主谓结构套合而成动宾结构的宾语兼作主谓结构的主语.例如: 领着我们走请他讲一讲使他相信送他出国叫他来托他帮忙派小王去

《现代汉语》句法结构资料讲解

浅析现代汉语语法中句法结构的分类类型摘要：现代汉语的语法中，词和词相搭配构成短语和句子，在这个过程中所形成的结构就是句法结构。句法结构是构成句子的基本要素和框架，也是现代汉语在交流过程中的基本原则。对句法结构的分析是现代汉语构词成句固定性的要求。本文通过对相关例子的枚举和分析，浅要探析现代汉语语法中句法结构的主要类型。关键词：现代汉语语法句法结构搭配分类词与词组合构成句法结构.句法结构可以是词组也可以独立成句。从内部组合的方式看句法结构的基本类型有：主谓、动宾、偏正、补充、联合五种。这五种类型体现了汉语的基本语法关系。我们把它们叫作基本句法结构。分别称为主谓结构、动宾结构、偏正结构、补充结构和联合结构。一.基本句法结构的分类 1主谓结构主谓结构是指结构内部两个成分之间有陈述和被陈述关系.例如:“鲜花盛开”中鲜花为主语，盛开为谓语，两个词之前呈现陈述与被陈述的关系。与之类似的还有：身体好，今天晴天，门开了，窗台上放着一盆鲜花，等。 2动宾结构结构内部两个成分之间有支配与被支配关系.例如:“上车”中动词“上”支配名词“车”，新城动宾结构。因此，“去北京”“是老师”“买一本”“写钢笔”“站着一个人”等结构都属于动宾结构。3偏正结构偏正结构是指结构内部两个成分之间有修饰和被修饰的关系.例如:“帅哥”中形容词“帅”修饰名词“哥”，两个成分构成偏正结构。与之属于同类的还有“高尚的情操”“崇高理想”“南国风光”“春天般的温暖”“他的到来”等。以上所叙述的是偏正结构中"定语+中心语"(即为"定中关系")。除此之外偏正结构中还有一种情况，例如：“都去”“很好”“应该去”“认真学习”“严格地训练”“慢慢地走”，这些属于是"状语+中心语"(即"状中关系")。 4补充结构结构内部两个成分之间有补充与被补充的关系.例如: “打扫干净”“好极了”“走出来”“跑了两趟”“好得很”“听得清楚”等，以补语补充中心语（动词、形容词）的形式出现。 5联合结构结构内部有两个或两个以上的成分它们之间有并列或选择关系.例如: “语言文学”“准确鲜明生动”“谦虚谨慎”“研究决定”“少而精”“讨论并通过”“内容和形式”“今天或明天”中，前后几个成分的关系是相对单独并列或选择的，所以称为联合式结构。二.特殊句法结构分类。除了上述五种基本句法结构以外，汉语中还有同位、连动、兼语、紧缩等特殊形式结构的存在。 1.同位结构结构内部两个成分从不同的角度复指同一个人或事物，例如： “首都北京”中“首都”从功能和象征意义上、“北京”从名称上指代同一座城市，因此构成同位结构。与此相类似的还有：“英雄城南昌”“革命摇篮井冈山”“他们俩”“你自己”等。

现代汉语语法研究

论现代汉语语法研究历史学院名称：人文社科学院专业：汉语言文学班级：13东策划姓名：丁玎学号：2013801102 指导教师姓名：程树铭指导教师职称：教授

2014年6月摘要：通过对语法历史发展的回顾，即八十年代以后，汉语语法学者借鉴国外语法理论，发掘汉语事实，探讨适合于汉语的分析方法，在汉语的语法范畴、语法关系、语法单位以及语法表达功能等方面都进行广泛的探究这段历史，充分领悟现代汉语语法在现代汉语中的重要性，帮助我们更好掌握语法知识，能使我们再以后的语言表达能力上更上一层楼。关键字：语法关系，语法单位，语法表达功能语言是由语音形式、语义内容、结构关系三个方面构成的统一体，三个方面缺一不可，互相作用，构成了语言。语音是语言的形式部分，词汇是语言的意义部分，语法是语言单位的关系部分，说的是符号与符号怎样组合的问题。三个部分在语言中的作用，我们可以这样简单来表述：没有语音形式，语言就无法存在，

没有词汇的内容意义，语言就是一个毫无作用的空壳，没有语法，语言就是一盘杂乱而毫无章法的散沙。例如：山上草在吃牛儿--牛儿在山上吃草从上面的一些组合的例子可以看出，语法虽然是看不见摸不着的东西，可是它又是实实在在的，客观存在于语言之中的。一种语言，即使是最原始的语言，也得有一套语法规则系统，指导人们按照已有的规则去组织符号，构成表达思想的句子，否则，像上面所举的例子那样，同样的意思同样的词语，不同的人完全自说自话，别人就根本不可能理解你说的什么内容，语言也就不可能成为人类的交际工具了。语法是语言结构的三个要素之一，而且从某种意义上说是最重要而又最容易被人忽视的一个要素。简单地说语法就是用词造句的规则系统，它是词的构成规则、变化规则、组合规则的总和。而从八十多年来，汉语语法学者借鉴国外语法理论，发掘汉语事实，探讨适合于汉语的分析方法，在汉语的语法范畴、语法关系、语法单位以及语法表达功能等方面都进行了广泛的探究。汉语语法学者从一开始就关注语法范畴的确立问题，数十年来关于"词类"问题的广泛讨论和不懈探究就是一部汉语基本语法范畴的确立历史。和其他语言的研究者一样，汉语语法学者首先准确地辨析出了名词、动词、形容词这样的基本词类范畴，但在分析手续上却遇到了许多西方学者所未曾遇到的难题。因为汉语几乎没有可供辨识的外在词形标记，在确定词类成员的问题上就很难得出明确的结论。早期的汉语语法学者看到英语这样形态

中文复杂名词短语依存句法分析

优先出版计算机应用研究第32卷 -------------------------------- 基金项目：国家自然科学基金项目(61173095)，国家自然科学基金重点项目(61133012) 作者简介：陈永波(1990-)，男，山东禹城人，硕士研究生，无，主要研究方向为自然语言处理、句法分析、机器学习等(chenyongbo1990@https://www.doczj.com/doc/8915994388.html,)；汤昂昂(1990-)，男，硕士研究生，无，主要研究方向为自然语言处理、信息检索、机器学习等；姬东鸿(1967-)，男，博士，博导，主要研究方向为自然语言处理、语义网技术、机器学习、数据挖掘等；．中文复杂名词短语依存句法分析 * 陈永波，汤昂昂，姬东鸿 (武汉大学计算机学院，武汉 430072) 摘要：针对中文复杂名词短语的依存句法分析进行了研究，提出简单边优先与SVM 相结合的依存句法分析算法。算法的每一步迭代根据边的特征于每一对相邻子树之间的无向边中选择最优者，然后利用支持向量机根据边两端子树的特征确定该边的方向，即得到两棵子树的中心语之间的依存关系。实验证明对于复杂名词短语的依存句法分析，算法准确率比简单边优先算法有明显提高，且优于基于最大生成树算法的中文句法分析器。算法分析效率更高，时间复杂度为O （n2logn ）。关键词：中文复杂名词短语；依存句法分析；决策式算法；支持向量机；特征中图分类号：TP391.1 文献标志码：A Dependency parsing of Chinese complex nominal phrase CHEN Yong-bo, TANG Ang-ang, JI Dong-hong (Computer School, Wuhan University, Wuhan 430072, China) Abstract: This paper developed Easy Arc First Algorithm Combined with SVM, and used it in dependency parsing of Chinese Complex Nominal Phrase. In each iteration step, the algorithm finds out the optical non-directional arc among arcs linking neighboring subtrees according to their features, and determines the arc ’s direction using SVM. Results of experiments show that accurate rate of the algorithm is significantly higher than Easy First Arc Algorithm, and higher than Chinese parser based on MST algorithm. Time complexity of the algorithm is O(n2logn). Key Words: Chinese complex nominal phrase; dependency parsing; deterministic algorithm; SVM; feature 0 引言复杂名词短语的语义解释是自然语言处理领域最具挑战性的课题之一[1]。研究复杂名词短语的依存句法分析算法，对句子依存分析计算复杂性的简化和准确率的提高具有重要意义 [2]。当前主流的依存句法分析算法可以分为三类：基于转换的算法、基于图的算法和同时基于图与转换的算法。基于转换的算法计算简单，而准确率较低；基于图的算法准确率高，但计算复杂。Yoav 等[3]结合前两种方法，提出了简单边优先算法。该算法能较好地处理长句，却不能移植到复杂名词短语的句法分析。针对复杂名词短语的内部结构特征，本文提出了简单边优先与SVM 相结合的依存句法分析算法。算法考虑了复杂名词短语的内部结构特征，在降低计算复杂度的同时有效地保证了准确率。实验证明该算法能良好地应用于复杂名词短语的依存分析，且准确率和效率高于基于最大生成树算法的中文句法分析器。本文内容主要分为五部分：本部分为引言；第一部分介绍复杂名词短语的定义及其语义结构；第二部分介绍依存句法分析的定义及目前的主流算法；第三部分介绍简单边优先与SVM 相结合的依存句法分析算法；实验及结果分析在第四部分。 1 复杂名词短语 1.1 定义本文的研究对象是指包含至少三个词语且不含助词“的”的复杂名词短语。下面1）和2）给出了两个复杂名词短语的例子。 1）多种语言现象 2）多种语言习得研究复杂名词短语的识别和依存分析对于句子分析的简化和准确率的提高具有重要意义。目前国内外对于复杂名词短语语义结构的研究主要集中在NN 二词短语，而对于多词名词短语的研究比较少见。但多词名词短语的语义结构远非二词名词短语所能涵盖。例如1）中如果没有“现象”，“多种”语义上指向“语言”；如果添上“现象”，则很可能指向“现象”。相比

空间句法的简易应用

空间句法的简易应用 Company Document number：WUUT-WUUY-WBBGB-BWYTT-1982GT

空间句法的简易演示 1、研究方法空间句法主要有三种研究方法：凸多边形法、轴线底图法、视区分割法，建筑和城市研究多采用前两种方法，本演示说明只针对前两种方法进行简单演示。凸多边形法：凸空间定义：假设一个空间内部，任意两点之间可以相互看见（all see all）（如图）。凸多边形法：适用于将建筑空间转换为二维平面图，进而计算空间之间的相互关系，通过准确描述空间结构，来观察人的行为和社会活动，反作用于研究建筑空间的合理性和功能性。左边空间为凸空间，右边空间由于部分点之间视线遮挡，不能定位为凸空间。轴线底图法适用于城市范围内的空间和道路空间可达性的研究。 2、软件应用（1）凸多边形法演示——以单层建筑平面为例在网络上下载UCL 的Depthmap10进行安装，并打开软件。 Ctrl+N，新建一个graph文件。在此之前，我们按照建筑平面进行凸空间整理，以下图空间为例，首先在CAD里进行凸空间绘制。绘制完成后将CAD文件另存为“dxf”文件，用于导入Depthmap中。按Ctrl+I，导入Depthmap中，并将文件转化为“Convex Map”（凸空间模型，转为Convex Map；轴线模型，转为Axial Map；线段模型，转为Segment Map。），软件才可以进行凸空间运算。

运算完成后，得到有颜色的结果，对于有数值的，空间句法采用是颜色级别显示策略，如果一个元素是灰色的，说明这个元素是没有数值的，需要在CAD里重新绘制。然后设定空间之间的连接关系，常用按钮为Link和Unlink，。点击“Select”退出编辑，然后进行运算。在Depth Map→Axial/Convex/Pesh→Run Graph Analysis，弹出对话框。对话框中的参数设置，最上面为Rdius，设置计算半径，数值选择有“n， 3,5,7,9,11”，以任意一个空间元素为中心，再以“全系统”、“半径3”、“半径5”、“半径7”等以此类推为限制条件，分别进行某个算法的计算。每一项都要打上勾，最后一项的意思是“以什么为权重”，凸空间模型一般选择“Connectivity”，在研究城市课题的空间句法模型中，经常需要考虑“米制距离”，一般是在轴线模型中，这时应选择weight by“Length”。点击“OK”后，就会出现软件计算完成的结果，窗口左侧出现了参数选择栏，可拖动参数选择栏右边的滚动条进行上下浏览，不宜用鼠标滚轮，滚轮一动，易造成右侧图形的消失，这时可以用“Recenter” 这个命令，将图形最大化显示。至此，凸空间模型的软件操作已经告一段落，接下来即是结合建筑与城市规划的知识进行读图分析。（2）轴线底图法——以城市为研究对象，采用轴线模型，进行道路可达性分析操作演示。主要分析流程选择研究范围:可以以环城高速作为边界，或者选择规划边界作为研究边界，并设置一个足够大的缓冲区。在CAD里进行轴线绘制，注意要点如下：（1）交接处要稍微出头，确保连接关系的正确表达；（2）对空间的概括要准确，尽量按照“最长也最少”的原则选择更简化、更合理的表达方式。 S形街道的轴线绘制示例交通转盘的轴线绘制示例

《现代汉语》句法结构教学内容

】《现代汉语》句法结构词与词组合构成句法结构.句法结构可以是词组也可以独立成句例如"他去香港"这个句法结构可以是主谓词组也可以单独成句.词组与句子的区别在"语法单位"一节已讨论过了.本章所涉及的"句法结构"(或"结构")若不用作句子与"词组"或"短语"同义. 一句法结构的分类 (一)从内部组合的方式看句法结构的基本类型有主谓动宾偏正补充联合五种.这五种类型体现了汉语的基本语法关系我们把它们叫作基本句法结构分别称为主谓结构动宾结构偏正结构补充结构和联合结构. 1主谓结构结构内部两个成分之间有陈述和被陈述关系.例如: 鲜花盛开身体好今天晴天门开了窗台上放着一盆鲜花 2动宾结构结构内部两个成分之间有支配与被支配关系.例如: 去北京是老师买一本写钢笔站着一个人 3偏正结构结构内部两个成分之间有修饰和被修饰的关系.例如: A高尚的情操崇高理想南国风光春天般的温暖他的到来老人的孤独这部著作的出版 B都去很好应该去认真学习严格地训练慢慢地走 A组是"定语+中心语"(即为"定中关系")B组是"状语+中心语"(即"状中关系").

结构内部两个成分之间有补充与被补充的关系.例如: 打扫干净好极了走出来跑了两趟好得很听得清楚高兴得跳起来 5联合结构结构内部有两个或两个以上的成分它们之间有并列或选择关系.例如: 语言文学准确鲜明生动谦虚谨慎研究决定少而精讨论并通过内容和形式今天或明天除了上述五种句法结构以外还有同位连动兼语紧缩等结构. A同位结构结构内部两个成分从不同的角度复指同一个人或事物.例如: 英雄城南昌革命摇篮井冈山他们俩你自己雷锋同志赵坚医师工人周大勇 B连动结构主语相同的两个或两个以上的动词性成分连用它们之间没有主谓动宾偏正补充联合等关系;中间没有语音停顿书面上没有逗号隔开没有关联词语;动词性成分之间有先后方式目的等关系.例如: 走过去开门站着说话坐在台上看球赛赖着不走借书看有理由提出

再论“空间句法”(图文整理详细版)

再论“空间句法”（图文整理详细版）作者：张愚王建国国内建筑界对空间句法的了解，多数仅限于由赵冰翻译的《空间句法——城市新见》一文[1]。发表于1985年第一期《新建筑》上的这篇文章，简要介绍了早期的空间句法方法在城市空间形态研究方面的应用，但未全面介绍其方法背景、原理和其他应用，因此，至今很多人仍颇有不解或“持保留态度”[2]。多年来，空间句法在各方面已有长足发展，国内杂志却鲜有论及。本文试图比较清晰地介绍和评析空间句法的理论、方法、实践及其最新研究进展。简单地说，空间句法是一种通过对包括建筑、聚落、城市甚至景观在内的人居空间结构的量化描述，来研究空间组织与人类社会之间关系的理论和方法（Bafna, 2003）。它是由伦敦大学巴利特学院的比尔•希列尔（Bill Hillier）、朱利安妮•汉森（Julienne Hanson）等人发明的。早在1974年，希列尔就用“句法”一词来代指某种法则，以解释基本的但又是根本不同的空间安排如何产生[3]。到1977 年，空间句法研究则略具雏形。经过二十余年的发展，空间句法理论已经深入到对建筑和城市的空间本质与功能的细致研究之中，并得到不断完善；由此开发出的一整套计算机软件，可用于建成环境各个尺度的空间分析；而且在建筑和城市设计中进行了广泛的应用。如今，空间句法的研究和应用已经在世界范围内普遍展开。 1997年，首届世界性的空间句法研讨会在伦敦举行；其后于1999年和2001年又在巴西利亚和亚特兰大举行了第二和第三届。2003年6月，在伦敦刚刚举行的第四届研讨会上，来自世界数十个国家和地区的82篇论文，从不同角度对空间句法进行了广泛深入的探讨。另外，日趋成熟的空间句法分析技术，已经成功应用于商业咨询。理查德•罗杰斯、诺曼•福斯特、泰瑞•法雷尔等知名事务所，在众多建筑和城市设计项目中雇请空间句法咨询公司进行空间分析，为其设计提供了有力的引导和支持。由于篇幅所限，本文以解释构形概念为主线，重点从空间知觉的角度简析空间句法的方法原理，使读者能真正理解并实际运用它；而对于空间句法的理论概念和具体应用成果仅作扼要介绍。 1. 构形与建筑学 1.1 构形的含义构形（configuration），从字面上看，是指“轮廓由其各部分或元素配置决定的外形”（据美国传统辞典）。希列尔将构形定义为“一组相互独立的关

模式识别导论习题参考-齐敏-第6章-句法模式识别

第6章句法模式识别习题解答 6.1 用链码法描述5～9五个数字。解：用弗利曼链码表示，基元如解图6.1所示：数字5~9的折线化和量化结果如解图6.2所示：各数字的链码表示分别为： “5”的链码表示为434446600765=x ； “6”的链码表示为3444456667012=x ； “7”的链码表示为00066666=x ； “8”的链码表示为21013457076543=x ； “9”的链码表示为5445432107666=x 。 1 7 解图6.1 弗利曼链码基元解图6.2 数字5~9的折线化和量化结果

6.2 定义所需基本基元，用PDL 法描述印刷体英文大写斜体字母“H ”、“K ”和 “Z ”。解：设基元为：用PDL 法得到“H ”的链描述为)))))(~((((d d c d d x H ?+?+=； “K ”的链描述为))((b a d d x K ??+=； “Z ”的链描述为))((c c g x Z ?-=。 6.3 设有文法),,,(S P V V G T N =，N V ，T V 和P 分别为 },,{B A S V N =，},{b a V T = ：P ①aB S →，②bA S →，③a A →，④aS A → ⑤bAA A →，⑥b B →，⑦bS B →，⑧aBB B → 写出三个属于)(G L 的句子。解：以上句子ab ，abba ，abab ，ba ，baab ，baba 均属于)(G L 。 6.4 设有文法),,,(S P V V G T N =，其中},,,{C B A S V N =，}1,0{=T V ，P 的各生成式为 ①A S 0→，②B S 1→，③C S 1→ b c a d e abba abbA abS aB S ???? ① ⑦ ② ③ ab aB S ?? ① ⑥ ba bA S ?? ② ③ abab abaB abS aB S ???? ① ⑦ ① ⑥ baab baaB baS bA S ???? ② ④ ① ⑥ baba babA baS bA S ???? ② ④ ② ③

现代汉语的词法和句法——常识

现代汉语的词法和句法现代汉语有一个系统而复杂的语法体系，学习起来会令人感到枯燥乏味，故人们往往疏而远之。甚至有人说，语法没什么实际用处，不懂语法照样能写好文章。诚然，写文章不必一味拘泥于语法的限制，但不等于写文章可以不懂基本的语法知识。只要我们仔细地阅读在各类媒体上发表的文章，就不难发现有明显语法错误的病句比比皆是。因此，要想在作文时能准确而规范地使用我们祖国的语言文字，不学一点基本的语法知识，是不能如愿以偿的。现代汉语语法的基本内容包括汉字的特点，字词句的区别、联系及其使用规则，以及字词句在具体语言环境中的变化规律等等。囿于篇幅和笔者的水平，本讲只能着重而简略地讲一讲现代汉语中通用的词法和句法这两大问题。（上篇讲词法，下篇讲句法。）（一）词法词法，即运用词语必须遵循的一般语法规则。所谓“一般语法规则”，即人们约定俗成并为人们广泛认可和应用的语言文字的规范。在《词语的运用》一讲中我们已经进过，词语是具有实在意义并能独立运用的最小的语言单位。因此，我们学习任何一种语言，都必须从学习词语开始，首先应该学一点词法的基本知识。接下来，我想择其要讲两个问题：词语的构词方式，词类和词的兼类。〔1〕词语的构词方式现代汉语中的词汇绝大多数是由两个有具体意义的字构成的双音节合成词（古代汉语单音节词居多）。联合式和偏正式是双音合成词的两种主要的构词方式。例如“考试”和“考场”这两个合成词，“考”和“试”的意思相近，合为一个词表示一个意思。这两个字是并列的联合关系，它们的意义没有主次之分。而“考场”则不同，“场”是场所、场地的意思，“考”说明做什么用的场所、场地。其中的“场”是主体，“考”是附加的，起限制、区别的作用。两个字的意思有主次之分。由此可知，如“考试”这类由两个意义并列，不分主次的字构成的合成词，叫联合式合成词。如“考场”这类由两个有主次之分，意义有从属关系的字构成的合成词，叫偏正式合成词。联合式合成词又可分为两种情况：（A）由意义相同或相近的两个字并列构成。例如“土地、城市、房屋、戏剧、海洋”等等。（B）由意义相反或相对的两个字并列构成。例如“收发、开关、买卖、出纳（词中两个字意义相反）；方圆、左右、始终、尺寸（词中两个字意义相对）”等等。这里要注意的是，两字意义相反的合成词的意义，代表事物的全面和整体。两字意义相对的合成词的意义，表示一种不确定的抽象意义。此外，还要注意的是，联合式合成词的两个字，有的可以颠倒，意思不变。如“互相”也可写成“相互”。有的则不能颠倒，否则意思就不同了。如“生产”不能写成“产生”。而汉语中的联合式合成词的两个字，绝大多数是不能颠倒的。偏正式合成词的构词方式也有两种情况：（A）後一字词是主体，前一个字起修饰限制作用。如“火热、热爱、粉碎、微笑（修饰作用）；铁矿、马路、汽车、布鞋（限制作用）”等等。（B）后一个字对前一个字起补充说明作用，表示动作的结果和趋向。如“说明、提高、扩大、改善、抓紧”等等。以上所说是合成词的两种主要构词方式，此外还有其他几种构词方式：（A）前一个字表示动作，后一个字表示相关的事物，构成表示动作行为或人和事物名称的词。例如“动员、带头、出席（表示动作行为）；司令、领队、导游（表示人和事物名称）”等等。（B）后一个字说明前一个字的情状。如“地震、心疼、性急”等等。（C）前一个字表示事物名称，后一个字表示事物的单位，这类合成词多半成为一种“类”名。例如“布匹、纸张、车辆、船只、诗篇”等等。（2）词类和词的兼类——汉语里的每个词都有不同的意义和用法。我们把用法相同的词归为一类，即为语法上的“词类”，也称“词性”。汉语里所有的词按其性质和功能的不同，可分为两大类：实词和虚词。“实词”，即具有实在和明显意义的词。它有两个特点：第一，正因为实词都有具体实在的意义，所以它们只要按一定的规则和顺序组合起来，就可以成为

基于句法分析和机器学习的中文自动问答系统研究

基于句法分析和机器学习的中文自动问答系统研究自动问答系统是为了应对信息爆炸的客观挑战和满足信息时代人们对于快速、准确地获取信息的主观需求而发展起来的。它逐渐成为自然语言处理和自然语言理解领域的前沿。本文首先对问答系统的整个框架结构进行了剖析,对问答系统的三个关键模块的实现任务和解决方案进行了细致的综述。其次本文提出了基于汉语问句句型分析和支持向量机相结合的中文问题分类方法。本文还提出了基于最大熵模型对候选答句进行二分类的方法对答案进行抽取。综述部分全面介绍了问答系统三个关键模块的实现任务和解决方案,着重剖析和总结了问答系统中两个最关键的子模块:问题分类和答案抽取的实现方法。本文分析指出,对问句进行句法分析的分类特征抽取和基于机器学习的分类方法成为问题分类的技术发展趋势;句法分析和机器学习成为答案抽取里面两个最重要的组成部分。问题分类模块中,本文首次提出根据距离疑问词最近原则确定问句中的谓语动词,根据疑问词和谓语中心语的距离信息对汉语问句进行句型分析。然后,在此分析的基础上,提取出疑问词、谓语动词、主语和宾语作为问题分类的特征。最后采用支持向量机作为问题分类的机器学习算法,取得了良好的实验结果,准确率达到95.87%。答案抽取模块中,本文首次提出把答案的抽取问题转化成一个对候选答句进行二分类的问题。首先,在对问句进行句型分析的基础上,提取出问句词及词性序列、查询关键词、疑问词、主语、谓语和宾语作为问句特征集;然后,对候选答句进行浅层句法分析,提取出候选答句词序列,候选答句词性序列和正确答案词性

标记作为答句特征集;基于问句特征集和答句特征集得到组合特征集;最后,引入最大熵模型,在组合特征集的基础上训练答案抽取的分类器。良好的实验表现证明了这种方法的可行性。

现代汉语语法常识

现代汉语语法常识一、了解一下语法单位语法单位按照由小到大的顺序分为语素→词→短语(也称词组)→句子(包括单句和复句)→句群。语素是最小的音义结合体，最小的语法单位，比如：单音节语素(山)、双音节语素(徘徊、坦克)、多音节语素(高尔夫、奥林匹克)。句群是最大的语法单位，句群也叫句组或语段，是前后衔接连贯的，能表达一个明晰的中心意思的一组句子。其中“语素”“句群”不需了解，“词”“短语”作一般了解，学习的重点是“句子”。二、词、短语、句子 (一)词词是最小的能够独立运用的语言单位，是构成短语和句子的备用单位。词分为实词和虚词两大类，实词包括名词、动词、形容词、数词、量词和代词，虚词包括副词、介词、连词、助词、叹词、拟声词。

1．指出下列各句中加点词所属词性。 (1)教育．．了我。．．要面向未来。( ) (2)这件事教育 ( ) (3)话说得很明白．．。( ) (4)一席话使她明白．．了很多道理。 ( ) (5)他在．教室。 ( ) (6)他在．教室看书。 ( ) (7)他在．修自行车。( ) (8)小只是．．哭，你问她，她什么都不说。( )

(9)这件事，他和．我谈过。( ) (10)这件事，他和．我都知道。 ( ) (11)山，好大的山啊．！( ) (12)啊．！好大的一幅画！ ( ) (二)短语短语是词的组合，是意义和语法上能搭配而没有句调的一组词，故又称词组。 1．短语按其在句中充当句子成分的功能分为： (1)名词性短语：以名词为主体构成，具有名词的特征和语法功能，一般在句中作主语、宾语。如：三贤故里、历史人物、负责人。 (2)动词性短语：以动词为主体构成，具有动词的特征和语法功能，一般在句中作谓语。如：走与停、吃得香、大力发扬。 (3)形容词性短语：以形容词为主体构成，具有形容词的特征和语法功能，一般在句中作谓语，也可作主语、定语。如：真与假、不土不洋、格外高兴。 2．短语按其部结构关系分为： (1)常见结构类型：

matlab基础语句句法和举例

roots Syntax Descriptionr = roots(c) returns a column vector whose elements are the roots of the polynomial c. Row vector c contains the coefficients of a polynomial, ordered in descending powers. If c has n+1 components, the polynomial it represents is c1x n+c2x (n-1)+…+c n-1+1. >> c=[ 1 2 3] c = 1 2 3 >> roots(c) ans = -1.0000 + 1.4142i -1.0000 - 1.4142i exp exp Exponential SyntaxY = exp(X) DescriptionThe exp function is an elementary function that operates element-wise on arrays. Its domain includes complex numbers. Y = exp(X) returns the exponential for each element of X log %(注意MA TLAB里log是ln的意思) log Natural logarithm SyntaxY = log(X) DescriptionThe log function operates element-wise on arrays. Its domain includes complex and negative numbers, which may lead to unexpected results if used unintentionally. Y = log(X) returns the natural logarithm of the elements of X. >> exp(log(1)) ans = 1