当前位置:文档之家› 2000年——汉语语音识别中统计语言模型的构建及其应用——清华大学硕士论文

2000年——汉语语音识别中统计语言模型的构建及其应用——清华大学硕士论文

2000年——汉语语音识别中统计语言模型的构建及其应用——清华大学硕士论文
2000年——汉语语音识别中统计语言模型的构建及其应用——清华大学硕士论文

密级:秘密汉语语音识别中统计语言模型的构建及其应用

Implementation and Application of

Statistical Language Model in

Mandarin Speech Recognition

(申请清华大学工学硕士学位论文)

院(系、所):计算机科学与技术系

专 业:计算机应用

研 究 生:武健

指 导 教 师:郑方 (职称)副教授

2000 年6月

摘要

语音识别的目的之一是将人的语流自动转化为相应的文本信息,在自动转化的过程中,语言模型起着重要的作用。本文对汉语连续语音识别涉及到的一些语言模型构建和使用的关键技术进行了较深入的研究,主要讨论了统计语言模型n-gram的理论基础及其实现技术,以及在语音识别和相关系统中的应用。具体包括:

1、提出了复合的机器词典构造流程,该流程应用了基础词条的分级选择策略,基于合并的新词发现算法,以及最大似然的同步分词算法;构成了汉语语料库的自动处理平台;生成了一个5万词的语音识别用汉语机器词典EasyDic99。

2、提出了针对图灵估计退化模型的修正方案,从防止折扣系数计算出现溢出,减少模型存储,以及降低概率估计失真等三个方面解决了基于图灵估计的退化模型在实际应用中的问题;实现了一个基于两亿字语料库的trigram语言模型。

3、在音节同步算法的基础上,提出了基于多活动栈的音节同步算法,用于完成汉语音字的转换。该算法更合理地利用了同步算法的优势,减少了预测的工作量;与单栈的音节同步算法相比,它在一定程度上结合了广度优先算法和深度优先算法的特点,能够更加准确地实现搜索目标。

4、在基于词的同步搜索算法基础之上,提出了综合同步搜索算法,用于连续语音识别中的路径搜索。该算法应用了分阶段的联合预测技术,搜索时有机地结合声学模型和语言模型的预测技术。此外,还提出了基于语言模型的分级剪枝策略,并在此基础之上构造了多层的剪枝算法。

5、根据基于多活动栈的音节同步算法,实现了汉语智能整句输入法的原型EasyConv99。

6、根据综合同步搜索算法,实现了汉语语音听写机的原型系统EasyTalk2000。

关键词: N-gram语言模型,机器词典,修正退化平滑算法,基于多活动栈的音节同步算法,综合同步搜索算法

I

II

Abstract

The language model plays an important role in the process of speech recognition, which is used to transform human speech into corresponding text information. In this paper, some key techniques for language model in Mandarin continuous speech recognition have been studied. Two main aspects are focused on: the theory and technology involved in the implementation of the statistical language model; the utilization of statistical language model in speech recognition and related system. In detail, the followings are included:

1. A complex strategy for constructing machine dictionary, including a

hierarchical-selecting strategy for basic word items, a merging based new word discovery algorithm and a maximizing likelihood based synchronous algorithm for word boundary detecting, is proposed. And then an automatic processing system for Mandarin corpus and a machine dictionary, namely EasyDic99, are established.

2.An enhanced version of Katz-smoothing based back-off model is proposed to

amend the computation of the discounting coefficients, decrease the storage space of n-gram, and reduce the estimating distortion of the back-off probabilities, so that an applicable trigram can be achieved.

3. A Multi-Active-Stack based Syllable Synchronous Search (MS-SSS) algorithm

for Mandarin pinyin-to-character conversion is presented, in which some characteristics of the width-first algorithm and the depth-first algorithm are combined to improve the efficiency of the search.

4.An Integrated Synchronous Search (ISS) algorithm based on the

word-conditioned beam search is proposed and applied in the continuous speech recognition. A Stage based Look Ahead (SLA) technique and a Language Model Rank based Pruning (LMRP) strategy is utilized in this algorithm.

5. A prototype of Mandarin intelligent keyboard input method based on MS-SSS,

namely EasyConv99, is implemented.

6. A prototype of Chinese Dictation Machine (CDM) based on ISS, namely

EasyTalk2000, is implemented.

Keywords:N-gram Language Model, Machine Dictionary, Modified Katz-smoothing Algorithm, Multi-Active-Stack based Syllable

III

Synchronous Search Algorithm, Integrated Synchronous Search Algorithm

IV

V

目录

第一章前言 (1)

1.1语言处理 (1)

1.2语言模型在语音识别系统中的作用 (1)

1.3确定型语言模型和统计语言模型 (2)

1.3.1确定型语言模型 (2)

1.3.1.1确定性语言模型简介 (3)

1.3.1.2确定性语言模型所面临的问题 (5)

1.3.2统计语言模型 (6)

1.3.2.1 n-gram模型 (6)

1.3.2.2 n-gram模型的缺陷 (7)

第二章统计语言模型的构建 (8)

2.1汉语语料库的处理 (8)

2.1.1汉语与西方语言的特点 (8)

2.1.2机器词典 (9)

2.1.2.1语音识别用机器词典的选择 (9)

2.1.2.2基于合并的新词发现 (11)

2.1.2.3语音识别用机器词典EasyDic99 (12)

2.1.2.4基于最大似然的同步分词算法 (13)

2.2 n-gram模型的训练及其平滑 (14)

2.2.1几种常用的n-gram平滑方法 (15)

2.2.1.1基于词类的n-gram模型 (15)

2.2.1.2基于最大墒的n-gram模型 (16)

2.2.1.3基于图灵估计的退化n-gram模型 (18)

2.2.2基于图灵估计的退化算法在实际应用时的若干改进 (22)

2.2.2.1折扣系数计算的改进 (23)

2.2.2.2对模型存储空间的改进 (23)

2.2.2.3对概率估计失真的改进 (24)

2.3实验结果及分析 (28)

2.3.1基于合并的策略发现的新词 (28)

2.3.2基于最大似然分词策略的测试结果 (29)

2.3.3修正的退化模型实验结果 (29)

VI

2.3.4对模型存储空间的改进实验结果 (30)

2.4 综合结论 (31)

第三章统计语言模型在汉语音字转换中的应用 (32)

3.1音节同步算法 (32)

3.1.1词网格 (32)

3.1.2问题的求解 (33)

3.1.3词法树的引入 (34)

3.1.4正向匹配中的预测 (35)

3.1.5路径剪枝策略 (35)

3.1.6算法的描述 (36)

3.2修正的音节同步算法 (37)

3.2.1音节同步算法的不足 (37)

3.2.2多栈解码算法 (38)

3.2.3基于多活动栈的音节同步算法 (39)

3.3实验结果 (41)

3.4综合结论 (41)

第四章连续语音识别中搜索算法对统计语言模型的利用 (43)

4.1连续语音识别中的搜索策略 (43)

4.1.1连续语音识别的问题描述 (43)

4.1.2连续语音识别中的搜索策略 (43)

4.2语言模型在同步搜索算法中的使用 (45)

4.2.1基于词的搜索算法 (45)

4.2.2基于时间的搜索算法 (46)

4.3语言模型概率的折入 (47)

4.4语言模型和声学模型的预测 (48)

4.4.1声学模型的预测 (48)

4.4.2语言模型的预测 (49)

4.4.3语言预测与声学预测的结合 (50)

4.5搜索中的剪枝策略 (51)

4.6实验结果及结论 (52)

4.6.1性能比较 (52)

4.6.2搜索复杂度的评价指标 (54)

4.6.3搜索复杂度的比较 (55)

4.6.4综合结论 (56)

参考文献 (57)

VII

VIII

致 谢 (61)

个人简历 (63)

发表(已接受)论文 (63)

图表索引

图1.1 语音识别器的组成 (2)

图2.1 语音识别用机器词典的构造流程 (10)

图2.3 机器词典按词长的分布 (12)

图2.4 机器词典按词频的分布(占总词频的比例) (12)

图2.5 图灵估计前后的退化模型比较 (22)

图3.1 词网格示意 (33)

图3.2 词法树示意 (35)

图3.4 多栈解码算法示例 (38)

图3.5 基于多活动栈的音节同步算法 (38)

图4.1 剪枝算法对搜索复杂度的影响 (56)

表2.1 基于合并策略发现的新词 (28)

表2.2 不同平滑算法下语言模型的困惑度比较 (30)

表2.3 不同平滑算法下音字转换字错误率比较 (30)

表2.4 模型存储空间修正前后音字转换字错误率和系统效率比较.............31 表3.1 音节同步算法、多栈解码算法以及多栈音节同步算法的特点比较.40

表3.2 单栈的音节同步算法与双活动栈的音节同步算法性能比较 (41)

表3.3 双活动栈的音节同步算法中堆栈容量对性能影响的比较 (41)

表4.1 综合搜索算法与多遍搜索算法性能比较 (53)

表4.2 调整联合预测算法中的参数M 对EasyTalk2000系统性能的影响..53

表4.3 调整剪枝算法中的参数β 对EasyTalk2000系统性能的影响............53 表4.4 调整剪枝算法中的参数a β和l β 对EasyTalk2000系统性能的影响..54

表4.5 采用LMRP 对EasyTalk2000系统性能的影响 (54)

表4.6 分阶段联合预测算法对搜索复杂度的影响 (55)

表4.7 基于语言模型的分级剪枝策略对搜索复杂度的影响 (55)

IX

第一章前言

语言是人们用来进行信息传递和相互交流的一种信息载体,是人所特有的一种高级智能。上古时代,各部族的人们用简单的符号记忆他们的生活经历,用一些相互可理解的发音进行交流。随着时代的变迁,这些记忆符号逐渐发展,形成了文字,并与人们之间最密切的交流方式-语音结合在一起,组成了语言。

1.1语言处理

语言处理实际上就是对语言中孕育着的信息进行提取和加工处理的过程,它是一门与人工智能、概率计算、语音学、信息论、认知心理学相关的多学科交叉的综合研究课题。分析自然语言的构成可以发现,语言是感知知识(Perception Knowledge)和认知知识(Cognition Knowledge)的综合体,认知是一种能够形式化的知识,能用语言描述的;而感知的并不一定都能用语言表达。而目前的计算机只能处理形式化了的知识,那么语言处理的任务就是寻找和发现这些感性知识到认知知识的转换或映射机制,并用形式化的语言模型加以表述。

语言处理是语音识别过程的一个重要组成部分。实际上,当我们听到一个具体话题的时候,可能会漏掉对方所说的几个词,甚至是整个句子都没有听清,但我们往往总能通过各方面的知识,包括上下文信息和具体语境等,弥补上我们漏听的词,从而正确地理解对方所说的内容。这就告诉我们,在人进行语音识别的时候,不仅利用了声学信息,而且还使用了许多非声学的知识,如词法、语法、语义等,在很大程度上,人们正是利用这些高层次的知识来获得对语音的正确识别和理解。

1.2语言模型在语音识别系统中的作用

一个大字表连续语音识别系统(即听写机)应该由两部分组成:声学模型和语言模型。二者之间的关系可以用图1.1来描述:假设声学模型的输入(即语音信号)为A,它的输出(也是语言模型的输入)为w,则整个语音识别系统的任务就是找到一个w*,使它满足:

1

2

)()()(max

arg )(max arg *A P w P w A P A w P w w w == (1.2.1)

其中第二步是根据Bayes 法则得到的。在这个式子中,P (A|w )是由声学模型计算得出的匹配概率,P (A )是一个常数值,而P (w )是由语言模型给出的。容易看到,没有语言模型的识别系统,实质上是认为,对每个可能的句子P (w )都是一样的,这种假设显然不尽合理。

图1.1 语音识别器的组成

1.3确定型语言模型和统计语言模型

根据对语言分析处理的方法不同,用于语言处理尤其是用于语音识别中的语言模型主要分为两种:确定性语言模型(Deterministic Language Model ),也称句法语言模型(Syntactic Language Model )或形式语言模型(Formal Language Model ),和统计语言模型(Statistical Language Model 或Stochastic Language Model )。确定性语言模型是建立在形式语言理论的基础上的,它用一个先验的形式语法来描述语言的内在结构,以判别句子的下一个语言单位(Linguistic Unit )。而统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律。

1.3.1确定型语言模型

语言中有成千上万的词汇,但词汇的任意组合并不是语言,它们只有依照语法规则组合起来的时候,才能构成语言。语法是语言的构架,是描述语言的语法结构的形式规则(即语法规则)。这些规则必须准确,而且应有相当强的描述能力,足以描述各种不同结构。语法具有抽象性,它的各种规则是从无数的

3

具体句子中抽象出来的。具体的句子是无限的,而支配句子的组合规则是有限的。

1.3.1.1确定性语言模型简介

形式语言(Formal Language )和自动机理论是Chomsky 提出的,它认为一个文法G 是由四部分组成的:一组终结符号,一组非终结符号,一个开始符号,以及,一组产生式。

所谓终结符号乃是组成语言的基本符号,从语法分析的角度来看,终结符号是一个语言的不可再分的基本符号。

非终结符号(也称语法变量)用来代表语法范畴。一个非终结符号代表一个确定的语法概念。因此,一个非终结符是一个类(或集合)记号,而不是一个个体记号。例如,“算术表达式”这个非终结符乃代表一定算术式组成的类。因而,也可以说,每个非终结符号乃表示一定符号串的集合(由终结符号和非终结符号组成的符号串)。

开始符号是一个特殊的非终结符号,它代表语言中我们最终感兴趣的语法范畴。这个语法范畴通常称为“句子”。

产生式(也称产生规则或简称规则)是定义语法范畴的一种重写规则。一个产生式的形式是:

α→A

其中,箭头(有时也用::=)左边的A 是一个非终结符,称为产生式的左部符号;箭头右边的α是由终结符号或/与非终结符号组成的一符号串,称为产生式的右部。

形式上说,一个文法G 是一个四元式(V T ,V N ,S ,P )

,其中 V T 是一个非空有限集,它的元素称为终结符号;

V N 是一个非空有限集,它的元素称为非终结符号,φ=∩N T V V ;

S 称为开始符号,是一个非终结符号;

P 是一个产生式集合(有限),每个产生式的形式是α→P ,其中,N V P ∈,*)(N T V V ∪∈α。开始符号S 至少必须在某个产生式的左部出现一次。

4

假定G 是一个文法,S 是它的开始符号。如果α*

?S ,则称α是一个句型。仅含终结符号的句型是一个句子。文法G 所产生的句子的全体是一个语言,将它记为L(G)。 }&|{)(*T V S G L ∈?=+

ααα

按照对产生式限制条件的不同,文法分为四种类型:0型、1型、2型和3型,它们描述语言的能力依次降低。

我们说G=(V T ,V N ,S ,P )是一个0型文法,如果它的每个产生式 βα→

是这样一种结构:*)(N T V V ∪∈α且至少含有一个非终结符,而*)(N T V V ∪∈β。

0型文法也称短语文法。0型文法的能力相当于图灵机(Turing Machine )

。或者说,任何0型语言都是递归可枚举的;反之,递归可枚举集必定是一个0型语言。

如果对0型文法分别加上以下的第i 条限制,我们就得到i 型文法:

1. G 的任何产生式βα→均满足βα<(α指符号串α的长度);仅仅

ε→S 例外,但S 不得出现在任何产生式的右部。

2. G 的任何产生式为β→A ,其中N V A ∈,*)(N T V V ∪∈β。

3. G 的任何产生式为B A α→或α→A ,其中*T V ∈α,N V B A ∈,。

1型文法也称上下文有关文法。这种文法意味着,对非终结符进行替换时务必考虑上下文,并且,一般不允许替换成空串ε。

如果非终结符的替换可以不必考虑上下文这就是2型文法。2型文法也称上下文无关文法。

3型文法也称右线性文法。由于这类文法等价于正规式,所以也称正规文法。

根据形式语言的这些定义所建立起来的语言模型就称作确定性语言模型。显然,这样的语言模型能自然地描述语言的结构及语法制约,和人类自身进行语音识别时有一定程度上的相似,是很理想的。

目前,研究得最多的是上下文无关文法和正规文法。虽然,这两种文法定义的语法范畴(或语言单位)是完全独立于这种范畴可能出现的环境,而自然语言的一个句子、一个词及至一个字,它们的语法性质和所处的上下文往往密切相关,因此,在理论上,上下文无关文法和正规文法都不宜于描述任何自然语言。但是,在有限的领域内,它们还是能提供相当多的语法信息,因为它们毕竟抓住了语言中部分的本质特征和语法制约。我们并不要求所用的语法规则多么完美,能穷尽所有的语法现象(当然,也不可能穷尽),只要它能提供足够的信息,帮助我们区分开在声学模型中无能为力分开的词,那么,就达到了使用语言模型的目的。

1.3.1.2确定性语言模型所面临的问题

通常情况下,确定性语言模型在处理实际问题时受到很大的限制,与统计性语言模型相比,它有以下不足:

z确定性语言模型只能判断候选语句在语法上的对和错,由此决定取舍,因此对实际语音识别系统中的语言模型应用并不十分适合,而且由于语言表达的灵活性,寻找语言表述的统计语句模式的模糊匹配往往比追求严格的语法结构的完全匹配更容易;

z语法规则的获取并不直接和有效,往往需要一批具有较高专业素养的专家对大量例句进行分析才能给出合理的形式化描述,这带来了很大的人员、资源及时间的耗费;

z语法规则的准确性检验缺乏简单的方法。同样是由于自然语言现象的复杂性,对于任意一条语法规则,都必然存在着例外,如何看待例外情况对规则性的破坏,这一问题在确定性语法规则的应用中尚未得到解决;

z确定性语言模型对待不同的语言环境缺乏较好的鲁棒性,与基于统计的语言模型相比,蕴含在不同领域不同习惯的语言现象中规则很难保持一致,无法覆盖广泛的语言现象;

z确定性语言模型缺乏良好的可计算性和可集成性,利用规则的判定往往需要进行对每条规则的穷举,计算复杂度过高。

5

6

1.3.2统计语言模型

统计语言模型是根据统计理论,通过对大量语料进行统计,揭示出语言内部固有的统计特性的一种语言模型。最常用的统计语言模型是n-gram 模型。

1.3.

2.1 n-gram 模型

n-gram 模型基于这样一种假设:第n 个词的出现只与前面n -1个词相关,

而与其它任何词都不相关。我们用n w w ,,1K 来表示这n 个词,

那么词n w 出现的概率就可以写为)|(11?n n w w p ,这里11?n w 表示词串11,,?n w w K 。在有大量训练语料保证的前提下,根据最大似然准则,可以得到:

)()()|(1111

1??=n n n n w c w c w w p (1.3.1)

)(1n w c 和)(11?n w c 分别表示词串),,(1n w w K 和),,(11?n w w K 在训练语料中出现的次数。又假设这n 个词组成一个句子W ,那么这句话的先验概率就是:

)|()(111?+?=Π=i n i i n i w w p W p (1.3.2)

之所以把这种模型称为n-gram 模型,就在于它只反映了连续n 个词之间的相关信息。

在n 比较小(3≤n )的情况下,这个模型还是比较可行的。

当n =1时,称为unigram 模型,它实际上计算的是各个词在训练语料中出现的频度。在这个模型下,所有词都被认为是相互独立的,彼此之间没有相关信息,只使用了词频的统计特性。

当n =2时,称为bigram 模型,它实际上计算的是各个词对在训练语料中出现的频度。在这个模型下,每个词只与它前面出现的那个词相关。从(1.3.1)式可得:

)()()|(12112w c w c w w p = (1.3.3)

当n =3时,称为trigram 模型,它实际上计算的是词的三元组在训练语料中出现的频度。在这个模型下,每个词只与它前面出现的那个词对相关。从(1.3.1)

7

式可得:

)()()|(21312

13w c w c w w p = (1.3.4)

1.3.

2.2 n-gram 模型的缺陷

作为统计模型中最常用的n-gram 模型,

在包括语音识别在内的自然语言处理中得到了广泛的应用,但是它也有很大的缺陷,如不加以改进,必然无法满足未来应用中对更加精确的语言模型的需求。其弱点体现在:

z 统计模型并不能理解文本或语句的实际意义,因此,一些存在严重语义错

误的语句可能被求解为似乎合理的结果;

z 统计模型需要大量的训练语料,同时需要存储大量的模型参数。在现实情

况下,这种要求并不总能得到满足。存储空间的制约,使得训练过程中,语序长度不可能太长,只能得到近序的语言联接关系。同时训练数据的稀疏往往导致求解精度的下降,从而影响统计模型的实际求解能力;

z 目前,n-gram 只能实现语言时序上的联接概率求解,因此并不能俘获全局

远邻的语词关联信息,同时也不能显式地利用一些语言或领域知识,而这些特殊的知识对求解可能是非常有用的。

两种语言模型各自的特点非常鲜明,对于每种语言模型,都可以对语音识别系统起指导作用,但考虑到在实际系统中算法的实用性和成熟程度,本文中主要涉及的将是统计语言模型及其改进和应用。

本文的组织如下:第二章讨论统计语言模型的构建,包括汉语语料库的处理流程,统计语言模型(n-gram )的训练、平滑算法及其改进。第三章是统计语言模型在汉语智能整句输入法中的应用,该部分将主要论及一个高效的语言解码算法――基于多栈的音节同步算法。第四章的内容是关于统计语言模型在听写机中应用的问题和解决方案,此章中首次提出了基于预测技术的综合同步搜索算法。

第二章统计语言模型的构建

2.1汉语语料库的处理

2.1.1汉语与西方语言的特点

从信息处理和语言知识的角度分析,汉语与西方语言相比具有显著的不同点,主要体现在:

z西方语言的语言单元即词之间具有明显的空格分界,词的定义十分明确。

而汉语的语言单元之间没有明确的分界。

z西方语言的同音词较少,而汉语的发音只有约400个无调音节或1200个有调音节,所以同音字、同音词比较多。

z西方语言明确的语法变化标志较多,如单复数、时态等等。汉语没有这些明确的标志。

z西方语言具有较为固定的语法、语义表示形式。而汉语只有一小部分书面语言能够借用西方语法规则对其进行形式化表示。绝大部分语言模式目前还难以找到结构化的表示方式。

z汉语一词多意的现象更加严重。

z英语文本是小字符集上的词串,汉语文本是大字符集上的字串。因此汉语处理和英语处理也就不同,额外需要大字符集处理和字串到词串处理这两大块任务。

以上的特点决定了汉语语言模型在研究和实现上有自己的难点:

z汉语语言模型中分词的特殊问题。汉语词切分成为汉语理解与处理首要的问题之一。

z大量的同音字、同音词给语言模型的处理增加了负担。

z十分灵活和自由的语言表述使得寻找形式化的语言规则来描述汉语语法、语义限制比较困难。

但是,词是最小的能独立活动的有意义的语言成分[Zhu 82],汉语处理应用系

8

统只要涉及语法语义,就需要以词为单位,因此,汉语处理的首要问题就是确立适合的词典。

2.1.2机器词典

随着语音识别和计算机语言学的发展,自然语言处理的目标已经转向对大规模真实文本进行处理。这里人们面临的一个主要障碍就是知识空缺。如何获取足够的词汇知识以建立处理大规模真实文本所必需的机器词典,也成为了语音识别和自然语言处理研究的一个重要课题。

一般说来,目前构造机器词典大致有以下三种方法[Zhang 94]:

(1)人工编写机器词典。这种方法需要投入大量人力。如日本的电子词典开发计划(EDR)。

(2)从机器可读词典(MRD, Machine Readable Dictionary)中获取各种词汇知识来建造机器可循字典(MTD,Machine Tractable Dictionary)。

(3)从语料库中获取词汇信息构造机器词典。这种方法是伴随语料库语言学的发展应运而生的。其出发点是:从“大规模”和“真实”这两个

角度来考察,最理想的语言知识不是语言学著作,而是经过多层次加

工的大规模语料库,因此,用这种办法生成的机器词典应该更适合大

规模真实文本的处理。

2.1.2.1语音识别用机器词典的选择

一般情况下,人工编写机器词典不太现实也不易保证一致性,因此我们采用的复合处理流程结合了上节后两种构造方法,详见图2.1。首先我们选用了一个考虑了多种切分原则和经过人工校对的标注语料库,作为确定机器词典的初始语料。该语料库来源于93-94、96-97四年的《人民日报》,92、94年的《经济日报》,94年的《市场报》和94-96三年的《新华社》文稿,共计2亿字,内容涵盖政治、经济、体育、文化等多个领域。标注语料库由北京工业大学人工智能实验室完成。经统计,切分之后的语料中含大约26万个不同词条,基本上囊括了人们日常中使用的全部词汇,构成图中所示的真实世界词典。

9

图2.1 语音识别用机器词典的构造流程

由于实际语音识别中无法处理如此规模的词典,我们利用以下分级原则进行词条的选择和精简。

(1)真实世界词典中的高频词部分,由于来源于大规模的语料统计,我们认为可靠性较高,全部收入基础词典;

(2)真实世界词典中的中频词部分,须与其它版本的机器词典相比较,保留重合部分,这部分是包括语言学家在内的大部分汉语使用者所认同

的部分。本系统中采用的其它机器词典主要是北京大学计算语言学研

究所研制的《现代汉语语法信息词典》[Yu 98]和东北大学计算机系的《机

器翻译用电子词典》。

(3)真实世界词典中的低频词部分,虽然有一部分也是人们认同的词,但

10

80x86汇编语言程序设计教程》(清华大学出版社,黑色封面,杨季文著)

80x86汇编语言程序设计教程》(清华大学出版社,黑色封面,杨季文著) 《计算机操作系统原理》 《Inside Windows 2000》(微软出版社,我看的是E文版的,中文的书名想必是Windows 2000 技术内幕之类吧)。 《数据结构和算法》——这门课程能够决定一个人程序设计水平的高低,是一门核心课程。我首选的是清华版的(朱战立,刘天时) 《软件工程》——这门课程是越到后来就越发现它的重要,虽然刚开始看时就象看马哲一样不知所云。我的建议是看《实用软件工程》(黄色,清华) 《Windows 程序设计》——《北京大学出版社,Petzold著》我建议任何企图设计Windows 程序的人在学习VC以前仔细的学完它。而且前面的那本 建议:你还可以在CSDN上阅读到许多书评。这些书评能够帮助你决定读什么样的书 关于编程的网站 计算机编程 郭新明-FTP服务器体验式学习课程(张孝祥监制) https://www.doczj.com/doc/369187774.html,/so/so138.aspx?id=3997 https://www.doczj.com/doc/369187774.html,快速开发新闻系统在线播放 https://www.doczj.com/doc/369187774.html,/so/so138.aspx?id=4708 数字电路基础[宁波电大] https://www.doczj.com/doc/369187774.html,/so/so138.aspx?id=774 计算机组成与汇编语言程序设计(赵丽梅)宁波电大 https://www.doczj.com/doc/369187774.html,/so/so138.aspx?id=1242 操作系统(陈访荣)宁波电大(在线播放) https://www.doczj.com/doc/369187774.html,/so/so138.aspx?id=4708 计算机网络(马敏飞)宁波电大 https://www.doczj.com/doc/369187774.html,/so/so138.aspx?id=1243 https://www.doczj.com/doc/369187774.html, 2.0快速入门(12)-https://www.doczj.com/doc/369187774.html, 2.0网站快速导航 https://www.doczj.com/doc/369187774.html,/so/so138.aspx?id=2501 Internet和Intranet应用(薛昭旺)宁波电大 https://www.doczj.com/doc/369187774.html,/so/so138.aspx?id=1245 2004年电脑硬件安装调试维修视频教学讲授 https://www.doczj.com/doc/369187774.html,/so/so138.aspx?id=4825 https://www.doczj.com/doc/369187774.html, 高级排错技巧 https://www.doczj.com/doc/369187774.html,/so/so138.aspx?id=768 SQL Server 2000管理专家系列课程 https://www.doczj.com/doc/369187774.html,/so/so138.aspx?id=4832 开心三人行系列(2):使用Atlas 构建AJAX应用 https://www.doczj.com/doc/369187774.html,/so/so138.aspx?id=2564 Visual Basic 2005开发技巧系列课程(4): 在Visual Basic 2005中使用.NET Framework 2.0新增功能 https://www.doczj.com/doc/369187774.html,/so/so138.aspx?id=2526 SQL Server 2005 系列课程-使用ADO https://www.doczj.com/doc/369187774.html,开发SQL Server 2005 OLAP应用 https://www.doczj.com/doc/369187774.html,/so/so138.aspx?id=2535

清华考博辅导:清华大学环境科学与工程考博难度解析及经验分享

清华考博辅导:清华大学环境科学与工程考博难度解析及经验分享根据教育部学位与研究生教育发展中心最新公布的第四轮学科评估结果可知,全国共有111所开设环境科学与工程专业的大学参与了2017-2018环境科学与工程专业大学排名,其中排名第一的是清华大学,排名第二的是哈尔滨工业大学,排名第三的是同济大学。 作为清华大学实施国家“211工程”和“985工程”的重点学科,核能与新能源技术研究院的环境科学与工程一级学科在历次全国学科评估中均名列第一。 下面是启道考博整理的关于清华大学环境科学与工程考博相关内容。 一、专业介绍 环境科学与工程专业学生主要学习普通化学、工程力学、测量学、工程制图、微生物学、水力学、电工学、环境监测、环境工程学科的基本理论和基本知识,受到外语、计算机技术及绘图、污染物监测和分析、工程设计、管理及规划方面的基本训练,具有环境科学技术和给水排水工程领域的科学研究、工程设计和管理规划方面的基本能力。 清华大学核能与新能源技术研究院的环境科学与工程专业在博士招生方面,划分为一个研究方向: 083000 环境科学与工程 博士研究方向:01 环境工程 二、考试内容 1. 对于应届本科生推荐免试攻读博士学位研究生,仅采用面试的方式进行,分专业分组对外语口语、专业基础知识、科研素质等方面进行测试。满分按照100 分处理,取评委的平均分作为综合考核的分数 2. 对于硕博连读生及公开招考博士生,综合考核由外语笔试与面试组成。实施办法是: (1)分组:按照专业进行分组考核。 (2)考核内容:外语笔试,综合面试(含外语口语、专业基础知识、科研素质)等方面,部分专业视情况加试专业基础笔试。 (3)时间分配:外语笔试为一个考试单元(单元Ⅰ),时为1 小时。综合面试为一个考试单元(单元Ⅱ),约30 分钟,部分专业视情况加试专业基础知识笔试(元Ⅲ),时间为2 小时。 (4)分数分配:外语笔试占30 分,外语口语占20 分,专基础知识与科研素质占100 分。满分按照总分150 分出成绩(最后提交学校时换算为满分100 分)

语音识别输入系统

IBM语音识别输入系统(ViaVioce) V9.1 简体中文光盘版| 用嘴巴控制电脑... sjyhsyj 2009-8-28 12:13:271# 软件大小:276.08MB 软件语言:多国语言 软件类别:国外软件 / 汉字输入 运行环境:Win9x/NT/2000/XP/ 软件介绍: 该系统可用于声控打字和语音导航。只要对着微机讲话,不用敲键盘即可打汉字,每分钟可输入150个汉字,是键盘输入的两倍,是普通手写输入的六倍。该系统识别率可达95%以上。并配备了高性能的麦克风,使用便利,特别适合于起草文稿、撰写文章、和准备教案,是文职人员、作家和教育工作者的良好助手。 IBM潜心研究26年,他领导了世界的语音识别技术,其语音识别产品在全球销售已达一百万套以上。使用语音输入方式,您的工作空间更加自由舒畅: *即使您不会打字,也可迅速准备好文稿; *只要集中精力思考问题,无须琢磨怎样拼音,怎样拆字; *当您疲劳时,闭上眼、伸伸腰,双手方在脑后,然后轻松地说:开始听写吧... ... 注:价值超数千元的IBM的中文语音录入工具,有耳麦的朋友可以试一试,也可以当作学习普通话的工具,没有理由不下载使用它。 IBM ViaVoice语音输入系统详解 作者: 艾寒出处: 天极网 目前汉字输入的方式主要有四种:键盘输入,手写输入,扫描输入和我们现在要谈到的语音输入。让我们先来了解一下这四种输入方式。 键盘输入:键盘输入基本上是基于各种输入法,主要又分为字形输入法和拼音输入法。实际上字形输入法是不符合人的写作思维习惯,因为人们在措辞时,头脑中首先反映出的是即将这个词语的语音,所以字形输入法更适合专业录入人员使用。拼音输入法也分两种,一种以词语为输入单位,另一种以语句为输入单位,而后者不符合写作的思维习惯,因为人们在写作时是以词为思考单位。键盘输入法在输入速度有要求的情况下对于键盘操作、指法要求比较高; 手写输入:手写输入是最容易上手的输入方法,但是同样由于手写输入的先天不足,很难达到较高的输入速度; 扫描输入:扫描输入对于硬件要求比较高,主要是适用于资料的整理; 语音输入:语音输入对输入人员的键盘操作能力、指法要求很低,几乎可以说你只要会说汉语,就可以进行语音输入。 语音输入尤其是汉字语音输入经历了很长时间的研究和应用,到目前已经达到了一个相

清华大学C语言程序练习题

一、选择题 1.一个C语言程序是由(D )构成。 A.语句B.行号C.数据D.函数 2.下面标识符中正确的是()。 A.d&ef B.6a C.z4x5c D.a3/b4 3.在C语言中,存储一个字符型、整型、单精度实型变量所需的空间是()。型、单精度实型变量所需的空间是()。 A.1、2、4 B.1、1、4 C.1、2、8 D.2、2、8 4.为了避免嵌套的条件分支语句 if--else中的else总是与()组成成对关系。 A.缩排位置相同的 B.在其之前未配对的 C.在其之前未配对的最近的if D.在同一行上的if 5.下列表达式的结果正确的是()。 int aa,bb,cc,dd; aa=bb=cc=dd=1;sp; aa=bb=cc=dd=1;sp; aa=bb=cc=dd=1; (aa+1==2)?bb=aa+2:aa+3 A.2 B.3 C. 1 D.5 6.设有int x=11 ;则表达式(x+1/3)的值是(C )。 A.3 B.4 C.11 D.12 7.设有字符串A=“He has 钱!”,则该字符串的长度为( C )。 A.9 B.10 C.11 D.8 8.有如下程序段,则正确的执行结果是() int m=3; while(m<=5) { printf("%d ",m-3); m++; } A. 0 0 0 B.0 1 2 C.1 2 3 D.无结果 9.执行语句:printf("%d",(a=2)&&(b= -2);后,输出结果是()。 A.无输出B.结果不确定C.-1 D.1

10.有如下定义类型语句,若从键盘输入数据,正确的输入语句是()。 int x;Char y;Char z[20]; A.scanf("%d%c%c",&x,&y,&z); B.scanf("%d%c%s",&x,&y,&z); C.scanf("%d%c%c",&x,&y,z); D.scanf("%d%c%s",&x,&y,z); 11.struct ex { int x ; float y; char z ; } example; 则下面的叙述中不正确的是()。 A.struct结构体类型的关键字 B.example是结构体类型名 C.x,y,z都是结构体成员名 D.struct ex是结构体类型 12.在C语言中对于实型数组,其每个数组元素的类型是( )。 A.实型 B.整型 C.可以为任何类型 D.不确定 13.若已定义:int a[9],*p=a;不能表示a[1] 地址的表达式是( )。 A.p+1 B.a+1 C.a++ D.++p 二、填空题 1.在C语言中,正确的标识符是由____________组成的,且由____________开头的。 2.设p=30,那么执行q=(++p)后,表达式的结果q为______,变量p的结果为________。若a为int类型,且其值为3,则执行完表达式a+=a-=a*a后,a的值是_________。 3.一个变量的指针是指___________________________________________________。 4.在C语言程序中,对文件进行操作首先要____________________;然后对文件进行操作,最后要对文件实行__________________________操作,防止文件中信息的丢失。 5.以下程序运行后的输出结果是。该程序的功能是。 int main() { int x=10,y=20 ,t=0; if(x!=y) t=x;

清华大学环境学院楼节能设计

清华环境节能楼 由意大利资助的清华大学建筑节能示范楼将于10月正式投入使用,这将是我国首个在东京京都协议框架下的国际合作项目。 8月2日,清华大学环境科学与工程系工程师吕威告诉记者,清华大学环境节能楼投入使用后将节能70%,成为国内环境节能的示范。 记者跟随吕威进入正在室内装修的楼里,明显感觉到一阵凉爽。当日室外气温达到了30摄氏度,而在室内仅仅20摄氏度左右。技术人员介绍,这是由于节能楼的外维护玻璃采用节能玻璃,阻挡了太阳热能,达到外热内凉的效果。冬天,把玻璃外墙封闭起来,又可以防止建筑内部热量流失。 国务院参事、科技部原秘书长石定环评价认为,“将投入使用的清华大学环境系节能示范楼,充分体现了绿色建筑的理念、科技水平。示范楼在建筑材料、能源供应和温湿调节设备系统中采用多项节能措施和可再生能源技术,是一座名副其实的超级节能楼。” 中意合作成功典范 清华大学环境节能楼位于清华大学校区内东南侧,占地面积约4000平方米,建筑面积为2万平方米。据了解,该项目总投资为2.6亿元人民币,2003年开始设计,2005年4月进入施工建设阶段,2006年6月施工完毕,目前正在进行内部装修,预计在2006年10月正式投入使用。建筑由意大利公司投资建设,清华大学提供土地和一些配套设施,包括一些路网建设和市政基础设施。 2002年,意大利环境和领土部与我国科技部国际合作司成立了一个环境保护节能交流方面的办公室,选定在中国建造一座建筑节能示范楼。中意清华环境节能楼项目(SIEEB)是意大利政府在海外投资建设的第一个教育建筑工程,也是中国科技部和意大利环境与领土部合作的最大项目。中国社会科学院和意大利环境与领土部合作项目管理办公室主任戴莲景介绍,当时,建这座楼的目的有两个:一是推进《京都议定书》中关于二氧化碳减排目标实现。节能示范楼是以天然气为原料,实现电冷暖三联供,从而实现节能的目的。二是为我国建筑节能做出一个探索。 清华环境节能楼由意大利著名建筑师Marro Cucinella设计。清华大学环境科学与工程系蒋建国介绍,该建筑项目汇集了中外著名专家和公司,参与该项目的中意执行单位包括意大利米兰理工大学Butera教授领导的建筑节能技术专家组、意大利MCA建筑事务所、意大利FA VERO&MILAN 建筑咨询事务所、英波基洛(IMPREGILO )公司和清华大学能源专家组、中国建筑设计研究院、中铁建设集团等机构或组织。 三联供是节能关键 吕威介绍,该建筑最大的节能亮点在于能耗的三联供技术。据他介绍,三联供就是把用电、供暖、冷气一起考虑使用,提高能耗使用率,最终实现二氧化氮的减排目标。

清华大学语言学及应用语言学真题

2000年——语言学及应用语言学——古代汉语 一、标点并翻译。15分 1、下臣不幸属当戎行无所逃匿且擢奔辟而忝两君臣辱戎士敢告不敏摄官承乏 2、是故无冥冥之志者无昭昭之明无昏昏之事者无赫赫之功 3、臣闻始时吕尚之遇文王也身为渔父而钓于渭阳之滨而若是者交疏也已一说而立为太师载与俱归者其言深也故文王果收功于吕尚卒擅天下而身立为帝王即使文王疏吕望而弗与深言是周无天子之德而文武无与成其王也今臣笃旅之臣也交疏与王而所愿陈者皆匡君臣之事处人骨肉之间 4、古者疱牲氏之王天下也仰则观象于天俯则观法于地视鸟兽之文与地之宜近取诸身远取诸物于是始作易八卦以垂宪象神农氏结绳为治而统其事庶业其繁饰伪萌生黄帝之史仓颉见鸟兽归沆之迹知分理之可相别异也 二、请正确读出下面的地名、人名。5分 龟兹月氏吐番镐京涪陵 米?女娲皋陶单于?食其 三、请分析下面汉字的音节结构,包括声、韵(头、腹、尾)调。5分 光安要学英 四、简要说明下面名著的作者、成书年代及其价值。5分 广雅疏证说文解字注切韵广韵中原音韵 五、请为下列几组汉字正确标音,并解释形声字声符变读的原因。5分 帝?敌谪虹豇贡扛坻?邸?馥愎复 六、请解释:5分 简牍篇卷汗青付梓郑玄 七、分析句子结构。20分 1、昭王南征而不复寡人是问。 2、大哉尧之为君! 3、虽使五尺之童适市,莫之或欺。 4、谁为为之,孰令听之 5、君子疾夫舍曰欲之而必为之辞。 6、谁为大王为此计者? 7、老臣窃以为?之爱燕后贤于长君。 8、我无尔诈尔无我虞。 八、解释下面文中加冒号…?的字词。10分 1、…疆?…本?…而?节用…则?天下不能…贫? 2、…适?彼苍…者?三…食?…而?…反?腹犹…果?…然? 3、故圣人…以?治天下…为?事者…恶?得不禁…恶?而…劝?爱? 4、…没?死…以?…闻? 5、…既?…而?大叔命西…鄙?北鄙二于已 6、劳心者治人劳力者治于人治于人者食人治人…者?…食?…于?人 7、…老?吾…老?…以?…及?人之老幼吾幼以及人之幼天下可运…于?掌 8、人不…难?…以?死…免?…其?君我谬之不详赦之…以?劝事君者 9、惟天为大惟尧…则?…之?

IBM-PC汇编语言程序设计(第二版)课后习题答案(清华大学出版社)(著)答案

IBM-PC汇编语言程序设计(第二版)课后习题答案(清华大学出版社)(沈美明,温冬蝉著)答案 第三章答案1-22 1. (1)立即寻址没有 (2)直接寻址 7237H (3)使用BX的寄存器寻址没有 (4)使用BX的间接寻址 637DH (5)使用BX的寄存器相对寻址 0D5F0H (6) 基址变址寻址 8E18H (7)相对基址变址 004FH 2.根据下列要求,写出相应的汇编指令。 (1)ADD DX,BX (2) ADD AL,[BX][SI] (3) ADD [BX][0B2H], CX (4) MOV AX,2A59H ADD [0524H] ,AX (5) ADD AL ,0B5H 3. (1)寄存器间接寻址 MOV BX,OFFSET [BLOCK][0AH] MOV DX ,[BX] (2)寄存器相对寻址 MOV SI,OAH MOV DX,[BLOCK][SI] (3)基址变址寻址 MOV BX ,BLOCK MOV SI,OAH MOV DX,[BX][SI] 4. 现有(DS)=2000H, (BX)=0100H, (SI)=0002H,(20100)=12H, (20101)=34H,(20102)=56H, (20103)=78H,(21200)=2AH,(20201)=4CH,(21202)=B7H,(21203)=65H,试说明下列各条指令执行完后,AX寄存器的内容。 (1)MOV AX,1200H 1200H (2) MOV AX,BX 0100H

(3) MOV AX,[1200] 4C2AH 注意,是字单元!! (4)MOV AX,[BX] 同上 (5)MOV 1100[BX] 4C2AH (6) MOV AX,[BX][SI] 7856H (7) MOV AX,1100[BX][SI] 65B7H 5.(1) 7CD9H (2) 1200H (3) 6319H 6. MOV BX,2000H LES DI ,[BX] MOV AX, ES:DI 7.转向地址OBJ的值分别为:(1)064DH (2)0691H (3)05E0H 注意有符号数的符号位 8.(1) MOV AX,0ABH 立即数寻址无物理地址 (2) MOV AX,BX 寄存器寻址同上 (3) MOV AX,[100] 直接寻址 20100H (4) MOV AX,VAL 直接寻址 20050H (5) MOV AX,[BX] 寄存器间接寻址 20100H (6) MOV AX,ES:[BX] 直接寻址 21100H (7) MOV AX,[BP] 寄存器间接寻址 20010H (8)MOV AX,[SI] 同上 200A0H (9) MOV AX,[BX+10] 寄存器相对寻址 20110H (10)MOV AX,VAL[BX] 同上 20150H (11) MOV AX,[BX][SI] 基址变址寻址 201A0H (12) MOV AX,VAL[BX][SI] 相对基相变址寻址 201F0H 9.(1)的指令: MOV AX, [BX][0CH] MOV ZREO ,AX (2) 的指令: MOV AX,ARRAY[BX] MOV ZREO,AX 10. MOV AX,TABLE 是把符号地址TABLE里的内容送到AX里,指令执行完后,(AX)=1234H LEA AX,TABLE 是把符号地址TABLE 的有效地址(这里是偏移量)送到指定寄存器AX里,指令执行完后,(AX)=0032H 11. 执行完指令后,(AX)=1E00H 12. LEA AX,CSTRING MOV DL,AX MOV DH,[AX+6] 13. 这参考课本P51--P53 14.LES BX,[2000]

清华大学环境学院各专业考试科目整理

清华大学环境学院各专业考试科目整理 2015年清华大学大学环境学院研究生计划招收13人。学术型学费总额为2.4万元,学制三年。有以下三个学术型专业招生: 081400土木工程 01给水处理理论与技术 02废水处理理论与技术 03城市垃圾处理处置工程 082700核科学与技术 01固体废物处理及资源化工程 02放射性废物处理处置技术 03核技术在环境中的应用 以上两个专业考试科目是一样的: ①101思想政治理论 ②201英语一 ③301数学一 ④815化学 083000环境科学与工程 01环境科学 02环境工程 03环境生态学 04环境规划与管理 其考试科目如下: ①101思想政治理论 ②201英语一 ③301数学一 ④815化学或816环境微生物学或817环境系统与管理 本文系统介绍清华大学大学环境学院考研难度,清华大学大学环境学院就业,清华大学大学环境学院学费,清华大学大学环境学院考研辅导,清华大学大学环境学院考研参考书五大方面的问题,凯程清华大学大学老师给大家详细讲解。特别申明,以下信息绝对准确,凯程就是王牌的清华大学大学考研机构! 一、清华大学大学环境学院考研难不难,跨专业的学生多不多? 最近几年清华大学大学环境学院考研很火,特别是清华大学大学这样的名校。清华大学大学2015年环境学院研究生共招收13人,招生人数还是比较少的,从这方面来说清华大学环境学院考研还是有难度的。但是专业课815化学复习较为容易,考试题目难度不大。在考研复试的时候,老师更看重跨专业学生的能力,而不是本科背景。其次,考试科目里,815化学本身知识点难度并不大,跨专业的学生完全能够学得懂。即使本科学历史的同学,专业课也不见得比你强多少(大学学的内容本身就非常浅)。所以记住重要的不是你之前学得如何,而是从决定考研起就要抓紧时间完成自己的计划,下定决心,就全身心投入,要相信付出总会有回报。在凯程辅导班里很多这样三凯程生,都考的不错,主要是看你努力与否。 二、清华大学大学环境学院硕士毕业生就业怎么样? 作为名牌院校的清华大学大学,本身的学术氛围好,有良好的师资力量,校友众多,人

语音识别综述

山西大学研究生学位课程论文(2014 ---- 2015 学年第 2 学期) 学院(中心、所):计算机与信息技术学院 专业名称:计算机应用技术 课程名称:自然语言处理技术 论文题目:语音识别综述 授课教师(职称): 研究生姓名: 年级: 学号: 成绩: 评阅日期: 山西大学研究生学院 2015年 6 月2日

语音识别综述 摘要随着大数据、云时代的到来,我们正朝着智能化和自动化的信息社会迈进,作为人机交互的关键技术,语音识别在五十多年来不仅在学术领域有了很大的发展,在实际生活中也得到了越来越多的应用。本文主要介绍了语音识别技术的发展历程,国内外研究现状,具体阐述语音识别的概念,基本原理、方法,以及目前使用的关键技术HMM、神经网络等,具体实际应用,以及当前面临的困境与未来的研究趋势。 关键词语音识别;隐马尔科夫模型;神经网络;中文信息处理 1.引言 语言是人类相互交流最常用、有效的和方便的通信方式,自从计算机诞生以来,让计算机能听懂人类的语言一直是我们的梦想,随着大数据、云时代的到来,信息社会正朝着智能化和自动化推进,我们越来越迫切希望能够摆脱键盘等硬件的束缚,取而代之的是更加易用的、自然的、人性化的语音输入。语音识别是以语音为研究对象,通过对语音信号处理和模式识别让机器自动识别和理解人类口述的语言。 2.语音识别技术的发展历史及现状 2.1语音识别发展历史 语音识别的研究工作起源与上世纪50年代,当时AT&T Bell实验室实现了第一个可识别十个英文数字的语音识别系统——Audry系统。1959年,J.W.Rorgie和C.D.Forgie采用数字计算机识别英文元音及孤立字,开始了计算机语音识别的研究工作。 60年代,计算机应用推动了语音识别的发展。这时期的重要成果是提出了动态规划(DP)和线性预测分析技术(LP),其中后者较好的解决了语音信号产生模型的问题,对后来语音识别的发展产生了深远的影响。 70年代,LP技术得到了进一步的发展,动态时间归正技术(DTW)基本成熟,特别是矢量量化(VQ)和隐马尔科夫(HMM)理论的提出,并且实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。 80年代,实验室语音识别研究产生了巨大的突破,一方面各种连接词语音识别算法被开发,比如多级动态规划语音识别算法;另一方面语音识别算法从模板匹配技术转向基于统计模型技术,研究从微观转向宏观,从统计的角度来建立最佳的语音识别系统。隐马尔科夫模型(HMM)就是其典型代表,能够很好的描述语音信号的时变性和平稳性,使大词汇量连

清华大学人文学院外国语言文学专业应用语言学与语言教育历年考博真题经验分享-育明考博

清华外国语言文学专业应用语言学与语言教育方向考博考试内容-育明考博 一、清华大学人文学院应用语言学与语言教育方向考博内容分析(育明考博辅导中心)专业方向 招生人数初试内容复试内容050200外国语言文学应用语言 学与语言 教育约2人①102俄语、103日语、104德语、105法语②847应用语言学与语言教育501综合考试 育明考博辅导中心杜老师解析: 1、清华大学人文学院应用语言学与语言教育方向考博的报录比平均在5:1左右(竞争较激烈) 2、本专业有三位导师:吕中舌、张文霞、杨永林 3、同等学力考生在初试合格后须加试报考专业两门硕士专业学位课程和自然辩证法。 4、初试英语拉开的分差较小,两门专业课拉开的分差非常大。要进入复试就必须在两门专业课中取得较高的分数。专业课的复习备考中“信息”和“方向”比单纯的时间投入和努力程度更重要。 5、清华大学考博初试外语中不含听力。 6、学院并不指定外语和专业课复习的参考书。 育明教育考博分校针对清华大学各专业考博开设的辅导课程有:考博英语课程班·专业课课程班·视频班·复试保过班·高端协议班。每年专业课课程班的平均通过率都在80%以上。根植育明学校从2006年开始积累的深厚高校资源,整合利用历届育明优秀学员的成功经验与高分资料,为每一位学员构建考博成功的基础保障。 (清华大学人文学院考博资料获取、课程咨询育明教育杜老师叩叩:八九三、二四一、二二六) 二、清华大学人文学院外国语言文学专业历年考博复试分数线(育明考博课程中心) 育明考博辅导中心杜老师解析: 1、人文学院外国语言文学专业共有6个研究方向,各研究方向之间报录比差别还是比较大的。 2、根据最新的信息,学院将会逐步增加硕博连读的名额,减少在职定向读博的名额。年份 录取成绩要求复试人数/招生人数2014年外语50分、专业课50分 综合考试60分 12人/9人(不包括骨干计划)2015年外语50分、专业课50分 综合考试60分15人/11人(不包括骨干计划)

汇编语言

武汉理工大学华夏学院课程设计报告书 课程名称:汇编语言课程设计 题目:在屏幕上显示变换的图形 系名:信息工程系 专业班级:软件工程1131 姓名: 学号: 102128131 指导教师:李捷 2015 年 1 月 9 日

课程设计任务书 学生姓名: 专业班级: 软件1131 指导教师: 李捷 工作单位: 信息工程系 设计题目:在显示器上显示对称图1、图2 初始条件: PC 机上实现课程设计 要求完成的主要任务: 主要任务:(在规定的时间内完成下列任务) 1. 按”Esc ”退出程序;能有2种图形显示,2种色彩方案(见上图) 2. 按“1 , 2” 黑白----------显示图形1,图形2 3. 按“3 , 4”色彩方案1---显示图形1,图形2(颜色自定) 4. 按“5 , 6”色彩方案2---显示图形1,图形2(颜色自定)+ 时间安排: 设计报告撰写格式要求:(按提供的设计报告统一格式撰写) 1、 题目:在显示器上显示有色彩变换的数字对称图 2、设计目的:在课程设计实验中,利用顺序结构、循环结构和主、子程序的调用,更进 一步的学习和掌握汇编语言课程设计。 2、设计内容:写出简要的程序功能描述、程序运行条件--所需工具软件、输入/输出描述等。 3、程序结构:① 主要的段定义说明; ② 用到的子程序(宏)的功能说明、调用关系说明、参数传送方式说明等; ③ 主要算法描述等(各模块功能实现及典型指令的应用)。 4、设计步骤(注明时间安排) 5、程序流程图、源程序(程序必须有简单注释,源程序若太长,可作为附录) 6、实验结果(输出) 7、其他值得说明的内容(1)程序结构设计特点;(2)设计、调试程序心得、体会或不足。 附录:①源程序代码(必须有简单注释) ②参考文献 指 导 教 师 签 字: 2015年 1 月1日 系 主 任 签 字: 年 月 日

清华大学环境学院硕士毕业生就业情况怎么样

清华大学环境学院硕士毕业生就业情况 怎么样 作为名牌院校的清华大学大学,本身的学术氛围好,有良好的师资力量,校友众多,人脉资源也不错,出国机会也不少,硕士毕业生社会认可度高,就业自然就没有问题。2014年清华大学大学硕士毕业生就业率高达99.2%。 目前国家把“水体污染控制与治理”列为中长期计划的16大专项之一,就业前景必将水涨船高,清华大学环境学院的学术水平无疑是全国最好的,拥有3位院士。环境学院的出国也非常好,今年就有斯坦福、加州大学伯克利分校(4)、UIUC(7)、普渡、哥伦比亚大学(2)、杜克大学、华盛顿大学、牛津大学、加州大学圣巴巴拉分校等等,在全国几乎是垄断优势。 本文系统介绍清华大学大学环境学院考研难度,清华大学大学环境学院就业,清华大学大学环境学院学费,清华大学大学环境学院考研辅导,清华大学大学环境学院考研参考书五大方面的问题,凯程清华大学大学老师给大家详细讲解。特别申明,以下信息绝对准确,凯程就是王牌的清华大学大学考研机构! 一、清华大学大学环境学院考研难不难,跨专业的学生多不多? 最近几年清华大学大学环境学院考研很火,特别是清华大学大学这样的名校。清华大学大学2015年环境学院研究生共招收13人,招生人数还是比较少的,从这方面来说清华大学环境学院考研还是有难度的。但是专业课815化学复习较为容易,考试题目难度不大。在考研复试的时候,老师更看重跨专业学生的能力,而不是本科背景。其次,考试科目里,815化学本身知识点难度并不大,跨专业的学生完全能够学得懂。即使本科学历史的同学,专业课也不见得比你强多少(大学学的内容本身就非常浅)。所以记住重要的不是你之前学得如何,而是从决定考研起就要抓紧时间完成自己的计划,下定决心,就全身心投入,要相信付出总会有回报。在凯程辅导班里很多这样三凯程生,都考的不错,主要是看你努力与否。 三、清华大学大学环境学院各招收专业介绍 2015年清华大学大学环境学院研究生计划招收13人。学术型学费总额为2.4万元,学制三年。有以下三个学术型专业招生: 081400土木工程 01给水处理理论与技术 02废水处理理论与技术 03城市垃圾处理处置工程 082700核科学与技术 01固体废物处理及资源化工程 02放射性废物处理处置技术 03核技术在环境中的应用 以上两个专业考试科目是一样的: ①101思想政治理论 ②201英语一 ③301数学一 ④815化学 083000环境科学与工程

80X86汇编语言程序设计教程+课后习题答案(清华大学版)

第二章答案 Tarzan 版 题2.1 8086/8088通用寄存器的通用性表现在何处?8个通用寄存器各自有何专门用途?哪些 寄存器可作为存储器寻址方式的指针寄存器? 答:8086/8088通用寄存器的通用性表现在: 这些寄存器除了各自规定的专门用途外,他们均可以用于传送和暂存数据,可以保存 算术逻辑运算中的操作数和运算结果; 8个通用寄存器的专门用途如下: AX 字乘法,字除法,字I/O BX 存储器指针 CX 串操作或循环控制中的计数器 DX 字乘法,字除法,间接I/O SI 存储器指针(串操作中的源指针) DI 存储器指针(串操作中的目的指针) BP 存储器指针(存取堆栈的指针) SP 堆栈指针 其中BX,SI,DI,BP可作为存储器寻址方式的指针寄存器 题2.2 从程序员的角度看,8086/8088有多少个可访问的16位寄存器?有多少个可访问的8位 寄存器? 答:从程序员的角度看,8086/8088有14个可访问的16位寄存器;有8个可访问的8位寄存器; 题2.3 寄存器AX与寄存器AH和AL的关系如何?请写出如下程序片段中每条指令执行后寄存器 AX的内容: MOV AX,1234H MOV AL,98H MOV AH,76H ADD AL,81H SUB AL,35H

ADD AL,AH ADC AH,AL ADD AX,0D2H SUB AX,0FFH 答: MOV AX,1234H AX=1234H MOV AL,98H AX=1298H MOV AH,76H AX=7698H ADD AL,81H AX=7619H SUB AL,35H AX=76E4H ADD AL,AH AX=765AH ADC AH,AL AX=D15AH ADD AX,0D2H AX=D22CH SUB AX,0FFH AX=D12DH 题2.4 8086/8088标志寄存器中定义了哪些标志?这些标志可分为哪两类?如何改变这些标志 的状态? 答: 8086/8088标志寄存器中定义了9个标志,如下: CF: Carry Flag ZF: Zero Flag SF: Sign Flag OF: Overflow Flag PF: Parity Flag AF: Auxiliary Carry Flag DF: Direction Flag IF: Interrupt-enable Flag TF: Trap Flag 这些标志可分为两类,分别为: 1、运算结果标志; 2、状态控制标志; 采用指令SAHF可把AH中的指定位送至标志寄存器低8位SF、ZF、AF、PF、CF; 采用CLC可清除CF,置CF到0 采用STC可置CF到1 采用CLD可置DF到0 采用sTD可置DF到1

清华大学环境科学与工程考研复试分数线

清华大学环境科学与工程考研复试分数线清华大学2014年硕士生入学考试复试资格基本要求 类型报考学科门类(专业)总分政治、外 语 业务 课一 业务课 二 备注 学术型工学[08]330508080 专业型工程[0852]320508080 清华大学环境科学与工程、环境工程考研参考书目 815化学 《现代化学基础》高等教育出版社胡忠鲠 《大学化学》高等教育出版社傅献彩 816环境微生物学 《水处理生物学》(第四版)中国建筑工业出版社顾夏声等 《微生物学教程》高等教育出版社周德庆 《环境微生物学》高等教育出版社王家玲等 817环境系统与管理 《环境规划学》高等教育出版社郭怀城等 《环境与资源经济学概论》高等教育出版社马中 《环境系统分析教程》化学工业出版社程声通 《环境管理与环境社会科学研究方法》清华大学出版社曾思育 2015考研真题答题黄金攻略名师点评:认为只要专业课重点背会了,就能拿高分,是广大考生普遍存在的误区。而学会答题方法才是专业课取得高分的关键。 (一)名词解释答题方法 【考研名师答题方法点拨】

名词解释最简单,最容易得分。在复习的时候要把参考书中的核心概念和重点概念夯实。 近5-10年的真题是复习名词解释的必备资料,通过研磨真题你可以知道哪些名词是出题老师经常考察的,并且每年很多高校的名词解释还有一定的重复。 专业课辅导名师解析:名词解释答题方法上要按照核心意思+特征/ 内涵/构成/案例,来作答。 (回答出名词本身的核心含义,力求尊重课本。这是最主要的。 (简答该名词的特征、内涵、或者其构成、或者举一个案例加以解释。如果做到((,基本上你就可以拿满分。 (如果除非你根本不懂这个名词所云何事,或者压根没见过这个名词,那就要运用类比方法或者词义解构法,去尽可能地把握这个名词的意思,并组织下语言并加以润色,最好是以很学术的方式把它的内涵表述出来。 【名词解释答题示范】 例如:“行政权力”。 第一,什么是行政权力(核心意思,尊重课本) 第二,行政权力的几个特征,不必深入解释。 第三,行政权力的5点内涵。 具体一点,如,“行政责任”。 行政责任是指政府及其构成主体行政官员(公务员)因其公权地位和公职身份而对授权者和法律以及行政法规所承担的责任。

宝马中文声控语音识别控制系统

BMW中文声控系统 声控启动语音控制支持方言专车专用 宝马中文声控系统市场前景 在庞大的汽车销量的基础上,车载语音系统已成为现代汽车的重要亮点之一,但是由于技术的局限性,国内车载语音系统的发展始终比较缓慢,在国外广泛发展的车载语音控制系统在国内却处于技术空白阶段。现在,Qdis-isods让这种情况得到了根本性的改变。 qdis品牌联合众多院校精英,由多名各领域资深人士参与研发,根据中国市场特点以及中国用户使用习惯进行特殊定制,成功推出Qdis-isods系列产品,为广大车主提供车载语音控制的解决方案和专业服务。加载Qdis-isods车载语音系统后,用户用自己的声音即可完成相关操作,而不再只是使用传统的指定命令。 Qdis-isods系列产品支持中国多种方言,声音识别准确率高并支持多人识别,一举攻克了之前的技术难题,让车载语音系统全面进入中国市场。以前需要手动操作的控制,现在您和爱车直接对话就能实现,而且还能语音识别并控制后装增配的产品,满足客户多种智能语音操作的需求。随着车联网技术的发展,汽车的互联性会越来越强,我们可以把语音技术扩展到除终端和嵌入式系统以外的所有设备上,从而完成更复杂的识别控制任务。我们依然在不断创新实践,以谋求更多的成功案例。 Qdis-isods车载语音系统可以完美支持各类车型,金鼓德达将以一贯优秀的无损加装技术,让您在驾驶生活中发现更多乐趣。QDIS-ISODS系列,爱车从此智能! 一、BMW中文声控系统主要功能 1.语音识别启动引擎 语音指令随时学习,支持所有方言,指令内容可以自由定义; 不影响原车启动键启动功能; 可以同时利用方向盘按键组合为密码启动; 语言指令和方向盘密码可以任意修改; 2.语音指令控制原车 语音指令随时学习,支持所有方言,指令内容可以自由定义;

运筹学教程清华第三版课后答案(第一章,第五章部分)

1.某饲养场饲养动物出售,设每头动物每天至少需700g蛋白质、30g矿物质、100mg 维生素。现有五种饲料可供选用,各种饲料每kg营养成分含量及单价如表1所示。表1 要求确定既满足动物生长的营养需要,又使费用最省的选用饲料的方案。 x表示满足动物生长的营养需要时,解:设总费用为Z。i=1,2,3,4,5代表5种饲料。 i 第i种饲料所需的数量。则有: 2.某医院护士值班班次、每班工作时间及各班所需护士数如表2所示。每班护士值班 开始时间向病房报道,试决定: (1)若护士上班后连续工作8h,该医院最少需要多少名护士,以满足轮班需要; (2)若除22:00上班的护士连续工作8h外(取消第6班),其他班次护士由医院排定上1~4班的其中两个班,则该医院又需要多少名护士满足轮班需要。表2 x第i班开始上班的人数,i=1,2,3,4,5,6 解:(1)设 i x第i 解:(2)在题设情况下,可知第五班一定要30个人才能满足轮班需要。则设设 i 班开始上班的人数,i=1,2,3,4。

a 3.要在长度为l的一根圆钢上截取不同长度的零件毛坯,毛坯长度有n种,分别为 j (j=1,2,…n)。问每种毛坯应当截取多少根,才能使圆钢残料最少,试建立本问题的数学模型。 解:设 x表示各种毛坯的数量,i=1,2,…n。 i 4.一艘货轮分前、中、后三个舱位,它们的与最大允许载重量如表3.1所示。现有三 种货物待运,已知有相关数据列于表3.2。 表3.1 表3.2 又为了航海安全,前、中、后舱实际载重量大体保持各舱最大允许载重量的比例关系。具体要求:前、后舱分别与中舱之间载重量比例的偏差不超过15%,前、后舱之间不超过10%。问该货轮应该载A,B,C各多少件运费收入才最大?试建立这个问题的线性规划模型。 x表示第i件商品在舱j的装载量,i,j=1,2,3 解:设 ij 1)商品的数量约束: 2)商品的容积约束: 3)最大载重量约束: 4)重量比例偏差的约束: 5.篮球队需要选择5名队员组成出场阵容参加比赛。8名队员的身高及擅长位置见表 5. 表5

清华大学c语言教程课后答案

c语言程序设计答案---潭2 《C语言程序设计教程(第二版)》习题答案 说明 1. 本习题答案是我自己做的,错误和疏漏在所难免。编程题全部调试通过,但选择题和填空题不敢保证全对。 2. 凡未指明解题所用的程序设计语言的,均指C语言。 3. 凡未指明执行程序所需的操作系统的,均可在DOS下执行。 4. 本文中文字下面划线的表示输入。 第1章程序设计基础知识 一、单项选择题(第23页) 1-4.CBBC 5-8.DACA 二、填空题(第24页) 1.判断条件 2.面向过程编程 3.结构化 4.程序 5.面向对象的程序设计语言 7.有穷性 8.直到型循环 9.算法 10.可读性 11.模块化 12.对问题的分析和模块的划分 三、应用题(第24页) 2.源程序: main() {int i,j,k; /* i:公鸡数,j:母鸡数,k:小鸡数的1/3 */ printf("cock hen chick "); for(i=1;i<=20;i++) for(j=1;j<=33;j++) for(k=1;k<=33;k++) if (i+j+k*3==100&&i*5+j*3+k==100) printf(" %d %d %d ",i,j,k*3);} 执行结果: cock hen chick 4 18 78 8 11 81 12 4 84 3.现计算斐波那契数列的前20项。 递推法源程序: main() {long a,b;int i; a=b=1; for(i=1;i<=10;i++) /*要计算前30项,把10改为15。*/ {printf("%8ld%8ld",a,b); a=a+b;b=b+a;}} 递归法源程序: main() {int i;

2019年清华大学环境工程专业考研经验分享

2019年清华大学环境工程专业考研经验分享 清华大学环境工程专业,是属于环境学院的,本科专业我也是环境工程专业的,由于与环境工程相关的工作并没有多好,一直想工作的我无奈考研,没想到考取清华大学,综合排名靠前,了却家里人的心愿了,谁让在我老家,大学只有清华与北大呢。 下面是清华大学环境工程专业关于专业课我个人的一些小小的想法,仅供参考。 考试科目:环境微生物学 参考书目:我用的是这几本参考教材吧,也是仅供你们大家了解一下,借鉴一下子而已。分值比较大或者说比较重要的是《环境微生物学》,王家玲编;《水处理生物学》,顾夏声编; 接着就是《微生物学教程》,周德庆编。 参考经验:主要还是先说说专业课哈,我考环境微生物这个方向科目的话资料选择,可以去一些机构那里进行购买,注意不要去一些小地方,大机构资料也是比较齐全的,清华大学有个考研公众号这个大家是要去关注的,有一些信息还是比较有用的,其次,关于课本的复习,第一和第二本课本,这两本书重要性不言而喻了,当然了,都是微生物学肯定知识点都有些交叉,这就当是再复习一遍了,也挺好的,这三本书,你需要做的没有什么其他需要特别注意的,就是坚持看下去,没有所谓的考试重点,考的全是重点,专业基础课本要多多了解,阅读几遍才行的。如

果,家庭有条件的话,还是可以报个辅导班的,辅导班可以找一对一给你辅导一下,考试经验什么的都有。我当时是报了新祥旭考研辅导,那里主要是做一对一辅导的,老师很好,大家可以自己区了解一下。如何看书呢?上面几句话也告诉大家全是需要看的,复习的,那么你看书的时候还要注意各种各样书上的各式细节,各种化学键,放大镜还有一些其他的细节性的东西都是需要我们大家睁大眼睛的,多问自己几个为什么,找老师讨论,也许考试就考到了呢,对吧。 其实,关于考试方面,填空、判断正误、选择这几部分,需要你对课本的细小的知识点很熟很熟了,选择题尤其是,因为是不确定是单选还是多选,而你自己就更加不确定了,所以扎实的基础知识功底显得尤为重要了;论述简答、推理,这部分题分值比较大,考察的是你的逻辑思维能力和你的语言概括及你的专业能力,论述题,要回答全面,不要缺胳膊少腿这样被扣分就可惜了,推理,那你就要对课本上的各种原理很熟悉了,在上一段也说了就是要你们多问问自己为什么是这样的,一般这都和本章的重要的知识章节的原理概述有很大关系,一步一步进行解剖,你会找到答案的,相信我。 复试 复试,清华大学环境工程专业是有笔试和面试的。

相关主题
文本预览
相关文档 最新文档