自然语言处理及计算语言学相关术语中英对译表abbreviation缩写[省略语]
ablative夺格(的)
abrupt突发音
accent口音/{Phonetics}重音
accusative受格(的)
acoustic phonetics声学语音学
acquisition习得
action verb动作动词
active主动语态
active chart parser活动图句法剖析程序
active knowledge主动知识
active verb主动动词
actor-action-goal施事(者)-动作-目标
actualization实现(化)
acute锐音
address地址{信息科学}/称呼(语){语言学} adequacy妥善性
adjacency pair邻对
adjective形容词
adjunct附加语[附加修饰语]
adjunction加接
adverb副词
adverbial idiom副词词组
affective影响的
affirmative肯定(的;式)
affix词缀
affixation加缀
affricate塞擦音
agent施事
agentive-action verb施事动作动词
agglutinative胶着(性)
agreement对谐
AI (artificial intelligence)人工智能[人工智能]
AI language人工智能语言[人工智能语言] Algebraic Linguistics代数语言学
algorithm算法[算法]
alienable可分割的
alignment对照[多国语言文章词;词组;句子翻译的] allo-同位-
allomorph同位语素
allophone同位音位
alpha notation alpha标记
alphabetic writing拼音文字
alternation交替
alveolar齿龈音
ambiguity歧义
ambiguity resolution歧义消解
ambiguous歧义
American structuralism美国结构主义
analogy类推
analyzable可分析的
anaphor照应语[前方照应词]
animate有生的
A-not-A question正反问句
antecedent先行词
anterior舌前音
anticipation预期(音变) antonym反义词
antonymy反义
A-over-A A-上-A原则
apposition同位语
appositive construction同位结构
appropriate恰当的
approximant无擦通音
approximate match近似匹配
arbitrariness任意性
archiphoneme大音位
argument论元[变元]
argument structure论元结构[变元结构] arrangement配列
array数组
articulatory configuration发音结构
articulatory phonetics发音语音学
artificial intelligence (AI)人工智能[人工智能] artificial language人工语言
ASCII美国标准信息交换码
aspect态[体]
aspirant气音
aspiration送气
assign指派
assimilation同化
association关联
associative phrase联想词组
asterisk标星号
ATN (augmented transition network)扩充转移网络attested经证实的
attribute属性
attributive属性
auditory phonetics听觉语音学
augmented transition network扩充转移网络automatic document classification自动文件分类automatic indexing自动索引
automatic segmentation自动切分
automatic training自动训练
automatic word segmentation自动分词
automaton自动机
autonomous自主的
auxiliary助动词
axiom公理
baby-talk儿语
back-formation逆生构词(法)
backtrack回溯
Backus-Naur Form巴科斯诺尔形式[巴科斯诺尔范式] backward deletion逆向删略
ba-construction把─字句
balanced corpus平衡语料库
base词基
Bayesian learning贝式学习
Bayesian statistics贝式统计
behaviorism行为主义
belief system信念系统
benefactive受益(格;的)
best first parser最佳优先句法剖析器
bidirectional linked list双向串行
bigram双连词
bilabial双唇音
bilateral双边的
bilingual concordancer双语关键词前后文排序程序binary feature双向特征[二分征性]
binding约束
bit位[二进制制;比特]
biuniqueness双向唯一性
blade舌叶
blend省并词
block封阻[封杀]
Bloomfieldian布隆菲尔德(学派)的
body language肢体语言
Boolean lattice布尔网格[布尔网格]
borrow借移
Bottom-up由下而上
bottom-up parsing由下而上剖析
bound附着(的)
bound morpheme附着语素[黏着语素]
boundary marker界线标记
boundary symbol界线符号
bracketing方括号法
branching分枝法
breadth-first search广度优先搜寻[宽度优先搜索]
breath group换气单位
breathy气息音的
buffer缓冲区
byte字节
CAI (Computer Assisted Instruction)计算机辅助教学CALL (computer assisted language learning)计算机辅助语言学习
canonical典范的
capacity能力
cardinal基数的
cardinal vowels基本元音
case格位
case frame格位框架
Case Grammar格位语法
case marking格位标志
CAT (computer assisted translation)计算机辅助翻译cataphora下指
Categorial Grammar范畴语法
Categorial Unification Grammar范畴连并语法[范畴合一语法]
causative使动
causative verb使役动词
causativity使役性
centralization央元音化
chain炼
chart parsing表式剖析[图表句法分析]
checked受阻的
checking验证
Chinese character code中文编码[汉字代码]
Chinese character code for information interchange中文信息交换码[汉字交换码]
Chinese character coding input method中文输入法[汉字编码输入]
choice选择
Chomsky hierarchy杭士基阶层[Chomsky层次结构] citation form基本形式
CKY algorithm (Cocke-Kasami-Younger) CKY算法classifier类别词
cleft sentence分裂句
click啧音
clitic附着词
closed world assumption封闭世界假说
cluster音群
Cocke-Kasami-Younger algorithm CKY算法
coda音节尾
code conversion代码变换
cognate同源(的;词)
Cognitive Linguistics认知语言学
coherence一致性
cohesion凝结性[黏着性;结合力]
collapse合并
collective集合的
collocation连用语[同现;搭配]
combinatorial construction合并结构
combinatorial insertion合并中插
combinatorial word合并词
Combinatory Categorial Grammar组合范畴语法comment评论
commissive许诺[语行]
common sense semantics常识语意学
Communication Theory通讯理论[通讯论;信息论] Comparative Linguistics比较语言学
comparison比较
competence语言知能
compiler编译器
complement补语
complementary互补
complementary distribution互补分布
complementizer补语标记
complex predicate复杂谓语
complex stative construction复杂状态结构
complex symbol复杂符号
complexity复杂度
component成分
compositionality语意合成性[合成性]
compound word复合词
Computational Lexical Semantics计算词汇语意学Computational Lexicography计算词典编纂学Computational Linguistics计算语言学
Computational Phonetics计算语音学
Computational Phonology计算声韵学
Computational Pragmatics计算语用学
Computational Semantics计算语意学
Computational Syntax计算句法学
computer language计算器语言
computer-aided translation计算机辅助翻译[计算器辅助翻译]
computer-assisted instruction (CAI)计算机辅助教学computer-assisted language learning计算机辅助语言学习[计算器辅助语言学习]
concatenation串联
concept classification概念分类
concept dependency概念依存
conceptual hierarchy概念阶层
concord谐和
concordance关键词(前后文)排序
concordancer关键词(前后文)排序的程序
concurrent parsing并行句法剖析
conditional decision条件决定[条件决策]
conjoin连接
conjunction连接词(合取;逻辑积;"与";连词)
conjunctive连接的
connected speech连续语言
Connectionist model类神经网络模型
Connectionist model for natural language自然语言类神经网络模型[自然语言连接模型]
connotation隐涵意义
consonant子音[辅音]
constituent成分
constituent structure tree词组结构树
constraint限制
constraint propagation限制条件的传递[限定因素增殖] constraint-based grammar formalism限制为本的语法形式Construct Grammar句构语法
content word实词
context语境
context-free language语境自由语言[上下文无关语言] context-sensitive language语境限定语言[上下文有关语言;上下文敏感语言]
continuant连续音
continuous speech recognition连续语音识别
contraction缩约
control agreement principle控制一致原理
control structure控制结构
control theory控制论
convention约定俗成[规约]
convergence收敛[趋同现象]
conversational implicature会话含义
converse相反(词;的)
cooccurrence relation共现关系[同现关系]
co-operative principle合作原则
coordination对称连接词[同等;并列连接]
copula系词
co-reference同指涉[互指]
co-referential同指涉
coronal前舌音
corpora语料库
corpus语料库
Corpus Linguistics语料库语言学
corpus-based learning语料库为本的学习
correlation相关性
counter-intuitive违反语感的
courseware课程软件[课件]
coverb动介词
C-structure成分结构
data compression数据压缩[数据压缩]
data driven analysis数据驱动型分析[数据驱动型分析] data structure数据结构[数据结构]
database数据库[数据库]
database knowledge representation数据库知识表示[数据库知识表示] data-driven数据驱动[数据驱动]
dative与格
declarative knowledge陈述性知识
decomposition分解
deductive database演译数据库[演译数据库]
default默认值[默认;缺省]
definite定指
Definite Clause Grammar确定子句语法
definite state automaton有限状态自动机
Definite State Grammar有限状态语法
definiteness定指
degree adverb程度副词
degree of freedom自由度
deixis指示
delimiter定界符号[定界符]
denotation外延
denotic logic符号逻辑
dependency依存关系
Dependency Grammar依存关系语法
dependency relation依存关系
depth-first search深度优先搜寻
derivation派生
derivational bound morpheme派生性附着语素Descriptive Grammar描述型语法[描写语法] Descriptive Linguistics描述语言学[描写语言学] desiderative意愿的
determiner限定词
deterministic algorithm决定型算法[确定性算法] deterministic finite state automaton决定型有限状态机deterministic parser决定型语法剖析器[确定性句法剖析程序]
developmental psychology发展心理学
Diachronic Linguistics历时语言学
diacritic附加符号
dialectology方言学
dictionary database辞典数据库[词点数据库]
dictionary entry辞典条目
digital processing数字处理[数值处理]
diglossia双言
digraph二合字母
diminutive指小词
diphone双连音
directed acyclic graph有向非循环图
disambiguation消除歧义[歧义消除]
discourse篇章
discourse analysis篇章分析[言谈分析]
discourse planning篇章规划
Discourse Representation Theory篇章表征理论[言谈表示理论]
discourse strategy言谈策略
discourse structure言谈结构
discrete离散的
disjunction选言
dissimilation异化
distributed分布式的
distributed cooperative reasoning分布协调型推理distributed text parsing分布式文本剖析
disyllabic双音节的
ditransitive verb双宾动词[双宾语动词;双及物动词] divergence扩散[分化]
D-M (Determiner-Measure) construction定量结构
D-N (determiner-noun) construction定名结构
document retrieval system文件检索系统[文献检索系统] domain dependency领域依存性[领域依存关系]
double insertion交互中插
double-base双基
downgrading降级
dummy虚位
duration音长{语音学}/时段{语法学/语意学}
dynamic programming动态规划
Earley algorithm Earley算法
echo回声句
egressive呼气音
ejective紧喉音
electronic dictionary电子词典
elementary string基本字符串[基本单词串]
ellipsis省略
EM algorithm EM算法
embedding崁入
emic功能关系的
empiricism经验论
Empty Category Principle虚范畴原则[空范畴原理] empty word虚词
enclitics后接成份
end user终端用户[最终用户]
endocentric同心的
endophora语境照应
entailment蕴涵
entity实体
entropy熵
entry条目
episodic memory情节性记忆
epistemological network认识论网络
ergative verb作格动词
ergativity作格性
Esperando世界语
etic无功能关系
etymology词源学
event事件
event driven control事件驱动型控制
example-based machine translation以例句为本的机器翻译
exclamation感叹
exclusive disjunction排它性逻辑“或”
experiencer case经验者格
expert system专家系统
extension外延
external argument域外论元
extraposition移外变形[外置转换]
facility value易度值
feature特征
feature bundle特征束
feature co-occurrence restriction特征同现限制[特性同现限制]
feature instantiation特征体现
feature structure特征结构[特性结构] feature unification特征连并[特性合一]
feedback回馈
felicity condition妥适条件
file structure档案结构
finite automaton有限状态机[有限自动机]
finite state有限状态
Finite State Morphology有限状态构词法[有限状态词法] finite-state automata有限状态自动机
finite-state language有限状态语言
finite-state machine有限状态机
finite-state transducer有限状态置换器
flap闪音
flat降音
foreground information前景讯息[前景信息]
Formal Language Theory形式语言理论
Formal Linguistics形式语言学
Formal Semantics形式语意学
forward inference前向推理[向前推理]
forward-backward algorithm前前后后算法
frame框架
frame based knowledge representation框架型知识表示Frame Theory框架理论
free morpheme自由语素
Fregean principle Fregean原则
fricative擦音
F-structure功能结构
full text searching全文检索
function word功能词
Functional Grammar功能语法
functional programming函数型程序设计[函数型程序设计] functional sentence perspective功能句子观
functional structure功能结构
functional unification功能连并[功能合一]
functor功能符
fundamental frequency基频
garden path sentence花园路径句
GB (Government and Binding)管辖约束
geminate重迭音
gender性
Generalized Phrase Structure Grammar概化词组结构语法[广义短语结构语法]
Generative Grammar衍生语法
Generative Linguistics衍生语言学[生成语言学]
generic泛指
genetic epistemology发生认识论
genetive marker属格标记
genitive属格
gerund动名词
Government and Binding Theory管辖约束理论
GPSG (Generalized Phrase Structure Grammar)概化词组结构语法[广义短语结构语法]
gradability可分级性
grammar checker文法检查器
grammatical affix语法词缀
grammatical category语法范畴
grammatical function语法功能
grammatical inference文法推论
grammatical relation语法关系
grapheme字素
haplology类音删略
head中心语
head driven phrase structure中心语驱动词组结构[中心词驱动词组结构]
head feature convention中心语特征继承原理[中心词特性继承原理]
Head-Driven Phrase Structure Grammar中心语驱动词组结构律
heteronym同形
heuristic parsing经验式句法剖析
Heuristics经验知识
hidden Markov model隐式马可夫模型
hierarchical structure阶层结构[层次结构]
holophrase单词句
homograph同形异义词
homonym同音异义词
homophone同音词
homophony同音异义
homorganic同部位音的
Horn clause Horn子句
HPSG (Head-Driven Phrase Structure Grammar)中心语驱动词组结构语法
human-machine interface人机界面
hypernym上位词
hypertext超文件[超文本]
hyponym下位词
hypotactic主从结构的
IC (immediate constituent)直接成份
ICG (Information-based Case Grammar)讯息为本的格位语法
idiom成语[熟语]
idiosyncrasy特异性
illocutionary施为性
immediate constituent直接成份
imperative祈使句
implicative predicate蕴含谓词
implicature含意
indexical标引的
indirect object间接宾语
indirect speech act间接言谈行动[间接言语行为]
Indo-European language印欧语言
inductional inference归纳推理
inference machine推理机器
infinitive不定词[to不定式]
infix中缀
inflection/inflexion屈折变化
inflectional affix屈折词缀
information extraction信息撷取
information processing信息处理[信息处理]
information retrieval信息检索
Information Science信息科学[信息科学;情报科学] Information Theory信息论[信息论]
inherent feature固有特征
inherit继承
inheritance继承
inheritance hierarchy继承阶层[继承层次]
inheritance of attribute属性继承innateness position语法天生假说
insertion中插
inside-outside algorithm里里外外算法
instantiation体现
instrumental (case)工具格
integrated parser集成句法剖析程序
integrated theory of discourse analysis篇章分析综合理论[言谈分析综合理论]
intelligence intensive production知识密集型生产intensifier加强成分
intensional logic内含逻辑
Intensional Semantics内涵语意学
intensional type内含类型
interjection/exclamation感叹词
inter-level中间成分
interlingua中介语言
interlingual中介语(的)
interlocutor对话者
internalise内化
International Phonetic Association (IPA)国际语音学会internet因特网
Interpretive Semantics诠释性语意学
intonation语调
intonation unit (IU)语调单位
IPA (International Phonetic Association)国际语音学会
IR (information retrieval)信息检索
IS-A relation IS-A关系
isomorphism同形现象
IU (intonation unit)语调单位
junction连接
keyword in context上下文中关键词[上下文内关键词] kinesics体势学
knowledge acquisition知识习得
knowledge base知识库
knowledge based machine translation知识为本之机器翻译
knowledge extraction知识撷取[知识题取]
knowledge representation知识表示
KWIC (keyword in context)关键词前后文[上下文内关键词] label标签
labial唇音
labio-dental唇齿音
labio-velar软颚唇音
LAD (language acquisition device)语言习得装置
lag发声延迟
language acquisition语言习得
language acquisition device语言习得装置
language engineering语言工程
language generation语言生成
language intuition语感
language model语言模型
language technology语言科技
left-corner parsing左角落剖析[左角句法剖析]
lemma词元
lenis弱辅音
letter-to-phone字转音
lexeme词汇单位
lexical ambiguity词汇歧义
lexical category词类
lexical conceptual structure词汇概念结构
lexical entry词项
lexical entry selection standard选词标准
lexical integrity词语完整性
Lexical Semantics词汇语意学
Lexical-Functional Grammar词汇功能语法Lexicography词典学
Lexicology词汇学
lexicon词汇库[词典;词库]
lexis词汇层
LF (logical form)逻辑形式
LFG (Lexical-Functional Grammar)词汇功能语法liaison连音
linear bounded automaton线性有限自主机
linear precedence线性次序
lingua franca共通语
linguistic decoding语言译码
linguistic unit语言单位
linked list串行
loan外来语
local局部的
localism方位主义
localizer方位词
locus model轨迹模型
locution惯用语
logic逻辑
logic array network逻辑数组网络
logic programming逻辑程序设计[逻辑程序设计] logical form逻辑形式
logical operator逻辑算子[逻辑算符]
Logic-Based Grammar逻辑为本语法[基于逻辑的语法] long term memory长期记忆
longest match principle最长匹配原则[最长一致法]
LR (left-right) parsing LR剖析
machine dictionary机器词典
machine language机器语言
machine learning机器学习
machine translation机器翻译
machine-readable dictionary (MRD)机读辞典Macrolinguistics宏观语言学
Markov chart马可夫图
Mathematical Linguistics数理语言学
maximum entropy最大熵
M-D (modifier-head) construction偏正结构
mean length of utterance (MLU)语句平均长度measure of information讯习测度[信息测度]
memory based根据记忆的
mental lexicon心理词汇库
mental model心理模型
mental process心理过程[智力过程;智力处理] metalanguage超语言
metaphor隐喻
metaphorical extension隐喻扩展
metarule律上律[元规则]
metathesis语音易位
Microlinguistics微观语言学
middle structure中间式结构minimal pair最小对
Minimalist Program微言主义
MLU (mean length of utterance)语句平均长度modal情态词
modal auxiliary情态助动词
modal logic情态逻辑
modifier修饰语
Modular Logic Grammar模块化逻辑语法
modular parsing system模块化句法剖析系统modularity模块性(理论)
module模块
monophthong单元音
monotonic单调
monotonicity单调性
Montague Grammar蒙泰究语法[蒙塔格语法] mood语气
morpheme词素
morphological affix构词词缀
morphological decomposition语素分解morphological pattern词型
morphological processing词素处理morphological rule构词律[词法规则] morphological segmentation语素切分Morphology构词学
Morphophonemics词音学[形态音位学;语素音位学] morphophonological rule形态音位规则Morphosyntax词句法
Motor Theory肌动理论
movement移位
MRD (machine-readable dictionary)机读辞典
MT (machine translation)机器翻译
multilingual processing system多语讯息处理系统multilingual translation多语翻译
multimedia多媒体
multi-media communication多媒体通讯
multiple inheritance多重继承
multistate logic多态逻辑
mutation语音转换
mutual exclusion互斥
mutual information相互讯息
nativist position语法天生假说
natural language自然语言
natural language processing (NLP)自然语言处理natural language understanding自然语言理解negation否定
negative sentence否定句
neologism新词语
nested structure崁套结构
network网络
neural network类神经网络
Neurolinguistics神经语言学
neutralization中立化
n-gram n-连词
n-gram modeling n-连词模型
NLP (natural language processing)自然语言处理node节点
nominalization名物化
nonce暂用的
non-finite非限定
non-finite clause非限定式子句
non-monotonic reasoning非单调推理
normal distribution常态分布
noun名词
noun phrase名词组
NP (noun phrase) completeness名词组完全性
object宾语{语言学}/对象{信息科学}
object oriented programming对象导向程序设计[面向对向的程序设计]
official language官方语言
one-place predicate一元述语
on-line dictionary在线查询词典[联机词点] onomatopoeia拟声词
onset节首音
ontogeny个体发生
Ontology本体论
open set开放集
operand操作数[操作对象]
optimization最佳化[最优化]
overgeneralization过度概化
overgeneration过度衍生
paradigmatic relation聚合关系
paralanguage附语言
parallel construction并列结构
Parallel Corpus平行语料库
parallel distributed processing (PDP)平行分布处理paraphrase转述[释意;意译;同意互训]
parole言语
parser剖析器[句法剖析程序]
parsing剖析
part of speech (POS)词类
particle语助词
PART-OF relation PART-OF关系
part-of-speech tagging词类标注
pattern recognition型样识别
P-C (predicate-complement) insertion述补中插
PDP (parallel distributed processing)平行分布处理perception知觉
perceptron感觉器[感知器]
perceptual strategy感知策略
performative行为句
periphrasis用独立词表达
perlocutionary语效性的
permutation移位
Petri Net Grammar Petri网语法
philology语文学
phone语音
phoneme音素
phonemic analysis因素分析
phonemic stratum音素层
Phonetics语音学
phonogram音标
Phonology声韵学[音位学;广义语音学]
Phonotactics音位排列理论
phrasal verb词组动词[短语动词]
phrase词组[短语]
phrase marker词组标记[短语标记] pitch音调
pitch contour调形变化
Pivot Grammar枢轴语法
pivotal construction承轴结构
plausibility function可能性函数
PM (phrase marker)词组标记[短语标记]
polysemy多义性
POS-tagging词类标记
postposition方位词
PP (preposition phrase) attachment介词依附Pragmatics语用学
Precedence Grammar优先级语法
precision精确度
predicate述词
predicate calculus述词计算
predicate logic述词逻辑[谓词逻辑]
predicate-argument structure述词论元结构
prefix前缀
premodification前置修饰
preposition介词
Prescriptive Linguistics规定语言学[规范语言学] presentative sentence引介句
presupposition前提
Principle of Compositionality语意合成性原理privative二元对立的
probabilistic parser概率句法剖析程序
problem solving解决问题
program程序
programming language程序设计语言[程序设计语言] proofreading system校对系统
proper name专有名词
prosody节律
prototype原型
pseudo-cleft sentence准分裂句
Psycholinguistics心理语言学
punctuation标点符号
pushdown automata下推自动机
pushdown transducer下推转换器
qualification后置修饰
quantification量化
quantifier范域词
Quantitative Linguistics计量语言学
question answering system问答系统
queue队列
radical字根[词干;词根;部首;偏旁]
radix of tuple元组数基
random access随机存取
rationalism理性论
rationalist (position)理性论立场[唯理论观点] reading laboratory阅读实验室
real time实时
real time control实时控制[实时控制]
recursive transition network递归转移网络reduplication重迭词[重复]
reference指涉
referent指称对象
referential indices指标
referring expression指涉词[指示短语]
register缓存器[寄存器]{信息科学}/调高{语音学}/语言的场合层级{社会语言学}
regular language正规语言[正则语言]
relational database关系型数据库[关系数据库]
relative clause关系子句
relaxation method松弛法
relevance相关性
Restricted Logic Grammar受限逻辑语法
resumptive pronouns复指代词
retroactive inhibition逆抑制
rewriting rule重写规则
rheme述位
rhetorical structure修辞结构
rhetorics修辞学
robust强健性
robust processing强健性处理
robustness强健性
schema基朴
school grammar教学语法
scope范域[作用域;范围]
script脚本
search mechanism检索机制
search space检索空间
searching route检索路径[搜索路径]
second order predicate二阶述词
segmentation分词
segmentation marker分段标志
selectional restriction选择限制
semantic field语意场
semantic frame语意架构
semantic network语意网络
semantic representation语意表征[语义表示]
semantic representation language语意表征语言semantic restriction语意限制
semantic structure语意结构
Semantics语意学
sememe意素
Semiotics符号学
sender发送者
sensorimotor stage感觉运动期
sensory information感官讯息[感觉信息]
sentence句子
sentence generator句子产生器[句子生成程序] sentence pattern句型
separation of homonyms同音词区分
sequence序列
serial order learning顺序学习
serial verb construction连动结构
set oriented semantic network集合导向型语意网络[面向集合型语意网络]
SGML (Standard Generalized Markup Language)结构化通用标记语言
shift-reduce parsing替换简化式剖析
short term memory短程记忆
sign信号
signal processing technology信号处理技术
simple word单纯词
situation情境Situation Semantics情境语意学
situational type情境类型
social context社会环境
sociolinguistics社会语言学
software engineering软件工程[软件工程]
sort排序
speaker-independent speech recognition非特定语者语音识别
spectrum频谱
speech口语
speech act assignment言语行为指定
speech continuum言语连续体
speech disorder语言失序[言语缺失]
speech recognition语音辨识
speech retrieval语音检索
speech situation言谈情境[言语情境]
speech synthesis语音合成
speech translation system语音翻译系统
speech understanding system语音理解系统
spreading activation model扩散激发模型
standard deviation标准差
Standard Generalized Markup Language标准通用标示语言
start-bound complement接头词
state of affairs algebra事态代数
state transition diagram状态转移图
statement kernel句核
static attribute list静态属性表
statistical analysis统计分析
Statistical Linguistics统计语言学
statistical significance统计意义
stem词干
stimulus-response theory刺激反应理论
stochastic approach to parsing概率式句法剖析[句法剖析的随机方法]
stop爆破音
Stratificational Grammar阶层语法[层级语法]
string字符串[串;字符串]
string manipulation language字符串操作语言
string matching字符串匹配[字符串]
structural ambiguity结构歧义
Structural Linguistics结构语言学
structural relation结构关系
structural transfer结构转换
structuralism结构主义
structure结构
structure sharing representation结构共享表征subcategorization次类划分[下位范畴化]
subjunctive假设的
sublanguage子语言
subordinate从属关系
subordinate clause从属子句[从句;子句]
subordination从属
substitution rule代换规则[置换规则]
substrate底层语言
suffix后缀
superordinate上位的
superstratum上层语言
suppletion异型[不规则词型变化] suprasegmental超音段的
syllabification音节划分
syllable音节
syllable structure constraint音节结构限制symbolization and verbalization符号化与字句化synchronic同步的
synonym同义词
syntactic category句法类别
syntactic constituent句法成分
syntactic rule语法规律[句法规则]
Syntactic Semantics句法语意学
syntagm句段
syntagmatic组合关系[结构段的;组合的] Syntax句法
Systemic Grammar系统语法
tag标记
target language目标语言[目标语言]
task sharing课题分享[任务共享]
tautology套套逻辑[恒真式;重言式;同义反复] taxonomical hierarchy分类阶层[分类层次] telescopic compound套装合并
template模板
temporal inference循序推理[时序推理] temporal logic时间逻辑[时序逻辑]
temporal marker时貌标记
tense时态
terminology术语
text文本
text analyzing文本分析
text coherence文本一致性
text generation文本生成[篇章生成]
Text Linguistics文本语言学
text planning文本规划
text proofreading文本校对
text retrieval文本检索
text structure文本结构[篇章结构]
text summarization文本自动摘要[篇章摘要] text understanding文本理解
text-to-speech文本转语音
thematic role题旨角色
thematic structure题旨结构
theorem定理
thesaurus同义词辞典
theta role题旨角色
theta-grid题旨网格
token实类[标记项]
tone音调
tone language音调语言
tone sandhi连调变换
top-down由上而下[自顶向下]
topic主题
topicalization主题化[话题化]
trace痕迹
Trace Theory痕迹理论
training训练
transaction异动[处理单位]
transcription转写[抄写;速记翻译] transducer转换器
transfer转移
transfer approach转换方法
transfer framework转换框架
transformation变形[转换]
Transformational Grammar变形语法[转换语法] transitional state term set转移状态项集合
transitivity及物性
translation翻译
translation equivalence翻译等值性
translation memory翻译记忆
transparency透明性
tree树状结构[树]
Tree Adjoining Grammar树形加接语法[树连接语法] treebank树图数据库[语法关系树库]
trigram三连词
t-score t-数
turing machine杜林机[图灵机]
turing test杜林测试[图灵试验]
type类型
type/token node标记类型/实类节点
type-feature structure类型特征结构
typology类型学
ultimate constituent终端成分
unbounded dependency无界限依存
underlying form基底型式
underlying structure基底结构
unification连并[合一]
Unification-based Grammar连并为本的语法[基于合一的语法]
Universal Grammar普遍性语法
universal instantiation普遍例式
universal quantifier全称范域词
unknown word未知词[未定义词]
unrestricted grammar非限制型语法
usage flag使用旗标
user interface使用者界面[用户界面]
Valence Grammar结合价语法
Valence Theory结合价理论
valency结合价
variance变异数[方差]
verb动词
verb phrase动词组[动词短语]
verb resultative compound动补复合词
verbal association词语联想
verbal phrase动词组
verbal production言语生成
vernacular本地话
V-O construction (verb-object)动宾结构
vocabulary字汇
vocabulary entry词条
vocal track声道
vocative呼格
voice recognition声音辨识[语音识别]
vowel元音
vowel harmony元音和谐[元音和谐]
waveform波形
weak verb弱化动词
Whorfian hypothesis Whorfian假说
word词
word frequency词频
word frequency distribution词频分布
word order词序
word segmentation分词
word segmentation standard for Chinese中文分词规范word segmentation unit分词单位[切词单位]
word set词集
working memory工作记忆[工作存储区]
world knowledge世界知识
writing system书写系统
X-Bar Theory X标杠理论["x"阶理论]
Zipf's Law利夫规律[齐普夫定律]
网络常用词汇表
A
ANALOG DATA模拟数据
ANONYMOUS匿名文件传输
APPLICATION应用程序
ARCHIE档案
ASCII(American Standard Code for information interchange)美国信息互换标准代码
ATM(Asynchronous Transfer Mode)异步传输模式ATTACHMENT附件
B
BACKBONE骨干网
BANDWIDTH带宽
BAUD RATE波特率
BBS(Bulletin Board System)电子公告牌系统
BETA VERSION Beta测试版
BINARY DATA二进制数据
BIT比特
BOOKMARK书签
BPS每秒比特数
BRIDGE网桥
BROWSER浏览器
C
CABLE MODEM电缆调制解调器
CACHE DIRECTORY缓存目录
CGI(Common gateway interface)通用网关接口CHANNEL频道
CHAT聊天
CLIENT PROGRAM客户程序
CLIENT/SERVER客户/服务器
COM PORT COM通讯端口
CYBERSPACE电脑化空间
D
DATA BASE数据库
DATA COMPRESSION数据压缩
DIAL-UP CONNECTION拨号连接
DIAL-UP NETWORKING SOFTWARE拨号连网软件DIGITAL CAMERA数字相机
DIRECT INTERNET CONNECTION直接网间连接DNS(Domain Name System)域名系统
DOMAIN NAME域名
DOWNLOAD下载
DYNAMIC IP ADDRESSING动态IP地址
E E-MAIL(Electronic Mail)电子邮件
E-MAIL ADDRESS电子邮件地址
EMOTICIOS情感符号
ENCRYPTION加密
ERROR CORRECTION纠错
ETHERNET以太网
F
FAQ(Frequently Asked Questions)常见问题
FAX-MODEM传真-调制解调器
FREEWARE免费软件
FTP(File Transfer Protocol)文件传输协议
G
GATEWAY网关
GIF(Graphic Interchange format)图形交换格式GOPHER一种查询方法
H
HELPER APPLICATION助手应用程序
HOME PAGE网页
HOT LINK热连接
HTML(Hyper Text Mark Language)超文本标记语言HTTP(Hyper Text Transfer Protocol)超文本传输协议HYPER TERMINAL超级终端
HYPER TEXT超文本
I
IMAGE MAP图像导位图
INTERNET国际互联网
IP(Internet Protocol)网间协议
IP ADDRESS IP地址
IRC(Internet Relay Chat)网间实时聊天
ISDN(Integrated Service Digital Network)综合业务数据网ISP(Internet Service Provider)互联网服务供应商
J
JAVA娇娃,一种在互联网上广泛应用的语言
L
LIST SERVER目录服务器
LOGIN登录
M
MAIL SERVER邮件服务器
MAILING LIST邮寄目录
MIME(Multipurpose Internet Mail Extensions)多用途网络邮件扩展
MODEM调制解调器
MUD(Multiuser Dungeon)多人城堡游戏
MULTIMEDIA多媒体
N
NETIQUETTE行为规范
NETWORK网络
NEWBIE新手
NEWSGROUPS新闻组
NEWSERADER新闻阅读器
NEWS SERVER新闻服务器
NODE节点
O
OFF-LINE离线
ON-LINE在线
ON-LINE SERVICE在线服务
ON-LINE SERVICE PROVIDER在线服务供应商
P
PACKET SWITCHING包交换
PASSWORD密码
PEM(Privacy Enhanced Mail)增强保密邮件
PLUG-IN插件POP(Point of Presence)代理点
POP3 (Post Office Protocol)邮政协议
POP3 SERVER POP3服务器
POST投寄
PPP(Point to Point Protocol)点对点通讯协议PROTOCOL协议
PROVIDER供应商
R
REMOTE LOGIN远程登录
ROUTER路由器
S
SEARCH ENGINE搜索器
SERIAL PORT串口
SERVER服务器
SHAREWARE共享软件
SIGNATURE签名
SLIP(Serial Line Internet Protocol)串行线路Internet协议SMTP(Simple Mail Transfer Protocol)简单邮件传输协议SMTP SERVER SMTP服务器
STATIC IP ADDRESSING静态IP地址分配STREAMING流式
SUBSCRIBE订阅
SUPER COMPUTER超级电脑
SURFING冲浪
T
TALKER聊天程序
TCP/IP(Transfer Control Protocol/Internet Protocol)
传输控制协议/网间协议
TELNET一种互联网应用
U
UART CHIP(Universal Asynchronous Receiver/Transmitter)
标准异步接收器/发射器
URL(Uniform Resource Locator)全球资源定位器USENET互联网新闻组
UUENCODE一种流行的压缩方式
V
VR(Virtual Reality)虚拟现实
VRML (Virtual Reality Markup Language)虚拟现实置标语言
W
WAIS(Wide Area Information Servers)广域信息服务器WEB PAGE万维网页
WEB SITE万维网站
WEB-WIDE SEARCH ENGINE万维网搜索器WINSOCK一种应用于Windows与Internet连接标准WORLD WIDE WEB万维网
网站相关用语
account name帐户名称
contact name注册名称
business name商业名称
email address电子邮件地址
verify email address核实电子邮件地址(再输入一遍)password口令,密码
retype password核实口令,密码(再输入一遍)address住址
city城市(residents)state/province(居住的)州(美国),省(中国)
country国家
zip or postal code邮政编码
phone number电话号码
daytime phone日间电话
evening phone夜间电话
fax传真
gender性别
sign up,signin注册
birth date,year of birth出生年月日
age年龄
family status家庭状况
marital status婚姻状况
religion宗教信仰
language语言
industry产品
job category工作类型
employment status雇佣状况
education教育状况
referral code推荐识别代码
referral no.推荐识别号(介绍人号码)
annual income年收入
how did you hear about us你是如何知道我们的
suite or apartment
company name公司名称
login,log on登录
advertising banner(banner ads)
网页广告,在网页中显示的一个gif格式的图片,通常是链接到另外一个网站,是网上广告的常见形式之一
above the fold
明显位置,在网页的靠上方位置,当网页广告显示的时候,访问者不需要移动浏览器的滚动条就可以显示出来的位置cpm(cost per thousand impression
)千印象费用,网上广告产生每1000个广告印象(显示)数的费用
cpc(cost per thousand click)千点击费用,网上广告产生每1000个广告点击数的费用
click throughs点击次数,网上广告被用户打开、浏览的次数
click-through rate点击率,网上广告被点击的次数与被显示次数之比
terms and conditions条件和协议(需要遵守的规则)organization单位名称
credit cards信用卡(号码)
service服务(内容)
sites网站
register登记,注册
membership成员
application form申请表格
payee on check支票收款人
ethnicity种族
social security number or taxid(tax id number)
(美国)社会保险号,付税id号
pay-per-click每点击支付额
pay-per-impression每印象(显示)支付额
application guidelines申请指导
rules规则
minimum payment to send支付时的最小数额
site title网站标题
site url网址
daily visitors每日访问人数
site content网站内容
site description网站说明
keywords关键词
make checks payable to支票支付给谁
contact information联系信息
site information网站信息
payment information付款信息
submit applications提交申请
html code超链接代码
sponsor赞助商
homepage district网站类别
faq疑问解答
user policy用户规则
banner(广告横幅)
logo(图标)
cpt(cost per thousand,每千人次访问收费):按访问人次收费已经成为网络广告的惯例。
clicks(点击次数):每一次当访客通过点击这个横幅广告访问一次商家网页,称点击一次。点击次数可以客观准确地反映广告效果。
clicks ratio(点击率):是广告吸引力的一个标志。如果这个网页出现了一万次,而网页上的广告的点击次数为五百次,那么点击率即为5%。
impression(投放次数):网页被访问的次数。
counter(计数器)上的统计数字即该网页的impression。portal page(点击广告后连到的页面):通常这个页面不是商家网站的首页,而是针对广告内容重新设计的页面。pageviews(综合浏览量):网站各网页被浏览的总次数。一个访客有可能创造十几个甚至更多的pageviews。unique host(独立访客):由于每个访客有可制造出多个pageviews,而访客刷新网页也会使impression数增加,所以pageviews或impression都不能精确表现网站的访问人数。通常情况下每个访客都会来自于不同的地址,称为来自不同的ip。独立访客即将来自同一ip的访客视为同一个人,从而获得更精确的访客人数。象网易中文排行榜提供的易数统计所提供的数字就是unique
host。通常很多网站公布的访问量都是pageviews或impression,pageviews往往是impression的数倍,而impression又会比unique
host高出许多。
IT类XML词汇
a
abstract syntax
abstract syntax of SGML
active document type declaration
active link type
active link type declaration
application convention
application-specific information
attribute definition
attribute definition list
attribute definition list declaration
attribute list
attribute list declaration
attribute of an element
attribute specification
attribute specification list
attribute value literal
availabe public text
b
b sequence
base document element
base document type
basic SGML document
bit
bit combination
blank sequence
c
capacity
capacity set
CDATA entity
chain of link processes
chain of processes
character
character class
character data
character data entity
character entity set
character number
character reference
character repertoire
character set
character string
class
code extension
code set
code set position
coded representation
comment
comment declaration
concrete syntax
concrete syntax of SGML
content
content convention
content model
content model nesting level
content reference attribute
contextually optional element
contextually required element
control sequence
core concrete syntax
corresponding content of a content token
current attribute
current element
current link set
current map
current rank
d
data
data character
data content
data content notation
data tag
data tag group
data tag pattern
declaration
declaration subset
declared concrete syntax
default entity
default value
definitional character entity set
delimiter
delimiter characters
delimiter-in-contxt
delimiter set
delimiter set parameter
delimiter string
descriptive markup
device-dependent version
digits
display character entity set
document
document architecture
document character set
document definition
document element
document instance
document instance set
document type
document type declaration
document type definition
ds separator
e effective status
effective status of a marked section
element
element declaration
element set
element structure
element type
element type definition
element type parameter
empty link set
empty map
end-tag
entity
entity declaration
entity end
entity end signal
entity manager
entity reference
entity set
entity structure
entity text
equivalent reference string
escape sequence
exceptions
exclusions
explicit content reference
explicit link
explicit link process definition
external identifier
f
fixed attribute
formal public identifier
formal public identifier error
function character identification parameter
g
G0 set
general delimiter
general delimiter role
general entity
general entity reference
generic identifier (element type name)
graphic repertoire code extension
i
ID reference list
ID reference value
ID value
implicit attribute
implicit link
implicit link process definition
inclusion
inert function character
inherently optional token
initial link set
instance
instance of a document type
ISO text description
k
keyword
l
link attribute
link process
link process definition
link set
link set declaration
link type declaration
link type declaration subset
lower-case letters
lower-case name characters
lower-case name start characters
m
map
mark up
marked section
marked section declaration
marked section start
markup
markup character
markup convention
markup declaration
markup minimization feature
minimal SGML document
model
model group
multicode basic concrete syntax
multicode concrete syntax
n
name
name character
name group
name start character
name token
name token group
named character reference
naming rules paramter
non-SGML character
normalized length of an attribute specification list
notation attribute
notation declaration
notation identifier
notation name
number
number token
numeric character reference
o
object capacity
omitted tag minimization parameter
open element
open entity
open marked section declaration
owner identifier
p
parameter
parameter entity
parameter entity reference
parsed character data
PI entity
point
procedure
procedure set
processing instruction
processing instruction entity
prolog
proper subelement
ps separator
public identifier
public text
public text class
public text description
public text designating sequence
public text display version
q
quantity
quantity set
r
ranked element
ranked group
rank stem
rank suffix
record
record boundray
record boundray character
record end
record start
reference
reference capacity set
reference concrete syntax
reference quantity set
registered owner identifier
reportable markup error
reserved name
reserved name use parameter
result document type of a link
result element type
result element type of a link
s separator
satisfied token
SDATA entity
separator
separator character
SGML application
SGML character
SGML declaration
SGML document
SGML document entity
SGML entity
SGML parser
SGML subdocument entity
SGML text entity
shift function
short reference
short reference delimiter
short reference delimiter role
short reference mapping declaration
short reference set
short reference string
short reference use declaration
shunned character number
simple link process definition
source document type
source element type of a link
specific character data entity
start-tag
status keyword
string
syntax-reference character set
system declaration
system identifier
t
tag
target element
text
text identifier
text processing application
token
total capacity
ts separator
type declaration
type definition
u
unavailable public text
unique identifier
unregistered owner identifier
upper-case letters
upper-case name characters
v
validating SGML parser
variant SGML document
virtual character set
《大数据技术原理与应用》课程标准 一、课程信息 课程名称:大数据技术原理与应用课程类型:考查课 课程代码:授课对象:物联网工程专业本科班,物联网创新班 学分:先修课:物联网导论、操作系统教程、编程 学时:后续课:智能家居、智能物流、云计算 制定人:理艳荣、张海兰制定时间: 二、课程性质 《大数据技术》是一门专业选修课,大数据技术入门课程,为学生搭建起通向“大数据知识空间”的桥梁和纽带,以“构建知识体系、阐明基本原理、引导初级实践、了解相关应用”为原则,为学生在大数据领域“深耕细作”奠定基础、指明方向。 课程将系统讲授大数据的基本概念、大数据处理架构、分布式文件系统、分布式数据库、数据库、云数据库、分布式并行编程模型、流计算、图计算、数据可视化以及大数据在互联网、生物医学和物流等各个领域的应用。在、、和等重要章节,安排了入门级的实践操作,让学生更好地学习和掌握大数据关键技术。 三、课程设计 1.课程目标设计 (1)能力目标 总体目标:通过学习大数据相关理论知识,掌握大数据的系统架构及关键技术以及具体应用场景,并结合具体设计实例,培养学生创新意识和实践能力。 件系统的重要概念、体系结构、存储原理和读写过程,并熟练掌握分布式文件系统的使用方法; ()能够了解分布式数据库的访问接口、数据模型、实现原理和运行机制,并熟练掌握的使用方法; ()能够了解数据库与传统的关系数据库的差异、数据库的四大类型以及数据库的三大基石;基本掌握、等数据库的使用方法; 具体目标:
序号单项能力目标 能够掌握大数据的基本概念 能够掌握相关的数据管理、存储、分析计算等的技术基础 能够掌握的相关知识 通过对数据库的学习和编程设计,掌握的使用方法 掌握大数据知识体系的系统架构 (2)知识目标 序号知识目标 了解分布式文件系统的基本概念、结构和设计需求,掌握的概念 了解布式数据库的访问接口、数据模型、实现原理和运行机制 了解数据库与传统的关系数据库的差异、数据库的四大类型以及数据库的三大基石 了解云数据库的概念、基本原理和代表性产品的使用方法 2.课程内容设计 ()设计的整体思路:面向实践,以理论知识与具体应用相结合的方式介绍大市聚。理 论结合实际,由浅入深,加强对大数据概念及技术的理解与巩固。此课程划分为下列模块。 ()模块设计表: 模块名称学时 介绍大数据的基本概念和应用领域,并阐述大数据、云计 算和物联网的相互关系 介绍大数据处理架构 分布式文件系统的基本原理和使用方法 分布式数据库的基本原理和使用方法 数据库的概念和基本原理 云数据库的概念和基本原理 分布式并行编程模型原理和使用方法 架构再探讨 总复习 合计 3.教学进度表设计
浅谈自然语言处理 摘要 主要阐述了自然语言处理的定义,发展历史,并对其研究内容,以及目前相关领域的应用加以讨论。最后对自然语言处理的未来发展趋势做简单的介绍。 关键词 自然语言处理 Abstract The definition and the development history of Natural Language Processing(NLP) are explained,the research content and the applications in interrelated areas of NLP are discussed.And the develop direction of NLP in the future are simply introduced. Key Words: Natural Language Processing(NLP)
0.引言 早在计算机还未出现之前,英国数学家A.M.Turing便已经预见到未来计算机将会对自然语言处理研究提出新的问题。他指出,在未来我们可以“教机器英语并且说英语。”同时他觉得“这个过程可以仿效教小孩子说话的那种办法进行”。这便是最早关于自然语言处理概念的设想。 人类的逻辑思维以语言为形式,人类的多种智能都与语言有着密切的联系。所以用自然语言与计算机进行通信是计算机出现以来人们一直所追求的目标。 1.什么是然语言处理 美国计算机科学家Bill Manaris(马纳瑞斯)在1999年出版的《计算机进展》(Advances Computers)第47卷的《从人—机交互的角度看自然语言处理》一文中,曾经给自然与然处理提出了如下定义:“自然语言处理可以定义为研究在人与人交际中的语言问题的一门学科。自然语言处理要研制表示语言能力(linguistic competence)和语言应用(linguistic performance)的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断地完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。”这个定义被广泛的接受,它比较全面的地表达了计算机对自然语言的研究和处理。 简单来说,自然语言处理就是一门研究能实现人鱼计算机之间用自然语言处理进行有效的通信与方法的一门学科,它是计算机科学领域与人工智能领域中的一个重要方向。普遍认为它主要是应用计算机技术,通过可计算的方法对自然语言处理的各级语言单位(字,词,语句,篇章等)进行转换,传输,存储,分析等加工处理的学科,是一门融合了语言学,计算机学,数学等学科于一体的交叉性学科。 互联网技术的发展,极大地推动了信息处理技术的发展,也为信息处理技术不断提出新的需求,语言作为信息的载体,语言处理技术已经日益成为全球信息化和我国社会及经济发展的重要支撑技术。
面向大数据时代的专业课程体系建设 研究
面向大数据时代的专业课程体系建设 1. 大数据时代的特点及其对专业人才的特殊需求分析 重点分析大数据时代特点、大数据技术发展趋势及其对信息技术专业人才的特殊需求。特别是从大数据理念、技术和方法在农业领域的实践,分析农业大数据应用研究。了解涉及到水、土、光、热、气候资源,作物育种、种植、施肥、植保、过程管理、收获、加工、存储、机械化等各环节的农业大数据特征,探索多类型复杂数据采集、挖掘、处理、分析与应用等问题。在此基础上,了解大数据时代对专业人才的特殊需求。 2. 面向大数据需求的我院本科专业设置优化 系统地分析我院本科专业设置及其缺位问题,结合当前中国学科体系及本科专业设置,提出我院面向大数据需求的本科专业调整与优化方案。 (1)我院本科专业设置及其缺位分析:近年来,我院学科建设及本科专业建设取得来显著地发展。学院现在涵盖电气工程与自动化、信息工程与计算机两大学科群,拥有7个本科专业、11个硕士学位授权点和3个博士学位授权点,一个“农业电气化与自动化”国家级重点学科,成为实力雄厚、基础扎实的电气、电子与信息工程学科领域的高级专门人才培养教育基地和科学研究、技术开发与科技成果转化基地。可是,由于受到当前中国学科体系及本科专业设置的限制,面对大数据时
代的特殊人才需求我院本科专业设置表现得特别滞后,本科专业设置与建设存在明显的缺位问题。 (2)当前中国学科体系及本科专业设置分析:专业设置是高等教育部门根据科学分工和产业结构的需要所设置的学科门类。它是人才培养规格的重要标志。在教育部的学科划分中,学科门是最高级别的学科,共有13个:理学、工学、农学、医学、哲学、经济学、法学、教育学、文学、历史学、军事学、管理学、艺术学;比学科门低一级的学科称为学科类,学科类(不含军事学)共有71个;比学科类再低一级的学科称为专业;专业就是高考生填报的志愿,本科专业(不含军事学)共有258个。本科专业设置上由于受到中国学科体系及本科专业设置规范与管理,需要严格遵照相关的要求与规范。可是,国家层面的学科体系及本科专业设置存在滞后问题,因此需要本科专业设置上能够遵循就近的原则。分析当前中国学科体系及本科专业设置,探索面向大数据需求的相近专业及其设置是本部分研究的重要内容。 (3)面向大数据需求的我院本科专业优化:由于农业大数据是由结构化和非结构化数据构成,对大数据分析与处理的技术发生了巨大变化,因此与传统信息学科人才教育内容与培养目标显著不同,大数据时代对专业人才的特殊需求决定了面向大数据需求的我院本科专业设置与优化的方向及其建设内容。经过整合与优化我院本科专业设置,能够为面向大数据需求的专业课程体系建设提供了前提条件与基础支撑。 3. 面向大数据需求的专业课程体系建设
概率论在自然语言处理中的应用 twd2 2017年5月4日 当下,人工智能是热议话题。人工智能中,有一个方向叫做自然语言处理。 而在自然语言处理方面,有两个经典的问题:光学字符识别(奏奃奒)和拼音输 入法。它们都可以用概率的方法解决,本文就尝试讨论这个话题。 光学字符识别问题所谓光学字符识别(奏奃奒),就是给定一幅图片,让计算 机程序识别出来图片中的文字。这涉及到图像匹配、模式识别等算法,但本文 不关注于此,本文关注的是后处理的过程。 首先,对于一个字符的识别,识别结果就可能有多种,每一个结果都有一 个置信度。所谓后处理过程,就是对于已经识别出来的字串(字串每个字都有 多种可能选项),选择“最佳”的组合。这和下文讨论的拼音输入法十分类似,所以本文的重点放在对于拼音输入法的讨论。 拼音输入法问题拼音输入法,指的是一个程序,它接受用户输入的拼音串(比如“奱奩奮奧奨奵奡奤奡奸奵奥奪奩女奵奡奮奪奩奫奥奸奵奥她奵奪奩女奨奵奸奩”),根据内部数据,将这 个拼音串转换为文字串输出(对于上面的例子就是“清华大学计算机科学与技 术系”)。 对于输入拼音串的每一个拼音(上面例子中的“奱奩奮奧”、“奨奵奡”、“奤奡”、“奸奵奥”等),可以简单直接地查询字典来获得该拼音对应的所有可能的字,然后选择“最佳”的组合,认为是该拼音串对应的句子: 请清氢··· 画话华··· 大打答··· 学雪血··· ··· “最佳”的不同的定义方法,对应着寻找最佳组合的不同算法。这里,我讨论 一个简单的二元字模型或字的二元模型。我理解中,字的二元模型就是将句子 失
中相邻的两个字作为一组,后一个字出现的概率只和前面一个字出现的情况有关。这能够极大地简化相关算法设计、提高算法速度,但是准确度也会因此受到不良影响。 对于任意一个句子S ,如果记其长度n |S |,并且记S 夽w 1w 2···w n ,w i ∈W 夨i 夽失,夲,...,n 天为字符集W 中的一个字符,那么,其出现的概率P 夨S 天可以表示成: P 夨S 天夽 P 夨w 1天·P 夨w 2|w 1天·····P 夨w n |w 1w 2···w n ?1天夽n i =1 P 夨w i |w 1w 2···w i ?1天 其中,P 夨w i 天夨i 夽失,夲,...,n 天为w i 出现的概率。 在字的二元模型下,这个表达式可以进一步简化成: P 夨S 天≈ n i =1P 夨w i |w i ?1天再由条件概率的定义及大数定律, P 夨w i |w i ?1天夽P 夨w i ?1w i 天P 夨w i ?1天夽P 夨w i ?1w i 天count 夨?天P 夨w i ?1天count 夨?天≈count 夨w i ?1w i 天count 夨w i ?1天 其中,count 夨w 天夽w 出现的次数,并且count 夨?天 w ∈W count 夨w 天,表示字和字的二元组出现次数总和。它们都可以由语料统计得到。于是, P 夨S 天≈ n i =1count 夨w i ?1w i 天count 夨w i ?1天 这就是一个句子出现概率的算法。记W 夨y 天夽{拼音y 对应的所有字}?W ,不妨认为其中的元素按照某种顺序排好序。这样,给定一个包含m 个拼音的拼音串y 1y 2···y m ,如“奱奩奮奧奨奵奡奤奡奸奵奥”,可以枚举每一个可能的句子S ∈ m i =1W 夨y i 天夽{请,清,氢,...}×{画,话,华,...}×{大,打,答,...}×{学,雪,血,...},计算P 夨S 天,然后认为P 夨S 天最大的S 就是这个拼音串对应的句子,即对y 1y 2···y m 求出 奡奲奧奭奡奸S ∈ m i =1W (y i ) {P 夨S 天}实现上有几个问题:精度问题、平滑问题以及速度问题。 夲
自然语言处理 自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、 计算机科学、数学于一体的科学。 因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,包括中文、英文、俄 文、日文、德文、法文等等,所以它与语言学的研究有着密切的联系,但又有重要的区别。 自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机 系统,特别是其中的软件系统。因而它是计算机科学的一部分。 语言是人类区别其他动物的本质特性。在所有生物中,只有人类才具有语言能力。人类 的多种智能都与语言有着密切的关系。人类的逻辑思维以语言为形式,人类的绝大部分知识 也是以语言文字的形式记载和流传下来的。因而,它也是人工智能的一个重要,甚至核心部 分。 用自然语言与计算机进行通信,这是人们长期以来所追求的。因为它既有明显的实际意 义,同时也有重要的理论意义:人们可以用自己最习惯的语言来使用计算机,而无需再花大
量的时间和精力去学习不很自然和习惯的各种计算机语言;人们也可通过它进一步了解人类 的语言能力和智能的机制。 实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义,也能以自然 语言文本来表达给定的意图、思想等。前者称为自然语言理解,后者称为自然语言生成。因 此,自然语言处理大体包括了自然语言理解和自然语言生成两个部分。历史上对自然语言理 解研究得较多,而对自然语言生成研究得较少。但这种状况近年来已有所改变。 无论实现自然语言理解,还是自然语言生成,都远不如人们原来想象的那么简单,而是 十分困难的。从目前的理论和技术现状看,通用的、高质量的自然语言处理系统,仍然是较 长期的努力目标,但是针对一定应用,具有相当自然语言处理能力的实用系统已经出现,有 些已商品化,甚至开始产业化。典型的例子有:多语种数据库和专家系统的自然语言接口、 各种机器翻译系统、全文信息检索系统、自动文摘系统等。 自然语言处理,即实现人机间自然语言通信,或实现自然语言理解和自然语言生成是十 分困难的。造成困难的根本原因是自然语言文本和对话的各个层次上广泛存在的各种各样的
语言信息工程系与自然语言处理 自然语言处理做什么? 首先,让我们从那些比较实用的方面来看看什么是自然语言处理。一般来说,所有那些和语言相关的数据,以及处理它的计算机程序,都是我们研究的内容。现在,个人计算机和网络已经进入我们日常的生活,我们用它们做文书处理,收发电子邮件,看新闻,搜索资料,…,所有这些,我们看到的、输入的和存贮的都用到了至少一种自然语言,比如说,中文或者是英文。 自然语言处理技术,简单来说就是实现那些与语言处理相关的特定任务的程序,举例来说,它们可能是: 支持文本处理:例如,智能文字输入,查找拼写错误,寻找与改正病句等; 写作支持:帮助作者寻找合适的语言表达方法,甚至文体风格,至少也能帮助用户使用最正确的术语表达形式; 辅助翻译:从一种语言翻译为另一种语言,或多种语言,未来的目标是全自动化高正确率的翻译,虽然达到这个目标的路很艰辛; 改进信息组织与管理:文献主题标引、关键词标引,文本分类、聚类,自动文摘,模板式信息提取等等。由此,我们可以更有效地利用信息和知识; 信息检索,除了研制更强大更准确的搜索引擎之外,也有相当多的研究关注如何检索到更深层次的东西,例如试图分析与理解被检索文档的语义内容等; 辅助语言学习,如果现在我们还不用计算机以及有效的语言学方法来帮助我们学习语言,无论是母语还是外语,那是不可思议的。事实上,自然语言处理在语言教学领域已经开始大展身手了… 所有这些问题我们要能有完美的解决,显然不只是应用计算机科学与技术的技艺。更进一步说,我们要透彻理解和把握自然语言的自身特性。自然语言处理横跨计算机科学和语言学,相应的数学和逻辑基础也很重要。 从抽象化的理论层面看自然语言处理,则更加微妙。计算机只是操纵符号运算的自动机器。语言是符号的集合和系统,尽管自然语言包含了极其复杂的符号以及运用的规则。自然语言处理技术扩展了传统语言学研究的视野和方法,让
3本文为国家社会科学基金项目“基于中文X ML 文档的全文检索研究”的成果之一,项目编号:04CT Q005。 ●熊回香,夏立新(华中师范大学 信息管理系,湖北 武汉 430079) 自然语言处理技术在中文全文检索中的应用 3 摘 要:自然语言处理技术是中文全文检索的基础。首先介绍了全文检索技术及自然语言处理技术,接着详细地阐述了自然语言处理技术在中文全文检索中的应用,并对目前基于自然语言处理技术的中文全 文检索技术的局限性进行了分析,探讨了中文全文检索技术的未来发展方向。 关键词:自然语言处理;全文检索;智能检索 Abstract:Natural language p r ocessing technol ogy is the basis of Chinese full 2text retrieval .This paper firstly intr oduces the full 2text retrieval technol ogy and natural language p r ocessing technol ogy .Then,it gives a detailed 2descri p ti on of the app licati on of natural language p r ocessing technol ogy in Chinese full 2text retrieval .The p resent li m itati ons of the Chinese full 2text retrieval system based on natural language p r ocessing technol ogy is als o ana 2lyzed .Finally,the paper exp l ores the devel opment trend of Chinese full 2text retrieval technol ogy in future . Keywords:natural language p r ocessing;full text retrieval;intelligent retrieval 随着社会网络化、信息化程度的日益提高,网上信息呈指数级剧增,人们越来越强烈地希望用自然语言同计算机交流,并能方便、快捷、准确地从互联网上获得有价值的信息,因此,自然语言处理技术和中文全文检索技术成为当今计算机科界、语言学界、情报学界共同关注的课题,并共同致力于将自然语言处理技术的研究成果充分运用到全文检索中,从而促进了全文检索技术的发展。 1 全文检索技术 全文检索是一种面向全文和提供全文的检索技术,其核心技术是将文档中所有基本元素的出现信息记录到索引库中,检索时允许用户采用自然语言表达其检索需求,并借助截词、邻词等匹配方法直接查阅文献原文信息,最后将检索结果按相关度排序返回给用户。因而索引数据库的建立是全文检索系统实现的基础,它以特定的结构存储了数据资源的全文信息,从而为全文检索系统提供可检索的数据对象。在中文全文检索系统中,建立索引库的前提是运用自然语言处理技术对中文信息进行基于词(字)、句、段落等更深层次的处理。 2 自然语言处理技术 自然语言是指作者所使用的书面用语,在信息检索中包括关键词、自由词和出现在文献题名、摘要、正文或参 考文献中的具有一定实质意义的词语[1]。自然语言处理 (Natural Language Pr ocessing,NLP )是语言信息处理的一 个重要分支,在我国就是中文信息处理。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,具体来说就是用计算机对包括汉语(字)的形、音、义等信息及词、句子、篇章的输入、输出、存储和识别、分析、理解、生成等多方面的加工处理[2]。由于自然语言处理侧重于词、句子、篇章,因而词法分析、句法分析、语义分析、语用分析、语境分析便构成了自然语言处理研究内容的基础部分。 211 词法分析 词法分析包括词形和词汇两个层次,其中词形主要是对各种词形和词的可识别部分的处理。如前缀、后缀及复合词的分析;词汇的重点在于复合对词操作和词汇系统的控制。其主要目的是有助于确认词性以及做到部分理解词与词、词与文档之间的关系,提高检索的效率。由于计算机内部存储的中文信息没有明显的词与词之间的分隔符,因此,在中文全文检索系统中,词法分析首要任务之一是对文本信息进行词语切分,即汉语自动分词,汉语自动分词是中文信息处理中的关键技术,也是中文全文检索的瓶颈,只有对汉语词进行正确的切分后,才能准确地提取文献的特征信息,对文献进行正确标引,才能正确分析用户的查询意图,为用户提供准确的信息服务。 212 句法分析 句法分析是对句子中词汇短语进行分析以便揭示句子的语法结构。目的是通过对句型结构的分析,自动抽取复
自然语言处理的关键技术 自然语言处理技术是所有与自然语言的计算机处理有关的技术的统称,其目的是使计算机理解和接受人类用自然语言输入的指令,完成从一种语言到另一种语言的翻译功能。自然语言处理技术的研究,可以丰富计算机知识处理的研究内容,推动人工智能技术的发展。下面我们就来了解和分析自然语言处理的关键技术。 一、常用技术分类 1、模式匹配技术 模式匹配技术主要是计算机将输入的语言内容与其内已设定的单词模式与输入表达式之间的相匹配的技术。例如计算机的辅导答疑系统,当用户输入的问题在计算机的答疑库里找到相匹配的答案时,就会完成自动回答问题的功能。但是不能总是保证用户输入的问题能得到相应的回答,于是很快这种简单匹配式答疑系统有了改进。答疑库中增加了同义词和反义词,当用户输入关键词的同义词或反义词时,计算机同样能完成答疑,这种改进后的系统被称为模糊匹配式答疑系统。 2、语法驱动的分析技术
语法驱动的分析技术是指通过语法规则,如词形词性、句子成分等规则,将输入的自然语言转化为相应的语法结构的一种技术。这种分析技术可分为上下文无关文法、转换文法、ATN文法。上下文无关文法是最简单并且应用最为广泛的语法,其规则产生的语法分析树可以翻译大多数自然语言,但由于其处理的词句无关上下文,所以对于某些自然语言的分析是不合适的。转换文法克服了上下文无关文法中存在的一些缺点,其能够利用转换规则重新安排分析树的结构,即能形成句子的表层结构,又能分析句子的深层结构。但其具有较大的不确定性。ATN文法扩充了转移网络,比其他语法加入了测试集合和寄存器,它比转移文法更能准确地分析输入的自然语言,但也具有复杂性、脆弱性、低效性等缺点。3、语义文法 语义文法的分析原理与语法驱动相似,但其具有更大的优越性。语义文法中是对句子的语法和语义的共同分析,能够解决语法驱动分析中单一对语法分析带来的不足。它能够根据句子的语义,将输入的自然语言更通顺地表达出来,除去一些语法正确但不合语义的翻译。但是语义文法分析仍然有不容忽视的缺点,其分析的语句中有时会出现不合语法的现象,并且这类分析较为复杂,语义类难以确定,语义的规则太多……因此,语义文法技术仍需要改进措施。 4、格框架约束分析技术
自然语言处理在现实生活中运用 1 需求分析与描述: 首先谈下这款软件的来源和用途吧,本科至今没有挂科记录,很不幸第一次《英语学位英语考试
内容大概分为:自然语言处理的简介、关键技术、流程及应用。 首先,介绍一下什么是自然语言处理(也叫自然语言理解): 语言学家刘涌泉在《大百科全书》(2002)中对自然语言处理的定义为:“自然语言处理是人工智能领域的主要内容,即利用电子计算机等工具对人类所特有的语言信息(包括口语信息和文字信息)进行各种加工,并建立各种类型的人-机-人系统,自然语言理解是其核心,其中包括语音和语符的自动识别以及语音的自动合成。” 从微观上讲,自然语言理解是指从自然语言到机器(计算机系统)内部之间的一种映射。 从宏观上看,自然语言理解是指机器能够执行人类所期望的某些语言功能。这些功能包括: ①回答有关提问;计算机正确地回答用自然语言输入的有关问题 ②提取材料摘要;机器能产生输入文本的摘要 ③同词语叙述;机器能用不同的词语和句型来复述输入的自然语言信息 ④不同语言翻译。机器能把一种语言翻译成另外一种语言 自然语言处理的关键技术 自然语言处理的关键技术包括:词法分析、句法分析、语义分析、语用分析和语句分析。 1.词法分析 词法分析的主要目的是从句子中切分出单词,找出词汇的各个词素,并确定其词义。 词法分析包括词形和词汇两个方面。一般来讲,词形主要表现在对单词的前缀、后缀等的分析,而词汇则表现在对整个词汇系统的控制。在中文全文检索系统中,词法分析主要表现在对汉语信息进行词语切分,即汉语自动分词技术。通过这种技术能够比较准确的分析用户输入信息的特征,从而完成准确的搜索过程。它是中文全文检索技术的重要发展方向。 不同的语言对词法分析有不同的要求,例如英语和汉语就有较大的差距 汉语中的每个字就是一个词素,所以要找出各个词素是相当容易的,但要切分出各个词就非常难。 如”我们研究所有东西“,可以是“我们——研究所——有——东西”也可是“我们——研究——所有——东西”。
面向大数据时代的专业课程体系建设 1. 大数据时代的特点及其对专业人才的特殊需求分析 重点分析大数据时代特点、大数据技术发展趋势及其对信息技术专业人才的特殊需求。尤其是从大数据理念、技术和方法在农业领域的实践,分析农业大数据应用研究。了解涉及到水、土、光、热、气候资源,作物育种、种植、施肥、植保、过程管理、收获、加工、存储、机械化等各环节的农业大数据特征,探索多类型复杂数据采集、挖掘、处理、分析与应用等问题。在此基础上,了解大数据时代对专业人才的特殊需求。 2. 面向大数据需求的我院本科专业设置优化 系统地分析我院本科专业设置及其缺位问题,结合当前我国学科体系及本科专业设置,提出我院面向大数据需求的本科专业调整与优化方案。 (1)我院本科专业设置及其缺位分析:近年来,我院学科建设及本科专业建设取得来显著地发展。学院现在涵盖电气工程与自动化、信息工程与计算机两大学科群,拥有7个本科专业、11个硕士学位授权点和3个博士学位授权点,一个“农业电气化与自动化”国家级重点学科,成为实力雄厚、基础扎实的电气、电子与信息工程学科领域的高级专门人才培养教育基地和科学研究、技术开发与科技成果转化基地。但是,由于受到当前我国学科体系及本科专业设置的限制,面对大数据时代的特殊人才需求我院本科专业设置表现得特别滞后,本科专业设置与建设存在明显的缺位问题。 (2)当前我国学科体系及本科专业设置分析:专业设置是高等教育部门根据科学分工和产业结构的需要所设置的学科门类。它是人才培养规格的重要标志。在教育部的学科划分中,学科门是最高级别的学科,共有13个:理学、工学、农学、医学、哲学、经济学、法学、教育学、文学、历史学、军事学、管理学、艺术学;比学科门低一级的学科称为学科类,学科类(不含军事学)共有71个;比学科类再低一级的学科称为专业;专业就是高考生填报的志愿,本科专业(不含军事学)共有258个。本科专业设置上由于受到我国学科体系及本科专业设置规范与管理,需要严格遵照相关的要求与规范。但是,国家层面的学科体系及本科专业设置存在滞后问题,因此需要本科专业设置上可以遵循就近的原则。分析当前我国学科体系及本科专业设置,探索面向大数据需求的相近专业及其设置是本部分研究的重要内容。 (3)面向大数据需求的我院本科专业优化:由于农业大数据是由结构化和非结构化数据构成,对大数据分析与处理的技术发生了巨大变化,因此与传统信息学科人才教
自然语言处理与数据挖掘研究的应用 唐杰李涓子 清华大学计算机系知识工程研究室 清华大学计算机系知识工程研究室研究方向为网络环境下的知识工程,研究室融合自然语言处理、社会网络分析与挖掘和语义Web技术,研究Web信息处理的基础理论和关键技术。研究者社会网络挖 掘与搜索系统ArnetMiner II和面向事件的新闻挖掘与搜索系统Newsminer是实验室应用多年的研究 成果建立的在学术研究和新闻领域的应用系统。 一、研究者社会网络的挖掘与搜索系统 ArnetMiner II(简称AMiner, https://www.doczj.com/doc/1d10284359.html,)是通过研究者合作关系建立起来的社会网络挖掘与搜索系统。系统采用自然语言处理和社会网络分析与挖掘技术,提供研究者语义信息抽取、面向话题的专家搜索、权威机构搜索、话题发现和趋势分析、基于话题的社会影响力分析、研究者社会网络关系识别、即时社会关系图搜索、研究者能力图谱、审稿人推荐在内的众多功能,能够为研究者提供更全面的领域知识和更具针对性的研究话题和合作者信息,为科研的更好发展提供服务。 (a) 专家搜索。(b) 会议分析。
搜索数据挖掘领域专家、权威机构和相关学术论文。用户可以个性化的定制搜索结构。近10年国际会议SIGIR引用次数最高的100篇文章在各年的分布,作者国籍(原籍)分布等。 图 1:系统部分功能截图(https://www.doczj.com/doc/1d10284359.html,) 图1举例列举了AMiner系统的两个功能:(a) 专家搜索和 (b) 会议分析。其中在专家搜索中,用户输入查询词(例如:data mining),系统返回该领域专家、重要的国际会议和权威期刊或者权威机构以及相关学术论文。在该搜索中,用户还可以个性化的定制返回结果。在会议分析功能中,用户可以查看指定国际期刊或者国际会议近年引用次数最高的文章在各年的分布、作者国籍(原籍)分布、以及引用次数最高的作者排序情况等。 目前AMiner系统共收录103万研究者、314万篇论文信息和8,046多个会议信息,累积数据规模已经达到2.35 TB,系统在线运行7年多以来,吸引了220个国家2,766,356个独立IP的访问。吸引了218个国家210万个独立IP的访问(>1亿3千460万访问日志),访问量还在以每月平均20%左右的速度增长。并且,系统API还得到全球最大出版社Elsevier和KDD’10-’12, PKDD’11, ICDM’11, WSDM’11, ISWC’10等20余个重要国际会议进行论文-审稿人自动分发和提供语义信息服务。同时,ArnetMiner系统为社会网络挖掘的科学研究提供大量科研数据,已成为学术搜索和社会网络挖掘研究的实验平台。 二、面向事件的新闻挖掘与搜索 NewsMiner(https://www.doczj.com/doc/1d10284359.html,)是一个采用中文信息处理和文本挖掘技术实现的面向事件的新闻挖掘与搜索系统。系统从新闻本身的特点(5W1H)出发,以事件为核心,利用话题分析与知识关 联技术,从事件、话题、实体三个层面组织新闻,为用户提供一个更深入、更便捷的新闻事件理解和 搜索服务。NewsMiner包含4个组件: 1.数据采集:数据采集是从互联网上获取新闻事件相关数据并进行结构化处理的组件,为系统 提供数据保障。新闻相关数据包括新闻专题报道、用户生成内容和大规模知识库,目前主要 从新闻门户专题网站和百度热搜词获取新闻事件报道新闻、从微博和天涯等论坛获得新闻相 关的用户生成内容并抓取百度百科、互动百科和Wiki等公共的大规模知识库。 2.新闻挖掘:新闻挖掘是NewsMiner中核心组件,为系统提供面向事件的新闻分析和挖掘算法。 主要包括实体识别与抽取、事件话题模型与分析、以及知识链接。实体识别与抽取是从新闻 文档识别命名实体(人物、地点、组织机构和时间)的过程,回答Who、Where和When的问 题;话题建模与分析是通过话题模型发现同一事件下的隐含话题,并通过概率分布分析事件、话题和实体之间关系,是发现媒体和用户关注点的过程;知识链接是将新闻事件和实体和外
清华大学大数据方向硕士学位 公共必修课课程 数据分析学(I) Data Analytics (I) 开课单位:数据分析学(I)课程组 授课教师: 黎波、张楠、郑路、庞珣、苏毓淞、罗昊、王程韡(暂定) 教学目的: 本课是针对社会科学和管理类研究学开设的数据分析基本课程。通过本课的学习,学生将对(大)数据分析的价值、意义和基本原理建立清晰和比较全面的认识,掌握有关数据发掘、处理、建模和解释的基本原理和方法,了解和熟悉数据分析在社会科学研究、商业分析和公共管理等领域的实际案例。 Data Analytics (I) is a graduate level course mainly designed for students with socialsciences and management background. The objective of the course to give students a broad overview of the basic principles and applications of data analytics. Students will also be familiar with the various aspects of data analytics such as exploring, managing, modeling and interpreting data. Students’ learning will also be enhanced by their exposure to real life applications of data analytics in social science research, business analysis and public management. 主要教材: by Johannes Ledolter, 2013, Wiley
自然语言处理的应用及发展趋势 摘要本文主要阐述了自然语言处理的研究内容,以及对目前相关领域的应用加以讨论。自然语言处理的研究内容主要有四大块[1-2]:语言学方向、数据处理方向、人工智能和认知科学方向、语言工程方向。最后对自然语言处理的未来发展趋势做简单的介绍。 关键词自然语言处理应用发展趋势 一.自然语言处理的研究内容 自然语言处理的范围涉及众多方面,如语音的自动识别与合成,机器翻译,自然语言理解,人机对话,信息检索,文本分类,自动文摘,等等。我们认为,这些部门可以归纳为如下四个大的方向: (1)语言学方向 本方向是把自然语言处理作为语言学的分时来研究,它之研究语言及语言处理与计算相关的方面,而不管其在计算机上的具体实现。这个方向最重要的研究领域是语法形式化理论和数学理论。 (2)数据处理方向 是把自然语言处理作为开发语言研究相关程序以及语言数据处理的学科来研究。这一方向早起的研究有属于数据库的建设、各种机器可读的电子词典的开发,近些年来则有大规模的语料库的涌现。 (3)人工智能和认知科学方向 在这个方向中,自然语言处理被作为在计算机上实现自然语言能力的学科来研究,探索自然语言理解的只能机制和认知机制。这一方向的研究与人工智能以及认知科学关系密切。 (4)语言工程方向 主要是把自然语言处理作为面向实践的、工程化的语言软件开发来研究,这一方向的研究一般称为“人类语言技术”或者“语言工程”。 二.自然语言处理的应用 以上所提及的自然语言处理的四大研究方向基本上涵盖了当今自然语言处理研究的内容,更加细致的说,自然语言处理可以进一步细化为以下13项研究内容,也即为自然语言处理的应用方向,这13个应用方向分别是[3]:口语输入、
abbreviation 缩写 [省略语] ablative 夺格(的) abrupt 突发音 accent 口音/{Phonetics}重音 accusative 受格(的) acoustic phonetics 声学语音学 acquisition 习得 action verb 动作动词 active 主动语态 active chart parser 活动图句法剖析程序 active knowledge 主动知识 active verb 主动动词 actor-action-goal 施事(者)-动作-目标 actualization 实现(化) acute 锐音 address 地址{信息科学}/称呼(语){语言学} adequacy 妥善性 adjacency pair 邻对 adjective 形容词 adjunct 附加语 [附加修饰语] adjunction 加接 adverb 副词 adverbial idiom 副词词组 affective 影响的 affirmative 肯定(的;式) affix 词缀 affixation 加缀 affricate 塞擦音 agent 施事 agentive-action verb 施事动作动词 agglutinative 胶着(性) agreement 对谐 AI (artificial intelligence) 人工智能 [人工智能] AI language 人工智能语言 [人工智能语言] Algebraic Linguistics 代数语言学 algorithm 算法 [算法] alienable 可分割的 alignment 对照 [多国语言文章词;词组;句子翻译的] allo- 同位-
电脑编程技巧与维护 自然语言处理的主要目标是让人类语言能够更容易被计算机识别、操作,其主要应用包括信息抽取、机器翻译、摘要、搜索及人机交互等。传统的自然语言处理,不管是英文还是中文,仍然选择分而治之的方法,把应用分解成多个子任务来发展和分析自然语言处理,很少能够发展一个统计的架构,并且为了更好地提高性能,从而导致需要加入大量为特定任务指定的人工信息。从这点来说,大多数系统主要有这样的几个缺点:首先这些系统是浅层结构,并且分类器是线性的;其次为了一个线性分类器有更好的性能,系统必须融入大量为特定任务指定的人工特征;最后这些系统往往丢弃那些从其他任务学来的特征。 从2006年开始,研究者们开始利用深层神经网络在大规模无标注语料上无监督的为每个词学到了一个分布式表示,形式上把每个单词表示成一个固定维数的向量,当作词的底层特征。在此特征基础上,Collobert&Weston完成了词性标注、命名实体识别和语义角色标注等多个任务[4],Richard Socher等人则利用递归神经网络完成了句法分析、情感分析和句子表示等多个任务,这也为语言表示提供了新的思路[6-10]。 主要介绍在自然语言处理领域进行深度学习的基本动机,主要模型和学习算法。首先介绍为什么要在自然语言处理中采用深度学习及主要的神经网络语言模型;在此基础上,如何学习一个单词的表示,并分别阐述深度学习在句法分析和语义分析等相关任务中的主要算法。 1深度学习的基本动机 从生物学角度来说,人类大脑本身就是一个层次结构,就是一个深层结构。例如,通过大脑皮层的充分研究,一个给定的输入信号进行多层次的抽象表示,每个层次对应着不同区域的皮质。层次结构中的每个级别代表在不同的抽象层次的输入,用较低级别的特征进一步定义更抽象的层次结构中的功能。人类感知系统这种明确的层次结构表明,极大地降低了视觉系统处理的数据量,并保留了物体有用的结构信息。对于要提取具有潜在复杂结构规则的自然图像、视频、语音等结构丰富的数据,深度学习能够获取其本质特征。 另外认知过程本身就是一个深层结构。人类按照层次的方式组织观点和概念;人类首先学习比较简单的概念,然后组成更抽象的概念;工程人员按照层次把解决方案分解成多个概念和处理过程。反过来语言表征也同样是一个稀疏表示,把所有的词汇中一部分用于表示相应的概念,例如描述一个场景,只需要极少的一部分词汇,和大脑提取数据的方式是相似的。 受到大脑层次结构的神经启发,神经网络的研究人员花费10多年时间去训练一个多层次的神经网络,但在2006年前的所有尝试都失败了,得到的最好结果只得到了2到3层的结构,即只包含1到2个隐藏层表示,如果继续训练,反而得到一个更差的结果。直到2006年才有了重大突破。多伦多大学的Hiton介绍了深度信念网络以及利用无监督的方法[1],每次训练一层的贪心学习算法。随后基于Auto-encoders的算法被提出[2],并且采取相似的方法,即采用无监督的方法进行中间表示,并且每次训练一层。近年来采取相似的方法的算法越来越多地被提出,但主要的原则均为:(1)每一层采用无监督方法学习表征;(2)在上次训练的基础上,采用无监督的方法每次训练一层,并把训练结果作为下一层的输入; 作者简介:翟剑锋,男,本科,讲师,研究方向:机器学习、自然语言处理及认知计算。 收稿日期:2013-06-11 深度学习在自然语言处理中的应用 翟剑锋 (中国青年政治学院计算机中心,北京100089) 摘要:深度学习是一类新兴的多层神经网络学习算法。介绍自然语言处理中采用深度学习的动机及主要的神经网络语言模型。在此基础上,学习一个单词的分布式表示,并分别阐述深度学习在句法分析和语义分析等相关任务中的主要算法,总结了存在的问题及深度学习在中文信息处理的发展方向。 关键词:深度学习;自然语言处理;分布式表示 Application of Deep Learning in NLP ZHAI Jian-feng (Computer Center,China Youth University for Political Science,Beijing100089,China) Abstract:Deep learning is a new way of training multi-layer neural network.The paper discussed the motivation of deep learning in natural language processing and the major neural network language model,on the base of which,how to learn a distributed representation of word,and introduce the main algorithms of deep learning in syntactic and semantic analysis etc. It concluded the problems remaining and development orientation in Chinese Information Processing Key words:Deep Learning;NLP;Distributed Representation 74 2013.18