当前位置:文档之家› 自然语言处理及计算语言学

自然语言处理及计算语言学

自然语言处理及计算语言学
自然语言处理及计算语言学

自然语言处理及计算语言学相关术语中英对译表abbreviation缩写[省略语]

ablative夺格(的)

abrupt突发音

accent口音/{Phonetics}重音

accusative受格(的)

acoustic phonetics声学语音学

acquisition习得

action verb动作动词

active主动语态

active chart parser活动图句法剖析程序

active knowledge主动知识

active verb主动动词

actor-action-goal施事(者)-动作-目标

actualization实现(化)

acute锐音

address地址{信息科学}/称呼(语){语言学} adequacy妥善性

adjacency pair邻对

adjective形容词

adjunct附加语[附加修饰语]

adjunction加接

adverb副词

adverbial idiom副词词组

affective影响的

affirmative肯定(的;式)

affix词缀

affixation加缀

affricate塞擦音

agent施事

agentive-action verb施事动作动词

agglutinative胶着(性)

agreement对谐

AI (artificial intelligence)人工智能[人工智能]

AI language人工智能语言[人工智能语言] Algebraic Linguistics代数语言学

algorithm算法[算法]

alienable可分割的

alignment对照[多国语言文章词;词组;句子翻译的] allo-同位-

allomorph同位语素

allophone同位音位

alpha notation alpha标记

alphabetic writing拼音文字

alternation交替

alveolar齿龈音

ambiguity歧义

ambiguity resolution歧义消解

ambiguous歧义

American structuralism美国结构主义

analogy类推

analyzable可分析的

anaphor照应语[前方照应词]

animate有生的

A-not-A question正反问句

antecedent先行词

anterior舌前音

anticipation预期(音变) antonym反义词

antonymy反义

A-over-A A-上-A原则

apposition同位语

appositive construction同位结构

appropriate恰当的

approximant无擦通音

approximate match近似匹配

arbitrariness任意性

archiphoneme大音位

argument论元[变元]

argument structure论元结构[变元结构] arrangement配列

array数组

articulatory configuration发音结构

articulatory phonetics发音语音学

artificial intelligence (AI)人工智能[人工智能] artificial language人工语言

ASCII美国标准信息交换码

aspect态[体]

aspirant气音

aspiration送气

assign指派

assimilation同化

association关联

associative phrase联想词组

asterisk标星号

ATN (augmented transition network)扩充转移网络attested经证实的

attribute属性

attributive属性

auditory phonetics听觉语音学

augmented transition network扩充转移网络automatic document classification自动文件分类automatic indexing自动索引

automatic segmentation自动切分

automatic training自动训练

automatic word segmentation自动分词

automaton自动机

autonomous自主的

auxiliary助动词

axiom公理

baby-talk儿语

back-formation逆生构词(法)

backtrack回溯

Backus-Naur Form巴科斯诺尔形式[巴科斯诺尔范式] backward deletion逆向删略

ba-construction把─字句

balanced corpus平衡语料库

base词基

Bayesian learning贝式学习

Bayesian statistics贝式统计

behaviorism行为主义

belief system信念系统

benefactive受益(格;的)

best first parser最佳优先句法剖析器

bidirectional linked list双向串行

bigram双连词

bilabial双唇音

bilateral双边的

bilingual concordancer双语关键词前后文排序程序binary feature双向特征[二分征性]

binding约束

bit位[二进制制;比特]

biuniqueness双向唯一性

blade舌叶

blend省并词

block封阻[封杀]

Bloomfieldian布隆菲尔德(学派)的

body language肢体语言

Boolean lattice布尔网格[布尔网格]

borrow借移

Bottom-up由下而上

bottom-up parsing由下而上剖析

bound附着(的)

bound morpheme附着语素[黏着语素]

boundary marker界线标记

boundary symbol界线符号

bracketing方括号法

branching分枝法

breadth-first search广度优先搜寻[宽度优先搜索]

breath group换气单位

breathy气息音的

buffer缓冲区

byte字节

CAI (Computer Assisted Instruction)计算机辅助教学CALL (computer assisted language learning)计算机辅助语言学习

canonical典范的

capacity能力

cardinal基数的

cardinal vowels基本元音

case格位

case frame格位框架

Case Grammar格位语法

case marking格位标志

CAT (computer assisted translation)计算机辅助翻译cataphora下指

Categorial Grammar范畴语法

Categorial Unification Grammar范畴连并语法[范畴合一语法]

causative使动

causative verb使役动词

causativity使役性

centralization央元音化

chain炼

chart parsing表式剖析[图表句法分析]

checked受阻的

checking验证

Chinese character code中文编码[汉字代码]

Chinese character code for information interchange中文信息交换码[汉字交换码]

Chinese character coding input method中文输入法[汉字编码输入]

choice选择

Chomsky hierarchy杭士基阶层[Chomsky层次结构] citation form基本形式

CKY algorithm (Cocke-Kasami-Younger) CKY算法classifier类别词

cleft sentence分裂句

click啧音

clitic附着词

closed world assumption封闭世界假说

cluster音群

Cocke-Kasami-Younger algorithm CKY算法

coda音节尾

code conversion代码变换

cognate同源(的;词)

Cognitive Linguistics认知语言学

coherence一致性

cohesion凝结性[黏着性;结合力]

collapse合并

collective集合的

collocation连用语[同现;搭配]

combinatorial construction合并结构

combinatorial insertion合并中插

combinatorial word合并词

Combinatory Categorial Grammar组合范畴语法comment评论

commissive许诺[语行]

common sense semantics常识语意学

Communication Theory通讯理论[通讯论;信息论] Comparative Linguistics比较语言学

comparison比较

competence语言知能

compiler编译器

complement补语

complementary互补

complementary distribution互补分布

complementizer补语标记

complex predicate复杂谓语

complex stative construction复杂状态结构

complex symbol复杂符号

complexity复杂度

component成分

compositionality语意合成性[合成性]

compound word复合词

Computational Lexical Semantics计算词汇语意学Computational Lexicography计算词典编纂学Computational Linguistics计算语言学

Computational Phonetics计算语音学

Computational Phonology计算声韵学

Computational Pragmatics计算语用学

Computational Semantics计算语意学

Computational Syntax计算句法学

computer language计算器语言

computer-aided translation计算机辅助翻译[计算器辅助翻译]

computer-assisted instruction (CAI)计算机辅助教学computer-assisted language learning计算机辅助语言学习[计算器辅助语言学习]

concatenation串联

concept classification概念分类

concept dependency概念依存

conceptual hierarchy概念阶层

concord谐和

concordance关键词(前后文)排序

concordancer关键词(前后文)排序的程序

concurrent parsing并行句法剖析

conditional decision条件决定[条件决策]

conjoin连接

conjunction连接词(合取;逻辑积;"与";连词)

conjunctive连接的

connected speech连续语言

Connectionist model类神经网络模型

Connectionist model for natural language自然语言类神经网络模型[自然语言连接模型]

connotation隐涵意义

consonant子音[辅音]

constituent成分

constituent structure tree词组结构树

constraint限制

constraint propagation限制条件的传递[限定因素增殖] constraint-based grammar formalism限制为本的语法形式Construct Grammar句构语法

content word实词

context语境

context-free language语境自由语言[上下文无关语言] context-sensitive language语境限定语言[上下文有关语言;上下文敏感语言]

continuant连续音

continuous speech recognition连续语音识别

contraction缩约

control agreement principle控制一致原理

control structure控制结构

control theory控制论

convention约定俗成[规约]

convergence收敛[趋同现象]

conversational implicature会话含义

converse相反(词;的)

cooccurrence relation共现关系[同现关系]

co-operative principle合作原则

coordination对称连接词[同等;并列连接]

copula系词

co-reference同指涉[互指]

co-referential同指涉

coronal前舌音

corpora语料库

corpus语料库

Corpus Linguistics语料库语言学

corpus-based learning语料库为本的学习

correlation相关性

counter-intuitive违反语感的

courseware课程软件[课件]

coverb动介词

C-structure成分结构

data compression数据压缩[数据压缩]

data driven analysis数据驱动型分析[数据驱动型分析] data structure数据结构[数据结构]

database数据库[数据库]

database knowledge representation数据库知识表示[数据库知识表示] data-driven数据驱动[数据驱动]

dative与格

declarative knowledge陈述性知识

decomposition分解

deductive database演译数据库[演译数据库]

default默认值[默认;缺省]

definite定指

Definite Clause Grammar确定子句语法

definite state automaton有限状态自动机

Definite State Grammar有限状态语法

definiteness定指

degree adverb程度副词

degree of freedom自由度

deixis指示

delimiter定界符号[定界符]

denotation外延

denotic logic符号逻辑

dependency依存关系

Dependency Grammar依存关系语法

dependency relation依存关系

depth-first search深度优先搜寻

derivation派生

derivational bound morpheme派生性附着语素Descriptive Grammar描述型语法[描写语法] Descriptive Linguistics描述语言学[描写语言学] desiderative意愿的

determiner限定词

deterministic algorithm决定型算法[确定性算法] deterministic finite state automaton决定型有限状态机deterministic parser决定型语法剖析器[确定性句法剖析程序]

developmental psychology发展心理学

Diachronic Linguistics历时语言学

diacritic附加符号

dialectology方言学

dictionary database辞典数据库[词点数据库]

dictionary entry辞典条目

digital processing数字处理[数值处理]

diglossia双言

digraph二合字母

diminutive指小词

diphone双连音

directed acyclic graph有向非循环图

disambiguation消除歧义[歧义消除]

discourse篇章

discourse analysis篇章分析[言谈分析]

discourse planning篇章规划

Discourse Representation Theory篇章表征理论[言谈表示理论]

discourse strategy言谈策略

discourse structure言谈结构

discrete离散的

disjunction选言

dissimilation异化

distributed分布式的

distributed cooperative reasoning分布协调型推理distributed text parsing分布式文本剖析

disyllabic双音节的

ditransitive verb双宾动词[双宾语动词;双及物动词] divergence扩散[分化]

D-M (Determiner-Measure) construction定量结构

D-N (determiner-noun) construction定名结构

document retrieval system文件检索系统[文献检索系统] domain dependency领域依存性[领域依存关系]

double insertion交互中插

double-base双基

downgrading降级

dummy虚位

duration音长{语音学}/时段{语法学/语意学}

dynamic programming动态规划

Earley algorithm Earley算法

echo回声句

egressive呼气音

ejective紧喉音

electronic dictionary电子词典

elementary string基本字符串[基本单词串]

ellipsis省略

EM algorithm EM算法

embedding崁入

emic功能关系的

empiricism经验论

Empty Category Principle虚范畴原则[空范畴原理] empty word虚词

enclitics后接成份

end user终端用户[最终用户]

endocentric同心的

endophora语境照应

entailment蕴涵

entity实体

entropy熵

entry条目

episodic memory情节性记忆

epistemological network认识论网络

ergative verb作格动词

ergativity作格性

Esperando世界语

etic无功能关系

etymology词源学

event事件

event driven control事件驱动型控制

example-based machine translation以例句为本的机器翻译

exclamation感叹

exclusive disjunction排它性逻辑“或”

experiencer case经验者格

expert system专家系统

extension外延

external argument域外论元

extraposition移外变形[外置转换]

facility value易度值

feature特征

feature bundle特征束

feature co-occurrence restriction特征同现限制[特性同现限制]

feature instantiation特征体现

feature structure特征结构[特性结构] feature unification特征连并[特性合一]

feedback回馈

felicity condition妥适条件

file structure档案结构

finite automaton有限状态机[有限自动机]

finite state有限状态

Finite State Morphology有限状态构词法[有限状态词法] finite-state automata有限状态自动机

finite-state language有限状态语言

finite-state machine有限状态机

finite-state transducer有限状态置换器

flap闪音

flat降音

foreground information前景讯息[前景信息]

Formal Language Theory形式语言理论

Formal Linguistics形式语言学

Formal Semantics形式语意学

forward inference前向推理[向前推理]

forward-backward algorithm前前后后算法

frame框架

frame based knowledge representation框架型知识表示Frame Theory框架理论

free morpheme自由语素

Fregean principle Fregean原则

fricative擦音

F-structure功能结构

full text searching全文检索

function word功能词

Functional Grammar功能语法

functional programming函数型程序设计[函数型程序设计] functional sentence perspective功能句子观

functional structure功能结构

functional unification功能连并[功能合一]

functor功能符

fundamental frequency基频

garden path sentence花园路径句

GB (Government and Binding)管辖约束

geminate重迭音

gender性

Generalized Phrase Structure Grammar概化词组结构语法[广义短语结构语法]

Generative Grammar衍生语法

Generative Linguistics衍生语言学[生成语言学]

generic泛指

genetic epistemology发生认识论

genetive marker属格标记

genitive属格

gerund动名词

Government and Binding Theory管辖约束理论

GPSG (Generalized Phrase Structure Grammar)概化词组结构语法[广义短语结构语法]

gradability可分级性

grammar checker文法检查器

grammatical affix语法词缀

grammatical category语法范畴

grammatical function语法功能

grammatical inference文法推论

grammatical relation语法关系

grapheme字素

haplology类音删略

head中心语

head driven phrase structure中心语驱动词组结构[中心词驱动词组结构]

head feature convention中心语特征继承原理[中心词特性继承原理]

Head-Driven Phrase Structure Grammar中心语驱动词组结构律

heteronym同形

heuristic parsing经验式句法剖析

Heuristics经验知识

hidden Markov model隐式马可夫模型

hierarchical structure阶层结构[层次结构]

holophrase单词句

homograph同形异义词

homonym同音异义词

homophone同音词

homophony同音异义

homorganic同部位音的

Horn clause Horn子句

HPSG (Head-Driven Phrase Structure Grammar)中心语驱动词组结构语法

human-machine interface人机界面

hypernym上位词

hypertext超文件[超文本]

hyponym下位词

hypotactic主从结构的

IC (immediate constituent)直接成份

ICG (Information-based Case Grammar)讯息为本的格位语法

idiom成语[熟语]

idiosyncrasy特异性

illocutionary施为性

immediate constituent直接成份

imperative祈使句

implicative predicate蕴含谓词

implicature含意

indexical标引的

indirect object间接宾语

indirect speech act间接言谈行动[间接言语行为]

Indo-European language印欧语言

inductional inference归纳推理

inference machine推理机器

infinitive不定词[to不定式]

infix中缀

inflection/inflexion屈折变化

inflectional affix屈折词缀

information extraction信息撷取

information processing信息处理[信息处理]

information retrieval信息检索

Information Science信息科学[信息科学;情报科学] Information Theory信息论[信息论]

inherent feature固有特征

inherit继承

inheritance继承

inheritance hierarchy继承阶层[继承层次]

inheritance of attribute属性继承innateness position语法天生假说

insertion中插

inside-outside algorithm里里外外算法

instantiation体现

instrumental (case)工具格

integrated parser集成句法剖析程序

integrated theory of discourse analysis篇章分析综合理论[言谈分析综合理论]

intelligence intensive production知识密集型生产intensifier加强成分

intensional logic内含逻辑

Intensional Semantics内涵语意学

intensional type内含类型

interjection/exclamation感叹词

inter-level中间成分

interlingua中介语言

interlingual中介语(的)

interlocutor对话者

internalise内化

International Phonetic Association (IPA)国际语音学会internet因特网

Interpretive Semantics诠释性语意学

intonation语调

intonation unit (IU)语调单位

IPA (International Phonetic Association)国际语音学会

IR (information retrieval)信息检索

IS-A relation IS-A关系

isomorphism同形现象

IU (intonation unit)语调单位

junction连接

keyword in context上下文中关键词[上下文内关键词] kinesics体势学

knowledge acquisition知识习得

knowledge base知识库

knowledge based machine translation知识为本之机器翻译

knowledge extraction知识撷取[知识题取]

knowledge representation知识表示

KWIC (keyword in context)关键词前后文[上下文内关键词] label标签

labial唇音

labio-dental唇齿音

labio-velar软颚唇音

LAD (language acquisition device)语言习得装置

lag发声延迟

language acquisition语言习得

language acquisition device语言习得装置

language engineering语言工程

language generation语言生成

language intuition语感

language model语言模型

language technology语言科技

left-corner parsing左角落剖析[左角句法剖析]

lemma词元

lenis弱辅音

letter-to-phone字转音

lexeme词汇单位

lexical ambiguity词汇歧义

lexical category词类

lexical conceptual structure词汇概念结构

lexical entry词项

lexical entry selection standard选词标准

lexical integrity词语完整性

Lexical Semantics词汇语意学

Lexical-Functional Grammar词汇功能语法Lexicography词典学

Lexicology词汇学

lexicon词汇库[词典;词库]

lexis词汇层

LF (logical form)逻辑形式

LFG (Lexical-Functional Grammar)词汇功能语法liaison连音

linear bounded automaton线性有限自主机

linear precedence线性次序

lingua franca共通语

linguistic decoding语言译码

linguistic unit语言单位

linked list串行

loan外来语

local局部的

localism方位主义

localizer方位词

locus model轨迹模型

locution惯用语

logic逻辑

logic array network逻辑数组网络

logic programming逻辑程序设计[逻辑程序设计] logical form逻辑形式

logical operator逻辑算子[逻辑算符]

Logic-Based Grammar逻辑为本语法[基于逻辑的语法] long term memory长期记忆

longest match principle最长匹配原则[最长一致法]

LR (left-right) parsing LR剖析

machine dictionary机器词典

machine language机器语言

machine learning机器学习

machine translation机器翻译

machine-readable dictionary (MRD)机读辞典Macrolinguistics宏观语言学

Markov chart马可夫图

Mathematical Linguistics数理语言学

maximum entropy最大熵

M-D (modifier-head) construction偏正结构

mean length of utterance (MLU)语句平均长度measure of information讯习测度[信息测度]

memory based根据记忆的

mental lexicon心理词汇库

mental model心理模型

mental process心理过程[智力过程;智力处理] metalanguage超语言

metaphor隐喻

metaphorical extension隐喻扩展

metarule律上律[元规则]

metathesis语音易位

Microlinguistics微观语言学

middle structure中间式结构minimal pair最小对

Minimalist Program微言主义

MLU (mean length of utterance)语句平均长度modal情态词

modal auxiliary情态助动词

modal logic情态逻辑

modifier修饰语

Modular Logic Grammar模块化逻辑语法

modular parsing system模块化句法剖析系统modularity模块性(理论)

module模块

monophthong单元音

monotonic单调

monotonicity单调性

Montague Grammar蒙泰究语法[蒙塔格语法] mood语气

morpheme词素

morphological affix构词词缀

morphological decomposition语素分解morphological pattern词型

morphological processing词素处理morphological rule构词律[词法规则] morphological segmentation语素切分Morphology构词学

Morphophonemics词音学[形态音位学;语素音位学] morphophonological rule形态音位规则Morphosyntax词句法

Motor Theory肌动理论

movement移位

MRD (machine-readable dictionary)机读辞典

MT (machine translation)机器翻译

multilingual processing system多语讯息处理系统multilingual translation多语翻译

multimedia多媒体

multi-media communication多媒体通讯

multiple inheritance多重继承

multistate logic多态逻辑

mutation语音转换

mutual exclusion互斥

mutual information相互讯息

nativist position语法天生假说

natural language自然语言

natural language processing (NLP)自然语言处理natural language understanding自然语言理解negation否定

negative sentence否定句

neologism新词语

nested structure崁套结构

network网络

neural network类神经网络

Neurolinguistics神经语言学

neutralization中立化

n-gram n-连词

n-gram modeling n-连词模型

NLP (natural language processing)自然语言处理node节点

nominalization名物化

nonce暂用的

non-finite非限定

non-finite clause非限定式子句

non-monotonic reasoning非单调推理

normal distribution常态分布

noun名词

noun phrase名词组

NP (noun phrase) completeness名词组完全性

object宾语{语言学}/对象{信息科学}

object oriented programming对象导向程序设计[面向对向的程序设计]

official language官方语言

one-place predicate一元述语

on-line dictionary在线查询词典[联机词点] onomatopoeia拟声词

onset节首音

ontogeny个体发生

Ontology本体论

open set开放集

operand操作数[操作对象]

optimization最佳化[最优化]

overgeneralization过度概化

overgeneration过度衍生

paradigmatic relation聚合关系

paralanguage附语言

parallel construction并列结构

Parallel Corpus平行语料库

parallel distributed processing (PDP)平行分布处理paraphrase转述[释意;意译;同意互训]

parole言语

parser剖析器[句法剖析程序]

parsing剖析

part of speech (POS)词类

particle语助词

PART-OF relation PART-OF关系

part-of-speech tagging词类标注

pattern recognition型样识别

P-C (predicate-complement) insertion述补中插

PDP (parallel distributed processing)平行分布处理perception知觉

perceptron感觉器[感知器]

perceptual strategy感知策略

performative行为句

periphrasis用独立词表达

perlocutionary语效性的

permutation移位

Petri Net Grammar Petri网语法

philology语文学

phone语音

phoneme音素

phonemic analysis因素分析

phonemic stratum音素层

Phonetics语音学

phonogram音标

Phonology声韵学[音位学;广义语音学]

Phonotactics音位排列理论

phrasal verb词组动词[短语动词]

phrase词组[短语]

phrase marker词组标记[短语标记] pitch音调

pitch contour调形变化

Pivot Grammar枢轴语法

pivotal construction承轴结构

plausibility function可能性函数

PM (phrase marker)词组标记[短语标记]

polysemy多义性

POS-tagging词类标记

postposition方位词

PP (preposition phrase) attachment介词依附Pragmatics语用学

Precedence Grammar优先级语法

precision精确度

predicate述词

predicate calculus述词计算

predicate logic述词逻辑[谓词逻辑]

predicate-argument structure述词论元结构

prefix前缀

premodification前置修饰

preposition介词

Prescriptive Linguistics规定语言学[规范语言学] presentative sentence引介句

presupposition前提

Principle of Compositionality语意合成性原理privative二元对立的

probabilistic parser概率句法剖析程序

problem solving解决问题

program程序

programming language程序设计语言[程序设计语言] proofreading system校对系统

proper name专有名词

prosody节律

prototype原型

pseudo-cleft sentence准分裂句

Psycholinguistics心理语言学

punctuation标点符号

pushdown automata下推自动机

pushdown transducer下推转换器

qualification后置修饰

quantification量化

quantifier范域词

Quantitative Linguistics计量语言学

question answering system问答系统

queue队列

radical字根[词干;词根;部首;偏旁]

radix of tuple元组数基

random access随机存取

rationalism理性论

rationalist (position)理性论立场[唯理论观点] reading laboratory阅读实验室

real time实时

real time control实时控制[实时控制]

recursive transition network递归转移网络reduplication重迭词[重复]

reference指涉

referent指称对象

referential indices指标

referring expression指涉词[指示短语]

register缓存器[寄存器]{信息科学}/调高{语音学}/语言的场合层级{社会语言学}

regular language正规语言[正则语言]

relational database关系型数据库[关系数据库]

relative clause关系子句

relaxation method松弛法

relevance相关性

Restricted Logic Grammar受限逻辑语法

resumptive pronouns复指代词

retroactive inhibition逆抑制

rewriting rule重写规则

rheme述位

rhetorical structure修辞结构

rhetorics修辞学

robust强健性

robust processing强健性处理

robustness强健性

schema基朴

school grammar教学语法

scope范域[作用域;范围]

script脚本

search mechanism检索机制

search space检索空间

searching route检索路径[搜索路径]

second order predicate二阶述词

segmentation分词

segmentation marker分段标志

selectional restriction选择限制

semantic field语意场

semantic frame语意架构

semantic network语意网络

semantic representation语意表征[语义表示]

semantic representation language语意表征语言semantic restriction语意限制

semantic structure语意结构

Semantics语意学

sememe意素

Semiotics符号学

sender发送者

sensorimotor stage感觉运动期

sensory information感官讯息[感觉信息]

sentence句子

sentence generator句子产生器[句子生成程序] sentence pattern句型

separation of homonyms同音词区分

sequence序列

serial order learning顺序学习

serial verb construction连动结构

set oriented semantic network集合导向型语意网络[面向集合型语意网络]

SGML (Standard Generalized Markup Language)结构化通用标记语言

shift-reduce parsing替换简化式剖析

short term memory短程记忆

sign信号

signal processing technology信号处理技术

simple word单纯词

situation情境Situation Semantics情境语意学

situational type情境类型

social context社会环境

sociolinguistics社会语言学

software engineering软件工程[软件工程]

sort排序

speaker-independent speech recognition非特定语者语音识别

spectrum频谱

speech口语

speech act assignment言语行为指定

speech continuum言语连续体

speech disorder语言失序[言语缺失]

speech recognition语音辨识

speech retrieval语音检索

speech situation言谈情境[言语情境]

speech synthesis语音合成

speech translation system语音翻译系统

speech understanding system语音理解系统

spreading activation model扩散激发模型

standard deviation标准差

Standard Generalized Markup Language标准通用标示语言

start-bound complement接头词

state of affairs algebra事态代数

state transition diagram状态转移图

statement kernel句核

static attribute list静态属性表

statistical analysis统计分析

Statistical Linguistics统计语言学

statistical significance统计意义

stem词干

stimulus-response theory刺激反应理论

stochastic approach to parsing概率式句法剖析[句法剖析的随机方法]

stop爆破音

Stratificational Grammar阶层语法[层级语法]

string字符串[串;字符串]

string manipulation language字符串操作语言

string matching字符串匹配[字符串]

structural ambiguity结构歧义

Structural Linguistics结构语言学

structural relation结构关系

structural transfer结构转换

structuralism结构主义

structure结构

structure sharing representation结构共享表征subcategorization次类划分[下位范畴化]

subjunctive假设的

sublanguage子语言

subordinate从属关系

subordinate clause从属子句[从句;子句]

subordination从属

substitution rule代换规则[置换规则]

substrate底层语言

suffix后缀

superordinate上位的

superstratum上层语言

suppletion异型[不规则词型变化] suprasegmental超音段的

syllabification音节划分

syllable音节

syllable structure constraint音节结构限制symbolization and verbalization符号化与字句化synchronic同步的

synonym同义词

syntactic category句法类别

syntactic constituent句法成分

syntactic rule语法规律[句法规则]

Syntactic Semantics句法语意学

syntagm句段

syntagmatic组合关系[结构段的;组合的] Syntax句法

Systemic Grammar系统语法

tag标记

target language目标语言[目标语言]

task sharing课题分享[任务共享]

tautology套套逻辑[恒真式;重言式;同义反复] taxonomical hierarchy分类阶层[分类层次] telescopic compound套装合并

template模板

temporal inference循序推理[时序推理] temporal logic时间逻辑[时序逻辑]

temporal marker时貌标记

tense时态

terminology术语

text文本

text analyzing文本分析

text coherence文本一致性

text generation文本生成[篇章生成]

Text Linguistics文本语言学

text planning文本规划

text proofreading文本校对

text retrieval文本检索

text structure文本结构[篇章结构]

text summarization文本自动摘要[篇章摘要] text understanding文本理解

text-to-speech文本转语音

thematic role题旨角色

thematic structure题旨结构

theorem定理

thesaurus同义词辞典

theta role题旨角色

theta-grid题旨网格

token实类[标记项]

tone音调

tone language音调语言

tone sandhi连调变换

top-down由上而下[自顶向下]

topic主题

topicalization主题化[话题化]

trace痕迹

Trace Theory痕迹理论

training训练

transaction异动[处理单位]

transcription转写[抄写;速记翻译] transducer转换器

transfer转移

transfer approach转换方法

transfer framework转换框架

transformation变形[转换]

Transformational Grammar变形语法[转换语法] transitional state term set转移状态项集合

transitivity及物性

translation翻译

translation equivalence翻译等值性

translation memory翻译记忆

transparency透明性

tree树状结构[树]

Tree Adjoining Grammar树形加接语法[树连接语法] treebank树图数据库[语法关系树库]

trigram三连词

t-score t-数

turing machine杜林机[图灵机]

turing test杜林测试[图灵试验]

type类型

type/token node标记类型/实类节点

type-feature structure类型特征结构

typology类型学

ultimate constituent终端成分

unbounded dependency无界限依存

underlying form基底型式

underlying structure基底结构

unification连并[合一]

Unification-based Grammar连并为本的语法[基于合一的语法]

Universal Grammar普遍性语法

universal instantiation普遍例式

universal quantifier全称范域词

unknown word未知词[未定义词]

unrestricted grammar非限制型语法

usage flag使用旗标

user interface使用者界面[用户界面]

Valence Grammar结合价语法

Valence Theory结合价理论

valency结合价

variance变异数[方差]

verb动词

verb phrase动词组[动词短语]

verb resultative compound动补复合词

verbal association词语联想

verbal phrase动词组

verbal production言语生成

vernacular本地话

V-O construction (verb-object)动宾结构

vocabulary字汇

vocabulary entry词条

vocal track声道

vocative呼格

voice recognition声音辨识[语音识别]

vowel元音

vowel harmony元音和谐[元音和谐]

waveform波形

weak verb弱化动词

Whorfian hypothesis Whorfian假说

word词

word frequency词频

word frequency distribution词频分布

word order词序

word segmentation分词

word segmentation standard for Chinese中文分词规范word segmentation unit分词单位[切词单位]

word set词集

working memory工作记忆[工作存储区]

world knowledge世界知识

writing system书写系统

X-Bar Theory X标杠理论["x"阶理论]

Zipf's Law利夫规律[齐普夫定律]

网络常用词汇表

A

ANALOG DATA模拟数据

ANONYMOUS匿名文件传输

APPLICATION应用程序

ARCHIE档案

ASCII(American Standard Code for information interchange)美国信息互换标准代码

ATM(Asynchronous Transfer Mode)异步传输模式ATTACHMENT附件

B

BACKBONE骨干网

BANDWIDTH带宽

BAUD RATE波特率

BBS(Bulletin Board System)电子公告牌系统

BETA VERSION Beta测试版

BINARY DATA二进制数据

BIT比特

BOOKMARK书签

BPS每秒比特数

BRIDGE网桥

BROWSER浏览器

C

CABLE MODEM电缆调制解调器

CACHE DIRECTORY缓存目录

CGI(Common gateway interface)通用网关接口CHANNEL频道

CHAT聊天

CLIENT PROGRAM客户程序

CLIENT/SERVER客户/服务器

COM PORT COM通讯端口

CYBERSPACE电脑化空间

D

DATA BASE数据库

DATA COMPRESSION数据压缩

DIAL-UP CONNECTION拨号连接

DIAL-UP NETWORKING SOFTWARE拨号连网软件DIGITAL CAMERA数字相机

DIRECT INTERNET CONNECTION直接网间连接DNS(Domain Name System)域名系统

DOMAIN NAME域名

DOWNLOAD下载

DYNAMIC IP ADDRESSING动态IP地址

E E-MAIL(Electronic Mail)电子邮件

E-MAIL ADDRESS电子邮件地址

EMOTICIOS情感符号

ENCRYPTION加密

ERROR CORRECTION纠错

ETHERNET以太网

F

FAQ(Frequently Asked Questions)常见问题

FAX-MODEM传真-调制解调器

FREEWARE免费软件

FTP(File Transfer Protocol)文件传输协议

G

GATEWAY网关

GIF(Graphic Interchange format)图形交换格式GOPHER一种查询方法

H

HELPER APPLICATION助手应用程序

HOME PAGE网页

HOT LINK热连接

HTML(Hyper Text Mark Language)超文本标记语言HTTP(Hyper Text Transfer Protocol)超文本传输协议HYPER TERMINAL超级终端

HYPER TEXT超文本

I

IMAGE MAP图像导位图

INTERNET国际互联网

IP(Internet Protocol)网间协议

IP ADDRESS IP地址

IRC(Internet Relay Chat)网间实时聊天

ISDN(Integrated Service Digital Network)综合业务数据网ISP(Internet Service Provider)互联网服务供应商

J

JAVA娇娃,一种在互联网上广泛应用的语言

L

LIST SERVER目录服务器

LOGIN登录

M

MAIL SERVER邮件服务器

MAILING LIST邮寄目录

MIME(Multipurpose Internet Mail Extensions)多用途网络邮件扩展

MODEM调制解调器

MUD(Multiuser Dungeon)多人城堡游戏

MULTIMEDIA多媒体

N

NETIQUETTE行为规范

NETWORK网络

NEWBIE新手

NEWSGROUPS新闻组

NEWSERADER新闻阅读器

NEWS SERVER新闻服务器

NODE节点

O

OFF-LINE离线

ON-LINE在线

ON-LINE SERVICE在线服务

ON-LINE SERVICE PROVIDER在线服务供应商

P

PACKET SWITCHING包交换

PASSWORD密码

PEM(Privacy Enhanced Mail)增强保密邮件

PLUG-IN插件POP(Point of Presence)代理点

POP3 (Post Office Protocol)邮政协议

POP3 SERVER POP3服务器

POST投寄

PPP(Point to Point Protocol)点对点通讯协议PROTOCOL协议

PROVIDER供应商

R

REMOTE LOGIN远程登录

ROUTER路由器

S

SEARCH ENGINE搜索器

SERIAL PORT串口

SERVER服务器

SHAREWARE共享软件

SIGNATURE签名

SLIP(Serial Line Internet Protocol)串行线路Internet协议SMTP(Simple Mail Transfer Protocol)简单邮件传输协议SMTP SERVER SMTP服务器

STATIC IP ADDRESSING静态IP地址分配STREAMING流式

SUBSCRIBE订阅

SUPER COMPUTER超级电脑

SURFING冲浪

T

TALKER聊天程序

TCP/IP(Transfer Control Protocol/Internet Protocol)

传输控制协议/网间协议

TELNET一种互联网应用

U

UART CHIP(Universal Asynchronous Receiver/Transmitter)

标准异步接收器/发射器

URL(Uniform Resource Locator)全球资源定位器USENET互联网新闻组

UUENCODE一种流行的压缩方式

V

VR(Virtual Reality)虚拟现实

VRML (Virtual Reality Markup Language)虚拟现实置标语言

W

WAIS(Wide Area Information Servers)广域信息服务器WEB PAGE万维网页

WEB SITE万维网站

WEB-WIDE SEARCH ENGINE万维网搜索器WINSOCK一种应用于Windows与Internet连接标准WORLD WIDE WEB万维网

网站相关用语

account name帐户名称

contact name注册名称

business name商业名称

email address电子邮件地址

verify email address核实电子邮件地址(再输入一遍)password口令,密码

retype password核实口令,密码(再输入一遍)address住址

city城市(residents)state/province(居住的)州(美国),省(中国)

country国家

zip or postal code邮政编码

phone number电话号码

daytime phone日间电话

evening phone夜间电话

fax传真

gender性别

sign up,signin注册

birth date,year of birth出生年月日

age年龄

family status家庭状况

marital status婚姻状况

religion宗教信仰

language语言

industry产品

job category工作类型

employment status雇佣状况

education教育状况

referral code推荐识别代码

referral no.推荐识别号(介绍人号码)

annual income年收入

how did you hear about us你是如何知道我们的

suite or apartment

company name公司名称

login,log on登录

advertising banner(banner ads)

网页广告,在网页中显示的一个gif格式的图片,通常是链接到另外一个网站,是网上广告的常见形式之一

above the fold

明显位置,在网页的靠上方位置,当网页广告显示的时候,访问者不需要移动浏览器的滚动条就可以显示出来的位置cpm(cost per thousand impression

)千印象费用,网上广告产生每1000个广告印象(显示)数的费用

cpc(cost per thousand click)千点击费用,网上广告产生每1000个广告点击数的费用

click throughs点击次数,网上广告被用户打开、浏览的次数

click-through rate点击率,网上广告被点击的次数与被显示次数之比

terms and conditions条件和协议(需要遵守的规则)organization单位名称

credit cards信用卡(号码)

service服务(内容)

sites网站

register登记,注册

membership成员

application form申请表格

payee on check支票收款人

ethnicity种族

social security number or taxid(tax id number)

(美国)社会保险号,付税id号

pay-per-click每点击支付额

pay-per-impression每印象(显示)支付额

application guidelines申请指导

rules规则

minimum payment to send支付时的最小数额

site title网站标题

site url网址

daily visitors每日访问人数

site content网站内容

site description网站说明

keywords关键词

make checks payable to支票支付给谁

contact information联系信息

site information网站信息

payment information付款信息

submit applications提交申请

html code超链接代码

sponsor赞助商

homepage district网站类别

faq疑问解答

user policy用户规则

banner(广告横幅)

logo(图标)

cpt(cost per thousand,每千人次访问收费):按访问人次收费已经成为网络广告的惯例。

clicks(点击次数):每一次当访客通过点击这个横幅广告访问一次商家网页,称点击一次。点击次数可以客观准确地反映广告效果。

clicks ratio(点击率):是广告吸引力的一个标志。如果这个网页出现了一万次,而网页上的广告的点击次数为五百次,那么点击率即为5%。

impression(投放次数):网页被访问的次数。

counter(计数器)上的统计数字即该网页的impression。portal page(点击广告后连到的页面):通常这个页面不是商家网站的首页,而是针对广告内容重新设计的页面。pageviews(综合浏览量):网站各网页被浏览的总次数。一个访客有可能创造十几个甚至更多的pageviews。unique host(独立访客):由于每个访客有可制造出多个pageviews,而访客刷新网页也会使impression数增加,所以pageviews或impression都不能精确表现网站的访问人数。通常情况下每个访客都会来自于不同的地址,称为来自不同的ip。独立访客即将来自同一ip的访客视为同一个人,从而获得更精确的访客人数。象网易中文排行榜提供的易数统计所提供的数字就是unique

host。通常很多网站公布的访问量都是pageviews或impression,pageviews往往是impression的数倍,而impression又会比unique

host高出许多。

IT类XML词汇

a

abstract syntax 抽象语法

abstract syntax of SGML SGML的抽象语法active document type 现用的文件型别

active document type declaration 现用的文件型别宣告

active link type 现用的链结型别

active link type declaration 现用的链结型别宣告ambiguous content model 岐义的内容模式application 应用

application convention 应用惯例

application-specific information 应用特有的资讯associated element type 关联元素型别attribute 属性

attribute definition 属性定义

attribute definition list 属性定义列表

attribute definition list declaration 属性定义列表宣告

attribute list 属性列表

attribute list declaration 属性列表宣告

attribute of an element 元素的属性

attribute specification 属性规格

attribute specification list 属性规格列表

attribute value literal 属性值文字

availabe public text 可用的公用文字

b

b sequence B序列

base document element 基本文件元素

base document type 基本文件型别

basic SGML document 基本的SGML文件

bit 位元

bit combination 位元组合

blank sequence 空白序列

c

capacity 容量

capacity set 容量集

CDATA entity CDATA实体

chain of link processes 链结处理炼

chain of processes 处理炼

character 字元

character class 字元类别

character data 字元资料

character data entity 字元资料实体

character entity set 字元实体集

character number 字元号码

character reference 字元参引

character repertoire 字元库

character set 字元集

character string 字元串

class 类别

code extension 编码延伸

code set 字码集

code set position 字码集位置

coded representation 编码表示

comment 注解

comment declaration 注解宣告

concrete syntax 具体语法

concrete syntax of SGML SGML的具体语法concrete syntax parameter 具体语法参数conforming SGML application 符合的SGML应用conforming SGML document 符合的SGML文件containing element 包含元素

content 内容

content convention 内容惯例

content model 内容模式

content model nesting level 内容模式巢套层次content reference 内容参引属性

content reference attribute 内容参引属性contextual sequence 前后文序列

contextually optional element 前后文选项元素contextually optional token 前后文选项符记

contextually required element 前后文需要元素contextually required token 前后文需要符记control character 控制字元

control sequence 控制序列

core concrete syntax 核心具体语法corresponding content 对应内容

corresponding content of a content token 内容符记的对应内容

current attribute 现行属性

current element 现行元素

current link set 现行链结集

current map 现行对照

current rank 现行等级

d

data 资料

data character 资料字元

data content 资料内容

data content notation 资料内容记法

data tag 资料标签

data tag group 资料标签群

data tag pattern 资料标签型样

declaration 宣告

declaration subset 宣告子集

declared concrete syntax 宣告的具体语法dedicated data characters 专属资料字元

default entity 内定实体

default value 内定值

definitional character entity set 定义的字元实体集definitional entity set 定义的实体集

delimiter 定界符

delimiter characters 定界符字元

delimiter-in-contxt 视前后文而定的定界符delimiter role 定界符角色

delimiter set 定界符集

delimiter set parameter 定界符集参数

delimiter string 定界符串

descriptive markup 描述性标示

device-dependent version 设备相关的版本device-dependent version of public text 公用文字的设备相关版本

digits 数字

display character entity set 显示字元实体集display entity set 显示实体集

document 文件

document architecture 文件架构

document character set 文件字元集

document definition 文件定义

document element 文件元素

document instance 文件实例

document instance set 文件实例集

document type 文件型别

document type declaration 文件型别宣告document type declaration subset 文件型别宣告子集

document type definition 文件型别定义document type specification 文件型别规格

ds separator ds分隔符

e effective status 有效状态

effective status of a marked section 已标示段落的有效状态

element 元素

element declaration 元素宣告

element set 元素集

element structure 元素结构

element type 元素型别

element type definition 元素型别定义

element type parameter 元素型别参数

empty link set 空链结集

empty map 空对照

end-tag 结束标签

entity 实体

entity declaration 实体宣告

entity end 实体结束

entity end signal 实体结束讯号

entity manager 实体管理者

entity reference 实体参引

entity set 实体集

entity structure 实体结构

entity text 实体文字

equivalent reference string 对等参引串

escape sequence 逸出序列

exceptions 例外

exclusions 除外

explicit content reference 明确内容参引

explicit link 外显链结

explicit link process definition 外显链结处理定义external entity 外部实体

external identifier 外部识别符

f

fixed attribute 固定属性

formal public identifier 正式公用识别符

formal public identifier error 正式公用识别符错误function character 功能字元

function character identification parameter 功能字元识别参数

g

G0 set G0集

general delimiter 通用定界符

general delimiter role 通用定界符角色

general entity 通用实体

general entity reference 通用实体参引

generic identifier (element type name) 通用识别符graphic character 图形字元

graphic repertoire code extension 图形字集码延伸group

i

ID reference list ID参引列表

ID reference value ID参引值

ID value ID值

implicit attribute 隐含属性

implicit link 隐含链结

implicit link process definition 隐含链结处理定义included subelement 内含的子元素

inclusion 包含

inert function character 无功能字元

inherently optional token 固有的可选符记

initial link set 初始链结集

instance 实例

instance of a document type 文件型别实例interpreted parameter literal 可解译的参数文字ISO owner identifier ISO所有者识别符

ISO text description ISO文字描述

k

keyword 关键字

l

link attribute 链结属性

link process 链结处理

link process definition 链结处理定义

link set 链结集

link set declaration 链结集宣告

link type declaration 链结型别宣告

link type declaration subset 链结型别宣告子集locking shift 锁定移位

lower-case letters 小写字母

lower-case name characters 小写名称字元

lower-case name start characters 小写名称起始字元

m

map 对照

mark up 加标示

marked section 标注段落

marked section declaration 标注段落宣告marked section end 标注段落结束

marked section start 标注段落起始

markup 标示

markup character 标示字元

markup convention 标示惯例

markup declaration 标示宣告

markup minimization feature 标示最简化特征markup-scan-in characters 进入标示扫瞄的字元markup-scan-out characters 离开标示扫瞄的字元markup-scan-suppress characters 抑制标示扫瞄的字元

minimal SGML document 最简的SGML文件minimization feature 最简化特征

model 模式

model group 模式群

multicode basic concrete syntax 多重码基本具体语法

multicode concrete syntax 多重码具体语法multicode core concrete syntax 多重码核心具体语法

n

name 名称

name character 名称字元

name group 名称群

name start character 名称起始字元

name token 名称符记

name token group 名称符记群

named character reference 附名的字元参引named entity reference 附名的实体参引

naming rules paramter 命名规则参数

non-SGML character 非SGML字元non-SGML data entity 非SGML资料实体normalized length 正规化长度

normalized length of an attribute specification list 属性规格列表的正规化长度

notation attribute 记法属性

notation declaration 记法宣告

notation identifier 记法识别符

notation name 记法名称

number 数字

number token 数字符记

numeric character reference 数字字元参引

o

object capacity 物件容量

omitted tag minimization parameter 省略标签最简化参数

open element 开启元素

open entity 开启实体

open marked section declaration 开启标示段落宣告

owner identifier 所有者识别符

p

parameter 参数

parameter entity 参数实体

parameter entity reference 参数实体参引parameter literal 参数文字

parsed character data 剖析过的字元资料

PI entity PI实体

point

procedure 程序

procedure set 程序集

processing instruction 处理指令

processing instruction entity 处理指令实体

prolog 前言

proper subelement 真子元素

ps separator ps分隔符

public identifier 公用识别符

public text 公用文字

public text class 公用文字类别

public text description 公用文字描述

public text designating sequence 公用文字指定序列

public text display version 公用文字显示版本public text language 公用文字语言

q

quantity

quantity set 量集

r

ranked element 等级元素

ranked group 等级群

rank stem 等级主干

rank suffix 等级字尾

record 记录

record boundray 记录界限

record boundray character 记录界限字元

record end 记录结束

record start 记录起始

reference 参引

reference capacity set 参引容量集

reference concrete syntax 参引具体语法reference delimiter set 参引定界符集

reference quantity set 参引量集

registered owner identifier 注册的所有者识别符replaceable character data 可取代的字元资料replaceable parameter data 可取代的参数资料replaceable character 可取代的字元replaceable text 可取代的文字

reportable markup error 可报告的标示错误required attribute 必要的属性

reserved name 保留名称

reserved name use parameter 保留名称使用参数result document type 结果文件型别

result document type of a link 链结的结果文件型别

result element type 结果元素型别

result element type of a link 链结的结果元素型别s

s separator s分隔符

satisfied token 符合条件的符记

SDATA entity SDATA实体

separator 分隔符

separator character 分隔符字元

SGML application SGML应用

SGML character SGML字元

SGML declaration SGML宣告

SGML document SGML文件

SGML document entity SGML文件实体

SGML entity SGML实体

SGML parser SGML剖析器

SGML subdocument entity SGML子文件实体SGML system SGML系统

SGML text entity SGML文字实体

shift function 移位功能

short reference 简短参引

short reference delimiter 简短参引定界符

short reference delimiter role 简短参引定界符角色short reference map 简短参引对照

short reference mapping declaration 简短参引对照宣告

short reference set 简短参引集

short reference string 简短参引串

short reference use declaration 简短参引使用宣告shunned character 避开的字元

shunned character number 避开的字元数字significant SGML character 重要的SGML字元simple link 简单链结

simple link process definition 简单链结处理定义single shift 单一移位

source document type 原始文件型别

source element type of a link 链结的原始元素型别space 空格

specific character data entity 特定字元资料实体standard Generalized Markup Language 标准通用标示语言

start-tag 起始标签

status keyword 状态关键字

string 字串subelement 子元素

syntax-reference character set 语法参引字元集system character set 系统字元集

system declaration 系统宣告

system identifier 系统识别符

t

tag 标签

target element 标的元素

text 文字

text identifier 文字识别符

text processing application 文字处理应用

token 符记

total capacity 总容量

ts separator ts分隔符

type declaration 型别宣告

type definition 型别定义

u

unavailable public text 非公开的公用文字

unique identifier 唯一识别符

unregistered owner identifier 未注册的所有者识别符

upper-case letters 大写字母

upper-case name characters 大写名称字元upper-case name start characters 大写名称起始字元

v

validating SGML parser 确认的SGML剖析器variant concrete syntax 变体具体语法

variant SGML document 变体SGML文件variant conforming SGML document 符合的变体SGML文件

virtual character set 虚拟字元集

《大数据技术原理与应用》课程标准

《大数据技术原理与应用》课程标准 一、课程信息 课程名称:大数据技术原理与应用课程类型:考查课 课程代码:授课对象:物联网工程专业本科班,物联网创新班 学分:先修课:物联网导论、操作系统教程、编程 学时:后续课:智能家居、智能物流、云计算 制定人:理艳荣、张海兰制定时间: 二、课程性质 《大数据技术》是一门专业选修课,大数据技术入门课程,为学生搭建起通向“大数据知识空间”的桥梁和纽带,以“构建知识体系、阐明基本原理、引导初级实践、了解相关应用”为原则,为学生在大数据领域“深耕细作”奠定基础、指明方向。 课程将系统讲授大数据的基本概念、大数据处理架构、分布式文件系统、分布式数据库、数据库、云数据库、分布式并行编程模型、流计算、图计算、数据可视化以及大数据在互联网、生物医学和物流等各个领域的应用。在、、和等重要章节,安排了入门级的实践操作,让学生更好地学习和掌握大数据关键技术。 三、课程设计 1.课程目标设计 (1)能力目标 总体目标:通过学习大数据相关理论知识,掌握大数据的系统架构及关键技术以及具体应用场景,并结合具体设计实例,培养学生创新意识和实践能力。 件系统的重要概念、体系结构、存储原理和读写过程,并熟练掌握分布式文件系统的使用方法; ()能够了解分布式数据库的访问接口、数据模型、实现原理和运行机制,并熟练掌握的使用方法; ()能够了解数据库与传统的关系数据库的差异、数据库的四大类型以及数据库的三大基石;基本掌握、等数据库的使用方法; 具体目标:

序号单项能力目标 能够掌握大数据的基本概念 能够掌握相关的数据管理、存储、分析计算等的技术基础 能够掌握的相关知识 通过对数据库的学习和编程设计,掌握的使用方法 掌握大数据知识体系的系统架构 (2)知识目标 序号知识目标 了解分布式文件系统的基本概念、结构和设计需求,掌握的概念 了解布式数据库的访问接口、数据模型、实现原理和运行机制 了解数据库与传统的关系数据库的差异、数据库的四大类型以及数据库的三大基石 了解云数据库的概念、基本原理和代表性产品的使用方法 2.课程内容设计 ()设计的整体思路:面向实践,以理论知识与具体应用相结合的方式介绍大市聚。理 论结合实际,由浅入深,加强对大数据概念及技术的理解与巩固。此课程划分为下列模块。 ()模块设计表: 模块名称学时 介绍大数据的基本概念和应用领域,并阐述大数据、云计 算和物联网的相互关系 介绍大数据处理架构 分布式文件系统的基本原理和使用方法 分布式数据库的基本原理和使用方法 数据库的概念和基本原理 云数据库的概念和基本原理 分布式并行编程模型原理和使用方法 架构再探讨 总复习 合计 3.教学进度表设计

浅谈自然语言处理

浅谈自然语言处理 摘要 主要阐述了自然语言处理的定义,发展历史,并对其研究内容,以及目前相关领域的应用加以讨论。最后对自然语言处理的未来发展趋势做简单的介绍。 关键词 自然语言处理 Abstract The definition and the development history of Natural Language Processing(NLP) are explained,the research content and the applications in interrelated areas of NLP are discussed.And the develop direction of NLP in the future are simply introduced. Key Words: Natural Language Processing(NLP)

0.引言 早在计算机还未出现之前,英国数学家A.M.Turing便已经预见到未来计算机将会对自然语言处理研究提出新的问题。他指出,在未来我们可以“教机器英语并且说英语。”同时他觉得“这个过程可以仿效教小孩子说话的那种办法进行”。这便是最早关于自然语言处理概念的设想。 人类的逻辑思维以语言为形式,人类的多种智能都与语言有着密切的联系。所以用自然语言与计算机进行通信是计算机出现以来人们一直所追求的目标。 1.什么是然语言处理 美国计算机科学家Bill Manaris(马纳瑞斯)在1999年出版的《计算机进展》(Advances Computers)第47卷的《从人—机交互的角度看自然语言处理》一文中,曾经给自然与然处理提出了如下定义:“自然语言处理可以定义为研究在人与人交际中的语言问题的一门学科。自然语言处理要研制表示语言能力(linguistic competence)和语言应用(linguistic performance)的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断地完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。”这个定义被广泛的接受,它比较全面的地表达了计算机对自然语言的研究和处理。 简单来说,自然语言处理就是一门研究能实现人鱼计算机之间用自然语言处理进行有效的通信与方法的一门学科,它是计算机科学领域与人工智能领域中的一个重要方向。普遍认为它主要是应用计算机技术,通过可计算的方法对自然语言处理的各级语言单位(字,词,语句,篇章等)进行转换,传输,存储,分析等加工处理的学科,是一门融合了语言学,计算机学,数学等学科于一体的交叉性学科。 互联网技术的发展,极大地推动了信息处理技术的发展,也为信息处理技术不断提出新的需求,语言作为信息的载体,语言处理技术已经日益成为全球信息化和我国社会及经济发展的重要支撑技术。

面向大数据时代的专业课程体系建设研究

面向大数据时代的专业课程体系建设 研究

面向大数据时代的专业课程体系建设 1. 大数据时代的特点及其对专业人才的特殊需求分析 重点分析大数据时代特点、大数据技术发展趋势及其对信息技术专业人才的特殊需求。特别是从大数据理念、技术和方法在农业领域的实践,分析农业大数据应用研究。了解涉及到水、土、光、热、气候资源,作物育种、种植、施肥、植保、过程管理、收获、加工、存储、机械化等各环节的农业大数据特征,探索多类型复杂数据采集、挖掘、处理、分析与应用等问题。在此基础上,了解大数据时代对专业人才的特殊需求。 2. 面向大数据需求的我院本科专业设置优化 系统地分析我院本科专业设置及其缺位问题,结合当前中国学科体系及本科专业设置,提出我院面向大数据需求的本科专业调整与优化方案。 (1)我院本科专业设置及其缺位分析:近年来,我院学科建设及本科专业建设取得来显著地发展。学院现在涵盖电气工程与自动化、信息工程与计算机两大学科群,拥有7个本科专业、11个硕士学位授权点和3个博士学位授权点,一个“农业电气化与自动化”国家级重点学科,成为实力雄厚、基础扎实的电气、电子与信息工程学科领域的高级专门人才培养教育基地和科学研究、技术开发与科技成果转化基地。可是,由于受到当前中国学科体系及本科专业设置的限制,面对大数据时

代的特殊人才需求我院本科专业设置表现得特别滞后,本科专业设置与建设存在明显的缺位问题。 (2)当前中国学科体系及本科专业设置分析:专业设置是高等教育部门根据科学分工和产业结构的需要所设置的学科门类。它是人才培养规格的重要标志。在教育部的学科划分中,学科门是最高级别的学科,共有13个:理学、工学、农学、医学、哲学、经济学、法学、教育学、文学、历史学、军事学、管理学、艺术学;比学科门低一级的学科称为学科类,学科类(不含军事学)共有71个;比学科类再低一级的学科称为专业;专业就是高考生填报的志愿,本科专业(不含军事学)共有258个。本科专业设置上由于受到中国学科体系及本科专业设置规范与管理,需要严格遵照相关的要求与规范。可是,国家层面的学科体系及本科专业设置存在滞后问题,因此需要本科专业设置上能够遵循就近的原则。分析当前中国学科体系及本科专业设置,探索面向大数据需求的相近专业及其设置是本部分研究的重要内容。 (3)面向大数据需求的我院本科专业优化:由于农业大数据是由结构化和非结构化数据构成,对大数据分析与处理的技术发生了巨大变化,因此与传统信息学科人才教育内容与培养目标显著不同,大数据时代对专业人才的特殊需求决定了面向大数据需求的我院本科专业设置与优化的方向及其建设内容。经过整合与优化我院本科专业设置,能够为面向大数据需求的专业课程体系建设提供了前提条件与基础支撑。 3. 面向大数据需求的专业课程体系建设

概率论在自然语言处理中的应用

概率论在自然语言处理中的应用 twd2 2017年5月4日 当下,人工智能是热议话题。人工智能中,有一个方向叫做自然语言处理。 而在自然语言处理方面,有两个经典的问题:光学字符识别(奏奃奒)和拼音输 入法。它们都可以用概率的方法解决,本文就尝试讨论这个话题。 光学字符识别问题所谓光学字符识别(奏奃奒),就是给定一幅图片,让计算 机程序识别出来图片中的文字。这涉及到图像匹配、模式识别等算法,但本文 不关注于此,本文关注的是后处理的过程。 首先,对于一个字符的识别,识别结果就可能有多种,每一个结果都有一 个置信度。所谓后处理过程,就是对于已经识别出来的字串(字串每个字都有 多种可能选项),选择“最佳”的组合。这和下文讨论的拼音输入法十分类似,所以本文的重点放在对于拼音输入法的讨论。 拼音输入法问题拼音输入法,指的是一个程序,它接受用户输入的拼音串(比如“奱奩奮奧奨奵奡奤奡奸奵奥奪奩女奵奡奮奪奩奫奥奸奵奥她奵奪奩女奨奵奸奩”),根据内部数据,将这 个拼音串转换为文字串输出(对于上面的例子就是“清华大学计算机科学与技 术系”)。 对于输入拼音串的每一个拼音(上面例子中的“奱奩奮奧”、“奨奵奡”、“奤奡”、“奸奵奥”等),可以简单直接地查询字典来获得该拼音对应的所有可能的字,然后选择“最佳”的组合,认为是该拼音串对应的句子: 请清氢··· 画话华··· 大打答··· 学雪血··· ··· “最佳”的不同的定义方法,对应着寻找最佳组合的不同算法。这里,我讨论 一个简单的二元字模型或字的二元模型。我理解中,字的二元模型就是将句子 失

中相邻的两个字作为一组,后一个字出现的概率只和前面一个字出现的情况有关。这能够极大地简化相关算法设计、提高算法速度,但是准确度也会因此受到不良影响。 对于任意一个句子S ,如果记其长度n |S |,并且记S 夽w 1w 2···w n ,w i ∈W 夨i 夽失,夲,...,n 天为字符集W 中的一个字符,那么,其出现的概率P 夨S 天可以表示成: P 夨S 天夽 P 夨w 1天·P 夨w 2|w 1天·····P 夨w n |w 1w 2···w n ?1天夽n i =1 P 夨w i |w 1w 2···w i ?1天 其中,P 夨w i 天夨i 夽失,夲,...,n 天为w i 出现的概率。 在字的二元模型下,这个表达式可以进一步简化成: P 夨S 天≈ n i =1P 夨w i |w i ?1天再由条件概率的定义及大数定律, P 夨w i |w i ?1天夽P 夨w i ?1w i 天P 夨w i ?1天夽P 夨w i ?1w i 天count 夨?天P 夨w i ?1天count 夨?天≈count 夨w i ?1w i 天count 夨w i ?1天 其中,count 夨w 天夽w 出现的次数,并且count 夨?天 w ∈W count 夨w 天,表示字和字的二元组出现次数总和。它们都可以由语料统计得到。于是, P 夨S 天≈ n i =1count 夨w i ?1w i 天count 夨w i ?1天 这就是一个句子出现概率的算法。记W 夨y 天夽{拼音y 对应的所有字}?W ,不妨认为其中的元素按照某种顺序排好序。这样,给定一个包含m 个拼音的拼音串y 1y 2···y m ,如“奱奩奮奧奨奵奡奤奡奸奵奥”,可以枚举每一个可能的句子S ∈ m i =1W 夨y i 天夽{请,清,氢,...}×{画,话,华,...}×{大,打,答,...}×{学,雪,血,...},计算P 夨S 天,然后认为P 夨S 天最大的S 就是这个拼音串对应的句子,即对y 1y 2···y m 求出 奡奲奧奭奡奸S ∈ m i =1W (y i ) {P 夨S 天}实现上有几个问题:精度问题、平滑问题以及速度问题。 夲

自然语言处理

自然语言处理 自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、 计算机科学、数学于一体的科学。 因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,包括中文、英文、俄 文、日文、德文、法文等等,所以它与语言学的研究有着密切的联系,但又有重要的区别。 自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机 系统,特别是其中的软件系统。因而它是计算机科学的一部分。 语言是人类区别其他动物的本质特性。在所有生物中,只有人类才具有语言能力。人类 的多种智能都与语言有着密切的关系。人类的逻辑思维以语言为形式,人类的绝大部分知识 也是以语言文字的形式记载和流传下来的。因而,它也是人工智能的一个重要,甚至核心部 分。 用自然语言与计算机进行通信,这是人们长期以来所追求的。因为它既有明显的实际意 义,同时也有重要的理论意义:人们可以用自己最习惯的语言来使用计算机,而无需再花大

量的时间和精力去学习不很自然和习惯的各种计算机语言;人们也可通过它进一步了解人类 的语言能力和智能的机制。 实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义,也能以自然 语言文本来表达给定的意图、思想等。前者称为自然语言理解,后者称为自然语言生成。因 此,自然语言处理大体包括了自然语言理解和自然语言生成两个部分。历史上对自然语言理 解研究得较多,而对自然语言生成研究得较少。但这种状况近年来已有所改变。 无论实现自然语言理解,还是自然语言生成,都远不如人们原来想象的那么简单,而是 十分困难的。从目前的理论和技术现状看,通用的、高质量的自然语言处理系统,仍然是较 长期的努力目标,但是针对一定应用,具有相当自然语言处理能力的实用系统已经出现,有 些已商品化,甚至开始产业化。典型的例子有:多语种数据库和专家系统的自然语言接口、 各种机器翻译系统、全文信息检索系统、自动文摘系统等。 自然语言处理,即实现人机间自然语言通信,或实现自然语言理解和自然语言生成是十 分困难的。造成困难的根本原因是自然语言文本和对话的各个层次上广泛存在的各种各样的

北京大学自然语言处理

语言信息工程系与自然语言处理 自然语言处理做什么? 首先,让我们从那些比较实用的方面来看看什么是自然语言处理。一般来说,所有那些和语言相关的数据,以及处理它的计算机程序,都是我们研究的内容。现在,个人计算机和网络已经进入我们日常的生活,我们用它们做文书处理,收发电子邮件,看新闻,搜索资料,…,所有这些,我们看到的、输入的和存贮的都用到了至少一种自然语言,比如说,中文或者是英文。 自然语言处理技术,简单来说就是实现那些与语言处理相关的特定任务的程序,举例来说,它们可能是: 支持文本处理:例如,智能文字输入,查找拼写错误,寻找与改正病句等; 写作支持:帮助作者寻找合适的语言表达方法,甚至文体风格,至少也能帮助用户使用最正确的术语表达形式; 辅助翻译:从一种语言翻译为另一种语言,或多种语言,未来的目标是全自动化高正确率的翻译,虽然达到这个目标的路很艰辛; 改进信息组织与管理:文献主题标引、关键词标引,文本分类、聚类,自动文摘,模板式信息提取等等。由此,我们可以更有效地利用信息和知识; 信息检索,除了研制更强大更准确的搜索引擎之外,也有相当多的研究关注如何检索到更深层次的东西,例如试图分析与理解被检索文档的语义内容等; 辅助语言学习,如果现在我们还不用计算机以及有效的语言学方法来帮助我们学习语言,无论是母语还是外语,那是不可思议的。事实上,自然语言处理在语言教学领域已经开始大展身手了… 所有这些问题我们要能有完美的解决,显然不只是应用计算机科学与技术的技艺。更进一步说,我们要透彻理解和把握自然语言的自身特性。自然语言处理横跨计算机科学和语言学,相应的数学和逻辑基础也很重要。 从抽象化的理论层面看自然语言处理,则更加微妙。计算机只是操纵符号运算的自动机器。语言是符号的集合和系统,尽管自然语言包含了极其复杂的符号以及运用的规则。自然语言处理技术扩展了传统语言学研究的视野和方法,让

自然语言处理技术在中文全文检索中的应用

3本文为国家社会科学基金项目“基于中文X ML 文档的全文检索研究”的成果之一,项目编号:04CT Q005。 ●熊回香,夏立新(华中师范大学 信息管理系,湖北 武汉 430079) 自然语言处理技术在中文全文检索中的应用 3 摘 要:自然语言处理技术是中文全文检索的基础。首先介绍了全文检索技术及自然语言处理技术,接着详细地阐述了自然语言处理技术在中文全文检索中的应用,并对目前基于自然语言处理技术的中文全 文检索技术的局限性进行了分析,探讨了中文全文检索技术的未来发展方向。 关键词:自然语言处理;全文检索;智能检索 Abstract:Natural language p r ocessing technol ogy is the basis of Chinese full 2text retrieval .This paper firstly intr oduces the full 2text retrieval technol ogy and natural language p r ocessing technol ogy .Then,it gives a detailed 2descri p ti on of the app licati on of natural language p r ocessing technol ogy in Chinese full 2text retrieval .The p resent li m itati ons of the Chinese full 2text retrieval system based on natural language p r ocessing technol ogy is als o ana 2lyzed .Finally,the paper exp l ores the devel opment trend of Chinese full 2text retrieval technol ogy in future . Keywords:natural language p r ocessing;full text retrieval;intelligent retrieval 随着社会网络化、信息化程度的日益提高,网上信息呈指数级剧增,人们越来越强烈地希望用自然语言同计算机交流,并能方便、快捷、准确地从互联网上获得有价值的信息,因此,自然语言处理技术和中文全文检索技术成为当今计算机科界、语言学界、情报学界共同关注的课题,并共同致力于将自然语言处理技术的研究成果充分运用到全文检索中,从而促进了全文检索技术的发展。 1 全文检索技术 全文检索是一种面向全文和提供全文的检索技术,其核心技术是将文档中所有基本元素的出现信息记录到索引库中,检索时允许用户采用自然语言表达其检索需求,并借助截词、邻词等匹配方法直接查阅文献原文信息,最后将检索结果按相关度排序返回给用户。因而索引数据库的建立是全文检索系统实现的基础,它以特定的结构存储了数据资源的全文信息,从而为全文检索系统提供可检索的数据对象。在中文全文检索系统中,建立索引库的前提是运用自然语言处理技术对中文信息进行基于词(字)、句、段落等更深层次的处理。 2 自然语言处理技术 自然语言是指作者所使用的书面用语,在信息检索中包括关键词、自由词和出现在文献题名、摘要、正文或参 考文献中的具有一定实质意义的词语[1]。自然语言处理 (Natural Language Pr ocessing,NLP )是语言信息处理的一 个重要分支,在我国就是中文信息处理。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,具体来说就是用计算机对包括汉语(字)的形、音、义等信息及词、句子、篇章的输入、输出、存储和识别、分析、理解、生成等多方面的加工处理[2]。由于自然语言处理侧重于词、句子、篇章,因而词法分析、句法分析、语义分析、语用分析、语境分析便构成了自然语言处理研究内容的基础部分。 211 词法分析 词法分析包括词形和词汇两个层次,其中词形主要是对各种词形和词的可识别部分的处理。如前缀、后缀及复合词的分析;词汇的重点在于复合对词操作和词汇系统的控制。其主要目的是有助于确认词性以及做到部分理解词与词、词与文档之间的关系,提高检索的效率。由于计算机内部存储的中文信息没有明显的词与词之间的分隔符,因此,在中文全文检索系统中,词法分析首要任务之一是对文本信息进行词语切分,即汉语自动分词,汉语自动分词是中文信息处理中的关键技术,也是中文全文检索的瓶颈,只有对汉语词进行正确的切分后,才能准确地提取文献的特征信息,对文献进行正确标引,才能正确分析用户的查询意图,为用户提供准确的信息服务。 212 句法分析 句法分析是对句子中词汇短语进行分析以便揭示句子的语法结构。目的是通过对句型结构的分析,自动抽取复

自然语言处理的关键技术

自然语言处理的关键技术 自然语言处理技术是所有与自然语言的计算机处理有关的技术的统称,其目的是使计算机理解和接受人类用自然语言输入的指令,完成从一种语言到另一种语言的翻译功能。自然语言处理技术的研究,可以丰富计算机知识处理的研究内容,推动人工智能技术的发展。下面我们就来了解和分析自然语言处理的关键技术。 一、常用技术分类 1、模式匹配技术 模式匹配技术主要是计算机将输入的语言内容与其内已设定的单词模式与输入表达式之间的相匹配的技术。例如计算机的辅导答疑系统,当用户输入的问题在计算机的答疑库里找到相匹配的答案时,就会完成自动回答问题的功能。但是不能总是保证用户输入的问题能得到相应的回答,于是很快这种简单匹配式答疑系统有了改进。答疑库中增加了同义词和反义词,当用户输入关键词的同义词或反义词时,计算机同样能完成答疑,这种改进后的系统被称为模糊匹配式答疑系统。 2、语法驱动的分析技术

语法驱动的分析技术是指通过语法规则,如词形词性、句子成分等规则,将输入的自然语言转化为相应的语法结构的一种技术。这种分析技术可分为上下文无关文法、转换文法、ATN文法。上下文无关文法是最简单并且应用最为广泛的语法,其规则产生的语法分析树可以翻译大多数自然语言,但由于其处理的词句无关上下文,所以对于某些自然语言的分析是不合适的。转换文法克服了上下文无关文法中存在的一些缺点,其能够利用转换规则重新安排分析树的结构,即能形成句子的表层结构,又能分析句子的深层结构。但其具有较大的不确定性。ATN文法扩充了转移网络,比其他语法加入了测试集合和寄存器,它比转移文法更能准确地分析输入的自然语言,但也具有复杂性、脆弱性、低效性等缺点。3、语义文法 语义文法的分析原理与语法驱动相似,但其具有更大的优越性。语义文法中是对句子的语法和语义的共同分析,能够解决语法驱动分析中单一对语法分析带来的不足。它能够根据句子的语义,将输入的自然语言更通顺地表达出来,除去一些语法正确但不合语义的翻译。但是语义文法分析仍然有不容忽视的缺点,其分析的语句中有时会出现不合语法的现象,并且这类分析较为复杂,语义类难以确定,语义的规则太多……因此,语义文法技术仍需要改进措施。 4、格框架约束分析技术

自然语言处理在现实生活中运用

自然语言处理在现实生活中运用 1 需求分析与描述: 首先谈下这款软件的来源和用途吧,本科至今没有挂科记录,很不幸第一次《英语学位英语考试》挂科了。于是,笔者开始疯狂的做题和背单词,对于GET真题很多单词不认识,抱着有道词典,逐字翻译耗时耗力。再说历来10余年试题考试单词范围是一定的,把出现频率高的单词,所谓核心单词掌握了不就事倍功半了?问题来了,不像四六级词汇或者考研词汇市场有专门卖的。当时就开始设想,如果我收集10余年真题,然后去除所有非单词结构(真题算是结构化数据,有一定规则,比较容易处理。此过程其实就是数据清洗过程)最后把所有单词集中汇总,再去除如:a/an/of/on/frist等停用词(中文文本处理也需要对停用词处理,诸如:的,地,是等)。处理好的单词进行去重和词频统计,最后再利用网络工具对英语翻译。然后根据词频排序。基于以上思路,结合笔者前不久对数据挖掘中分类实现的经验和暑假学习的统计学知识最终上周末(10.31—11.1)花了2天时间搞定,这些自然语言处理的基础方法在分类,聚类等数据挖掘和本体领域构建中都有使用。最后我将其核心方法进行梳理,下面咱们具体展开。 2 自然语言处理结果预览: 前面提到本算法是对自然语言中常规英文试卷的处理,那么开始收集原始数据吧。 1 历年(2002—2010年)GET考试真题,文档格式不一,包括txt/pdf/word等如下图: 2 对所有格式不一的文档进行统计处理成txt文档,格式化(去除汉字/标点/空格等非英文单词)和去除停用词(去除891个停用词)处理后结果如下:【17套试卷原始单词(含重复)82158个,数据清洗处理后32011个】 3 对清洗后的单词进行去重和词频统计:【去重后7895个单词尺寸】 4 显示这10余年考试的词汇量还是很大的,加上停用词,考查词汇量在9000左右,那么常考的应该没那么多。试想下17套试卷中,去除停用词后出现频率大于5的和小于25次【1674个单词】的数据应该是合理的,那么我就指定阈值提取。 5 最后一步,中英文翻译(目前通过google工具快速查询,然后合并)。最终效果如下:(处理的最终txt结果和自己word整理的结果)

自然语言处理技术分享1

内容大概分为:自然语言处理的简介、关键技术、流程及应用。 首先,介绍一下什么是自然语言处理(也叫自然语言理解): 语言学家刘涌泉在《大百科全书》(2002)中对自然语言处理的定义为:“自然语言处理是人工智能领域的主要内容,即利用电子计算机等工具对人类所特有的语言信息(包括口语信息和文字信息)进行各种加工,并建立各种类型的人-机-人系统,自然语言理解是其核心,其中包括语音和语符的自动识别以及语音的自动合成。” 从微观上讲,自然语言理解是指从自然语言到机器(计算机系统)内部之间的一种映射。 从宏观上看,自然语言理解是指机器能够执行人类所期望的某些语言功能。这些功能包括: ①回答有关提问;计算机正确地回答用自然语言输入的有关问题 ②提取材料摘要;机器能产生输入文本的摘要 ③同词语叙述;机器能用不同的词语和句型来复述输入的自然语言信息 ④不同语言翻译。机器能把一种语言翻译成另外一种语言 自然语言处理的关键技术 自然语言处理的关键技术包括:词法分析、句法分析、语义分析、语用分析和语句分析。 1.词法分析 词法分析的主要目的是从句子中切分出单词,找出词汇的各个词素,并确定其词义。 词法分析包括词形和词汇两个方面。一般来讲,词形主要表现在对单词的前缀、后缀等的分析,而词汇则表现在对整个词汇系统的控制。在中文全文检索系统中,词法分析主要表现在对汉语信息进行词语切分,即汉语自动分词技术。通过这种技术能够比较准确的分析用户输入信息的特征,从而完成准确的搜索过程。它是中文全文检索技术的重要发展方向。 不同的语言对词法分析有不同的要求,例如英语和汉语就有较大的差距 汉语中的每个字就是一个词素,所以要找出各个词素是相当容易的,但要切分出各个词就非常难。 如”我们研究所有东西“,可以是“我们——研究所——有——东西”也可是“我们——研究——所有——东西”。

面向大数据时代的专业课程体系建设研究

面向大数据时代的专业课程体系建设 1. 大数据时代的特点及其对专业人才的特殊需求分析 重点分析大数据时代特点、大数据技术发展趋势及其对信息技术专业人才的特殊需求。尤其是从大数据理念、技术和方法在农业领域的实践,分析农业大数据应用研究。了解涉及到水、土、光、热、气候资源,作物育种、种植、施肥、植保、过程管理、收获、加工、存储、机械化等各环节的农业大数据特征,探索多类型复杂数据采集、挖掘、处理、分析与应用等问题。在此基础上,了解大数据时代对专业人才的特殊需求。 2. 面向大数据需求的我院本科专业设置优化 系统地分析我院本科专业设置及其缺位问题,结合当前我国学科体系及本科专业设置,提出我院面向大数据需求的本科专业调整与优化方案。 (1)我院本科专业设置及其缺位分析:近年来,我院学科建设及本科专业建设取得来显著地发展。学院现在涵盖电气工程与自动化、信息工程与计算机两大学科群,拥有7个本科专业、11个硕士学位授权点和3个博士学位授权点,一个“农业电气化与自动化”国家级重点学科,成为实力雄厚、基础扎实的电气、电子与信息工程学科领域的高级专门人才培养教育基地和科学研究、技术开发与科技成果转化基地。但是,由于受到当前我国学科体系及本科专业设置的限制,面对大数据时代的特殊人才需求我院本科专业设置表现得特别滞后,本科专业设置与建设存在明显的缺位问题。 (2)当前我国学科体系及本科专业设置分析:专业设置是高等教育部门根据科学分工和产业结构的需要所设置的学科门类。它是人才培养规格的重要标志。在教育部的学科划分中,学科门是最高级别的学科,共有13个:理学、工学、农学、医学、哲学、经济学、法学、教育学、文学、历史学、军事学、管理学、艺术学;比学科门低一级的学科称为学科类,学科类(不含军事学)共有71个;比学科类再低一级的学科称为专业;专业就是高考生填报的志愿,本科专业(不含军事学)共有258个。本科专业设置上由于受到我国学科体系及本科专业设置规范与管理,需要严格遵照相关的要求与规范。但是,国家层面的学科体系及本科专业设置存在滞后问题,因此需要本科专业设置上可以遵循就近的原则。分析当前我国学科体系及本科专业设置,探索面向大数据需求的相近专业及其设置是本部分研究的重要内容。 (3)面向大数据需求的我院本科专业优化:由于农业大数据是由结构化和非结构化数据构成,对大数据分析与处理的技术发生了巨大变化,因此与传统信息学科人才教

成果篇 —— 自然语言处理与数据挖掘研究的两个应用成果

自然语言处理与数据挖掘研究的应用 唐杰李涓子 清华大学计算机系知识工程研究室 清华大学计算机系知识工程研究室研究方向为网络环境下的知识工程,研究室融合自然语言处理、社会网络分析与挖掘和语义Web技术,研究Web信息处理的基础理论和关键技术。研究者社会网络挖 掘与搜索系统ArnetMiner II和面向事件的新闻挖掘与搜索系统Newsminer是实验室应用多年的研究 成果建立的在学术研究和新闻领域的应用系统。 一、研究者社会网络的挖掘与搜索系统 ArnetMiner II(简称AMiner, https://www.doczj.com/doc/1d10284359.html,)是通过研究者合作关系建立起来的社会网络挖掘与搜索系统。系统采用自然语言处理和社会网络分析与挖掘技术,提供研究者语义信息抽取、面向话题的专家搜索、权威机构搜索、话题发现和趋势分析、基于话题的社会影响力分析、研究者社会网络关系识别、即时社会关系图搜索、研究者能力图谱、审稿人推荐在内的众多功能,能够为研究者提供更全面的领域知识和更具针对性的研究话题和合作者信息,为科研的更好发展提供服务。 (a) 专家搜索。(b) 会议分析。

搜索数据挖掘领域专家、权威机构和相关学术论文。用户可以个性化的定制搜索结构。近10年国际会议SIGIR引用次数最高的100篇文章在各年的分布,作者国籍(原籍)分布等。 图 1:系统部分功能截图(https://www.doczj.com/doc/1d10284359.html,) 图1举例列举了AMiner系统的两个功能:(a) 专家搜索和 (b) 会议分析。其中在专家搜索中,用户输入查询词(例如:data mining),系统返回该领域专家、重要的国际会议和权威期刊或者权威机构以及相关学术论文。在该搜索中,用户还可以个性化的定制返回结果。在会议分析功能中,用户可以查看指定国际期刊或者国际会议近年引用次数最高的文章在各年的分布、作者国籍(原籍)分布、以及引用次数最高的作者排序情况等。 目前AMiner系统共收录103万研究者、314万篇论文信息和8,046多个会议信息,累积数据规模已经达到2.35 TB,系统在线运行7年多以来,吸引了220个国家2,766,356个独立IP的访问。吸引了218个国家210万个独立IP的访问(>1亿3千460万访问日志),访问量还在以每月平均20%左右的速度增长。并且,系统API还得到全球最大出版社Elsevier和KDD’10-’12, PKDD’11, ICDM’11, WSDM’11, ISWC’10等20余个重要国际会议进行论文-审稿人自动分发和提供语义信息服务。同时,ArnetMiner系统为社会网络挖掘的科学研究提供大量科研数据,已成为学术搜索和社会网络挖掘研究的实验平台。 二、面向事件的新闻挖掘与搜索 NewsMiner(https://www.doczj.com/doc/1d10284359.html,)是一个采用中文信息处理和文本挖掘技术实现的面向事件的新闻挖掘与搜索系统。系统从新闻本身的特点(5W1H)出发,以事件为核心,利用话题分析与知识关 联技术,从事件、话题、实体三个层面组织新闻,为用户提供一个更深入、更便捷的新闻事件理解和 搜索服务。NewsMiner包含4个组件: 1.数据采集:数据采集是从互联网上获取新闻事件相关数据并进行结构化处理的组件,为系统 提供数据保障。新闻相关数据包括新闻专题报道、用户生成内容和大规模知识库,目前主要 从新闻门户专题网站和百度热搜词获取新闻事件报道新闻、从微博和天涯等论坛获得新闻相 关的用户生成内容并抓取百度百科、互动百科和Wiki等公共的大规模知识库。 2.新闻挖掘:新闻挖掘是NewsMiner中核心组件,为系统提供面向事件的新闻分析和挖掘算法。 主要包括实体识别与抽取、事件话题模型与分析、以及知识链接。实体识别与抽取是从新闻 文档识别命名实体(人物、地点、组织机构和时间)的过程,回答Who、Where和When的问 题;话题建模与分析是通过话题模型发现同一事件下的隐含话题,并通过概率分布分析事件、话题和实体之间关系,是发现媒体和用户关注点的过程;知识链接是将新闻事件和实体和外

大数据分析(A)教学大纲

清华大学大数据方向硕士学位 公共必修课课程 数据分析学(I) Data Analytics (I) 开课单位:数据分析学(I)课程组 授课教师: 黎波、张楠、郑路、庞珣、苏毓淞、罗昊、王程韡(暂定) 教学目的: 本课是针对社会科学和管理类研究学开设的数据分析基本课程。通过本课的学习,学生将对(大)数据分析的价值、意义和基本原理建立清晰和比较全面的认识,掌握有关数据发掘、处理、建模和解释的基本原理和方法,了解和熟悉数据分析在社会科学研究、商业分析和公共管理等领域的实际案例。 Data Analytics (I) is a graduate level course mainly designed for students with socialsciences and management background. The objective of the course to give students a broad overview of the basic principles and applications of data analytics. Students will also be familiar with the various aspects of data analytics such as exploring, managing, modeling and interpreting data. Students’ learning will also be enhanced by their exposure to real life applications of data analytics in social science research, business analysis and public management. 主要教材: by Johannes Ledolter, 2013, Wiley by Gareth James et al, 2013, Springer by Stephen Borgatti et al, 2013, SAGE by Sophia Rabe-Hesketh and Anders Skrondal, 2008, Stata 教学软件:R, Stata, UCINET 教学内容: 一、统计分析 1.数据分析简介 2.概率论基础 3.数理统计基础 4.R软件简介,使用R进行探索性数据分析

自然语言处理的应用及发展趋势

自然语言处理的应用及发展趋势 摘要本文主要阐述了自然语言处理的研究内容,以及对目前相关领域的应用加以讨论。自然语言处理的研究内容主要有四大块[1-2]:语言学方向、数据处理方向、人工智能和认知科学方向、语言工程方向。最后对自然语言处理的未来发展趋势做简单的介绍。 关键词自然语言处理应用发展趋势 一.自然语言处理的研究内容 自然语言处理的范围涉及众多方面,如语音的自动识别与合成,机器翻译,自然语言理解,人机对话,信息检索,文本分类,自动文摘,等等。我们认为,这些部门可以归纳为如下四个大的方向: (1)语言学方向 本方向是把自然语言处理作为语言学的分时来研究,它之研究语言及语言处理与计算相关的方面,而不管其在计算机上的具体实现。这个方向最重要的研究领域是语法形式化理论和数学理论。 (2)数据处理方向 是把自然语言处理作为开发语言研究相关程序以及语言数据处理的学科来研究。这一方向早起的研究有属于数据库的建设、各种机器可读的电子词典的开发,近些年来则有大规模的语料库的涌现。 (3)人工智能和认知科学方向 在这个方向中,自然语言处理被作为在计算机上实现自然语言能力的学科来研究,探索自然语言理解的只能机制和认知机制。这一方向的研究与人工智能以及认知科学关系密切。 (4)语言工程方向 主要是把自然语言处理作为面向实践的、工程化的语言软件开发来研究,这一方向的研究一般称为“人类语言技术”或者“语言工程”。 二.自然语言处理的应用 以上所提及的自然语言处理的四大研究方向基本上涵盖了当今自然语言处理研究的内容,更加细致的说,自然语言处理可以进一步细化为以下13项研究内容,也即为自然语言处理的应用方向,这13个应用方向分别是[3]:口语输入、

自然语言处理中英文术语对照

abbreviation 缩写 [省略语] ablative 夺格(的) abrupt 突发音 accent 口音/{Phonetics}重音 accusative 受格(的) acoustic phonetics 声学语音学 acquisition 习得 action verb 动作动词 active 主动语态 active chart parser 活动图句法剖析程序 active knowledge 主动知识 active verb 主动动词 actor-action-goal 施事(者)-动作-目标 actualization 实现(化) acute 锐音 address 地址{信息科学}/称呼(语){语言学} adequacy 妥善性 adjacency pair 邻对 adjective 形容词 adjunct 附加语 [附加修饰语] adjunction 加接 adverb 副词 adverbial idiom 副词词组 affective 影响的 affirmative 肯定(的;式) affix 词缀 affixation 加缀 affricate 塞擦音 agent 施事 agentive-action verb 施事动作动词 agglutinative 胶着(性) agreement 对谐 AI (artificial intelligence) 人工智能 [人工智能] AI language 人工智能语言 [人工智能语言] Algebraic Linguistics 代数语言学 algorithm 算法 [算法] alienable 可分割的 alignment 对照 [多国语言文章词;词组;句子翻译的] allo- 同位-

深度学习在自然语言处理中的应用

电脑编程技巧与维护 自然语言处理的主要目标是让人类语言能够更容易被计算机识别、操作,其主要应用包括信息抽取、机器翻译、摘要、搜索及人机交互等。传统的自然语言处理,不管是英文还是中文,仍然选择分而治之的方法,把应用分解成多个子任务来发展和分析自然语言处理,很少能够发展一个统计的架构,并且为了更好地提高性能,从而导致需要加入大量为特定任务指定的人工信息。从这点来说,大多数系统主要有这样的几个缺点:首先这些系统是浅层结构,并且分类器是线性的;其次为了一个线性分类器有更好的性能,系统必须融入大量为特定任务指定的人工特征;最后这些系统往往丢弃那些从其他任务学来的特征。 从2006年开始,研究者们开始利用深层神经网络在大规模无标注语料上无监督的为每个词学到了一个分布式表示,形式上把每个单词表示成一个固定维数的向量,当作词的底层特征。在此特征基础上,Collobert&Weston完成了词性标注、命名实体识别和语义角色标注等多个任务[4],Richard Socher等人则利用递归神经网络完成了句法分析、情感分析和句子表示等多个任务,这也为语言表示提供了新的思路[6-10]。 主要介绍在自然语言处理领域进行深度学习的基本动机,主要模型和学习算法。首先介绍为什么要在自然语言处理中采用深度学习及主要的神经网络语言模型;在此基础上,如何学习一个单词的表示,并分别阐述深度学习在句法分析和语义分析等相关任务中的主要算法。 1深度学习的基本动机 从生物学角度来说,人类大脑本身就是一个层次结构,就是一个深层结构。例如,通过大脑皮层的充分研究,一个给定的输入信号进行多层次的抽象表示,每个层次对应着不同区域的皮质。层次结构中的每个级别代表在不同的抽象层次的输入,用较低级别的特征进一步定义更抽象的层次结构中的功能。人类感知系统这种明确的层次结构表明,极大地降低了视觉系统处理的数据量,并保留了物体有用的结构信息。对于要提取具有潜在复杂结构规则的自然图像、视频、语音等结构丰富的数据,深度学习能够获取其本质特征。 另外认知过程本身就是一个深层结构。人类按照层次的方式组织观点和概念;人类首先学习比较简单的概念,然后组成更抽象的概念;工程人员按照层次把解决方案分解成多个概念和处理过程。反过来语言表征也同样是一个稀疏表示,把所有的词汇中一部分用于表示相应的概念,例如描述一个场景,只需要极少的一部分词汇,和大脑提取数据的方式是相似的。 受到大脑层次结构的神经启发,神经网络的研究人员花费10多年时间去训练一个多层次的神经网络,但在2006年前的所有尝试都失败了,得到的最好结果只得到了2到3层的结构,即只包含1到2个隐藏层表示,如果继续训练,反而得到一个更差的结果。直到2006年才有了重大突破。多伦多大学的Hiton介绍了深度信念网络以及利用无监督的方法[1],每次训练一层的贪心学习算法。随后基于Auto-encoders的算法被提出[2],并且采取相似的方法,即采用无监督的方法进行中间表示,并且每次训练一层。近年来采取相似的方法的算法越来越多地被提出,但主要的原则均为:(1)每一层采用无监督方法学习表征;(2)在上次训练的基础上,采用无监督的方法每次训练一层,并把训练结果作为下一层的输入; 作者简介:翟剑锋,男,本科,讲师,研究方向:机器学习、自然语言处理及认知计算。 收稿日期:2013-06-11 深度学习在自然语言处理中的应用 翟剑锋 (中国青年政治学院计算机中心,北京100089) 摘要:深度学习是一类新兴的多层神经网络学习算法。介绍自然语言处理中采用深度学习的动机及主要的神经网络语言模型。在此基础上,学习一个单词的分布式表示,并分别阐述深度学习在句法分析和语义分析等相关任务中的主要算法,总结了存在的问题及深度学习在中文信息处理的发展方向。 关键词:深度学习;自然语言处理;分布式表示 Application of Deep Learning in NLP ZHAI Jian-feng (Computer Center,China Youth University for Political Science,Beijing100089,China) Abstract:Deep learning is a new way of training multi-layer neural network.The paper discussed the motivation of deep learning in natural language processing and the major neural network language model,on the base of which,how to learn a distributed representation of word,and introduce the main algorithms of deep learning in syntactic and semantic analysis etc. It concluded the problems remaining and development orientation in Chinese Information Processing Key words:Deep Learning;NLP;Distributed Representation 74 2013.18

相关主题
文本预览
相关文档 最新文档