多特征/多维度分析法简介

  • 格式:pdf
  • 大小:159.85 KB
  • 文档页数:3

下载文档原格式

  / 3
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第3 第1 卷 2期
21 年 1 01 2月
赤 峰 学 院 学 报 (科 学 教 育 版 )
Ju n l f h e g nv r t si c o ra o i n i s y(c n e&e u a o ) C f U ei e d ctn i
V0. .2 1 3 No 1
据 中概括 或 总结 的一些领 域 。也 就是 说 , 每个 因子
代表 了高 度共 享差 异 的一 个 领域 , 一组 以高频率 共
现 的语言 特征 。这 些 因子是 原始 变量 的线 性组 合 , 从所 有变 量 的相关 矩 阵得 出。 下列 表列 出 了每个 因

维度 的确 立依 据
根 据 每 一维 度 上 “ 现 ” 共 性语 言 特 征 共 同 的功
能 意义 ,可对 每 一维 度 代表 的功能 意 义做 出解 释 。
每个 语 言特 征 的 因子负 荷值 从 一 . + ., 1 0到 1 负荷 值 0
越 高说 明该 特征 与这一 维度 的联 系越 密切 。 多数 大
语 料 库语 言 学 家 D u lsB b r 1 8 o ga ie 于 9 8年 建
立 的 MD MF Mut- i nin l Mut-etr / f l dme s a/ i o l fa e i u
特征 提供 了一个 确定 英语 功 能维度 的坚 实基础 。
因子 分 析是 多特 征/ 维度 分析 法研 究 文本 差 多 异 的主要 统计工 具 。在 因子分 析 中 , 量 的原始 变 大
关 键 词 :多特 征 ; 多维 度 ; 现模 式 共 中 图分类 号 : ~ HO 0 文献 标 识码 : A 文章 编号 :6 3 3 3 ( 0 1 1 — 0 9 0 17 — 2 1 2 1 )2 0 4 — 3
语 法 范畴 的特征 可 以具有 相 同 的功能 。 因此 , 些 这
词 ; ) 问 词 ; ) 词 形 式 ; ) 动语 态 ; ) 格 (疑 D (名 E (被 F ( 属 G
形 式 ; ) 属 特 征 ; ) 词 短语 , 容 词 和副 词 ; ) (从 H (介 I 形 ( J
词 汇专 一 性 ; ) 汇 类 别 ;L情 态 ;M) 门动 词 ( 词 K () ( 专

技术来 计 算频 率显 著 的词 汇和语 法 特征 。 这些 特征
的共 现模 式 可 以通 过 多变 量 统计 方 法 来 分析 确认 文本 中语 言变 异 的功 能维 度 , 提供 有 关这 些 维度 并 的体 裁 之间关 系 的全 面描 述 。

小 组派 生变量— — 因子 。 一个 因子代 表原始 数 每
维 度 都包 括 两 组特 征 , 组 带 有正 负 荷值 , 一 一组 带 有 负负荷 值 。 因子 负荷 的正 、 负值表示 语 言特 征呈
类 ;N) 略形 式 和 非偏 好 结 构 ; ) 致 ; ) 定 。 ( 缩 (一 0 (否 P
如 此 分类 反 映 了每个 特征 的语 法 功 能而 非 语 篇 功
维 度 的 确 立 最 初 是 通 过 对 英 国 L n atr a cs — e
子下各 个 语 言特征 的 因子负荷 。 一个 因子负荷表 示
该语 言特 征 与相应 的语 用功 能有 多大 程度 的联 系 。 它 反 映 了各 语 言特 征 与 因子 整体 间共 现关 系 的密 切性 。 接着 用 因子分 析法 处理 大量 的数 据 , 显示 出那 些语 法特 征在 篇章 中趋 于共 现 。 组共 现的特 征被 每 称 为变异 的一 个维 度 。 通过对 口语语 域 和书 面语 语
域 的 多维 度 定 量分 析 .我们 确 立 了 6个 主要 的维
度。
先确 认 一 系列具 有功 能关 联 的 6 7个语 言 特征 。根 据 其语 法 类 别将 这 些 特征 分 为 1 6大语 法 范畴 : ) ( A
时 态语 态 标识 语 ; ) 间地 点 副词 ; ) (时 B ( 代词 和 代 动 C
De . c 2011
多特征 / 多维度分析法 简介

( 州工 业职 业技 术 学院 徐 I

徐 州 210) 200
信 息 管理 学 院 ,江 苏

要 :多特征 / 多维度分析 法, 通过分析语言特征的共现模式, 确定语域变异的维度, 对不同语篇类
型 进行 多维度 的 比较 分析 , 以求全 面地揭 示语体 之 间的 差异 。
能, 每个 特 征被 描述 为文 本 中 的功能 符号 。基 于 这
互 补分 布 。 代表 的功 能意 义是相 对 的 。 所
二 、 ie 对各维 度 的描述 Bb r
百度文库
通 过研 究 4 1 8 篇语 料 中 的 6 语 言特征 的分 7个
布 特 征 , ie 定 义 并 阐释 了 6个 主 要 维 度 。表 格 Bb r 21及 22分别 列 出 了在 维 度一 和维 度 二上 有较 大 . .
O l— egn语 料 库 ,简称 为 L B语 料 库 及 L n s B re o O o— dn L n o — u d英 语 口语 语 料 库 的 6 7项 语 言 特 征 的分 布进 行 量化 分析 后定 义 的。 O L B语料 库包 括 5 0篇 0
文本 样 本 . 篇约 2 0 每 0 0字 , 自 1 选 5种体 裁 。 二个 第 是 L n o — u d语 料库 。该语 料库 搜 集 了 8 o dn L n 7个英 语 口语 文本 .约 5 O万 词 。代 表 了 6大主要 言 语情 境。 通 过 调 查 以前 对 口语/ 面 语 差 异 的 研 究 , 书 首
a ayi 模 型 , n ls ) s 即多 特 征/ 维 度 分 析 法 , 于 描 述 多 用 口语 和 书面语 体裁 间 的语 篇关 系 。 种方 法使 用标 这 准化 的 以计 算 机 为基 础 的文本 语 料 库 和 自动 识 别
量 , 本研 究 中 即大量 语 言 特征 的频 率 , 在 被简 化 为