文档之家
首页
教学研究
幼儿教育
高等教育
外语考试
建筑/土木
经管营销
自然科学
当前位置:
文档之家
›
一种基于LUCENE的中文分词算法研究
一种基于LUCENE的中文分词算法研究
格式:pdf
大小:283.64 KB
文档页数:6
下载文档原格式
下载原文件
/ 6
下载本文档
合集下载
下载提示
文本预览
1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
检 索功 能 。
1 1 L C N 系 统 架 构 . U E E
L cn u e e系统 架构有 着 明显 的 面向对 象特 点 , 将 系统 核 心 功 能部 分 设 计 为抽 象 类 , 体 的实 现 部 分设 它 具 计 为抽 象类 的实 现 , 计一 种 与平 台无关 的索 引格 式类 , 设 与平 台相关 操 作也 设 计 为抽 象 类 , 过层 层 面 向对 通 象设 计 , L c n 成 为一 个 高 内聚 、 使 uee 低耦 合 、 易 进 行 二次 开 发 的检索 引擎 。L cn 系 统 架 构 主要 由基本 容 ue e 封装 结构 、 引核 心 和外部 接 口三部 分组 成 , 中索引核 心是 L cn 架 构 的关键 部 分 。L cn 索 其 uee u e e系统 架 构如
Vo . 4 NO 3 12 .
A ug 2 0 1 1 .
文 章 编 号 : 0 6 0 7 2 1 ) 3— 0 3—0 1 0 —1 3 ( 0 1 0 0 5 6
di1 . 9 9ji n 10 o : 0 3 6 /.s . 0 6—1 3 . 0 1 0 . 1 s 0721.802
器 。该算 法基 于字 符 串匹 配原 理 , 现 了正 向 和逆 向相 结 合 的最 大 增 字 匹配 分 词 算 法 。 实 通过 实验 仿真 , 比较 改进 后 的分 析器 与 L cn u e e自带 的两 种分 析器 在分 词效 果 和效率 上 的 差异 。结 果显示 , 进后 的分 析器 分词 效 果 明显 优 于 L cn 改 u e e自带 的 两种 分 析 器 , 高 了 提 全文 检索 系统 的 中文处 理能 力 , 系统 的查 全率 和查 准率都 达 到用 户 的需 求 。 关键 词 :全文 检 索 ;L cn ;中文分 词 u ee
* 收稿 日期 :2 l - 72 O 10 3
基 金 项 目 :国 家 支 撑 计 划项 目(0 6 A1 1 0 ) 2 0 B 1B 7
作者简介 : 戴
洪 ( 9 8) 男 , 士 研 究 生 , 要研 究 方 向 : 布 式计 算 。 18 , 硕 主 分
5 4
青 岛 大 学 学 报 (自 然 科 学 版 )
第 2 4卷
图 1 L cn u e e系 统 架 构
1 2 L Байду номын сангаас N 索 引 结 构 . U E E
L cn 采 用倒 排 索 引结 构 , ue e 即以词 作 为 索 引基 本单 位 , 过 词来 建 立 词一 文 档 映射 关 系 。根据 这 种 索 通
V AP 接 口。它不是 一个 完 整 的全文 检 索 引擎 , A I 而是 一 个 面 向全 文 检 索 的 引擎 架 构 , 开 发 基 于 L cn 要 ue e
的全文 检索 系统 , 需要 在其 基础 上 进行 二 次 开 发 。L cn ] u e e主 要 提供 了索 引 引擎 、 索 引 擎 和存 储 管 理 接 检 口等模 块 。它为 开发 人员 提供 了一个 简 单易 用 的全文 检 索类 包 , 以方 便 地嵌 入 到 各种 应 用 中以实 现 全 文 可
第2 @ 第 3 4 期 2 1 8 1 年 月 0
青 岛 大 学 学 报 (自 然 科 学 版 ) J R A F Q N D I E ST ( trl ce c dt n OU N L O I G AO UN V R I Y Nau a S i eE io ) n i
中 图 分 类 号 :T 3 1 P 9 文 献 标 志 码 :A
全 文 检索 是 以各 种计 算 机数据 诸 如文字 、 音 、 声 图像 等 为处 理对 象 , 供按 照数 据 资料 的 内容 而不 是 外 提 在特 征来 实现 的信 息检 索手 段 。L cn u e e作 为实 现 全 文检 索 的组 件之 一 , 然 已经被 广 泛 地应 用 , 是 国 虽 但 内对 L cn u e e的研究 和应 用 多数 是将 L cn u e e直 接 应用 到 全 文 检索 系统 中 , u cn L n e e自带 的语 言分 析 器 只 能对汉 字 进行单 字 切分 和双 字切分 , 能很 好 的对 中文 信 息进 行 处理 。本 文 针 对 L n e e的这 一不 足 进 行 不 u cn
一
种基于 L C N U E E的中文分词算法研究
戴 洪 , 蒋 静 , 樊 程 ,于 雪丽
( 岛大 学信 息 工程 学 院 ,山 东 青 岛 2 6 7 ) 青 6 0 1
摘 要 :由于 L cn u e e自带 的 C ie e aye 和 C KAn lzr 种 中文分 析器 不能 够满 hn sAn lzr J ay e 两 足全 文检 索 系统 的应用 , 本文 给 出 了一 种 新 的 中文 分 词 算法 , 于改 进 L cn 用 u e e中文 分析
了改进 , 出 了一个 新 的中文 分词算 法 , 以构建 高效 的 中文分 析 器 。改进后 的分 析 器提 高 了中文信 息处 理 提 用
能力 。
1 相关 技 术研 究
I cn 是一 个免 费 开 放源 码 的全 文 检索 引 擎工 具 包 l ] 来 源 于 Ap c e J k ra项 目组 开发 的 J ee u 3 , ah 下 a at A—
图 1所示 ( r. p c e L cn 简 写为 L cn ) o g a ah . u e e ue e。
通过 图 1 u e e L cn 系统 架构 可见 , u e e系统结 构 清晰 , L cn 每个 包分 工 明确 , 用来 完成 特 定 的功 能 。每 个功 能模 块都 设计 为抽 象类 , 于维 护和 扩展 [ 。 便 6 ]
文档推荐
中文bpe分词
页数:2
中文分词切词超详细分析
页数:6
es中英文分词
页数:1
es中英文分词
页数:3
百度中文分词技巧
页数:1
中文分词技术
页数:6
es中英文分词
页数:3
中文分词技术综述
页数:3
基于条件随机场的中文分词方法_迟呈英
页数:3
fmm方法 -回复
页数:3
最新文档
我与地坛读后感
五年级下册数学试题-奥数专题训练:第二十六讲 巧算面积(无答案)全国通用
浅谈小学语文随文练笔有效教学之策略
上海市司法局、上海市工商业联合会关于印发《关于在本市民营企业开展公司律师试点工作方案》的通知
会议制度与流程
国有企业资本运营问题探讨
农田水利工程中节水灌溉技术运用的探讨
中学生综合素质自我评价300字
14-15第一学期教育教学活动安排表
九年级语文辛弃疾的一首农村词