SQL Server 2008 中全文搜索步骤
- 格式:docx
- 大小:27.55 KB
- 文档页数:7
godrop table t_testCREATE TABLE[dbo].[t_test]([ID][int]NOT NULL,[title][varchar](400)NULL,[content][text]NULLCONSTRAINT[PK_t_test]PRIMARY KEY CLUSTERED([ID]ASC)WITH (PAD_INDEX=OFF,STATISTICS_NORECOMPUTE=OFF,IGNORE_DUP_KEY=OFF, ALLOW_ROW_LOCKS=ON,ALLOW_PAGE_LOCKS=ON)ON[PRIMARY])ON[PRIMARY]TEXTIMAGE_ON[PRIMARY]truncate table t_testINSERT INTO T_Test(id,title,CONTENT)SELECT 1,'JAVA是面对对象的语言','是面对对象的语言'UNION ALLSELECT 2,'PHP学起来比JAVA要容易点','PHP学起来比JAVA要容易点'UNION ALL SELECT 3,'ASP比PHP用起来简单,PHP比JAVA用起来简单','ASP比PHP用起来简单,PHP比JAVA用起来简单'UNION ALLSELECT4,'FLEX做出来的界面好漂亮,而且可以和ASP,PHP,JAVA结合使用','FLEX做出来的界面好漂亮,而且可以和ASP,PHP,JAVA结合使用'UNION ALLSELECT 5,'ASP,PHP用来做网页都不错','ASP,PHP用来做网页都不错'INSERT INTO T_Test(id,title,CONTENT)SELECT 6,'JAVA是面对对象的语言','是面对对象的语言'UNION ALLSELECT 7,'PHP学起来比JAVA要容易点','PHP学起来比JAVA要容易点'UNION ALL SELECT 8,'ASP比PHP用起来简单,PHP比JAVA用起来简单','ASP比PHP用起来简单,PHP比JAVA用起来简单'UNION ALLSELECT9,'FLEX做出来的界面好漂亮,而且可以和ASP,PHP,JAVA结合使用','FLEX做出来的界面好漂亮,而且可以和ASP,PHP,JAVA结合使用'UNION ALLSELECT 10,'ASP,PHP用来做网页都不错','ASP,PHP语言用来做网页都不错'--检查数据库pubs是否支持全文索引,如果不支持if(select databaseproperty('test','isfulltextenabled'))=0beginprint'is disabled'--打开数据库全文索引的支持execute sp_fulltext_database'enable'print'done enabled'endelseprint'is enabled'-- 数据库关闭全文检索Exec sp_fulltext_database'disable'--本文来源于WEB开发网原文链接:--建立全文目录ft_testexecute sp_fulltext_catalog'ft_test','create'--为t_test表建立全文索引数据元,PK_t_test是主键所建立的唯一索引,可由sp_helpt_test得知sp_help't_test'execute sp_fulltext_table't_test','create','ft_test','PK_t_test'--设置全文索引列名exec sp_fulltext_column't_test','CONTENT','add'exec sp_fulltext_column't_test','title','add'--建立全文索引exec sp_fulltext_table't_test','activate'--填充全文索引目录exec sp_fulltext_catalog'ft_test','start_full'print CONVERT(varchar(12),getdate(), 114 )--检查全文目录填充情况WHILE FulltextCatalogProperty('ft_test','PopulateStatus')<>0 BEGIN --如果全文目录正处于填充状态,则等待秒后再检测一次WAITFOR DELAY'0:0:1'ENDprint CONVERT(varchar(12),getdate(), 114 )print'Fulltext ok'--停止全文目录的填充Exec sp_fulltext_catalog'ft_test','stop'/*查看数据库所有的全文目录*/select*from sys.fulltext_catalogs/* 查看所有用到全文索引的表*/exec sp_help_fulltext_tables--全文目录填充完成后,使用全文目录检索--使用contains和freetextselect title,content from t_testwhere contains(content,'"网页" and "漂亮"')goselect title,content from t_testwhere freetext(content,'语言网页漂亮')goselect title,content from t_testwhere freetext(title,'java 语言')goselect title,content from t_testwhere contains(title,'java')goselect title,content from t_testwhere freetext (*,'语言')--------------------------------------------------- --使用contains关键字进行全文索引--1.前缀搜索select*from t_test where contains(title,'"界*"')/*--注意这里的* 返回结果会是chinax chinay chinaname china--返回前缀是china的name--如果不用“”隔开那么系统会都城contains(name,'china*') 与china*匹配*/--2.使用派生词搜索select*from t_test where contains(*,'formsof(inflectional,"foot")')/* 出来结果可能是foot feet (所有动词不同形态名词单复数形式)*/--3.词加权搜索select*from t_test where contains(value,'ISABOUT(performanceweight(.8))')/*全值用-1的一个数字表示表示每个词的重要程度*/--一般情况下,在代码中处理全文索引,会用contains和freetext关键字就可以了。
SQL Server 全文索引查询T-SQL学习笔记之一(Full-text index)2009-12-11 11:29引言这段时间为了提高海量字符串数据的查询效率,我对字段添加了全文索引。
首先全文索引相对于传统的索引是有区别的,这是因为传统的索引主要是以首字母开始建立的索引,处理like 'keword%'这样的查询会很高效,但是如果查询时不限定首字母,而只是包含某个词,比如like '%keyword%'这样的查询,实际操作中无法使用传统索引加速查询效率,而只能一项一项比较了。
而全文索引正是提供了“包含”式查询机制,查询一个长字符串中是否包含给定关键词的功能,这无论是在搜索引擎或是网站的搜索平台都是很有用处的。
首先,推荐一本学习SQL Server全文索引的书籍,这本书详细的讲解了全文索引的方方面面,甚至还阐述许多设计搜索引擎的思想和方法。
书名是《Pro Full-Text Search in SQL Server 2008》,是Apress出版的。
这本书的内容是按章划分的,同时由浅入深,从一般的技巧到高级的技巧。
我这里就简单分享一下基本的全文查询方法,更多高级的技巧应该在实际应用中按需进行学习。
要实现全文查询,首先安装的SQL Server实例要支持全文查询服务,可以查看windows服务是否有全文索引服务。
如果没有,则要重新安装SQL Server并选择添加功能,将Full-Text功能选中,然后再安装或升级。
有了全文查询服务,还不能直接进行查询,需要先在想要建立全文索引的字段上建立一个全文索引。
方法是打开企业管理器,选择字段所在表格,然后点击右键,选择"Full-text inde”,然后选择"define Full-text index"就能进入设置面板。
需要注意的是,全文索引只能建立在Unique(唯一)字段上,并且每个表最多只能有一个全文索引字段,因此要慎重。
SQL Server2008中全文检索的实现1 引言随着计算机的普及和网络技术的发展,我厂的生产管理、数据查询、公文流转等大都实现了计算机管理,方便了信息交流与共享,提高了生产效率。
但是,目前针对散落在个人、单位电脑中的WORD文档、电子表格以及多媒体汇报(PPT)文档等还没有一套完整的管理系统,既造成了存储资源的浪费,又不利于资源的共享。
因此,需要一个文档信息管理系统,把这些分散的文档集中存储到数据库中,为用户提供一个统一的、可以多方式检索的平台,方便用户进行科学、高效地获取信息。
而对存储在数据库中的大量非结构化的文档数据进行查询时,通过普通的SQL语句是无法实现的(不能使用LIKE谓词来查询格式化的二进制数据);即使是非二进制的普通类型字段查询,对数百万行文本数据执行的LIKE 查询可能需要花费几分钟时间才能返回结果;但对同样的数据,全文索引查询只需要几秒或更少的时间。
因此要实现一个能够快速实现检索的文档管理平台,有必要应用全文检索技术。
2 全文索引简介全文索引是以文本数据为主要处理对象,提供根据数据资料的内容来实现的信息检索。
全文搜索通常用于基于Web的应用程序、文档管理系统以及自定义应用程序,以便对存储在数据库中的数据提供文本搜索功能。
Microsoft公司开发的SQL Server 2008是一款面向高端的数据库系统,它继承了SQL SERVER以前版本的一些强大的优势,界面更加友好。
它的全文索引功能配置简单、使用方便,为索引和查询数据库中存储的结构化和非结构化文本数据提供了可靠、快速而灵活的方法。
3 全文索引实现过程下面以多媒体信息管理平台为例,详细介绍一下全文索引的实现方法。
第一步,登陆SQL Server 2008服务器第二步,在SQL Server中建立一个使用全文索引的数据库dmtpt,要选中使用全文索引选项。
在该数据库中建立一个存储文档文件的表main_files。
第三步,在main_files表上点击右键,选择“定义全文索引”,进入全文索引向导对话框。
如何设置SQL Server 全文搜索在网站系统设置里配置动易系统的全文检索的时候,我们还必须在SQL服务器进行进一步的操作,才能真正的启用SQL数据库的全文检索。
但这里有个先决条件就是,如果你是租用的S QL空间,并且空间商已经启用了SQL服务器的全文检索及给你开通有设置的权限,或者,你拥有自己的SQL服务器,这样就可以设置SQL数据库的全文检索了。
下面以在自己电脑上设置SQL数据库的全文检索为例。
如果在安装SQL Server 时,已经安装了全文检索的,可以跳过这一步操作;如果在安装SQL 服务器时,没有设置安装全文检索功能的,可以采用再安装的方法:放入SQL Server安装光盘,在出现的安装界面点击安装按钮,在设置安装类型时,请看图示选择:当选中自定义方式时,下一步会出现组件选项,这时一定要把“全文检索”勾上,如下图:然后就可以点下一步进行默认安装。
安装完成后,就要可以使用全文检索功能了。
首先,打开企业管理器,然后,打开数据库,右键选中你的数据库,如下图所示:下一步:下面我们可以对动易系统的PE_Article表进行全文索引设置了,如下图:然后,回到此例的PE_Article这个表,右键点击完全填充,如下图:至此,此例中的PE_Article表的全文索引设置好总结:我们在对SQL Server上的某个数据库下的某个(些)数据表的进行全文检索设置后,再配合动易系统里的全文检索设置,就可以这个(些)表进行全文检索了。
在一个产品介绍网站中查询产品时,由于产品的介绍性文字可能会很长,如果使用对产品介绍字段使用like 进行模糊查询,性能肯定会是问题。
那么如何解决这个问题呢?第一个想法就是使用全文索引。
那么全文索引是什么、应该如何应用、在应用的过程中又应该注意哪些事情呢?这个POST作为学习全文检索的笔记。
1、是什么[摘录自SQL Server2000联机从书]全文索引为在字符串数据中进行复杂的词搜索提供有效支持。
Sql2008全文索引简明教程如果不存在此服务的,需要确认是否安装全文索引功能--检查数据库PS2是否支持全文索引,如果不支持 --则使用sp_fulltext_database 打开该功能if(select databaseproperty('PS2','isfulltexte nabled'))=0execute sp_fulltext_database 'en able'全文目录是用来存储全文索引的-J 20193^0 L J 两据犀关系图 I+I 一I 表 SOm 」同丈词(±1 口可骗程性s s ervi ce Broker" 曰立存$ ___________全文目录gTtsCi+i 」吩氏方案 田LJI 分N 全文非索引宝表 N 責金性二、为表定义全文索引、新建全文目录、开启 SQL Full-text Filter Daemon Launcher服务提醒:开始-> 管理工具-> 服务r 斬建苴直血* :H 1**相疔© ►■《痒7圍T 警喝團口二(FS4 J J*^OTu+于斬建衰00… 设计◎诰择前1000行⑴ 编辑前200 循写裳脚本対© 直看依赖关条S存储(A)定文全文家引®)■■启用全交索引⑷.选中需要操作的数据库,启用全文检索执行 SQL 语句,启用全文检索:Execute sp_fulltext_database 'enable'文住㈤ 堀辑砂 査昏© 査冏畑 顶目即 碉试⑴ 工旦⑵ gnix) tizt) 朝韵onSQTJDnP 育X 塔Tat orExecute st XulLtext database j enetle"l_ 出.ZQLGmru 10.S) 1GJ7 TIN IOSH04TOOD\AJjkiLiiili .id ) 0 一I 埶囁岸S I 」.赛、樹摘屋 Eh 」数瘫慣磐回 J 20ie_i f在需要全文检索的 数据表上点击右键-> 全文索引-> 定义全文索引2013_bS一i 数拥库关系图d 克四、点击下一步,按提示选择 1•确认下一步+d.bo. d.3 3 a [+ E+f+E EEIbo. li llo.王E国匡一ibc. dild.j ibo. i]d.bo. diibe. iiibc. Aillbo. i]2•选择唯一索引,通常是主键3•选择要建立的全文索引列,对于断字符的选择如果列存的是中文就选择chinese如果是英文就选择English4•选择索引更新方式,可以先自动更新,以后数据量大了可以设置添加全文索引的计划5•选择全文目录Oddness赤水市旅游车 赤水床狒车站五、全文索引的SQL 查询关键字 建立好全文索引后就可以使用 SQL 语句来查询了,主要用带三个关键字 CONTAINS FREETEXTCONTAINSTABL K FREETEXTTABLE 1. CONTAINS搜索单个词和短语的精确或模糊的匹配项, 要搜索的内容必须是个有 意义的词语,比如说 苹果” 建设厅”不能是一些没意义的词语, 比如 阿迪撒啊是”儿儿的”这样的词语即使LIKE 是能查询出来,但全文索引对这样没意义的词语可能没有建立索 引,查不出来SELECT FROMdbo.BusinessWHERECONTAINS (Addres 旅游') 实现功能:查询Business 表中Address 列包含 旅游”的行>essiD BusinesslypelD Busiiesslype Name MarneF*honeBusiness Scopemi 3宾馆©店赤水红城商劳宾馆 D852-29M7S9 42 円26会師0£53 28S6111详细查看: /zh -cn/Iibrary/ms187787.aspx 2. FREETEXT和CONTAIN 啖似,不同的是它会先把要查询的词语先进性分词然后 在查询匹配项select* from dbo.Bus in ess where freetext (Address,'带婴儿旅游')BosinessScone AddressURL QQPin^n赤水市齢车站咅http;//qghQswtiQ林市步行衔爱多爭婴儿游济http://addlyyyg赤水时车站妾hrttpz//26hs详细查看: /zh -cn/library/ms176078.aspx 3. CONTAINSTABLE 在查询方式上与 CONTAINS 几乎一样。
Sqlserver 全文检索功能浅解全文索引和全文检索是sql server 7.0的新增功能,它能够对数据中的字符类型列(如varchar、text等类型列)进行检索,并通过索引实现全文搜索查询。
sql server常规索引与全文检索相比,二者的区别如下:常规索引全文索引使用create index或约束定义创建通过删除或执行drop index语句删除使用全文索引存储过程创建和删除当插入、修改或删除数据时,sql server能够自动更新常规索引内容只能通过任务调度或执行存储过程来填充全文索引每个表可以建立多个常规索引,索引不能分组每个表只能有一个全文索引,同一个数据库中的多个全文索引可以组织为一个全文目录常规索引存储在数据库文件中全文索引存储在文件系统中为了支持全文索引操作,sql server 7.0新增了一些新存储过程和transact-sql语句,使用这些存储过程创建全文索引的SQL SERVER数据库全文索引的示例,以test数据库为例。
首先,介绍利用系统存储过程创建全文索引的具体步骤:1) 启动数据库的全文处理功能(sp_fulltext_database)2) 建立全文目录(sp_fulltext_catalog)3) 在全文目录中注册需要全文索引的表(sp_fulltext_table)4) 指出表中需要全文索引的列名(sp_fulltext_column)5) 为表创建全文索引(sp_fulltext_table)6) 填充全文目录(sp_fulltext_catalog)---------********示例********-------------说明:下面所用到的test为数据库名,dbo.T_FX_DRM_20为test数据库中的一张表,FX_D20_ID是表dbo.T_FX_DRM_20中的一个列名以对test数据库的表dbo.T_FX_DRM_20的FX_D20_ID列建立全文索引,之后使用索引查询FX_D20_ID列中包含有"*****"字符串的数据:在这之前,需要安装Microsoft Search 服务,启动SQL server全文搜索服务。
/*建立测试环境*/if object_id('tb')isnotnulldroptable tbgocreatetable tb(id intidentity(1,1),title varchar(200),detail varchar(1000),constraint pk_id primarykey(id)--在建立全文索引时需要使用)insertinto tbselect'火箭即将签下新秀射手','据悉,巴丁格与火箭队的合同谈判是于昨天完成的,巴丁格将得到与泰勒一样的合同。
此前媒体曝光泰勒的合同为期四年,总价值万美元,其中前两年为保障性合同。
巴丁格预计会在接下来几天内正式宣布签约加盟火箭。
'union allselect'韦弗被曝已与希腊豪门签约','据国际篮球网报道,前火箭队球员范-韦弗已经与希腊豪门奥林匹亚科斯队签订了合同。
韦弗得到一份为期两年,总价值万美元的合同。
'union allselect'马刺豪掷千金为对抗湖人','马刺队在今夏休赛期补充了几员大将,主教练格雷格-波波维奇日前在接受Yahoo!体育采访时透露,马刺队不惜缴纳奢侈税构建豪华阵容就是为了对抗湖人队,争取拿到第五个总冠军。
'union allselect'华莱士未曾想过离开汽车城','此前本-华莱士已经同意重返底特律活塞,并且以老将底薪和活塞签下一份年万美元的合同,而据《每日先驱报》专栏作家米克-麦格劳透露,这位当年叱咤NBA赛场的内线防守悍将甚至从来就没有考虑过要离开活塞队。
'union allselect'米勒竟好横刀夺爱追求人妻','对于那些没看过雷吉·米勒在步行者创造“米勒时间”的“后”们,应该怎么介绍这位前NBA球星呢?难道从前天洛杉矶马里布海滩上空那架飞机拉的横幅说起?恐怕没有哪位家长愿意这么做。
'union allselect'姚明:没把上海当投资项目乐得生意做了好人当了','“姚蜜”说:不缺广告效应的姚明收购濒临绝境的上海东方篮球俱乐部,说明他是真的想为曾经的母队做点事情。
'union allselect'火箭不敌奇才终结年纪录','此役姚麦组合状态糟糕,姚明投中得到分个篮板次盖帽,麦迪投中拿下分个篮板次助攻,两人联手竟不如得到分个篮板次助攻次盖帽的贾米森。
'-----第一步启用数据库的全文索引sp_fulltext_database enable--启用数据库的全文索引go--第二步:建立全文目录createfulltextcatalog tb_fulltextin path N'D:/Program Files/Microsoft SQLServer2005/MSSQL.1/MSSQL/FTData'withaccent_sensitivity=on--区分重音authorization dbo;--全文目录的所有者--第三步:建立全文索引createfulltextindexon tb(title,detail)keyindex pk_id--指定索引列,为了提高性能,最好使用聚集索引on tb_fulltextwithchange_trackingauto--在关联的表中修改了数据时,自动更新全文索引。
--第四步:查询示例:select*from tbwherecontains((title,detail),'火箭')查询的语法:1、搜索特定词:contains(detail,'姚明')2、搜索特定短语:用““将短语包含在双引号内,contains(detail,'" 姚明" or"火箭"')3、从多个列中搜索词和短语:contains((title,detail),'" 姚明" or "火箭"')4、搜索以指定文本开头的词或短语:contains(detail,'“姚明*“')如果文本和星号不包含在双引号内,则全文搜索会将星号看做是一个字符。
如果搜索的是短语,则该短语内的每个词都被看做是一个前缀。
contains(detail,'“姚明上海*“')则将返回第一个词以姚明开头第二个词以上海开头的结果5、搜索特定词的变形:contains(detail,'formsof(inflectional,ride)')将返回表中含有ride,rides,riding,ridden的行6、搜索与另一个词或短语临近的词或者短语:contains(detail,'姚明 near 上海')7、使用加权值的词或短语:contains(description,’isabout(performanceweight(.8),comfortable weight(.4),smooth weight(.2))’)Weight为每个词或短语指定一个0.0~1.0之间的加权值8、使用多个搜索条件:contains(detail,'”姚明” or “上海”')contains(detail,'”姚明” and “上海”')contains(detail,'”姚明” and not“上海”')9、在contains中还可以使用变量10、搜索同义词contains(title,'formsof(thesaurus,上)')在上例中,执行select*from tbwhere contains(title,'上海')结果:id title detail6 姚明:没把上海当投资项目乐得生意做了好人当了“姚蜜”说:不缺广告效应的姚明收购濒临绝境的上海东方篮球俱乐部,说明他是真的想为曾经的母队做点事情。
但是执行:select*from tbwhere contains(title,'上')结果为空集。
原因:在进行全文索引查询的时候,“上”为简体中文的干扰词,即查询的时候会忽略掉;另外建立全文索引的时候一般会以一个词组作为一个索引项,而不是单个词。
如果还要进行此查询,想查出第一个查询的结果,可以修改全文索引的同义词库。
干扰词与同义词文件存在的路径:D:/Program Files/Microsoft SQL Server2005/MSSQL.1/MSSQL/FTData,每一个文件名应该很好辨别。
简单介绍下修改同义词库的方法:1、使用记事本打开tschs.xml,这是简体中文的同义词库view plain1.<XML ID="Microsoft Search Thesaurus">2.3.<!-- Commented out4.5. <thesaurus xmlns="x-schema:tsSchema.xml">6.7. <diacritics_sensitive>0</diacritics_sensitive>8.9. <expansion>10.11. <sub>Internet Explorer</sub>12.13. <sub>IE</sub>14.15. <sub>IE5</sub>16.17. </expansion>18.19. <replacement>20.21. <pat>NT5</pat>22.23. <pat>W2K</pat>24.25. <sub>Windows 2000</sub>26.27. </replacement>28.29. <expansion>30.31. <sub>run</sub>32.33. <sub>jog</sub>34.35. </expansion>36.37. </thesaurus>38.39.-->40.41.</XML>解释:<replacement><pat>NT5</pat><pat>W2K</pat><sub>Windows 2000</sub></replacement>为替代词,即查询W2K时,会自动替换为Windows 2000进行查询<expansion><sub>run</sub><sub>jog</sub></expansion>为同义词库,即查询run的时候也会查询jog在本例中添加:<expansion><sub>上</sub><sub>上海</sub></expansion>2、去掉开始于末尾的注释行:<!-- Commented out-->3、最终形成的结果为:view plain1.<XML ID="Microsoft Search Thesaurus">2.3. <thesaurus xmlns="x-schema:tsSchema.xml">4.5. <diacritics_sensitive>0</diacritics_sensitive>6.7. <expansion>8.9. <sub>Internet Explorer</sub>10.11. <sub>IE</sub>12.13. <sub>IE5</sub>14.15. </expansion>16.17. <replacement>18.19. <pat>NT5</pat>20.21. <pat>W2K</pat>22.23. <sub>Windows 2000</sub>24.25. </replacement>26.27. <expansion>28.29. <sub>run</sub>30.31. <sub>jog</sub>32.33. </expansion>34.35. <expansion>36.37. <sub>上</sub>38.39. <sub>上海</sub>40.41. </expansion>42.43. </thesaurus>44.45.</XML>4、执行查询语句:select*from tbwhere contains(title,'formsof(thesaurus,上)')即可看到查询结果与contains(title,'上海')相同重点:修改以上内容以后需要重启服务,否则无法执行。