化学信息学课件
- 格式:doc
- 大小:260.00 KB
- 文档页数:27
化学信息学总结1.1.化学信息学的定义、起源和基本内容化学信息学是近几年发展起来的一个新的化学分支,它利用计算机技术和计算机网络技术,对化学信息进行表示、管理、分析、模拟和传播,以实现化学信息的提取、转化与共享,揭示化学信息的实质与内在联系,促进化学学科的知识创新。
“化学信息学”的诞生离不开计算机科学和Internet的发展,随着计算机科学的发展,化学物质结构的记录与检索需要建立独特的记录与处理系统,同时,计算机在化学研究中的应用也越来越多。
因此,诞生了“计算机化学”。
随着Internert 的发展,诞生了化学信息学。
化学信息的基本内容包括两部分:化学物质的化学信息和媒体形式的化学信息。
其中化学物质的化学信息由化学物质的结构信息、测量结果、化学物质间的化学反应、相互作用与相互识别等组成,媒体形式的化学信息包括图书、杂志、音像资料等。
1.2. MATLAB语言Matlab语言是高效率的科学工程计算语言,是“演算纸式的”科学工程算法语言。
它是Mathwork于1967年推出的“Matrix Laboratory”软件包,并不断更新和扩充。
MATLAB语言具有编程效率高、用户使用方便、扩充能力强、语句简单、内涵丰富、高效方便的矩阵和数组运算、方便的绘图功能、容易掌握等特点。
1.3交实验设计方法1.3.1正交实验设计正交试验法是指用正交表安排多因素试验与分析试验结果的方法,它具有均衡分散性和整齐可比性,这两种特性在数学上称为正交性,故利用这些特性的试验设计方法,就称为正交试验法。
正交试验法的特点有:(1). 试验点的分布是均衡的。
均衡分散性是用正交表安排试验的最重要的特点之一。
(2). 各因素水平出现的次数相同。
因素各水平在试验中变化有规律,试验结果用平均值就能方便地进行比较,这种特性称为整齐可比性。
选择正交表的原则:(1).能容纳所研究的因素数和水平数。
(2).选用试验次数最少的正交表。
1.3.2均匀实验设计方法不考虑整齐可比,而让试验点在试验范围内充分均衡分散,则可以从全面试验中挑选更少的试验点作为代表进行试验,而仍能得到反映分析体系主要特征的试验结果。
第一章化学信息概论一、化学信息学的产生和发展信息:实物的存在方式和运动状态的记录,它精确地描述物体或事件,并且可借助于一定的物质载体进行存储和传播。
化学学科的重要性化学信息量的快速增长化学信息学:是应用信息学方法解决化学问题的学科。
(化学信息学是信息科学与化学的交叉学科。
)(利用数学、统计学与计算机科学的理论、方法和网络技术作为手段,研究化学信息的获取、表示、管理、传播、分析、加工和应用,在此基础上进行知识创新,促进化学学科的发展。
)二、化学信息学的研究领域应用现代信息技术构建信息处理系统,处理长期积累的大量化学信息资源,帮助化学家组织、分析和理解已知的科学数据,正确地预测化学物质的性质,开发新化合物、材料和方法。
应用计算机科学方法或信息学解决化学问题,对化学信息进行有效的存储、操作和处理,使化学信息合理地提升为化学知识。
研究内容:化学、化工文献学;化学知识体系的计算机表示、管理与网络传输;化学图形学;化学信息的解析与处理;化学知识的计算机推演;化学教育与教学的现代技术与远程信息资源。
三、信息资源检索的意义与作用⏹• 启迪创新:科研工作具有继承和创新两重性,要求科研人员在探索未知进行创新之前,应该尽可能地继承和利用与之相关的信息。
⏹• 拓宽视野:21世纪信息与知识的积累日新月异,出现了大量的边缘科学和交叉科学。
面对知识频繁更新的世界,需要接受终身教育,在不断的教育中更新知识,适应环境的变化。
⏹• 培养能力:现代教育不单纯是知识的传授,更重要是要大力进行各种能力的培养,其中包括自学能力、思维能力、研究能力、表达能力、创新能力、终生教育能力、组织管理能力和收集处理信息的能力。
⏹• 提高素质:信息素质是信息社会中实现对知识的探索和发现的综合能力,它是进入信息社会赖以生存的通行证。
四、化学信息学的课程内容化学信息的产生和获取(重点)利用检索工具通过实验方法... …化学信息的表达、存储和管理化学运筹学数据整理可视化数据库管理技术... ...化学信息的加工和处理化学计量学化学软件目的是获取更多的信息化学信息的深化计算机模拟设计化学结构的可视化以图形的方式对化学信息进行描述1.2 电子信息和数据库一、电子信息指通过计算机等设备以数字信号传递的数字信息资源组成的数据库。
1、联机信息资源,如:Dialog, STN, OCLC数据库⏹2、光盘信息资源,包括单机版、网络版、联机版⏹3、Internet网络信息资源二、数据库数据库是以特定方式合理地组织相互关联的数据集合。
(一)数据库的结构⏹1、记录型文献数据结构常用的字段:标题、作者、地址、期刊名、学科、文件类型、语种和摘要。
如表1-1(p7)⏹2、记录的排序和索引(1)顺排文档:按记录号顺序排列;(2)倒排文档:各个记录按照某一字段的值进行排列。
1.3 信息检索的方法和步骤二、信息检索的评价1、评价指标:查全率、查准率、漏检率、误检率、响应时间、用户负担、输出形式等。
2、查全率和查准率(1)查全率(R):检索出的相关信息量(w)与该系统信息库中存储的相关信息量(x)的比率称为查全率,R=w/x ×100 % 。
(2)查准率(P):检出的相关信息量(w)与检出信息总量(m)的比率称为查准率,P= w/m×100% 。
两者之间存在互逆关系,即查全率高时,查准率较低,反之亦然。
(3)漏检率(O):O = 1 – R = 1- w/x ×100 % 。
(4)误检率(N):N = 1 - P = 1-w/m ×100 % 。
⏹如果一个检索系统中与某一课题相关的信息共250 条。
检索操作后,实际检出了400条信息,其中相关信息为200条,此次检索效率可计算为:R = [200 /250] ×100 %=80% O = 1-80% = 20%P = [200/400] ×100%=50% N = 1-50%= 50%⏹2、位置检索:⏹With (W、nW),表示算符两侧的检索词按此前后衔接的顺序排列,词序不可颠倒。
⏹Near (N、nN)表示算符两侧的检索词必须紧密相连,两词词序可变。
⏹Subfield (S )表示算符两侧的检索词必须同时出现在文献记录的同一子字段(句子、短语)。
⏹Field(F)表示算符两侧的检索词必须同时出现在同一个字段中。
⏹Citation(C)表示算符两侧的检索词必须同时出现在一条文献的记录中。
⏹Link(L)表示算符两侧的检索词之间有一定的从属关系。
⏹4、限词检索基本检索字段:题名、文摘、主题词、标识词辅助检索字段:作者、语种、出版年代、期刊名称和文献类型。
基本检索字段主要有题名(TI)、文摘(AB)、主题词(DE)和标识词(ID),适用于各种数据库。
辅助检索字段主要有作者(AU)、语种(LA)、出版年代(PY)、期刊名称(JN)和文献类型(DT)等字段。
一般说来,数据库的提供的字段越多,其检索方式就越多,可以使用多字段构建复杂的检索表达式,进行高级检索。
四、信息检索步骤实施检索操作,获取检索信息;评估检索结果。
为了减少滥检、漏检和缺检,可进行检索策略的调整,主要分为缩检和扩检二种。
缩检主要方法有:主题细化;选择更专指的检索词;运用逻辑算符AND 、NOT;运用位置算符WITH 、NEAR;减少字段检索;对检索结果进行二次检索。
扩检主要方法有:对己确定的检索词进行其同义词、同义的相关词、缩写和全称检索;利用数据库提供的词表输入规范词;使用运算符OR 等。
数据库的选择⏹ 1. 数据库的类型。
例如,书目数据库、事实数据库结构数据库;文摘数据库或全文数据库。
⏹ 2. 数据库所收集的数据内容所涵盖的学科领域和收录范围。
⏹ 3. 数据库的现状,包括数据库收录的文件类型、据量、存储年限、更新周期、语种、媒体介质和辅助工具。
⏹ 4. 数据库的检索质量、权威性和检索速度。
⏹ 5. 数据库提供的系统功能和检索方式。
⏹ 6. 数据库的使用权和检索费用。
原文信息的获取⏹全文链接服务:有的数据库系统提供了全文链接服务,例如Web of Science、Beilstein/Gmelin。
(要有使用权)⏹电子期刊:可根据检索到的文献信息(如出版商和期刊名),链接出版商和电子期刊网站,下载文献的原文的PDF文件。
(要有使用权)⏹印刷品原文:查找所在图书馆的馆藏,要获取印刷品原文,进行复印。
(要有订阅)⏹馆际互借服务:许多图书馆开设了此项服务。
⏹原文传递服务:利用各种通信手段、从各种文献服务中心购买文献信息。
(付费)⏹向作者索取原文:根据检索到的文献信息(作者姓名和地址),用户可直接发信或发送电子邮件向作者索取原文可使用多种方法取得作者的电子邮件地址。
(免费)第二章印刷类化学文献信息2.1 图书分类法简介一、图书馆的重要地位和作用图书馆在网络环境下受到了相当大的冲击和挑战,但还能发挥其独特而无以替代的作用。
图书馆可推动和促进知识传播、教育普及、学术研究与交流等活动,它也要与信息产业中的其他机构协同合作,以求得更加长远的发展前景。
二、图书馆图书的分类系统国际十进制分类法;中国图书馆图书分类法介绍几种国内外各大图书馆广泛应用的图书分类系统一、杜威十进位分类法,二、国际十进位分类法,三、美国国会图书分类法,四、中国科学院图书分类法,五、中国图书馆图书分类法。
一、中国科学院图书分类法根据我国的具体情况和科技发展的需要而制定的分类法,1958年开始使用,并几经修订形成目前的分类体系。
分类表分为五大部分,即00 马列主义、毛泽东思想;10 哲学;20 社会科学;50 -89自然科学90 综合性图书二、中国图书馆图书分类法1973年北京图书馆联合全国有关图书馆共同编制了《中国图书馆图书分类法》(简称《中图法》),1999年第四版,目前已为我国许多图书馆和情报单位采用。
《中图法》是以科学分类为基础,结合图书文献的特点进行分类的。
将人类知识分为五大部分,22大类。
见表。
前面所讲的各类书籍的编目称为分类号码,馆藏的各种图书除编上分类号码外还在分类号码后面或下面还跟随一个由英文字母或数学组成的号码,称为书次号或作者号,这个号码与作者的名字有关,图书馆也有一套编号规则。
分类号再加上作者号合称为索书号(Call number)。
借书时只要查到并写清楚这个号码,图书馆工作人员就会很快地把书找到。
图书馆索书号❖0622.2-----中图号00----排架号可通过计算机索引查到索书号附3 文献标识码一、什么是文献标识码文献标识码就是用于标示文献正文内容类型的代码。
为便于文献的统计和期刊评价,确定文献的检索范围,提高检索结果的适用性,每一论文作者在撰写公开发表的论文或投稿时,都应根据“规范”所设的5种内容分类文献标识码,确定自己论文的分类项,并在中图分类号项后标注文献标识码。
这5种文献标识码所指代的文献内容的基本类型如下:A——理论与应用研究学术论文(包括综述报告)B——实用性技术成果报告(科技)、理论学习与社会实践总结(社科)C——业务指导与技术管理性文章(包括领导讲话、特约评论等)D——一般动态性信息(通讯、报道、会议活动、专访等)E——文件、资料(包括历史资料、统计资料、机构、人物、书刊、知识介绍等)2.4 化学文摘(Chemical Abstracts)名称(CA,Chemical Abstract)内容:以化学化工为主,涉及生物、医学、轻工、冶金、物理等领域,最常用的检索工具.出版情况:周刊,两卷/每年,26期/卷(1967-)特点:(1)摘录广泛,收录136 个国家56 种文字出版的14,000 多种期刊,包括期刊、图书、学位论文、科技报告、会议论文、专利等,占总文献98 %(2)出版迅速(3)索引完备❖组成:CA文摘和CA索引❖CA文摘的内容以报道性为主,其内容包括研究的目的和范围、新的化学反应、化合物、材料、工艺、操作、设备、性质机器理论,新知识的应用,以及研究结果和作者的判断、结论等。
CA索引介绍(一)主题索引(Subject Index )(1)1907-1915年初级阶段(2)1916-1966年发展阶段(3)1967-1971年成熟阶段(4)-1972-至今分成化学物质索引和普通主题索引出现索引指南作为辅助工具。
分子式索引(Formula Index)按分子式符号的英文字顺序排列,相同分子式下又按化学物质名称的字顺序排列。
分子式按Hill 系统排列.含碳化合物碳在前、氢在后,其他按字序;普通主题索引的主题词按学科内容分58各大类,排列成等级表,用点数表示主题级别,其格式:54. TECHNOLOGICAL PROCESSES ANDPRODUCTS (大类名)Environmental pollution(一级主题)• Air pollution• Wastes (二级主题)•• Waste gases••• Exhaust gases•• Waste solid (三级主题)••• Dust (四级主题)登记号索引(Registery Number Index)化学文摘中化学成分、结构及化学键性质确定的每一种化学物质都编一个登记号。