当前位置:文档之家› 信息可用性基础理论与关键技术研究

信息可用性基础理论与关键技术研究

信息可用性基础理论与关键技术研究
信息可用性基础理论与关键技术研究

项目名称:海量信息可用性基础理论与关键技术研

首席科学家:李建中哈尔滨工业大学

起止年限:2012.1-2016.8

依托部门:信息产业部

一、关键科学问题及研究内容

2.1 关键科学问题

为了适应海量信息管理基础设施建设的需要,针对国内外海量信息可用性管理的研究现状和发展趋势,本项目将围绕多种类型(不仅仅是关系数据库中存储的关系型)和以多种方式存储(不仅仅是集中式存储)的海量信息,以信息一致性、精确性、完整性、时效性和实体同一性为核心,针对前面提出的五大挑战,以保障信息可用性以及源于信息的知识的可用性为目标,拟解决“量质融合管理”、“劣质容忍原理”、“深度演化机理”三个关键科学问题,创建一套完整的海量信息可用性理论、方法学和技术体系。下边定义拟解决的三个科学问题。

1. 量质融合管理

量质融合管理是指数据、信息和知识三个层面上的量与质的融合管理机制。现有的海量信息基础设施只关注信息的规模、系统的处理能力和可扩展性,重在“量”的管理,忽视了信息“质量”(简称“质”)的管理。目前,劣质信息普遍存在,已经在实际应用中产生了严重后果,造成了巨大损失。信息质量的管理已经成为目前的巨大挑战问题。为此,我们必须研究信息“质”的管理问题,将信息管理从“量”的管理拓展到“质”的管理,最终实现“量”与“质”的融合管理。信息来源于数据,知识来源于信息。数据的质量决定了信息的可用性,信息的可用性影响知识的可用性。为了彻底实现量质融合管理,我们必须在数据、信息、知识三个层面研究量质融合管理问题,提出完整的理论体系,解决关键技术问题。

2. 劣质容忍原理

劣质容忍原理是指在包含错误的信息和知识上完成正确或近似计算和推理的原理。数据、信息和知识的错误几乎无处不在已成为不争的事实。“劣质容忍”是指在信息和知识存在错误的情况下,如何完成正确或相对正确的计算。为了实现劣质容忍,我们必须完成如下两个挑战性任务:第一,自动发现并修正信息和知识的错误,将可校正的劣质信息和知识修复为完全正确的可用信息和知识,支持正确的计算和推理。第二,很多信息和知识的错误无法完全修复,经过部分错误的修复后,这些信息成为部分正确的弱可用信息和知识。在这种情况下,我们必须解决如何在弱可用信息和知识上完成满足应用精度要求的近似计算和近似推理,取得满足用户质量要求的相对正确结果。

3. 深度演化机理

深度演化机理是指信息和知识的多维度、全方位演化的内在机理。信息不是一成不变的,它会随着时间和物理世界的变化而发生演化。源于信息的知识会随着信息的演化而进化。现有海量信息和知识管理在演化方面只关注完全正确的信息和知识,并仅限于探索随时间演化的过程。实际应用要求我们探索信息和知识的深度演化机理,即以可用性为核心的多维度、全方位、趋利、竞合演化机理。在信息的深度演化方面,我们需要研究多源信息在时间、空间、形态、粒度等多个维度上正向协同的演化机理。在知识的深度演化方面,我们需要研究由原始物

理数据到有简单语义的信息、再到有丰富语义的知识的纵向演化机理以及知识被不断发现、聚合、更新的横向演化机理。

2.2 主要研究内容

本项目将围绕“量质融合管理”、“劣质容忍原理”、“深度演化机理”这三个关键科学问题,针对各种类型和不同形式存储的海量信息,以一致性、精确性、完整性、时效性和实体同一性为核心,沿着“数据→信息→知识→应用”的路线,深入系统地研究多模态海量数据高质量获取与整合的理论和技术、海量信息可用性与量质融合管理的基础理论、海量信息错误自动检测与修复的理论和技术、海量弱可用信息上的近似计算的理论和算法、海量弱可用信息上知识发现、演化与服务的理论和技术,提出完整的海量信息可用性的基础理论和关键技术,并将基础研究成果转换为有效的实用技术和算法,研制确保可用性的海量信息与知识的量质融合管理原型系统,以中国数字海洋(国务院908专项)和社保与经济普查信息为对象,建立复杂物理信息和管理信息两类主要信息的可用性保障应用示范,验证基础研究结果的可用性和有效性。本项目的具体研究内容如下。

2.2.1高质量多源多模态海量数据的获取与整合的理论与方法研究

由于信息源于数据,本课题将在数据层面围绕数据的“量质融合管理”、“劣质容忍原理”与“深度演化机理”这三个科学问题,针对数据的多源性和多模态性,以最大化数据质量为目标,以多模态数据融合计算为核心,研究高质量多源多模态海量数据的获取与整合的理论与方法,实现高质量的数据到信息的整合,在信息和知识的源头设臵质量关,继而研究信息演化的机理。具体研究内容如下。

1. 高质量多源多模态数据获取的多模态数据融合计算的理论与方法

首先,研究数据源的质量评估模型理论,包括物理信息系统等多数据源的综合质量评估、高质量数据源的选择方法等。

然后,研究多模态数据的质量评估模型理论,包括一致性、精确性、完整性、时效性、实体同一性等单指标质量评估模型以及多指标质量评估模型。

最后,针对各种模态数据的特点,研究高质量多模态数据获取的多模态数据融合计算方法,包括支持物理世界高精度重现的高质量多模态数据采集的理论与技术、多模态数据的保质转换模型及算法、多模态数据真实性验证的理论与技术、多模态数据错误校验技术、缺失值估计的理论与技术等。

2. 多源数据实体识别的多模态数据融合计算的理论和算法

首先,研究来自物理信息系统等多数据源的多模态数据的实体识别模型,包括多模态数据的关联模型、多源数据的关联模型;

然后,研究多源多模态数据实体自动识别的多模态数据融合计算的理论和算法,包括:物理信息系统中的实体特征表达和建模、针对多模态数据实体识别的高效、实时、分布式多模态融合计算的算法等;

最后,研究多模态数据实体识别效果的评估理论和算法,包括:实体识别效果评估模型、评估测试算法。

3. 数据到信息整合的多模态数据融合计算的理论和算法

首先,研究多源多模态信息集成模型,包括:支持物理信息系统复杂语义的多层整合模型,以及信息整合的可用性模型和评价方法等;

然后,研究多模态数据融合计算的理论与算法,包括:动态多模态数据智能转换模型、多模态信息融合的智能模式抽取和模式匹配算法、自动的容错映射和转换模型、支持动静态数据结合的多模态数据融合计算方法等;

最后,研究融合信息的正确性验证和保证的理论和方法,包括:信息整合的正确性模型和评价方法、多维度多目标清洗技术、分布式近似推演技术和延迟乱序纠正技术等。

4. 可用性驱动的海量信息演化机理

以最大化海量信息可用性为目标,研究海量信息的演化过程,建立海量信息演化的世系模型及追踪技术,主要包括时空、多粒度、多路径和不确定的海量信息演化的理论模型;演化模式的正向性评估模型与方法;演化的可逆性判定与近似求解算法;演化描述的复杂性理论和低复杂性演化描述方法;网络化、多粒度、概率化的世系追踪技术。

5. 研制多模态海量数据获取与整合原型系统

把上述基础理论研究成果转化为高效实用的算法和技术,研制一个多模态海量数据获取与整合原型系统,验证基础研究成果的可用性和有效性。

2.2.2海量信息可用性与量质融合管理的理论基础研究

围绕信息的“量质融合管理”、“劣质容忍原理”与“深度演化机理”这三个科学问题,以各种类型和不同形式存储的海量信息为对象,针对海量信息可用性与量质融合管理的关键问题,建立统一的逻辑框架,提出完整的理论体系,为海量信息可用性管理奠定坚实的理论基础。具体研究内容如下。

1. 海量信息可用性的理论模型

首先,以各种类型和不同形式存储的海量信息为对象,分别研究海量信息的一致性、精确性、完整性、时效性、实体同一性这五个特性的理论模型,分别解决这五个特性的判定问题及其计算复杂性理论。

然后,研究海量信息一致性、精确性、完整性、时效性、实体同一性的理论模型之间的交互影响。

最后,基于五种理论模型及其交互关系,在统一的逻辑框架下,综合这五种理论模型,建立海量信息的综合可用性理论模型,研究海量信息可用性判定问题的计算复杂性理论及其求解算法。

2. 海量信息可用性公理系统与推理机制

首先,根据海量信息的可用性理论模型,以各种类型和不同形式存储的海量信息为对象,以信息一致性、精确性、完整性、时效性、实体同一性为核心,研究海量信息可用性语义的表示机理,建立海量信息可用性公理系统,分析其描述语言的表达能力,研究公理系统的一致性、完备性、独立性,并研究信息可用性

公理存在性问题和相关计算问题(如最大一致性规则子集求解问题)的计算复杂性和有效算法。

然后,研究从各类海量信息中自动发掘可用性公理问题的可计算性与计算复杂性,并设计从各类海量信息中自动发掘公理的有效算法。

最后,建立海量信息可用性推理机制,研究海量信息可用性自动推理问题的可计算性与计算复杂性,并设计有效的自动推理算法。

3. 海量信息可用性评估理论

首先,以各种类型和不同形式存储的海量信息为对象,分别建立海量信息的一致性、精确性、完整性、时效性、实体同一性这五个特性的单指标定量评估理论。

然后,研究上述五种单指标评估理论之间的相互影响,提出海量信息可用性的综合定量评估理论。

最后,研究海量信息可用性定量评估问题的可计算性理论与计算复杂性理论,并设计有效的海量信息可用性定量评估算法。

4. 海量信息量质融合管理的理论和算法

首先,研究支持海量信息“质”管理的信息模型和理论,包括信息的逻辑结构、信息的运算系统、信息的语义约束理论。

然后,研究信息“质”管理的模型和理论与传统信息管理模型和理论的融合问题,建立海量信息量质融合管理的模型和理论。

最后,研究海量信息量质融合管理关键计算问题的可计算性和计算复杂性理论,并设计求解这些问题的有效算法,包括信息逻辑结构的物理实现问题、信息运算系统的实现算法问题、数据定义与操纵语言的优化处理算法问题等。

5. 研制原型系统

基于上述理论研究成果,研制信息可用性公理自动发掘和自动推理原型系统、海量信息可用性自动评估原型系统、海量信息量质融合管理原型系统,验证基础研究成果的可用性和有效性。

2.2.3海量信息错误自动检测与修复的理论和技术研究

围绕海量信息的“量质融合管理”和“劣质容忍原理”这两个科学问题,针对各种类型和不同形式存储的海量信息,以海量信息可用性与量质融合管理的理论为基础,在高质量多模态数据获取与整合的前提下,研究海量信息错误自动检测和修复的可计算性理论和计算复杂性理论、信息错误自动检测和修复方法的可信性理论、高效海量信息错误自动检测与修复的算法。具体研究内容如下:

1. 海量信息错误自动检测和修复的可计算性理论

首先,以各种类型和不同形式存储的海量信息为对象,分别确定信息的一致性错误、精确性错误、完整性错误、时效性错误及实体同一性错误(以下统称这些错误为个性错误)自动检测和修复的关键问题,研究每个关键问题可解的充分

必要条件,建立每个关键问题的资源需求模型,判定每个关键问题的可计算性。

然后,以各种类型和不同形式存储的海量信息为对象,确定多种个性错误同时发生的错误(以下简称综合错误)的自动检测和修复的关键问题,研究每个关键问题可解的充分必要条件,判定每个关键问题的可计算性。

2. 海量信息错误自动检测和修复的计算复杂性理论

首先,以各种类型和不同形式存储的海量信息为对象,分别针对每类信息的各种个性错误自动检测和修复的关键问题,研究每个关键问题的计算复杂性,包括所属复杂性类及计算复杂性下界等,为设计个性错误检测和修复关键问题的高效求解算法奠定基础。

然后,以各种类型和不同形式存储的海量信息为对象,研究每类信息综合错误自动检测和修复的关键问题的计算复杂性,包括所属复杂性类及计算复杂性下界等,为设计综合错误检测和修复关键问题的高效优化求解算法奠定基础。

3. 海量信息错误自动检测和修复的可信性理论

首先,以各种类型和不同形式存储的海量信息为对象,分别针对每类信息的各种个性错误,建立描述个性错误检测与修复结果的可信性模型,研究个性错误检测与修复结果可信性的定量评估方法,进而建立信息个性错误自动检测与修复方法的可信性评估模型,给出设计可信的个性错误检测与修复方法的基本准则。

然后,以各种类型和不同形式存储的海量信息为对象,分别针对每类信息的综合错误,建立描述综合错误检测与修复结果的可信性模型,研究综合错误检测与修复结果可信性的定量评估方法,进而建立综合信息错误自动检测与修复方法的可信性评估模型,给出设计可信的综合错误检测与修复方法的基本准则。

4. 海量信息错误自动检测和修复算法

首先,以各种类型和不同形式存储的海量信息为对象,分别针对每类信息的各种个性错误自动检测和修复的关键问题,设计有效的精确或近似求解算法,并分析其计算精度、时间复杂性、空间复杂性和相对于复杂性界限和精度界限的优化性。此外,还研究海量信息个性错误的弹性修复方法,探索个性错误监测和修复结果的质量与修复成本的关系,设计优化的个性错误检测和修复算法。

然后,以各种类型和不同形式存储的海量信息为对象,分别针对每类信息的综合错误自动检测和修复的关键问题,设计有效的精确和近似求解算法,并分析其精度、时间复杂性、空间复杂性和优化性,并探索综合错误监测和修复结果的质量与修复成本的关系,设计优化的综合错误检测和修复的算法。

5. 研制海量信息错误自动检测和修复原型系统

把上述基础理论研究成果转化为高效实用的算法和技术,研制一个海量信息错误自动检测和修复原型系统,验证基础研究成果的可用性和有效性。

2.2.4 海量弱可用信息近似计算的理论和算法研究

当海量信息中的错误不能彻底修复时,这些信息则成为弱可用信息。针对这种情况,我们将围绕信息的“劣质容忍原理”这个科学问题,以各种类型和不同形

式存储的弱可用海量信息为对象,研究直接在弱可用信息上进行近似计算的理论和算法,包括弱可用信息近似计算的可行性理论、弱可用信息上近似计算问题的计算复杂性理论、弱可用信息上近似计算结果的质量评估理论、弱可用信息近似计算的算法。

1. 弱可用信息近似计算的可行性理论

以各种类型和不同形式存储的弱可用海量信息为对象,分别针对各类海量弱可用信息上的各种计算问题(如各类查询、分析、挖掘问题)和给定的质量要求,研究弱可用信息上满足给定质量要求的计算问题的近似解存在性判定的理论和方法。当计算问题的近似解存在时,研究问题的可计算性。

2. 弱可用信息近似计算问题的计算复杂性理论

首先,以可用性为复杂性测度,建立弱可用信息计算的以可用性为测度的新计算复杂性模型,研究这个复杂性模型与传统计算复杂性模型的关系,探索最小化可用性需求、时间复杂性和空间复杂性的多目标优化问题的理论。

然后,以各种类型和不同形式存储的弱可用海量信息为对象,分别针对各类海量弱可用信息,研究各种海量弱可用信息计算问题(如各类查询、分析、挖掘问题)的计算复杂性,特别是以可用性为测度的计算复杂性,包括所属复杂性类、计算复杂性下界、精度界限以及近似计算结果精度与计算复杂性的相关性。

3. 弱可用信息近似计算结果的质量评估理论

以各种类型和不同形式存储的弱可用海量信息为对象,分别针对各类海量弱可用信息,建立近似计算结果的质量评测指标,创建近似计算结果质量评估的理论和方法。

4. 弱可用信息近似计算的算法

首先,以各种类型和不同形式存储的弱可用海量信息为对象,以最小化可用性需求、时间复杂性和空间复杂性为目标,分别针对各类海量弱可用信息,设计求解各类问题(如各类查询、分析、挖掘问题)的近似计算的算法,包括不一致海量信息近似计算的算法、不精确海量信息近似计算的算法、不完整海量信息近似计算的算法、弱时效性海量信息近似计算的算法、实体不同一的海量信息近似计算的算法,探索弱可用信息近似计算算法的设计原理。

然后,以各种类型和不同形式存储的弱可用海量信息为对象,以最小化可用性需求、时间复杂性和空间复杂性为目标,研究同时存在多种类型错误的海量弱可用信息近似计算的算法,探索这类算法的设计原理。

5. 研制弱可用信息近似计算原型系统

基于上述基础理论研究成果,研制一个弱可用信息近似计算原型系统,验证基础研究成果的可用性和有效性。

2.2.5 海量弱可用信息上知识发现、演化与服务的理论和技术研究

海量信息的可用性问题必然导致源于信息的知识的可用性问题。围绕知识的“量质融合管理”、“劣质容忍原理”和“深度演化机理”这三个科学问题,针对弱

可用信息,研究知识可用性评估理论与方法、弱可用信息上知识发现的信息完整性理论、弱可用信息上的知识发现算法、知识错误自动检测与修复的理论和方法、弱可用知识上的近似推理的理论与算法、源于弱可用信息的知识深度演化机理。具体研究内容如下:

1. 知识可用性评估理论与方法

知识的可用性受以下四个因素的影响:信息可用性、知识发现过程、知识演化过程、应用需求。针对这四个影响因素,研究知识可用性的评估理论和方法,包括知识可用性模型和度量标准、知识可用性的评估机制、知识可用性溯源管理的理论和技术。

2. 弱可用信息上知识发现的理论和算法

首先,研究各种知识发现问题所需要的最小信息集和最小可用性,建立面向每类知识发现问题的信息完整性理论,判定能否在给定的海量弱可用信息中求解给定的知识发现问题,确定弱可用信息上知识发现的可计算性和计算复杂性。

然后,研究弱可用信息上知识发现的理论体系,提出适用于弱可用信息的知识发现方法,设计弱可用信息上的高效知识发现算法,并对发现的知识进行可用性和有效性评估。

3. 知识错误自动检测与修复与弱可用知识推理计算的理论和方法

针对信息错误必然导致知识错误的问题,研究知识错误的自动发现和修复的理论和方法。

当知识中的错误不能彻底纠正的时候,则知识成为弱可用知识。针对弱可用知识,研究弱可用知识的近似计算与推理的理论和算法。

4. 源于弱可用信息的知识深度演化机理

知识演化对于知识错误的检测和知识的应用具有重要意义。知识的演化沿着两个维度进行。一个维度是由原始数据到有简单语义的信息、再到有丰富语义的知识的纵向演化过程。另一维度是知识被不断发现、聚合、更新的横向演化过程。

首先,针对知识演化的两个维度,建立可溯、趋利、竞合的知识演化模型,研究知识演化的趋利策略框架,建立知识演化过程的跟踪与引导方法。

然后,研究追溯知识演化过程的理论与方法,包括知识纵向演化溯源的理论模型和方法、知识横向协同演化溯源的理论模型和方法。

5. 需求驱动的知识服务体系、原型系统及示范应用

知识服务是以实现需求并获得相应收益为驱动的,每项知识服务都将根据收益情况选择为需求提供服务的方式。为了确保知识服务能够实时、最大化地满足应用的动态需求,研究知识服务的激励机制以及多方协调机制,主要包括面向知识服务的需求发现机制、需求驱动的知识服务聚合、基于收益的知识服务多方协商机制。

基于前面的理论和技术成果,开发一套集成知识发现、演化和服务的知识服务原型系统。我们还将把互联网作为物理信息系统,以中文维基百科作为知识服

务的上层应用,建设知识服务原型系统的示范应用,验证基础研究成果的可用性和有效性。

2.2.6确保信息可用性的海量信息量质融合管理原型系统及应用示范

依据上述基础研究结果,研制确保信息可用性的海量信息量质融合管理原型系统,并与2.2.5的知识服务原型系统有机集合,建立一个确保信息和知识可用性的海量信息与知识的量质融合管理原型系统,最后针对具有代表性的具体应用领域,建立两个应用示范。具体研究内容如下。

1. 设计实现确保信息可用性的海量信息量质融合管理原型系统

首先把2.2.1至2.2.4的基础理论研究结果转化为高效实用的算法和技术;然后,设计量质融合的海量信息管理原型系统的模型、功能和结构;最终使用由2.2.1至2.2.4的研究结果转化来的高效实用算法和技术,研制确保信息可用性的海量信息量质融合管理原型系统,实现如下功能:

(1) 具备传统信息管理系统的功能;

(2) 能够高质量地自动获取海量多源多模态数据,自动完成数据实体的同一化,并自动将这些数据整合为信息;

(3) 支持信息可用性(即一致性、精确性、完整性、时效性和实体同一性)的描述、评估、自动推理与可用性公理的自动发掘;

(4) 能够自动检测并修复信息的不一致、不精确、不完整、过时和实体不同一等个性错误以及综合错误,并能评估修复后信息的可用性;

(5) 支持弱可用信息上的近似计算,并能够评估计算结果的质量;

(6) 能够自动跟踪、引导、追溯信息的多维度演化过程。

2. 建立确保信息和知识可用性的海量信息与知识的量质融合管理原型系统

把确保信息可用性的海量信息量质融合管理原型系统与2.2.5的知识服务原型系统有机集成,建立一个确保信息和知识可用性的海量信息与知识的量质融合管理原型系统,在海量信息量质融合管理原型系统的基础上,增加如下功能:

(1) 能够从海量可用信息中自动发现可用的知识,评估知识的可用性,自动检测和修复知识中的错误;

(2) 能够自动跟踪、引导、追溯知识的纵向和横向演化过程;

(3) 提供深层次的知识服务。

3. 建立两种类型的信息可用性保障应用示范

本项目将重点建设两个具有代表性的应用示范,即复杂物理信息系统的信息可用性保障应用示范和管理信息系统的信息可用性保障应用示范,完成相关系原型统的开发,解决实际应用中与信息可用性相关的关键技术问题,验证本项目基础理论与关键技术研究成果的科学性和可用性。

(1) 中国数字海洋信息可用性保障应用示范

中国数字海洋建设是国务院批准实施的908专项“我国近海海洋综合调查与评价”的主要内容。中国数字海洋是在有关海洋的多学科长期积累的基础上,利用天基、空基、海基、路基等海洋信息获取技术,应用卫星监测、飞机监测、船舶监测、台站监测、浮标监测、水下监测、平台及海上固定监测等手段,对海洋进行海、陆、空、天全方位综合观测和评价,构建动态海洋时空信息平台,实现“海洋信息获取的数字化网络化、海洋信息管理的标准化规范化、海洋现象和过程重现的可视化、海洋分析评价和服务的智能化”,有效地支持“维护海洋权益与国家安全、保护海洋生态与环境、提高海洋资源利用水平、促进海洋经济发展”。从2003年908专项实施以来,国家已经投资20亿元,完成了近海海洋综合调查、近海海洋环境综合评价、近海数字海洋信息基础框架的构建。目前,已经建立了大量基础数据库,积累了数十TB的信息,且信息以每年TB级的速度增长。然而,由于各种原因,这些信息中很多错误,根据抽样估计,15%的信息存在错误。信息错误已经在军事、渔业生产、海洋防灾减灾、海上国际关系等方面造成了很大损失。为此,本项目将重点研究开发中国数字海洋信息可用性保障应用示范,以满足国家在这方面的重大需求,为复杂物理信息系统的信息可用性保障机制的建设提供具有代表性的范例,主要研究下面几个问题:

A. 针对中国数字海洋的特点,分析总结数字海洋在信息可用性保障方面的各种需求;

B. 从中国数字海洋在信息可用性保障方面的需求,抽象出复杂物理信息系统的信息可用性保障的共性问题,并应用本项目的基础研究成果,研究解决这些问题的方法和技术;

C. 应用本项目取得的基础研究成果和本项目研制的海量信息和知识的量质融合管理原型系统,开发中国数字海洋信息可用性保障应用示范,为建设复杂物理信息系统的信息可用性保障机制奠定基础,提供有效范例。

(2) 社保信息与经济普查信息可用性保障应用示范

社会保险(简称“社保”)是事关社会和谐稳定、经济健康发展的重要社会和经济制度,社保信息包含了社会保险参保职工与用人单位的全部核心信息,其价值不可估量。确保社保信息的正确性对于保险费的正确征收与使用,保险金的正确发放,以及社保制度的发展和完善具有重要意义。经济普查信息包含了我国境内从事第二产业、第三产业活动的全部法人单位、产业活动单位和个体经营户的单位基本属性、从业人员、财务状况、生产经营情况、生产能力、原材料和能源消耗、科技活动情况等重要信息,是事关国家宏观经济政策制定的重要参考信息。经济普查信息的可用性将严重影响以此为依据制定的经济政策的可靠性与有效性,为此国务院2004年9月颁发的《全国经济普查条例》第五章第二十八条和第二十九条明确规定:“地方各级经济普查机构应当根据国务院经济普查领导小组办公室的统一规定,建立经济普查数据质量控制岗位责任制,并对经济普查实施中的每个环节实行质量控制和检查验收”;“国务院经济普查领导小组办公室统一组织经济普查数据的质量抽查工作,抽查结果作为评估全国及各地区经济普查数据质量的主要依据”。通过与北京市政府相关部门的合作,我们了解到,社保信息库和经济普查信息库中已经积累了数TB的信息,且以每年GB级的速度增长。然而,由于各种原因,这些信息中很多错误,根据抽样估计,有10%~20%的信息存在错误。例如,《中国新闻周刊》2005年第32期报道了2004年经济

普查信息中存在的质量问题,例如,乐山市经委在经济普查中填报的“人员支出”为281.8万元,查实数据为1644万元,虚报率71%。由于社保和经济普查信息的重要性,本项目将研究开发社保和经济普查信息可用性保障应用示范,以满足国家在这方面的重大需求,为管理信息系统的信息可用性保障机制的建设提供具有代表性的范例,主要研究下面几个问题:

A. 针对社保信息和经济普查信息管理与分析的特定条件,分析总结社保信息和经济普查信息可用性保障方面的需求;

B. 从社保信息和经济普查信息可用性保障的需求,抽象出管理信息系统的信息可用性保障的共性问题,并应用本项目的基础研究成果,研究解决这些问题的方法和技术;

C. 应用本项目取得的基础研究成果和本项目研制的海量信息和知识的量质融合管理原型系统,开发社保信息和经济普查信息可用性保障应用示范,为建设管理信息系统的信息可用性保障机制奠定基础,提供有效范例。

二、预期目标

3.1 总体目标

本项目的总体目标是:面向我国海量信息管理基础设施建设重大需求,以海量信息可用性管理的“量质融合管理”、“劣质容忍原理”、“深度演化机理”三个科学问题为核心,研究海量信息可用性管理的基础理论和关键技术,提出完整的海量信息可用性管理的理论体系、方法学和关键技术,包括从物理信息系统等多数据源有效地获取高质量多模态数据的理论和技术、海量信息可用性和量质融合管理的理论和技术、信息错误的自动检测与修复的理论和技术、海量弱可用信息近似计算的理论和技术、弱可用信息上的知识发现和深度演化的理论和技术、知识可用性管理的理论和技术,解决确保信息和知识可用性的海量信息和知识量质融合管理系统的工程技术问题,研制原型系统,并针对中国数字海洋和社保与经济普查信息,建立两类具有代表性的信息可用性保障应用示范,即复杂物理信息系统的信息可用性保障应用示范和管理信息系统的信息可用性保障应用示范,培养一批优秀的海量信息可用性管理研究和工程技术人才,为我国在未来5至10年建设新一代海量信息管理基础设施奠定坚实基础,为我国信息产业的持续快速发展和国家发展战略的顺利实施提供理论基础和核心技术。

3.2 五年预期目标

1.基础理论研究方面的预期目标

(1) 提出四个基础模型: 信息可用性模型,多模态数据模型,支持量质融合管理的信息模型,知识可用性模型。

(2) 认知三种演化机理: 数据演化机理,信息演化机理,知识演化机理。

(3) 解决七类理论问题: 数据、信息和知识的可用性评估理论;信息可用性的公理化理论;信息与知识量质融合管理的基础理论;多模态数据融合计算的理论;信息和知识错误自动发现与修复的理论;弱可用信息近似计算的理论;弱可用知识近似推理与近似计算的理论。

(4) 取得四项理论突破: 多模态数据融合计算理论;海量信息的量质融合管理理论;弱可用信息上的近似计算理论;弱可用知识上的近似推理与近似计算理论。

(5) 发表高水平学术论文:在IEEE/ACM Transactions等国际一流学术刊物发表论文30篇以上;在SIGMOD等国际重要学术会议发表论文60篇以上。

2.关键技术研究方面的预期目标

(1) 提出三类数据优质化技术:多源多模态数据获取技术;多源数据实体识别技术;多模态数据融合计算算法。

(2) 提出五类信息可用性最大化技术:信息可用性评估技术;信息可用性自动推理技术;信息错误自动发现与修复技术;弱可用信息近似计算技术;信息量质融合管理技术。

(3) 提出四类知识错误最小化技术:弱可用信息知识发现算法;知识错误自动发现与修复算法;知识可用性评估技术;知识服务技术。

(4) 取得被授权或被受理国家专利和软件著作权:12项以上。

3.原型系统与示范应用方面的预期目标

(1) 研制一个原型系统:确保信息可用性的海量信息量质融合管理原型系统;

(2) 建立二个代表性信息可用性保障应用示范:中国数字海洋信息可用性保障应用示范;社保与经济普查信息可用性保障应用示范。

4.人才培养方面的预期目标

(1) 培养出具有国际影响的青年教师12名以上,并努力培养出国家杰出青年基金获得者、长江学者、教育部新世纪优秀人才。

(2) 培养出具有国际一流学术水平的博士30名以上。

三、研究方案

4.1 总体思路

第一,提出新理念,发现新问题,探索新理论,开创新技术。从海量信息可用性的自然特性出发、从海量信息管理的需求出发、从海量信息可用性管理与知识管理等其它学科交叉所产生的科学问题出发,以中国数字海洋和社保信息与经济普查信息为背景,研究海量信息可用性管理的挑战性问题,解决传统方法无法解决的问题,建立海量信息可用性管理的完整全新的理论体系和方法学。

第二,明确科学问题,选择突破点,合理确定研究内容。以“量质融合管理”、“劣质容忍原理”、“深度演化机理”三个关键科学问题为核心,在基础理论、方法学、实用技术三个层面,确定关键突破点,选择具有共性和普遍意义并有望在五年内获得重大进展的问题,形成具体、明确、创新的研究内容。

第三,理论联系实际,以应用驱动基础研究,以基础研究提高应用水平。从实际出发,在实际应用中发现科学问题,以应用示范验证研究成果、反馈需求、推动基础研究不断深入,初步产生社会和经济效益。

第四,出国际一流成果,培养国际一流团队,进入国际先进行列。在五年内提出完整的海量信息可用性基础理论与关键技术,取得一批海量信息可用性管理方面的国际一流研究成果,并取得部分引领国际研究的国际领先成果,培养一支国际一流的创新研究团队,为我国在该领域中的基础理论和关键技术研究打下深厚的基础,为国民经济提供强有力的支持。

4.2 技术路线

本项目按照“数据→信息→知识→应用”的路线开展研究,在数据、信息、知识、应用四个层面上解决“量质融合管理”、“劣质容忍原理”与“深度演化机理”这三个科学问题。在数据层面,针对数据的“量质融合管理”、“劣质容忍原理”与“深度演化机理”这三个科学问题,研究从物理信息系统等多数据源获取与整合高质量多模态海量数据的理论和技术。在信息层面,针对信息的“量质融合管理”、“劣质容忍原理”与“深度演化机理”这三个科学问题,研究海量信息可用性与量质融合管理的理论基础、海量信息错误自动检测与修复的理论和技术、海量弱可用信息上的近似计算的理论和算法。在知识层面,针对知识的“量质融合管理”、“劣质容忍原理”与“深度演化机理”这三个科学问题,研究海量弱可用信息上的知识发现、演化与服务的理论和技术。在应用层面,整合基础研究结果,研制确保信息可用性的海量信息量质融合管理原型系统,并针对中国数字海洋、社保和经济普查信息,建立两类具有代表性的信息可用性保障应用示范(复杂物理信息系统的信息可用性保障应用示范、管理信息系统的信息可用性保障应用示范):中国数字海洋信息可用性保障应用示范、社保和经济普查信息的信息可用性保障应用示范,以验证基础研究结果的可用性和有效性。下边是我们在这四个层面的各项研究中拟采用的具体技术路线。

4.2.1 数据层面研究中拟采用的技术路线

在数据层面,本项目将针对数据的“量质融合管理”、“劣质容忍原理”与“深度演化机理”这三个科学问题,集中研究从物理信息系统等多数据源获取与整合高质量多模态海量数据的理论和技术,以多模态数据融合计算为核心,解决多数据源多模态数据的高质量获取、多源多模态数据的实体识别、多模态数据到信息的高质量整合等问题,在信息的源头把住质量关,分别拟采用如下技术路:

(1) 在物理信息系统等多源多模态数据的高质量获取研究中,采用灰色关联分析等方法进行多数据源质量的综合评价,重点研究分析序列的确定及决策矩阵的构建,运用信息熵理论,建立数据源质量评估的理论与方法;针对各种模态数据的特点,基于最大似然估计、时间维概率平滑、空间小组关系和有效路径统计信息反馈等途径,研究高质量多模态数据获取的多模态融合计算方法。数据获取方法要确保物理过程的正确重现;

(2) 在物理信息系统等多源多模态数据的实体识别研究中,采用如下方法探索求解多源多模态数据实体识别的多模态数据融合计算方法:基于启发式规则和信息挖掘、非监督学习等方法,针对所有可能的关联链分析,检测实体的语义关联;采用近似函数依赖挖掘技术,结合多模态特征,提出新的相似性匹配算法;采用序列模式挖掘和匹配技术,基于行为和传播模式,准确识别实体;

(3) 在多模态数据到信息的高质量整合的研究中,基于数据源质量设计多模态数据融合模型,研究求解多模态数据整合的多模态数据融合计算方法,实现高质量的数据到信息的整合。整合过程与信息可用性评估理论和公理系统紧密结合,提高整合信息的正确性和可用性。

4.2.2 信息层面研究中拟采用的技术路线

信息层面的研究是本项目的重点,将针对信息的“量质融合管理”、“劣质容忍原理”与“深度演化机理”这三个科学问题,研究三方面的问题,即海量信息可用性与量质融合管理的理论基础、海量信息错误自动检测与修复的理论和技术、海量弱可用信息上的近似计算的理论和算法,拟采用如下技术路线。

1. 海量信息可用性与量质融合管理基础理论研究的技术路线

主要解决海量信息可用性理论模型、海量信息可用性公理系统与推理机制、海量信息可用性的定量评估模型、海量信息量质融合管理的基础理论、海量信息演化机理等问题,分别采用如下技术路线:

(1) 在海量信息可用性理论模型的研究中,首先用一阶逻辑、时序逻辑、误差估计理论、随机过程等不同数学方法建立海量信息的一致性、精确性、完整性、时效性和实体同一性的理论模型,然后在统一的逻辑框架下把用不同数学方法建立的理论模型融合成为一个完整的海量信息可用性理论模型。

(2) 在海量信息可用性公理系统与推理机制的研究中,为了有效表达海量信息可用性公理,设计表达能力强、兼容多种类型信息、具有低计算复杂性的逻辑语言和逻辑框架,建立推理机制,并证明其正确性,分析其计算复杂性和可近似性,设计相应的算法。在公理发掘算法设计中,重点解决从海量弱可用信息中挖掘高可用公理系统以及提高算法效率的问题。

(3) 在海量信息可用性的定量评估模型方面,研究两种模型,即以可用性公

理的最大满足子集作为评估测度的绝对可用性模型和面向应用需求的相对可用性模型,重点解决最大满足子集求解难题和应用需求可满足性判定问题,并设计高效求解算法。

(4) 在海量信息量质融合管理基础理论的研究中,将沿着“质管理理论→量质融合管理理论→实现技术与算法”的路线开展研究。首先,解决海量信息“质”管理的核心理论和模型问题,建立海量信息“质”管理的逻辑信息结构、信息运算系统、信息约束理论;然后,研究海量信息“质”管理的理论和模型与传统信息“量”管理理论和模型的“融合”问题,建立支持海量信息量质融合管理的逻辑信息结构、信息运算系统、信息约束理论;最后,设计量质融合管理的信息定义与操纵语言、逻辑结构的物理实现技术、运算系统的实现算法、语言的优化处理技术与算法。

(5) 在可用性驱动的海量信息演化机理研究中,采用随机过程的分析方法,利用极限理论和多元分析技术研究信息的演化机理。在多模态海量信息演化的世系模型方面,建立信息描述复杂性理论,分析信息质量导致信息之间的跃迁关系,建立时空逻辑演变模型。在多模态海量信息演化的世系追踪技术方面,应用非经典测度论、贝叶斯推理及突变理论等工具,建立世系的导出规则,进而提出信息演化过程的追踪技术。

2. 海量信息错误自动检测与修复的理论和技术研究的技术路线

主要解决海量信息错误自动检测和修复的可计算性与计算复杂性理论、海量信息错误自动检测和修复的可信性理论、海量信息错误自动检测和修复算法的设计等问题,分别拟采用如下技术路线:

(1). 系统、全面、形式化地定义信息错误自动检测与修复问题,包括一致性错误、精确性错误、完整性错误、时效性错误、实体同一性错误等个性错误自动检测和修复问题以及多种个性错误同时发生的综合错误的自动检测和修复问题,给出这些问题的数学模型;

(2).在海量信息错误自动检测和修复的可计算性与计算复杂性理论的研究中,研究求解每个问题所需要的信息完整性和信息可用性,确立每类信息错误自动检测和修复问题相对于信息完整性和信息可用性的可解充分必要条件。对于可解问题,判定其可计算性。对每个可计算问题,研究其所属复杂性类,确定其时间复杂性下界和精度界限,为设计高效优化算法建立理论基础。

(3). 在海量信息错误自动检测和修复的可信性理论研究中,拟采用基于信息可用性公理系统来确定错误检测与修复结果的可信性定量评估方法,将检测与修复结果可信性的评估问题转化为求解信息可用性公理集合的最大可满足子集问题,从而建立错误检测与修复的可信性评估模型和评估方法;在可信性评估模型的基础上,建立原始信息可用性与检测和修复结果可信性的函数关系,采用蒙特卡洛法和最大似然估计理论建立检测和修复方法的可信性评估理论和方法,继而确定可信检测与修复方法的设计准则。

(4).在海量信息错误自动检测和修复算法的研究中,根据不同的信息类型和不同的错误类型,采取不同的技术路线,如基于信息可用性理论模型和公理系统的方法、基于规则和信息语义约束的方法、基于有限状态机理论的方法等,设

计不同的算法,解决不同类型信息和不同类型错误的自动检测和修复问题。

对于综合性错误,在统一的逻辑框架下抽取检测和修复所需要的基本操作以及操作间的依赖关系,建立信息修复成本与回报的代价模型,设计修复结果可用性最大化和数据操作成本最小化的操作序列优化算法。

当信息完整性和信息可用性不满足信息错误自动检测和修复问题的可解的充分条件时,研究其可近似性。对于可近似问题,研究近似错误检测和修复算法,通过信息丢失估计、基于语义标示等方法实现错误近似检测和修复,并确定信息完整性和信息可用性对检测和修复精度的影响,提出近似错误检测和修复算法的误差估计方法和质量评估方法。

在信息错误自动检测和修复算法设计中,除了时间和空间复杂性最小化以外,也把信息完整性和可用性需求最小化最为优化目标。

3. 海量弱可用信息近似计算理论与算法研究的技术路线

主要解决海量弱可用信息近似计算的可行性理论、弱可用信息近似计算问题的计算复杂性理论、弱可用信息上近似计算结果的质量评估理论、弱可用信息上近似计算的算法设计等问题,分别拟采用如下技术路线:

(1) 在海量弱可用信息近似计算的可行性理论研究中,首先以可用性为主要因素,建立弱可用信息上满足给定质量要求的近似解存在的充分必要条件,然后研究该充分必要条件的可计算性。

(2) 在弱可用信息近似计算问题的计算复杂性理论研究中,首先定义以信息可用性为测度的弱可用信息计算复杂性模型及其与时间和空间复杂性的关系。然后,针对广泛应用的代表性近似计算问题(如查询、分析、挖掘等问题),研究每个问题的计算复杂性,特别是以可用性为测度的计算复杂性,所属的计算复杂性类。对于P类问题,确定其计算复杂性下界;对于非P类问题,确定其可近似计算性和精确度界限。

(3) 在弱可用信息上近似计算结果的质量评估理论研究中,首先确定近似计算结果质量评估的参照系;然后,建立近似计算结果的质量评测指标及其数学模型,并设计近似计算结果的评测指标计算方法;最后,根据评测指标的数学模型建立近似计算结果的综合质量评估模型,并设计其计算方法。

(4) 在弱可用信息近似计算算法研究中,运用随机采样技术选取质量评估参照系,在该参照系上,运用各种近似算法设计技术,如本项目申请人提出的海量信息ε-近似计算技术、(ε, δ)-近似计算技术等,设计各种具有代表性的近似计算问题(如查询、分析、挖掘等问题)的高效近似算法。

4.2.3 知识层面研究中拟采用的技术路线

在知识层面,本项目将针对知识的“量质融合管理”、“劣质容忍原理”与“深度演化机理”这三个科学问题,集中研究海量弱可用信息上的知识发现、演化与服务的理论和技术,主要解决知识可用性评估理论与方法、可用性知识发现的信息完整性理论、弱可用信息上的知识发现算法、知识错误自动检测与修复的理论和方法、知识服务、源于弱可用信息的知识深度演化机理等问题,分别拟采用如下技术路线:

(1) 在知识可用性评估理论与方法的研究中,我们将首先广泛调研不同知识管理与服务应用对知识可用性的要求,在此基础上总结出知识可用性的构成要素。然后,运用信息可用性的基础理论研究方法,结合知识发现过程的理论模型,建立知识可用性模型、度量标准、评估机制。最后,在RDF知识表示模型的基础上,通过扩展描述逻辑,研究支持可用性管理的知识表示方法和知识评估理论。

(2) 在知识错误自动检测与修复的理论和方法的研究中,我们将首先扩展信息错误自动检测与修复的理论和方法,结合知识管理与服务的实际需求与特点,在知识可用性评估理论的基础上,提出知识错误自动发现和修复的理论和方法。我们将知识错误检测分为两类:关联知识错误检测和逆向知识错误检测。关联知识错误检测依据知识之间的关联关系,检测到某些知识的错误;而逆向知识错误检测则通过检测推理得到知识中的错误,通过溯源找到原输入知识的错误。在检测到错误知识后,可以通过知识之间的关联关系等方法来进行自动修复。最后,针对无法修复的知识,我们研究弱可用知识的近似推理的理论和算法,尽可能利用已有知识中的正确知识,最大化推理结果的可用性。

(3) 在源于弱可用信息的知识深度演化机理的研究中,我们将结合信息演化机理的研究结果和知识可用性的特有要素,建立知识纵向溯源演化和横向协同演化的表示模型。在知识纵向演化机理的研究中,我们将研究知识可用性随信息可用性变化而演变的规律。在知识横向演化机理的研究中,我们将探索不同来源知识间竞争与协同的演化规律。结合这些规律,我们将建立有效的知识演化的管理理论和方法,确保知识的演变过程朝着增强可用性的方向发展。

(4) 在可用性知识发现的信息完整性理论与弱可用信息上的知识发现算法的研究中,我们首先针对海量弱可用信息上具有代表性的知识发现问题,建立知识发现的信息及其可用性需求模型,称为(ε,δ)-框架,其中ε是为作为知识发现算法输入的信息集的可用性度量,δ是知识库的可用性度量。然后,在该需求模型的基础上,研究知识发现问题所需要的最小信息集和最小可用性,继而判定能否在给定的海量信息中求解给定知识发现问题。然后结合现有知识发现理论体系和算法,引入弱可用信息和知识的特有要素,设计弱可用信息上的知识发现算法。

(5) 在需求驱动的知识服务体系的研究中,我们将首先探索知识服务需求的主要特征和建模方法,在其基础上定义知识服务的目标和收益函数,从而设计一套面向知识服务的激励机制。然后,在该激励机制的基础上,研究需求驱动的知识服务聚合算法和知识服务多方协商机制,以确保知识服务能够实时、最大化地满足应用的动态需求。与此同时,我们将通过扩展自动机理论,采用状态转换方法,解决知识服务在动态环境中的自适应问题。

4.2.4 应用层面研究中拟采用的技术路线

在应用层面,本项目将整合基础研究结果,研制确保信息和知识可用性的海量信息与知识的量质融合管理原型系统,建立两个应用示范,验证基础研究结果的可用性和有效性,拟采用的技术了路线如下:

(1) 以理论指导实践,综合基础研究成果,把基础研究成果转化为高效实用的算法和技术,合理运用先进的软件工程技术及开发工具,首先构建海量信息可用性管理核心组件,然后将核心组件与现有海量信息管理系统融合,建立起确保

信息可用性的海量信息量质融合管理原型系统。在海量信息可用性管理核心组件开发过程中,与深圳华傲数据技术有限公司等企业合作,进行软件产品化。

(2) 把海量信息量质融合管理原型系统与2.2.5开发的可用知识发现与服务系统相融合,构建确保信息和知识可用性的海量信息与知识的量质融合管理原型系统。

(3) 针对中国数字海洋和社保与经济普查信息的特点,与中国海洋信息中心、上海海洋大学、北京市政府相关部门合作,深入了解应用需求,明确应用目标,建立分别适合于复杂物理信息系统和管理信息系统的两类信息可用性管理应用示范,并通过应用示范的实施效果验证基础研究结果的可行性和有效性。

(4) 在应用示范的开发过程中,根据中国数字海洋的需求,抽象出复杂物理信息系统对信息可用性保障的一般性需求,提炼出复杂物理信息系统信息可用性的共性实践问题,并应用2.2.1至2.2.5中的基础研究结果解决这些共性实践问题,提出复杂物理信息系统信息可用性保障的一般性解决方案。

(5) 在开发应用示范的过程中,针对社保信息和经济普查信息管理的需求,抽象出管理信息系统对信息可用性保障的一般性需求,提炼出管理信息系统信息可用性保障的共性实践问题,并应用课题1到课题5的基础研究结果解决这些共性实践问题,提出管理信息系统信息可用性保障的一般性解决方案。

4.3 创新点

1. 提出多模态数据融合计算的新思想,建立多源多模态数据高质量获取与整合的理论和技术:以数据质量最大化和确保物理世界正确重现为目标,提出求解从物理信息系统等多数据源获取高质量多模态数据、多源多模态数据实体识别、多模态数据到信息的高质量整合等问题的多模态数据融合计算的理论与算法。

2. 提出完整的海量信息可用性的理基础理论,全面系统地认知和解决海量信息可用性问题:以“一致性,精确性、完整性、时效性、实体同一性”为核心,建立海量信息可用性的理论模型、海量信息可用性的公理系统和推理机制、海量信息可用性评估理论、海量信息量质融合管理的模型和理论,并确定海量信息可用性公理发掘问题、可用性评估问题、量质融合管理关键计算问题的可计算性与计算复杂性理论,设计求解这些问题的多模态信息融合计算算法。

3. 提出信息错误检测与修复自动化的理论和技术,解决自动检测与修复信息错误的难题:以“一致性,精确性、完整性、时效性、实体同一性”为核心,以信息错误检测和修复自动化为目标,提出信息错误自动检测和修复问题的可计算性理论和计算复杂性理论、信息错误自动检测和修复方法的可信性理论、高效实用的海量信息错误自动检测与修复算法,并制定设计可信检测与修复方法的基本准则。

4. 提出弱可用信息上近似计算的新理念、新理论和新算法,解决信息错误不能彻底修复时如何完成满足精度约束的计算问题,使弱可用信息在实际应用中发挥良性作用:提出海量弱可用信息(即包含部分错误的信息)上满足给定质量要求的近似计算的可行性理论、近似计算问题计算复杂性理论(特别是以可用性为测度的计算复杂性理论)、近似计算结果的质量评估理论、求解近似计算问题

的高效算法(如ε-近似算法和(ε,δ)-近似算法)。

5. 提出弱可用信息上知识发现和服务的新理念、新理论和新技术:建立知识可用性评估理论与方法,提出弱可用信息上知识发现的理论和算法、知识错误自动检测与修复的理论和方法、弱可用知识的近似推理和近似计算的理论和算法,使得包含错误的信息能够提供可用的知识,包含错误的知识能够提供有效的服务。

4.4 可行性分析

研究内容与课题设臵的可行性:本项目首先经过深入理解信息可用性的内涵与外延,确定了“量质融合管理”、“劣质容忍原理”、“深度演化机理”三个关键科学问题。然后,在系统深入地分析国内外研究现状和发展趋势的基础上,围绕三个关键科学问题,从基础理论、方法学、实用技术三个维度,确定了关键突破点,选择具有共性和普遍意义的问题,形成具体、明确、创新的六项研究内容,在重点研究信息可用性的基础理论和关键技术的同时,也深入研究产生信息的数据和源于信息的知识的质量和可用性的基础理论与关键技术,并建立具有代表性的应用示范,从数据、信息、知识、应用四个层面解决三个关键科学问题。本项目研究内容具体明确,突出了新理念、新发现、新理论、新技术,重点突出,内容有所为有所不为,既符合973项目的定位,也有望在五年内获得重大进展,合理可行。根据各参加单位的特点和研究基础,我们把本项目的研究内容划分为相对独立的六部分,设臵了六个课题,每个课题都由具有坚实相关研究基础的单位负责。各个课题组既相对独立又紧密结合,既有分工又有合作,重点难点问题联合攻关。六个课题设臵合理,能够确保在首席科学家的带领下,协同完成本项目的研究任务。

研究方案与技术路线的可行性:本项目按照“数据→信息→知识→应用”的路线开展研究,在数据、信息、知识、应用四个层面上解决“量质融合管理”、“劣质容忍原理”与“深度演化机理”这三个科学问题,层次清楚,总体方案合理。本项目对于每个基础理论问题、每个关键技术问题、每个应用示范,都给出了明确具体的研究方法、研究思路、相关理论和技术,技术路线详细周密、明确清晰。各个课题组在多年研究中已取采用过相关技术路线,取得了很多研究成果,初步证实了本项目这些技术路线的正确性和可行性。

研究团队完成本项目的可行性:本团队由国内长期从事海量信息获取、海量信息管理、信息可用性管理、知识发现与服务等研究的高水平研究人员组成,具备优良的研究条件,拥有长期的理论研究和实践积累,已在本课题的具体研究内容方面取得了一系列成果。在海量信息可用性管理的基础理论、海量信息错误自动检测与修复等方面的研究成果达到国际先进水平,近年来已发表了一系列篇高水平学术论文,拥有多个实验平台,为实现本项目的研究目标创造了良好条件。本项目课题组近年来承担了多项海量数据获取、海量信息管理、信息质量管理、知识发现与服务方面的973课题、863项目、国家自然科学基金重点项目和面上项目,取得了诸多研究结果,具备完成本项目的研究基础和能力。

4.5课题设臵

小学信息技术基础知识归纳

小学信息技术基础知识归纳 (2007-06-10 22:16:11) 转载▼ 一、基础知识与基本操作 (一)信息 我们身边充满各种各样的信息,并且每天都要接收大量的信息。如:读书、听广播、看电视、、与家长、老师、同学谈话使我们获得了大量的信息。此外,用口尝,用鼻闻,用手摸也能获得一些信息。 (二)信息处理 我们随时在接受(输入)信息、处理信息和输出信息。 例如老师读:“wo shi ge wen ming de xiao xue sheng ”,同学们通过耳朵,输入这些声音信息,从大脑的记忆中,知道这是“我是个文明的小学生”九个字,把这九个字写(输出)在纸上。这就是一个信息的“输入——处理——输出”的过程。 (三)电脑是信息处理机 物质、能量和信息是三种重要资源。 轧钢机、缝纫机等是加工物质材料的机器; 蒸汽机、发电机是转换能量的机器; 电脑是处理信息的机器。 我们给电脑输入各种数据,经过电脑的处理,输出各种有用的信息。 (四)各种各样的计算机 世界上第一台电子计算机于1946年2月诞生,它的名字叫埃尼亚克(ENIAC),学名是“电子数字积分计算机”。它由18000多支电子管组成,重达30多吨。它的运算速度是每秒5000次。 我国第一台电子计算机诞生于1958年,运算速度是每秒3千次。现在我们使用的电子计算机,体积小巧,运算速度却比埃尼亚克快了成千上万倍。 电子计算机有很多种,根据它的外观,可以分成微型机、便携式计算机和大型计算机等;根据计算机的用途可以分为专用计算机和通用计算机。专用计算机一般用来处理一种数据;超级市场用的收款机,记考勤用的打卡机,以及比较流行的游戏机、学习机等都属于专用计算机。专用计算机只能做一件或几件工作,而办公和家庭用的计算机基本都属于通用计算机。目前家庭最常用的是多媒体通用计算机,它除了具备普通计算机具有的文字处理、数据计算等功能外,还能够听音乐、看影碟、玩游戏和漫游网络等。随着科技的进步,多媒体电脑的作用将越来越大。 (五)电脑的组成 计算机系统由硬件和软件组成。硬件是构成计算机的那些看得见摸得着的设备。软件是计算机工作时需要的各种程序和数据。 从外观上看,一台计算机主要由主机、显示器、键盘、鼠标、打印机、存储设备等组成。

[生活]小学信息技术基础知识

[生活]小学信息技术基础知识 小学信息技术基础知识 一、基础知识与基本操作 (一)信息 我们身边充满各种各样的信息,并且每天都要接收大量的信息。如:读书、听广播、看电视、、与家长、老师、同学谈话使我们获得了大量的信息。此外,用口尝,用鼻闻,用手摸也能获得一些信息。 (二)信息处理 我们随时在接受(输入)信息、处理信息和输出信息。例如老师读:“wo shi ge wen ming de xiao xue sheng”,同学们通过耳朵,输入这些声音信息,从大脑的记忆中,知道这是“我是个文明的小学生”九个字,把这九个字写(输出)在纸上。这就是一个信息的“输入——处理——输出”的过程。 (三)电脑是信息处理机 物质、能量和信息是三种重要资源。 轧钢机、缝纫机等是加工物质材料的机器;蒸汽机、发电机是转换能量的机器;电脑是处理信息的机器。 我们给电脑输入各种数据,经过电脑的处理,输出各种有用的信息。 (四)各种各样的计算机 世界上第一台电子计算机于1946年2月诞生,它的名字叫埃尼亚克(ENIAC),学名是“电子数字积分计算机”。它由18000多支电子管组成,重达30多吨。它的运算速度是每秒5000次。

我国第一台电子计算机诞生于1958年,运算速度是每秒3千次。现在我们使用的电子计算机,体积小巧,运算速度却比埃尼亚克快了成千上万倍。 电子计算机有很多种,根据它的外观,可以分成微型机、便携式计算机和大型计算机等;根据计算机的用途可以分为专用计算机和通用计算机。专用计算机一般用来处理一种数据;超级市场用的收款机,记考勤用的打卡机,以及比较流行的游戏机、学习机等都属于专用计算机。专用计算机只能做一件或几件工作,而办公和家庭用的计算机基本都属于通用计算机。 目前家庭最常用的是多媒体通用计算机,它除了具备普通计算机具有的文字处理、数据计算等功能外,还能够听音乐、看影碟、玩游戏和漫游网络等。随着科技的进步,多媒体电脑的作用将越来越大。 (五)电脑的组成 计算机系统由硬件和软件组成。硬件是构成计算机的那些看得见摸得着的设备。软件是计算机工作时需要的各种程序和数据。 从外观上看,一台计算机主要由主机、显示器、键盘、鼠标、打印机、存储设备等组成。 1.主机:主机是电脑的核心,由许多精密的电子器件组成。它决定了电脑的运算速度和性能。主机主要由中央处理器和内存储器两部分组成。我们常常听说的“CPU”就是中央处理器。 CPU的型号通常决定了整个计算机的型号和基本性能。 2.显示器:显示器的样子很像电视机,它把电脑工作的结果显示给我们。 3.键盘:我们通过敲键的方式,指挥电脑工作。 4.鼠标:通过拖动鼠标和点按鼠标上的按键,指挥电脑工作。常见的鼠标有双键鼠标和三键鼠标。键盘和鼠标都是电脑的输入设备。

{信息技术}信息技术高级考试理论试题(基础知识)

(信息技术)信息技术高级考试理论试题(基础知识)

信息技术高级考试理论试题(基础知识) 1、下面选项是对信息的实质的理解和说明,其中错误的选项是________。 A、信息就是计算机的处理对象 B、信息就是关于事物运动的状态和规律的知识 C、信息就是信息,既不是物质,也不是能量 D、信息就是人类同外部世界进行交换的内容的名称 2、计算机技术和_________构成了现代信息技术的核心内容。 A、微电子技术 B、通信技术 C.、能源技术 D.、材料技术 3、信息技术的发展大致经历了符号信息时代、模拟信息时代和_________三个阶段。 A、媒体信息时代 B、电子信息时代 C、数字信息时代 D、知识信息时代 4、信息技术于教学中常用作获取学习资源的工具,人们常说,“因特网是知识的海洋”。于用IE浏览网页时,下面几种操作中可将图片保存下来的是__________。 A、使用菜单:文件—保存 B、将图片选中,复制下来 C、于图片上单击右键,于出现的快捷菜单中选:图片另存为 D、使用菜单:收藏—添加到收藏夹。

5、下面选项中列举的技术,不属于现代自然科学的三大支柱技术的是__________。 A、信息技术 B、材料技术 C、能源技术 D、传感技术 6、下列有关信息技术说法不正确的是__________。 A、信息技术包括传感技术和缩微技术 B、计算机技术和微电子技术构成了信息技术的核心内容 C、传感技术的任务是延长人的感觉器官收集信息的功能 D、缩微技术具有延长人的记忆器官存储信息的功能 7、将信息技术作为知识获取工具,主要有三个获取途径,其中只有____不属于主要获取途径。 A、利用搜狐等搜索引擎 B、利用各种教育科研等网站 C、利用OICQ等通信工具 D、利用地区或学校教育资源库 8、于数字化学习环境下,关于信息技术有助于学习者知识建构的说法不准确的是__________。 A、利用“几何画板”、“作曲”、“作图”工具,培养学生创作作品的能力 B、利用汉字输入和编辑排版工具,培养学生的信息组织、意义建构能力 C、利用网页开发工具,培养学生对信息的甄别、获取、和应用组织能力 D、利用电子公告牌等网络通信工具培养学生的独立思考、对话交流和团队合作

基础信息论

参考文献 1..C.E.Shannon. A Mathematical Theory of Communication. Bell System Technical Journal Vol 27 partⅠJuly 1948, pp 379-423;part Ⅱoct 1948,pp623-656 2.https://www.doczj.com/doc/0b7248341.html,munication in the presence of noise.proc I.R.E.1949 37 P10 3.张宏基编著《信源编码》北京,人民邮电出版社,1979 4.林可祥、汪一飞编著《偽随机码的原理与应用》北京,人民邮电出版社,1978 5.钟义信编著《信息科学原理》北京,北京邮电大学出版社,1996 6.孟庆生编著《信息论》西安,西安交通大学出版社,1986 7.仇佩亮编著《信息论及其应用》杭州,浙江大学出版社,2000 8.朱雪龙编著〈应用信息论基础〉北京,清华大学出版社,2001 9.陈运编著《信息工程理论基础》成都,电子科技大学。1989 10.王新梅、肖国镇编著《纠错码—原理与方法》(修订版)西安,西安电子科技大学出版社,2001年修订版 11.E.Schruefer.Signal-verarbeitung.Muenchen Wien:Carl:Hanser Verlag,1992 12.张应中等编著《数字通信工程基础》北京,人民邮电出版社,1987 13.贾世楼编著《信息论理论基础》哈尔滨,哈尔滨工业大学出版社,2001 14.陈运等编著《信息论与编码》北京,电子工业出版社,2002 15.傅祖芸编著《信息论》北京,电子工业出版社,2001

高一信息技术基础知识点

信息技术 第一章信息与信息技术 1.1 信息及其特征 信息无处不在 1.物质、能源和信息(information)是人类社会的三大要素。P2 2.相同的信息,可以用多种不同的载体来表示和传播。不存在没有载体的信息。P3 信息的五个特征 1.信息的表示、传播、储存必须依附于某种载体,载体就是承载信息的事物。P3 2.信息是可以加工和处理的。信息也可以从一种形态转换成另一种形态。P3 3.信息可以脱离它所反映的事物被存储和保留和传播。 P3 4.信息是可以传递和共享的。信息可以被重复使用而不会像物质和能源那样产生损耗。P3 5.信息具有时效性。P3 1.2 信息的编码 1.信息的代码:把用来表示信息的符号组合叫做信息的代码。 2.计算机只能识别和处理由“0”、“1”两个符号组成的数字代码。或称计算机只能识别机器语言。 3.?诺依曼经典性建议:数据和程序都应采用二进制代码表示。 4.基本单位:字节,Byte简写“B”;最小单位:位,bit简写“b”。 5.1B=8b;1KB=1024Be;1MB=1024KB;1GB=1024MB。 6..进位制标识:二进制(B),十进制(D),十六进制(H) 7.二进制转换为十进制:按权展开。如(110101)2=1*25+1*24+1*22+1*20=53 8.十进制转换为二进制:除2取余法。如26=(1101)2 1.2.2字符编码: 1.计算机的英文字符编码采用ASCII码,即美国国家信息交换标准码(American Standard Code for Information Interchange)。该编码使用一个字节(byte)中的后7位二进制数,最左用“0填充”,可以表示27=128种编码。2.具体请见书本P6页。其中控制字符有34个,编码0-32和127;图形字符包括26个大写英文字母65-90、26个小写字母97-122、10个数字符号、32个标点及其他常用符号。 3.如(1)已知“A”的ASCII值为65,问“C”的ASCII值为多少? 答:“C”的ASCII值为65+2=67。 1.2.3汉字编码 1.汉字编码:汉字与西文字符一样,也是一种字符,在计算机也是以二进制代码形式表示的,这些代码称为汉字编码。2.汉字输入码:将汉字输入计算机的编码称为输入码,又称外码。 3.常用的输入码:音码、形码、音形码、形音码。 4.1个汉字占2字节,2字节=2*8位=16位;能提供216=65536个代码。1个字符(包括英文字符)占1字节。 5.汉字的编码按照GB2312-80标准,使用2字节编码。 6.会观察码:如用16进制显示了“PC个人电脑”这几个字的码:50 43 B8 F6 C8 CB B5 E7 C4 D4,问“个”字码是什么? 答:因为英文占1字节,中文占2字节,所以“PC个人电脑”占10字节,1字节=8位,所以总共80位,每4位二进制转换成1位十六进制,所以对应的“个”字码是:B8F6 1.2.4多媒体信息编码 1.声音信号是通过采样和量化实现模拟量的数字化。这个过程称“模数转换(A/D转换)”,承担转换任务的电路或芯片称为“模数转换器”简称ADC。 2.数模转换(D/A转换):即将数字化信号转换成模拟信号。 3.采样:就是按一定的频率,即每隔一小段时间,测得模拟信号的模拟量值。如CD采用的采样频率为44.1KHZ,即每秒钟要采样44100次。 4.采样频率越高,量化的分辨率越高,所得数字化声音的保真程度也越好,数据量也越大。 5.像素(pixel):图像数字化的基本思想是把一幅图像看成由许多彩色或各种级别灰度的点组成的,这些点按纵横排

信息技术知识汇总

一、专用名词 IT是Information Technology的缩写,意为"信息技术",包含现代计算机、网络、通讯等信息领域的技术。IT的普遍应用,是进入信息社会的标志。 ?信息技术:应用信息科学的原理和方法,对信息进行采集、处理、传输、存储、表达和使用的技术。 ?分类:微电子技术,计算机技术,传感技术,通信技术。 ?信息特征 ?信息的载体依附性 ?信息的时效性 ?信息是可以加工和处理的 ?信息是可以传递和共享的。 NII是国家信息基础设施(National Information Infrastructure)的缩写。它包括: 1.一系列不断扩展的仪器设备。如摄像机、扫描仪、键盘、电话、传真机、计算机、交换机、高密度磁盘和光盘、声像带、电缆、电线、通信卫星、光纤传输线路、微波通信网、电视、监视器、打印机等。 2.信息本身。这些信息可以通过电视节目、科学或商业数据库、影像、录音、图书馆档案及其它媒体等形式体现。目前大量的这类信息分布在政府的各机构中,而且每天都从实验室、演播室、出版商等处传播有价值的信息。 3.各类应用程序和软件。用户能借助于这些程序和软件去访问、处理、组织和提炼那些由NII设施提供的、随时可用的大量信息。 4.各种网络标准和传输编码。依靠它们实现网络间的互连和互操作,确保个人秘密和网络的安全与可靠。 5.人。这类人的工作是挖掘信息,开发应用程序和服务、组建设备、培训其他人员等。 Internet是采用共同的计算机语言或协议被连接在一起的很多完全不同的网络的集合。这些网络之间的传输路径安排可以确保即使一个或多个路由被阻塞,传输仍然可以畅通无阻。这是ARPANET的早期设计目标的一部分,诣在使网络既有效又强大。 Internet 上的所有传输都被组织成数字包的形式--打碎的信息--每个包都有自己的地址和路由指令。这种被称为包交换的方法使数字通讯可以充分利用全部的网络资源,在特定的时刻找到最快和最经济的可行路径。数字包以共同的格式被传输,传输控制协议/Internet协议(TCP/IP)使得起始点系统的硬件和软件可以与途中和最终目的地的其它系统的硬件和软件进行通讯。 IP是Internet Protocol的缩写,意为"网际协议"。它就是应用于Internet中的基础协议"TCP/IP"中的"IP",工作于网络七层模型中的第三层。我们现在常用到的"IP"电话,即泛指应用Internet网络及相关技术,把传统的电话(通过PSTN公用电话网)业务转移到Internet网络上来,以大幅降低通讯费用。 ISDN是Integrated Serviced Digital Network的缩写,一般译为"综合业务数字网",电信局称之为"一线通",就是因为它能实现把语音服务和数据传输服务组合在同一通信介质上,为用户同时提供这两种服务的连接。ISDN的基本速率接口提供两个64Kbps 和一个16Kbps的信道带宽(2B+D),其中一个64Kbps信道用于传输语音,另一个64Kbps信道传输数据(当不需要传输语音时,数据传输可占用两个B信道128Kbps的速率),16Kbps的信道用于传输通讯指令等服务信息。 ISDN与普通模拟电话线有什么不同?对于模拟电话线来说,是在用户到电话局之间的线路上传送的模拟话音信号,因此,它只能提供单一的电话业务。而ISDN实现了用户线的数字化,不管是什么信号(文字、图像、声音),只要变成数字信号,就可

信息论基础理论与应用考试题及答案

信息论基础理论与应用考试题 一﹑填空题(每题2分,共20分) 1.信息论研究的目的就是要找到信息传输过程的共同规律,以提高信息传输的 (可靠性)﹑(有效性)﹑保密性和认证性,使信息传输系统达到最优化。 (考点:信息论的研究目的) 2.电视屏上约有500×600=3×510个格点,按每点有10个不同的灰度等级考虑,则可组成5 31010?个不同的画面。按等概计算,平均每个画面可提供的信息量约为(610bit /画面)。 (考点:信息量的概念及计算) 3.按噪声对信号的作用功能来分类信道可分为 (加性信道)和 (乘性信道)。 (考点:信道按噪声统计特性的分类) 4.英文电报有32个符号(26个英文字母加上6个字符),即q=32。若r=2,N=1,即对信源S 的逐个符号进行二元编码,则每个英文电报符号至少要用 (5)位二元符号编码才行。 (考点:等长码编码位数的计算) 5.如果采用这样一种译码函数,它对于每一个输出符号均译成具有最大后验概率的那个输入符号,则信道的错误概率最小,这种译码规则称为(最大后验概率准则)或(最小错误概率准则)。 (考点:错误概率和译码准则的概念) 6.按码的结构中对信息序列处理方式不同,可将纠错码分为(分组码)和(卷积码)。 (考点:纠错码的分类) 7.码C={(0,0,0,0),(0,1,0,1),(0,1,1,0),(0,0,1,1)}是((4, 2))线性分组码。 (考点:线性分组码的基本概念) 8.定义自信息的数学期望为信源的平均自信息量,即(11()log ()log ()()q i i i i H X E P a P a P a =??==-????∑)。

高中信息技术基础知识点

信息技术基础(必修)复习资料 第一章《信息与信息技术》知识点 1、1信息及其特征 一、信息的概念 信息是事物的运动状态及其状态变化的方式。 ☆信息与载体密不可分,没有无载体的信息,没有载体便没有信息,信息必须通过载体才能显示出来。 二、信息的一般特征 1、载体依附性 信息不能独立存在,必须依附于一定的载体,而且,同一个信息可以依附于不同的载体。 信息按载体不同可分为(文字、图形(图象)、声音、动画、视频)。 信息的载体依附性使信息具有可存储、可传递、可转换的特点。 2、价值性 ☆信息是有价值的,人类离不开信息。物质、能量和信息是构成世界的三大要素。 ☆信息与物质、能量不同,表现在两方面:一方面它可以满足人们精神领域的需求;另一方面,可以促进物质、能量的生产和使用。 GPS:全球定位系统 ☆另外,信息又是可以增值的。 ☆信息只有被人们利用才能体现出其价值,而有些信息的价值则可能尚未被我们发现。 3、时效性 信息会随着时间的推移而变化,如交通信息,天气预报等。时效性与价值性紧密相连,信息如果没有价值也就无所谓时效了。 4、共享性----信息不同于物质、能量的主要方面 信息共享一般不会造成信息的丢失,也不会改变信息的内容。 1、2日新月异的信息技术 一、信息技术的悠久历史 信息技术(IT:Information Technology)是指一切与信息的获取加工表达交流管理和评价等有关的技术。 2、信息技术的五次革命 第一次信息技术革命是语言的使用,是从猿进化到人的重要标志; 第三次信息技术革命是印刷术的发明,为知识的积累和传播提供了更可靠的保证; 第四次信息技术革命电报、电话、广播、电视的出现和普及?,进一步突破了时间和空间的限制; ☆信息技术在不断更新,但一些古老的信息技术仍在使用,不能因为出现了新的信息技术就抛弃以前的信息技术。 二、信息技术的发展趋势: 信息技术的发展趋势是(人性化)和(大众化),其中人性化是大众化的基础,大众化的最根本原因在于(人性化)。. 1、越来越友好的人机界面 图形用户界面使显示在计算机屏幕上的内容在可视性和操控性方面大大改善。 (1)、虚拟现实技术:3D游戏等。 (2)、语音技术:语音识别技术(ASR)和语音合成技术(TTS)。 (3)、智能代理技术:是人工智能技术应用的一个重要方面。如Office助手、电子商务(EC)等。 GUI:图形用户界DOS:磁盘操作系统CPU:中央处理器EC:电子商务 2、越来越个性化的功能设计

信息论的应用

学号:201122010835 姓名:李毅 信息论在图像处理中的应用 摘要:把信息论的基本原理应用到图像处理中具有十分重要的价值。本文主要从评估图像捕捉部分性能的评估、图像分割算法这两个个方面阐述信息论在图像处理中的应用。 通过理论分析来说明使用信息论的基本理论对图像处理的价值。 关键字:信息论;图像捕捉;图像分割 第1章 引言 随着科学技术的不断发展,人们对图形图像认识越来越广泛,图形图像处理的应用领域也将随之不断扩大。为了寻找快速有效的图像处理方法,信息理论越来越多地渗透到图像处理技术中。文章介绍了信息论基本理论在图像处理中的应用,并通过理论分析说明其价值。把通信系统的基本理论信息论应用于采样成像系统,对系统作端到端的系统性能评价,从而优化采样成像系统的设计,是当前采样成像系统研究的分支之一。有些图像很繁杂,而我们只需要其中有意义的一部分,图像分割就是将图像分为一些有意义的区域,然后对这些区域进行描述,就相当于提取出某些目标区域图像的特征,随后判断这些图像中是否有感兴趣的目标。 第2章 图像捕捉部分性能评估 2.1 图像捕捉的数学模型 图像捕捉过程如图1所示。G 为系统的稳态增益,),(y x p 是图像捕捉设备的空间响应函数,),(y x n p 是光电探索的噪声。),(y x comb 代表采样网格函数,),(),,(y x s y x o 分别为输入、输出信号。 在这种模型下的输出信号 ),(),()],(),([),(y x n y x comb y x p y x Go y x s p +*= 其中,∑--= n m n y m x y x comb ,),(),(δ,代表在直角坐标系下,具有单位采样间隔的采样设备的采样函数。

信息技术基础知识点汇总

第一章 信息与信息技术知识点 【知识梳理】 二、信息的基本特征 1.传递性;2.共享性;3.依附性和可处理性;4.价值相对性;5.时效性;6.真伪性。 [自学探究] 1.什么是信息技术 ● 信息技术是指有关信息的收集、识别、提取、变换、存储、处理、检索、检测、分析和利用等的 技术。 ● 信息技术是指利用电子计算机和现代通讯手段获取、传递、存储、处理、显示信息和分配信息的 技术。 ● 我国有些专家学者认为,信息技术是指研究信息如何产生、获取、传输、变换、识别和应用的科 学技术。 2 3 4.信息技术的发展趋势 1.多元化;2.网络化;3.多媒体化;4.智能化;5.虚拟化 5.信息技术的影响 (1)信息技术产生的积极影响。 ①对社会发展的影响;②对科技进步的影响;③对人们生活与学习的影响。 (2)信息技术可能带来的一些消极影响。 ①信息泛滥;②信息污染;③信息犯罪;④对身心健康带来的不良影响 6.迎接信息社会的挑战 (1)培养良好的信息意识;(2)积极主动地学习和使用现代信息技术,提高信息处理能力;(3)养成健康使用信息技术的习惯;(4)遵守信息法规。 知识补充: 计算机系统的组成:(由硬件和软件组成) 硬件组成: 运算器 控制器 存储器ROM 、RAM 、软盘、 硬盘、光盘 输入设备键盘、鼠标、扫描仪、手写笔、触摸屏 CPU (中央处理器)

输出设备显示器、打印机、绘图仪、音箱 软件系统: 第二章信息获取知识点 【知识梳理】 1.获取信息的基本过程(P18) 2.信息来源示例(P20):亲自探究事物本身、与他人交流、检索媒体 3.采集信息的方法(P20):亲自探究事物本身、与他人交流、检索媒体 4.采集信息的工具(P20):扫描仪、照相机、摄像机、录音设备、计算机 文字.txt Windows系统自带 .doc 使用WORD创建的格式化文本,用于一般的图文排版 .html 用超文本标记语言编写生成的文件格式,用于网页制作 .pdf 便携式文档格式,由ADOBE公司开发用于电子文档、出版等方面 图形图象.jpg 静态图象压缩的国际标准(JPEG) .gif 支持透明背景图象,文件很小,主要应用在网络上.bmp 文件几乎不压缩,占用空间大 动画.gif 主要用于网络 .swf FLASH制作的动画,缩放不失真、文件体积小,广泛应用于网络 音频.wav 该格式记录声音的波形,质量非常高 .mp3 音频压缩的国际标准,声音失真小、文件小,网络下载歌曲多采用此格式 .midi 数字音乐/电子合成乐器的统一国际标准 视频.avi 用来保存电影、电视等各种影象信息.mpg 运动图象压缩算法的国际标准 .mov 用于保存音频和视频信息 .rm 一种流式音频、视频文件格式 6.常用下载工具(P29):网际快车(flashget)、web迅雷、网络蚂蚁、cuteftp、影音传送带等。 7.网络信息检索的方法(P25 表2-7):直接访问网页、使用搜索引擎、查询在线数据库 8.目录类搜索引擎和全文搜索引擎的区别(P26): 确定信息需求确定信息来源采集信息保存信息

信息论基础理论与应用考试题及答案

信息论基础理论与应用考试题及答案

信息论基础理论与应用考试题 一﹑填空题(每题2分,共20分) 1.信息论研究的目的就是要找到信息传输过程的共同规律,以提高信息传输的 (可靠性)﹑(有效性)﹑保密性和认证性,使信息传输系统达到最优化。 (考点:信息论的研究目的) 2.电视屏上约有500×600=3×510个格点,按每点有10个不同的灰度等级考虑, 则可组成5 31010?个不同的画面。按等概计算,平均每个画面可提供的信息量约 为(610bit /画面)。 (考点:信息量的概念及计算) 3.按噪声对信号的作用功能来分类信道可分为 (加性信道)和 (乘性信道)。 (考点:信道按噪声统计特性的分类) 4.英文电报有32个符号(26个英文字母加上6个字符),即q=32。若r=2,N=1, 即对信源S 的逐个符号进行二元编码,则每个英文电报符号至少要用 (5)位 二元符号编码才行。 (考点:等长码编码位数的计算) 5.如果采用这样一种译码函数,它对于每一个输出符号均译成具有最大后验概 率的那个输入符号,则信道的错误概率最小,这种译码规则称为(最大后验 概率准则)或(最小错误概率准则)。 (考点:错误概率和译码准则的概念) 6.按码的结构中对信息序列处理方式不同,可将纠错码分为(分组码)和(卷 积码)。 (考点:纠错码的分类) 7.码C={(0,0,0,0),(0,1,0,1),(0,1,1,0),(0,0,1,1)}是((4, 2))线性分组码。 (考点:线性分组码的基本概念) 8.定义自信息的数学期望为信源的平均自信息量,即(11()log ()log ()()q i i i i H X E P a P a P a =??==-????∑)。

信息技术基础知识要点

必修信息技术基础 主题1 信息的获取 一、信息及其特征 1、信息的基本概念 “信息”一词通常是指数据、信号、消息所包含的内容和意义。 2、信息的基本特征 a)载体依附性:信息不能独立存在,必须依附于一定的载体。 信息的表现载体:图片、声音、动作、表情、文字等 信息的实物载体:CD、U盘、硬盘、纸张等 b)信息是可加工处理的 c)信息可以脱离它所反映的事物被存储、保存和传播 d)价值性:信息是有价值的,而且可以增值 e)时效性:信息反映事物某一特定时刻的状态 f)共享性:信息可被多个信息接受者接收且多次使用 1.下列情形可能引起信息丢失的………………………………………() (A)载体的损坏(B)共享范围扩大(C)获知人数增加(D)有效期限延长 2.李斌发现按照车上的GPS导航仪规划的路线驾驶经常出错,他更新了导航软件的地图文件后, 出现错误的概率大大降低,该事例反映出信息具有……………() (A)载体依附性(B)时效性(C)共享性(D)传递性 二、信息技术及其发展简史 1、信息技术:简称IT 一切与信息的获取、加工、表达、交流、管理和评价等有关的技术都称之为信息技术。 传感技术、通信技术、计算机技术和控制技术是信息技术的四大基本技术,其中现代计算机技术和通信技术是信息技术的两大支柱 2、信息技术的发展趋势 量子计算机、生物计算机、机器人、数字地球、虚拟现实、云技术、物联网等。 (1)越来越友好的人机界面 虚拟现实技术 语音技术 ?关键技术有自动语音识别技术(ASR)和语音合成技术(TTS) 智能代理技术 (2)越来越个性化的功能设计 信息技术产品走向了个性化和集成化的发展方向 (3)越来越高的性能价格比 成本的降低和性能的提高 知道电脑的主要性能参数:cpu(频率越大运算速度越快)、硬盘(存储空间)、内存、显示器

信息技术1

1.1信息及其特征 一、教学内容分析和设计: “信息及其特征”是教育科学出版社的高一《信息技术基础》第一章第一节的内容。由于这个内容理论性较强,如果只是由教师来讲,学生可能会觉得枯燥,所以我准备在教师的引导下,举出现象,让学生进行探讨,然后归纳获得知识。有不足之处由教师或学生来补充。这样能让学生积极参与,活跃课堂气氛,既让学生学到知识,又培养了学生将学习与生活联系的习惯和自主学习的习惯。二、教学对象分析: 知识的获取者是刚刚升入高中的学生,按照人的成长认知规律,学生对知识的获取开始由感性认识提升到理性认识。对于“信息”这一事物的认识,可以让他们从大量存在的现象中,发现并归纳出他们应该获得的知识。老师在此过程中起着引导的作用。 三、教学目标: 1、知识、技能目标:学生能够列举学习与生活中的各种信息,感受信息的丰富多彩性;举例说明信息的一般特征;培养学生分析问题、解决问题的能力。 2、过程、方法目标:培养学生从日常生活、学习中发现或归纳出新知识的能力。 3、情感态度与价值观目标:让学生理解信息技术对日常生活和学习的重要作用,激发对信息技术强烈的求知欲,养成积极主动地学习和使用信息技术、参与信息活动的态度。 四、教学重点: 1、信息特征的认识。 五、教学难点:

信息的含义。 六、教学方法 本节概念性强,实践性弱。采用讲授法,讨论法。 教学过程 谈话引入:同学们,信息技术这门课程,我们在初中阶段就已经学习。那么下面请同学们说一说,什么是信息?在我们日常生活中,你认为哪些属于信息?(举例) 生1:校园里铃声响,可以告诉我们信息:上课或下课。 生2:观看校运会,可以获得很多运动会赛场上的信息。 生3:从网上可以获得很多信息,如:学习资料、娱乐、新闻报导等。 生4:在报纸上可以了解国内外的信息。

信息技术基础知识题(新I)参考答案

信息技术基础知识题(新I)参考答案 1. 信息处理指的是与信息的收集、加工、存储、传递和施用等内容相关的行为和活动。以下属于信息加工内容的行为和活动的是______。 A.信息的检索 B.信息的测量 C.信息的控制 D.信息的识别 2. 将计算机用于自然语言理解,自动翻译,这属于计算机在____方面的应用. A. 人工智能 B. 管理和决策 C. 自动控制 D. 办公自动化 3. 当前使用的微型计算机,其主要电子元器件是由____构成. A.大规模或超大规模集成电路 B. 集成电路 C. 晶体管 D. 电子管 4. 在表示存储器的存储容量时,1MB的准确含义是____. A. 1024字节 B. 10242字节 C. 10243字节 D. 10244字节 5. 根据ISO的定义,在信息技术领域中"信息"与"数据"的关系是____. A. 信息包含数据 B. 信息仅指加工后的数值数据 C.信息是指对人们有用的数据 D.数据是指对人们有用的信息 6. 在信息处理领域,下面关于数据的叙述中,不正确的是____. A. 数据可以是数字、文字、图画、声音、活动图象 B. 数据可以是数值型数据和非数值型数据 C.数据就是数值 D. 数据是对事实、概念或指令的一种特殊表达形式 7. 国际标准化组织(ISO)对数据所下的定义是: 数据是对____、概念或指令的一种特殊表达形式. A. 物质 B. 信息 C.事实 D. 意识 8. 根据ISO对数据所下的定义,可认为____。 A. 数值、图片、声音、活动图像都是数据 B. 仅数值和文字是数据 C. 仅声音和图像是数据 D. 仅数值、图片和文字是数据 9. 计算机中的所有信息以二进制数表示的主要理由是____. A. 信息处理方便 B. 运算速度快 C. 降低能耗 D.物理器件性能所致 10.微型计算机系统采用总线结构对CPU、存储器和外部设备进行连接.总线通常由三部分 组成,它们是____. A.数据总线、地址总线和控制总线 B. 数据总线、信息总线和传输总线 C. 地址总线、运算总线和逻辑总线 D. 逻辑总线、传输总线和通信总线 11.微型计算机内存储器是按____进行编址. A.二进制位 B. 字节 C. 字长 D. CPU型号 12.微机的硬件系统是由____组成的. A. 内存和输入输出设备 B. CPU和输入输出设备 C.主机和外设 D. 主机、键盘、鼠标和显示器 13.微型计算机中的内存储器的功能是____. A.存储数据 B. 输入数据 C. 进行运算和控制 D. 输出数据 14.微型计算机的微处理器主要由____组成. A. 运算器和主存 B. 控制器和主存 C.运算器、控制器和寄存器 D. 运算器、控制器和主存

信息技术基础知识

第一章信息技术基础知识 1.1 重点知识 一、信息与信息技术 (一)信息技术及其主要特征 1.有关信息的定义和解释 几种影响较大的对信息的定义和解释: (1)信息是可以减少或消除不确定性的容。 (2)信息是控制系统进行调节活动时,与外界相互作用、相互交换的容。 (3)信息是事物运动的状态和状态变化的方式。 从系统科学角度看,信息是物质系统中事物的存在方式或运动状态,以及对这种方式或状态的直接或间接的表述。通俗地说:信息是人们对客观存在的一切事物的反映,是通过物质载体所发出的消息、情报、指令、数据、信号中所包含的一切可传递和交换的知识容。 2. 信息的主要特征 社会性、传载性、不灭性、共享性、时效性、能动性。 3. 信息的分类 对信息进行分类的常见的8 种方法:容上、存在形式上、状态上、外化结果上、符号上、信息流通方式上、信息论方法上、价值观念上。 (二)信息在现代社会中的作用 简要掌握信息在现代中的5 点作用:认知作用、管理作用、控制作用、交流作用、娱乐作用。 (三)信息技术 1.信息技术的概念 信息技术就是能够提高或扩展人类信息能力的方法和手段的总称。这些方法和手段主要是指完成信息产生、获取、检索、识别、变换、处理、控制、分析、显示及利用的技术。 2. 信息技术的三个发展时期 ⑴以人工为主要特征的古代信息技术;⑵以电信为主要特征的近代信息技术;⑶以网络为主要特征的现代信息技术。 3.信息技术的体系信息技术是一个由若干单元技术相互联系而构成的整体,又是一个多 层次、多侧面的复 杂技术体系。信息技术大致可归纳为以下三个相互区别又相互关联的层次。 ⑴主体层次:是信息技术的核心部分。①信息存储技术;②信息处理技术;③信息传输技术; ④信息控制技术。 ⑵应用层次:是信息技术的延伸部分。 ⑶外围层次:是信息技术产生和发展的基础。 4.信息技术的特点

必修信息技术基础知识点汇总

必修信息技术基础知识点汇总 主题1 信息的获取 一、信息及其特征 1、信息的基本概念 “信息”一词通常是指数据、消息所包含的内容和意义。信息的表现形式有多种,如:图片、声音、动作、表情、文字。信息、物质、能量人类生存三大资源,信息≠物质(例:书不是信息) 2、信息的基本特征 载体依附性:信息不能独立存在,必须依附于一定的载体 价值性:信息是有价值的,而且可以增值 时效性:信息反映事物某一特定时刻的状态传递性:信息可打破时空限制 共享性:信息可被多个信息接受者接收且多次使用 真伪性:信息有真有假可处理性:看上去没用的信息处理后变得有用 二、信息技术及其发展简史 1、信息技术:简称IT 一切与信息的获取、加工、表达、交流、管理和评价等有关的技术都称之为信息技术。 信息技术主要包括微电子技术、计算机技术、通信技术、传感技术,其中现代计算机技术(核心)和通信技术是信息技术的两大支柱 2、信息技术的发展历程 第一次、语言的使用第二次、文字的创造第三次、印刷术的发明 第四次、电报、电话、广播、电视的发明普及 第五次、计算机技术与现代通信技术的普及应用 3、信息技术的发展趋势:多元化、网络化、智能化、多媒体化、虚似化 (1)越来越友好的人机界面 虚拟现实技术 语音技术 ?关键技术有自动语音识别技术(ASR)和语音合成技术(TTS) ?语音识别技术(Automatic Speech Recognition)是指将人说话的语音信号转换为可被计算机识别 的文字信息,从而识别说话人的语音指令以及文字内容的技术。 ?语音合成技术(Text to Speech)是指将文字信息转变为语音数据,以语音的方式播放出来的技术。 智能代理技术 (2)越来越个性化的功能设计 (3)越来越高的性能价格比 三、信息的获取过程 1、信息来源的主要途径 (1)直接获取信息:通过事物本身。 (2)间接获取信息:借助他人与媒体。 2、信息获取的一般过程

信息技术基础知识考试题

信息技术基础知识考试卷 姓名: 分数: 日期: 年月日 说明:选择题每题2分(多选题错选不得分,漏选得1分),填空题每空2分,简答题的分值在每题中标明。 一、选择题: 1、门禁系统常见身份识别种类包括哪几种?(多选) A、密码键盘识别 B、射频卡识别 C、物理识别 D、生物识别 2、下列选项中属于安全技术防范系统的有:(多选) A、防盗报警与声控功能 B、温度控制功能 C、出/入口监控功能 D、巡更管理功能 3、以下标准中,哪项不属于综合布线系统工程常用的标准。 A、日本标准 B、国际标准 C、北美标准 D、中国国家标准 4、下列关于水平子系统布线距离的描述,正确的就是: A、水平电缆最大长度为80米,配线架跳接至交换机、信息插座跳接至计算机总长度不超过20米,通信通道总长度不超过100米。 B、水平电缆最大长度为90米,配线架跳接至交换机、信息插座跳接至计算机总长度不超过10米,通信通道总长度不超过100米。 C、水平电缆最大长度为80米,配线架跳接至交换机、信息插座跳接至计算机总长度不超过10米,通信通道总长度不超过90米。 D、水平电缆最大长度为90米,配线架跳接至交换机、信息插座跳接至计算机总长度不超过20米,通信通道总长度不超过110米。 5、屏蔽双绞线对的双绞线称为: A、UTP B、FTP C、ScTP D、STP 6、视频被分为模拟视频与( )两大类 A、数字信号 B、数字视频 C、VGA D、DVI-D 7、为了保证相序一致,三相电路中以( )三种颜色来标志A、B、C三相电源。 A、黄、绿、红 B、绿、黄、红 C、黄、红、绿

D、红、黄、绿 8、在网络OSI/RM参考模型中,( )处于模型的最底层。 A、物理层 B、网络层 C、传输层 D、应用层 9、检查网络连通性的应用程序就是: A、PING B、DNS C、ARP D、WINS 10、计算机操作系统常用的网络配置有(多选)。 A、IP地址 B、MASK C、WINS D、DNS 11、8块300G的磁盘做RAID 5后可用空间为: A、1200G B、1、8T C、2、1T D、2400G 12、磁盘空间利用率最大的RAID就是: A、RAID 5 B、RAID 0 C、RAID 10 D、RAID 1 13、下面哪种硬盘传输速度最快: A、SAS B、SATA C、FC D、IDE 14、虚拟化技术涉及哪些知识领域?(多选) A、网络 B、存储 C、操作系统 D、虚拟化集成 15、常用的数据库软件有:(多选) A、SQL B、DB2 C、ORACLE D、SYBASE 16、防火墙的主要作用就是: A、防病毒 B、包过滤

初中信息技术基础知识要点

初中信息技术基础知识要点 1、信息、物质、能源是构成世界的三大要素。 2、信息技术包括信息的采集(获取)、传递、存储、处理(加工)、发布、交流等技术。 3、信息技术的五次技术革命:①语言的使用;②文字的使用;③造纸术和印刷术的应用; ④电报、电话、广播、电视的发明和应用;⑤计算机和网络的普及应用。 4、以计算机为核心的现代信息技术已成为信息社会的重要技术支柱。 5、世界上第一台电子计算机名叫埃尼阿克(ENIAC),它于1946年诞生于美国的宾夕法尼亚大学。 6、按所使用的主要元器件划分,计算机经历了①电子管②晶体管③集成电路④大规模和超大规模集成电路四代。 7、“个人计算机”(Personal Computer,简称PC机)。 8、计算机由原来的单纯的数值计算发展成同时具有文字、绘图、表格、音像处理以及数据通讯等多种功能。多媒体计算机的诞生,各种形式的信息都能由计算机进行处理。 9、计算机今后发展的总趋势是网络化、多媒体化、智能化。新一代的计算机将是智能化的多媒体计算机。 10、计算机的主要特点:①运算速度快②运算精度高③具有存储记忆能力④具有逻辑判断能力⑤具有自动控制能力。 11、计算机的应用主要领域有:①数值计算②数据处理③自动控制④计算机辅助设计⑤计算机辅助教育⑥人工智能⑦计算机网络。 12、信息包括文字、数字、声音、图像、图表等。 13、计算机辅助设计(Computer Aided Design)简称CAD; 计算机辅助教学(Computer Assissted Instrction)简称CAI;

计算机管理教学(Computer Managed Ins trction)简称CMI。 14、人工智能主要包括专家系统、自然语言处理、图像识别以及机器人等。 15、计算机网络的主要功能:资源共享、数据通信。 16、当今社会已进入信息时代,能否有效、迅速地获取并处理信息,已成为判断一个国家的经济实力及其国际竞争能力的重要标志。未来的“信息高速公路”将成为整个世界的巨大的神经中枢。 17、从外观看,计算机主要由显示器、主机、键盘和鼠标组成。 18、一个完整的计算机系统由硬件和软件两部分组成,它们共同决定了计算机的工作能力。 19、计算机硬件由运算器、控制器、存储器(分内存储器和外存储器)、输入设备和输出设备五部分组成。 20、运算器、控制器和外存储器是构成主机的核心部件。主机以外的其他部件通常被称为计算机的外设。 21、中央处理器(又称中央处理单元),英文缩写CPU(Central Processing Unit),主要由控制器和运算器组成。它是计算机的核心,通常CPU的型号决定了整机的型号和基本性能。中央处理器时钟频率称为计算机的主频率。主频率通常以兆赫兹(MHZ)为单位,是衡量计算机运算速度的重要指标。目前常用的CPU的型号有Pentium(奔腾)Ⅱ、Pentium(奔腾)Ⅲ、Pentium(奔腾)Ⅳ。 22、内存储器简称内存,主要用于存储计算机当前工作中正在运行的程序、数据等,相当于计算机内部的存储中心。内存按其功能可以分为随机存储器(RAM)和只读存储器(ROM)。 23、随机存储器(RAM),主要用来随时存储计算机正在进行处理的数据,这些数据不仅允许被读取,还允许被修改。重新启动计算机后,RAM中的信息将全部丢失。我们平常所说的内存容量,指的就是RAM的容量。

相关主题
文本预览
相关文档 最新文档