大数据环境下的审计信息化(思路篇)

  • 格式:doc
  • 大小:17.70 KB
  • 文档页数:8

下载文档原格式

  / 5
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据环境下的审计信息化(思路篇)

前言:审计信息化工作十余年,面临着云计算、物联网、大数据、移动通讯和社交网络等新技术的挑战。本文希望通过对大数据的理解、审计中的应用分析,提出大数据服务与审计的一个角度或方向,进而形成相关信息化配套建设的思路。本文的编写希望得到读者的回馈,能够收到您的批评、指正。一、大数据的定义和理解(一)广泛定义对于大数据的理解现在并没有一个标准的定义,不过大家对于大数据都有一个共同的认识,那就是4V (Volume、Velocity、Variety、Veracity):1.(Volume)数据量大,TB,PB,乃至EB等数据量的数据需要分析处理。

2.(Velocity)要求快速响应,市场变化快,要求能及时快速的响应变化,那对数据的分析也要快速,在性能上有更高要求,所以数据量显得对速度要求有些“大”。3.(Variety)数据多样性:不同的数据源,非结构化数据越来越多,需要进行清洗,整理,筛选等操作,变为结构数据。4.(Veracity)价值密度低,由于数据采集的不及时,数据样本不全面,数据可能不连续等等,数据可能会失真,但当数据量达到一定规模,可以通过更多的数据达到更真实全面的反馈。而简化一下描述,其实“大数据”是一个体量特别大,数据类别特别多的数据集,并且这样的数

据集无法用传统数据库工具对其内容进行抓取、管理和处理。(二)审计的大数据特征从“大数据”概念产生的缘由来看审计行业是一个天然需要大数据概念及其实现技术的行业。我们分析如下:首先,审计行业的“生产对象”是被审计对象的数据,虽然说审计是对财政财务收支的监督。但是为了了解财务的真实情况,必然需要关注业务数据,这些行业的数据每一个都可以说是数据体量巨大。同时这些数据也是复杂多样的,结构化数据不用说了(二维表数据、立方体数据、空间数据等),非结构化数据例如:被审计单位的各种制度、文件、影像等。其次,审计的职责是查处财政财务的真实、合法和效益问题。查处过程中,需要在这些海量数据中进行关联、汇聚的查询或计算工作,而且这些计算需要同时作用在结构化、半结构化、非结构化数据之上。在没有大数据技术支撑之前,采用抽样或按领域分开的方式进行审计分析,无形中形成了数据之间的壁垒和分析的局限性。最后,审计工作中的审计思路、方法,虽然有章可循,但最终还要依赖于具体参与审计工作的人的智慧。这也就决定了所有的分析工作不能像其他的数据中心、数据分析、数据挖掘、决策支持系统一样,是相对“固化”的。而思路的火花是稍纵即逝的,对任何一个突然闪出的分析思路都应该在“秒级”响应。(三)大数据的关键技术大数据关键技术包括数据抽取与集成、数据分析、数据

解释3个领域。1.数据抽取与集成。大数据的一个重要特点是多样性。意味着其数据来源极其广泛。数据类型极为繁杂,这种复杂的数据环境要求必须对数据源中的数据进行抽取和集成。并采用统一定义的结构来存储这些数据。为保证数据质量,需要在数据抽取与集成后进行数据清洗。(1)数据采集:ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。(2)数据存取:关系数据库、NOSQL、SQL等。(3)数据处理:自然语言处理(NLP,NaturalLanguageProcessing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机'理解'自然语言,所以自然语言处理又叫做自然语言理解(NLU,NaturalLanguage Understanding),也称为计算语言学(Computational Linguistics。一方面它是语言信息处理的一个分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。2.数据分析数据分析是大数据发挥其核心价值的重要流程,主要的分析技术有统计分析、数据挖掘、模型预测等,分析的结论可用于推荐系统、专家系统、商业智能和决策支持系统等。(1)统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归

分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。(2)数据挖掘:分类(Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering)、描述和可视化、Description and Visualization)、复杂数据类型挖掘(Text,Web ,图形图像,视频,音频等)(3)模型预测:预测模型、机器学习、建模仿真。3.数据解释在数据分析的基础上,终端用户往往最关心的是数据的展示方式,如果分析结果没有采用适当的解释方法,所得到的分析结论往往让用户难以理解,极端情况下甚至会误导用户。传统的解释方法仅是文本、图表等电脑终端上的直观显示,未来提升数据解释能力可以引入标签云(tag cloud)、关系图等可视化技术解决,甚至可以采用人机交互技术,在交互过程中逐步引导用户进入分析流程,达到最佳的数据解释效果。4.基础架构大数据价值的完整体现需要多种技术的协同。为了便于数据管理,需要建立云存储系统等存储结构化、非结构化、半结构化类型的数据。为了加速数据处理,需要采用云计算、云存储、分布式文件存储等分布式计算技术。通过索引与

查询技术,提供搜索引擎服务,提高用户对大数据的使用效率。二、大数据技术为审计打开的“窗”我们都知道传统的审计,无论是计算机辅助审计、计算机审计、自动化审计,都是在既定计划、既定方向上开展的,这对于制定计划、制定审计方案的人是一个考验,同时执行人也将艰难的去践行。原来在电子审计体系发展的研究中,有人曾提出过智能审计和智慧审计的概念,如何定义智能、智慧呢,如何实现智能、智慧呢?其实一直没有很好的可执行方案,大数据时代的来临,大数据技术的发展为我们破题了。我觉得大数据技术的运用至少能够带来以下几个方面的进化:(一)审计计划彻底放开看到这个小标题,大家不要误会,不是说不要计划、随性开展审计项目。今后的计划分为两类:一是固定审计工作,二是专题审计工作。1.固定审计类似现在每年都要开展的部门预算执行审计一样,今后像社保、税收、环资、投资等审计都会进入固定审计工作。就因为大数据时代的来临,对于审计来说数据已经极大丰富,而且能够提供应对这些数据的采集、存储、处理、分析的大数据技术。2.专题审计(或者叫随机审计)不再像原来一样,年初制定计划,年中调整计划。而是采用征集审计专题,组织评审后形成专题审计工作(当然这里会有一些安全保密的问题需要处理)。征集的已经不再是一个思路,而是有大数据分析的结论依据支撑的