2016-12-27 15:12
摘要:今些年来,许多企业需要对信息系统数据进行深加工,以获得在何种经营、决策情况下的有效的结果和过程发展的趋势,以便于企业对现行发展进行决策。
实时挖掘企业信息数据
by AMT 曹伟
一.引言
今些年来,许多企业需要对信息系统数据进行深加工,以获得在何种经营、决策情况下的有效的结果和过程发展的趋势,以便于企业对现行发展进行决策。所以,以信息系统为基础的决策支持系统(DSS: Decision Support System)也正在从“不成熟期”向“成熟期”迈进。
在信息系统中有一概念就是数据的挖掘,从数据挖掘的概念上来讲,主要是历史的、有一段时间的、较为完整的数据进行分析、整理,得出企业的发展的规律以及在一定的历史条件下,采取什么样的措施得到其相应的结果,但是这样的概念似乎和信息的实时性相违背。这样的想法,未免不让想到是否应该有“实时数据挖掘系统”。
对企业信息系统中数据的挖掘,我们自然联想到数据仓库。数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员的决策。数据仓库在应用上符合DSS的需要,同时数据仓库也是DSS处理的基础。那么我们的实时挖掘信息系统的数据是否是从数据仓库中采集数据的呢?
既然是“仓库”必然和实时性相违背,信息数据需要深加工,现在唯一的解决方式方法就是进行数据仓库化处理,建立数据仓库的环境,进行数据快照,对数据进行抽取、集成和包装。实时信息系统是动态的系统,数据库也是动态数据存取,访问量大,变化快的东西不易做分析。我们挖掘企业信息系统什么信息,如何挖掘这些信息?
实时挖掘信息数据也是针对数据仓库的,仅仅在概念上数据仓库所囊括的数据性质有些变化,我们还是先从数据仓库入手,了解挖掘的原理再来分析挖掘实时信息数据。
二.非实时性数据仓库
在数据仓库中只有单一集成的数据资源,并且因为数据是可访问的,所以与传统数据环境相比,在数据仓库环境中DSS分析员的工作将要容易得多。
建造数据仓库有两个主要方面—与操作型系统接口的设计和数据仓库本身的设计。在某种程度上来说,“设计”并不能精确描述在启发式方式下建造数据仓库时发生了什么。首先,载入一部分数据,供DSS分析员使用和查看。然后,根据最终用户的反馈,在数据仓库中修改、增添一些数据。
这种反馈循环贯穿于整个数据仓库的开发过程。在设计数据仓库时,不能采用设计传统“需求-驱动(Case-Drive)”系统同样的方法。在另一方面,那种认为不预测需求是好思路的想法也是错误的。在实际中,通常是介于两者之间的。
数据仓库的设计是面向主题域的,这个主题域的概念在性质上和对象一致,但是主题域是一个范围的概念,而对象是一个事物。目前面向对象的设计较为常见,似乎面向主题域的设计很难理解,从我个人观点来看,恰恰相反,面向主题域的设计很简单,但是若考虑主题域的数据“冒泡”,那么困难就来了。
作为非实时性数据仓库,就是现在人们常说的数据仓库(实时性数据仓库为性质上的区分),前人描述的已经太多了,在这里我描述的非实时性数据仓库的数据“冒泡”,什么是数据仓库的数据“冒泡”?数据冒泡就是多系统数据的整合时,比如中国电信的数据和中国联通的数据整合在一起来分析时,我们必然重新建立一套数据结构,那么从中国电信系统的数据如何导出到新建系统中?中国联通呢?
在数据仓库技术中,目前描述最多的是在同一数据库体系内数据整合,那么不同系统间同一类数据又如何整合?
当然,系统是根据用户的需求来完成的,是否有这样的一个机构有义务将该行业的不同系统内数据收集起来进行分析?我们在分析的时候,是否是将数据经过人工加工而得出分析数据,那么这样的数据有什么意义,那么下一次同样的数据如何来分析,还需要一次手工操作,这样不同系统的数据如何采用“冒泡”的形式,将数据冒到新建的分析系统中去。
设计含有主题域的数据仓库系统是简单的,如何设计不同主题域数据并进行冒泡是否为以后数据仓库系统的发展的一个方向?
企业实施ERP等系统之后,大量的信息被采集到了,这些看上去非常有用处的信息如何被处理?数据必须被深加工,得出企业用于决策的信息,这些信息一般都是在企业执行一项操作后,根据数据查看一下收益结果,并把这个结果作为下一次决策时的数据参考,当然社会在短期内对个别企业的反应在大体上是一致的,这样,企业根据这样的数据就可以进行短期的较为精确的预测。
三.实时性数据仓库
作为目前实施的ERP系统是集成模块的,我原先实施系统时曾称之为“Bean Software”(积木软件),这类软件采用原始的数据库结构,如果采用实时的数据仓库,则不适应系统,为此在我们也谈谈什么样系统对数据实时性分析存在意义,而什么样的系统对实时性数据分析没有什么意义。
我在AMT(www.amteam.org)上也曾写了一篇关于电力行业ERP的文章,电力行业是一个特殊的行业,数据是实时采集到的,时时刻刻都在变化,目前的电力生产型系统已经达到在秒级保留系统各个环节的数据,数据量是庞大的,为此,针对这样庞大数据,电力进行有效的利用进行数据分析,比如说潮流计算、无功优化、负荷预测等,这些整合实时数据的应用给实时系统带来决策意义。
在电力行业这些数据从何处而来:电网调度系统,在电力行业称为SCADA系统。在这些生产型的系统中产生的大量的数据是分析电网稳定运行的确实的依据,也是当电网出现故障以后,这些采集到的数据经过数据重演的等手段,推断当初数据变动过程,以便在以后的操作中避免出现这样的结果。
在电力行业中,实时地采集并处理这些数据并在短时间内处理数据并给出电网运行情况是目前电力行业对电网调度系统一个要求,当然这个要求就是建立在电网监控系统数据分析之上的应用。这种分析目前还不能完全称为数据仓库的数据挖掘。
数据仓库在概念上是一个静态的概念,但是我们从实际操作的库存上来看,库存的商品可以进行进出,而这些进出的是符号实际原则的,那么可否设想一下,数据的仓库也为动态的,这里所有的多层数据加工并得出的数据目前和实时数据一并参与实时系统分析,那么就是将现有的数据仓库技术和实时数据分析技术集合起来,为快速的企业对数据分析的结果的需求作一次简单的满足。
我在这里提出系统间的结合,可能在很大程度上目前无法满足这个计算或处理的速度,但我认为今期数据和数据仓库中沉积数据一并参与实时分析,才能给出短计划、中长的合理计划,因为历史的规则和目前的趋势,都是影响决策的重要指标。
这样的例子不仅适合电力行业,还是金融分析(期货、债券)、证券投资、气象预测、生物养殖等等行业都有广泛的应用前景。