2003-06-05 10:10
引言:在数据库的早年发展时期,大多数方案都是通过很多努力以设计和建立公司大型的数据库为导向。这些方案将耗时很长时间才能实现设计的数据产品可以使用,能够向公司提供价值。
数据集市:数据库的基础之一
by AMT 胡鹏
在数据库的早年发展时期,大多数方案都是通过很多努力以设计和建立公司大型的数据库为导向。这些方案将耗时很长时间才能实现设计的数据产品可以使用,能够向公司提供价值。在要求建立数据仓库的那段时间里,需求常常变化很快,使得最终在进行商业分析的时候,所建立的数据库没有什么用处。有些方案因此被放弃,而其他一些方案,虽然已经完成,但在花费了上百万的资金建设之后的结果却是被很多人认为是失败的。
虽然如此,对整合的资源和也许对分析进程已经过时的历史数据的需求仍然是在二十世纪八十年代和九十年代商务生活中的主要因素。在整个这个时期一些方法解决了大型数据库开发中的初期问题。一种被证明是非常成功的方法是将一个大型方案分割成几个小的部分,而每个部分都可以在很短的时间内,常常是三到四个月就可以完成。一旦完成第一部分,就可以接着做第二部分,如此类推,最终建立的数据库就可以包括商务及其环境在内的完整的功能数据。
另一种解决数据库方案早期问题的方法是数据集市的发展。在二十世纪八十年代末,数据集市变的非常流行,并且自从这个概念被引入后在业内就成为众多争论的主题。很多软件开发商在分析软件工具市场看到巨大的商机,开始大力推广数据集市来抓住这个机会。这些开发商认为,公司不再需要一个数据库,而只要一个数据集市就可以了。
数据集市的定义
什么是确切的数据集市的概念呢?就像这个世界上其他的事物一样,对于不同的人,数据集市有不同的定义。一个数据集市的工作概念也许就像下面所说:
数据集市是用来分析相关专门商务问题或功能目标的公司数据的专门项目的数据收集。一个数据集市仅包括在需要解决专门商务问题的数据。
一种通用的观点认为数据集市有三种基本类型。每种类型都以它和企业数据仓库(EDW)的关系来定义。独立的数据集市和非独立的数据集市是以它们是否包括来自(EDW)的数据为依据来定义。第三种概念认为数据库就是由数据集市构成的。本文将主要介绍独立的数据集市和作为数据库的数据集市的概念。
还需要注意的是数据集市的定义没有提到任何关于数据量,数据集市使用的数据大小等内容。一个数据集市明显要比一个公司的数据库小很多。然而,事实是数据库小并不意味着数据集市中的问题就小。这里我不是想说关于尺寸大小的问题,即如果一个数据库超过某个量它自然而然成为一个数据仓库。目标仅定位在要说明什么是数据集市、数据仓库或其其他实体而不是尺寸本身。
独立的数据集市
一个独立的数据集市是建立使用一个中央的、企业级数据库作为数据来源的数据集市。所特别建立的单独的数据集市是供单个的部门使用或者是为了满足面向专门项目的分析方案的需要,但是大多数机构在其商务智能环境中愿意拥有多个数据集市。然而,不管在机构内有多少数据集市存在,所有的数据集市的数据都来自EDW。
因此,建立一个数据集市也许供市场部使用。那么这个集市就需要包括产品的数据:产品的销售数据,营销策划和公司销售产品的潜在客户的数据。这类数据集市很可能不包括诸如每类产品的材料单、生产的质量控制数据等生产信息。在一些方面,数据集市也许只包括点状销售数据。而另一方面,它可能包括在某种更高的一个或多个标准水平,诸如对时间或产品的旧数据的总结。不管数据原本从哪里进入企业的数据收集系统,它被数据集市采用只有在这些数据通过一套标准函数,将数据置入被用来作为在最终数据集市中获取数据来源的中央数据仓库,经过加工处理方可。
作为数据库的数据集市
在数据库团体中一种学院派的想法是数据仓库是由公司中的数据集市构成的。用这种方式,公司建立数据集市,终端用户能够获取任何或者全部所需获得的数据来完成分析。该理论认为,数据集市建立起来更简便快捷,一旦建立,就从数据集市中获取数据,而不用建立和维护一个中央数据仓库。就像在数据仓库等技术领域大多数理论那样,这个概念有一些优点,但是紧随其后的是显而易见的问题。
在试图利用这种方式时,一个最重要的考虑是仍然打算确保在所有这些数据集市中获取的数据能被正确使用和整合。在当今世界最艰巨的任务是方案的何去何从,以及执行官、经理、员工在商务和技术两方面何去何从等。尽管这个问题并不仅是“数据集市是仓库”的方法中独有。不论你在哪里看,数据仓库是否以单片集成电路的实体形式建立,一个联合的数据仓库或者有由数据集市共同体构建的数据仓库,一个重要的成功要素是不断发展并时刻遵循将各个方面联系成一个有机的整体的设计。
无论你是够已经拥有一个EDW,或者正要进入数据库和商务智能的世界,数据集市很可能在你未来的计划中发挥作用。在提高EDW数据的可使用性、提升查询或报告功能和提供对在BI技术方面最初投资的快速回报方面,数据集市是一种有用的工具。但是在确保成功方面还是有风险的存在,因此建立一个数据集市的决定像其他IT策划一样,需要对公司的技术和商务策略同样进行仔细的计划和整合。