2017-09-27 11:17
搭建证券数据的仓库
许威 陈鸿 谢剑锋
应用数据仓库技术改善企业的决策支持模式,并取得最大的投资回报,这一点已经成为大多数成功企业的共识。据IDC调查,数据仓库的平均投资回报率在401%。
工程背景
兴业证券是一家具有全国业务网络的综合类专业证券公司,在福建省和全国证券界都有一定的影响力。从2001年7月开始,兴业证券与Sybase公司合作开发兴业证券的数据仓库系统。
数据仓库技术构成
1. 采用多层体系结构,用Web/浏览器技术满足移动办公的需要;
2. 以UNIX平台为基础,再加上Sybase IQ数据仓库和先进的存储技术,实现对海量数据的管理;
3. 灵活的数据采集框架支持交易系统、财务系统、行情系统的数据采集,还能方便地进行系统的升级扩充。
系统实现
● 建模工具采用Sybase公司的PowerDesigner,生成数据仓库的库结构、包括表、各类索引;
● 数据仓库的存储工具采用Sybase IQ,存储形式采用了事实表-维表结构,事实表存放数据,维表存放分析的角度,管理工具用Sybase Central Java Edition;
● 数据抽取清洗工具Powermart完成每日增量数据和历史数据的抽取,数据仓库现在存放了该公司1997~2001年的交易数据,目前的数据容量为15G,每日增量抽取数据60M左右;
● 前端展现和即席查询通过多种方式实现,如Web方式、C/S方式、自动电子邮件系统等。
关键环节的解决策略
异地数据的自动抽取和传输:兴业证券有20多个分布在全国各地的营业部,准确及时地抽取各营业部的数据是数据仓库建设的关键和前提。
解决策略:各营业部的交易服务器每天定时执行Unix主机上的shell脚本,自动将每日数据导成文本并上传到总部的抽取服务器。
数据清洗:某些交易系统中存在一些测试数据和不规范数据,因此数据抽取上来后要对源文件进行清洗。
解决策略: 编写vbscript脚本处理文本文件,保证数据能够准确无误地导入到目的数据仓库中。
数据的备份和扩容: 现有的数据量为15G,每天抽取数据的增量约为60M,按照每年200个交易日计算,每年增加的数据约为12G,而数据仓库的设计容量为60G。
解决策略: 数据仓库存放5年的交易数据和2年内客户资金、证券的存管数据,超过这个时间跨度的数据用磁带备份。
数据仓库的实施效果
第一, 提供及时准确的报表和图形分析,帮助公司领导层加深对交易业务、市场变化、客户行为的认识,辅助决策分析;
第二, 帮助公司控制经营风险,使营业部的黑箱运作变得明朗化,可以及时发现风险,化解风险;
第三, 降低财务部、经纪部门业务人员报表制作的工作量,提供真实准确的数据平台,使他们从繁重的制表业务中解脱出来,进行更深层次的服务;
第四, 为公司的客户经纪人制度服务,丰富服务质量和内容,真正实现对客户的个性化服务,同时也对经纪人、营业部的营业指标和业绩有准确客观的考评。
用户反馈
经纪业务部 数据仓库投入使用前,报表生成人员为了制作每日的经纪业务报表,收盘后要逐个登录到20多个营业部的交易服务器上读取实时成交回报表。有了数据仓库后,统计人员只要访问总部的数据仓库,就可以得到一段时间内各营业部的交易数据,查询响应速度快,获取数据的途径顺畅,可信度高。现在,报表的生成时间大大缩短,以前生成A股和基金的日报表需要1小时左右,如今只需要5分钟。
此外,数据仓库还有助于进行一段时间内交易数据的统计分析。数据仓库的数据容量大,能够存放5年内的客户委托成交数据和1~2年内的客户资金和证券信息,可以根据这些数据对营业部交易量做趋势分析,还可以对客户托管资产在一段时间内的盈亏进行分析。
各营业部 数据仓库投入使用前,交易系统必须承担一定的数据查询和分析任务,占用了宝贵的交易系统资源。数据仓库系统上马后,相当一部分的统计分析工作可以由数据仓库系统完成,OLTP系统和OLAP系统可以各司其职,互为补充。
总裁办 通过数据仓库系统的报表,公司领导可以了解公司每只股票的持仓量、每只股票上的盈亏、每天的证券买卖盈亏等情况,提高决策响应的速度和有效性。
小资料:
目前,数据仓库还没有一个统一的定义,著名的数据仓库专家W.H.Inmon在《Building the Data Warehouse》一书中对数据仓库进行了如下描述:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。
数据仓库不同于数据库。数据库是一种通用的平台,用来管理企业的数据; 而数据仓库是一种概念,在此概念下进行的构造过程,我们称之为数据仓库处理。所以,数据仓库不是可以花钱购买的现成产品(数据库可以花钱购买),它是一个建立的过程。
本文原载于计算机世界报