联机分析处理的综述和分析 联机分析处理的综述和分析

联机分析处理的综述和分析

  • 期刊名字:计算机应用研究
  • 文件大小:720kb
  • 论文作者:张忠平,李荣,郭丽丽
  • 作者单位:燕山大学,复旦大学
  • 更新时间:2020-09-25
  • 下载次数:
论文简介

10.计算机应用研究2003年联机分析处理的综述和分析张忠平12 ,李荣2, 郭丽丽'( 1.燕山大学信息科学与工程学院,河北秦皇岛066004; 2. 复旦大学计算机与信息技术系,上海200433)摘要:介绍了联机分析处理的研究状况对-些典型的联机分析处理产品进行了分析和评价指出了可视化的不足引入概念层次提升改进可视化效果的方法提出了联机分析处理非数值型的量度和虛拟视图的更新方法展望了联机分析处理的未来研究的问题和方向。关键词:数据仓库;联机分析处理;多维数据;数据立方体;数据挖掘中图法分类号: TP311文献标识码: A文章编号: 1001-3695( 2003 )8-0010-04An Analytical Overview of On-Line Analytical ProcessingZHANG Zhong-ping'2 , L Rong2 , GUO Li-i'( 1. Cllege of Information Science & Engineering , Yanshan Unixersity ,Qinhuangdao Helei 066004 ,China 2. Dept . of Compuer & Information Tech-nology , Fudan Unirersity ,Shanghai 200433 ,China )Abstract : This paper provides studied status of On-line Analytical Processing( OLAP ), analyses and estimates typical productions ,points out shortage of visual OLAP,inducts concept levels extraction and improves visual OLAP , brings measure of no numerical valuetype and updated ways of virtual view , views some future directions and problems in OLAP.Key words : Data Warehouse ; OLAP ; Multidimensional Data ; DataCube ; Data Mining策今年旺季的产品进货等有关事宜”。这是一个非常实1引言际的问题。决策者所需要的数据总是与一些统计指标联机分析处理( On-line Analytical Processing ,0LAP )如销售额、销售产品、销售地区、销售时间等统计有关。是最近几年刚刚兴起的软件技术,它在企业的领域内已这些统计数据是多维数据在多维数据上进行分析是决被数据库界广泛研究与应用。20 世纪60年代末,关系策的主要内容。传统的数据库很难适应这种决策分析。数据库之父E.F. Codd提出了关系模型,促进了关系数联机分析处理软件技术是专门用于支持复杂分析操作据库与联机事务处理( On-Line Transaction Processing ,的,它以一种直观易懂的饼图、曲线图、直方图等形式[1]OLTP)的发展数据以关系表的形式而非文件方式存储将查询分析结果提供给决策人员,侧重于对决策及管理为用户提供资源共享。随着社会的进步和企业的发展,人员的决策支持。数据量从兆(M)字节、千兆(G字节发展到现在的兆兆OL AP基本概念.(T序节、千兆兆(P字节与此同时用户的查询需求也变得越来越多样化,每一个需求不只是涉及简单的一个(1变量。它是数据度量的指标是数据的实际意关系表,而是多个关系表的多条乃至上千万条记录的综义即描述数据是什么”。通常也将变量称为度量(或合信息。关系数据库及联机事务处理已不能满足终端量度)用户(决策者及管理人员对数据复杂的查询分析需求。(2)维。它是人们观察数据的特定角度。维实际上1993年EF.Codd提出了多维数据库和多维分析的概是考虑问题时的一类属性单个属性或属性集合可以构念即0LAP。它侧重于分析型应用,区别于OLTP的操成一个维。作型应用。在日常实际决策过程中决策者需要的信息在中国煤化工成共享维、私有维、常数据往往不只是单一的某个指标数值,而是要能够从多.规维、MHCNMH(c为用户更好地展现维个角度观察某个指标或多个指标的数值并能发现各指的特性。标之间的关系。比如某公司总裁可能想知道本公司(3维的层次。人们观察数据的某个特定角度(即最近两年在销售旺季产品销售总额的对比情况,用以决某个维还可以从细节不同的各个方面进行描述将不同的各个描述方面称为维的层次。收稿日期2掉6;修返日期: 2002-10-08(4維的成员。它是指维的一个取值。若维是多层第8期张忠平等联机分析处理的综述和分析11.次的不同层次的取值构成-一个维成员。这里需要指出供快速的分析这也正是体现联机分析处理的特性。的是维成员不一定每个维层次都必须取值部分维层次在文献13 ]中介绍了时间序列数据类型,在一个同样可以构成维成员,且维成员是次序无关的。数据单元内存储一个时间序列的数据。这种数据类型有些成员由输入的数据组成后称为输入成员,由输可以省去时间维,简化了对时间的处理,同时减少多维入成员和操作符组成表达式可以构成导出成员。导出数据库对数据单元的数量限制。但是需要定义起始时成员既可以作为维成员,也可以作为度量成员。导出成间、时间周期以及周期之间的数据转换规则。比如:财员作为度量成员在实际应用中较为普遍。政年、闰月、周时间跨越月份等问题在数据之间转换时.(5多维数组。它是维和变量的组合表示。一个多都需要详细考虑45]增加了额外数据准备步骤。新的维数组可以表示为(维1、 维....维n变量)在多维数据增加在矩阵中会增加列,矩阵会变得越来越庞大,数组中,-定要有变量存在,且变量通常是数值型的。响应速度将会受到影响。所以目前0LAP产品较少使用(6数据单元。多维数组的取值称为数据单元。当时间序列数据类型。多维数组的各个维确定一个维成员就惟一确定一个变(8 )联机分析处理。它是使分析人员、管理人员或量的值。可以表示为(维1成员、维2成员....维n成执行人员能够从多种角度对从原始数据中转化出来的、员、变量的值)。能够真正为用户所理解的、并真实反映企业维特性的信.(7数据立方体。它是为输入数据的聚合定义的框息进行快速、-致、交互地存取,从而获得对数据的更深架结构是多维数据库23数据在维模型中的一种表述,入了解的一类软件技术。允许以多维对数据建模和观察,由维和事实组成。联机分析处理具有快速性、可分析性、多维性和复图1所示是按季度时间、城市地区和商品类型三个杂性四个特性167。维销售的数据组成的数据立方体集中反映了上述定义。3OLAP的多维数据在多维数组定义中指明变量通常是数值型的下面我们定义变量是非数值型类型的情况。假定图1是函3.1 多维数据结构数V=KX,Y zIX为季度;Y 为城市z为商品)确定的数值。现定义一个逻辑函数:OLAP的多维数据分为两种结构形式8]:aV)= {! KxY 2)>800认为是有意义的销售)(1)以多维数组的形式存储在多维数据库(Muli.0≤KX,YZ)<800(认为是无意义的销售)Dimesional Database ,MDD )中,而不是像关系数据库那样根据逻辑函数Q V )图1数据立方体可以转换为如以记录的形式存放,因 此它存在大量空值、重复等稀疏图2所示的立方体。对于立方体中数据单元为逻辑值,数据1。人们可以通过多维视图来观察数据。多维数我们可以定义逻辑AND" 和OR" 等运算。据库与关系数据库相比它的优势在于可以提高数据处:(城市)巾)理速度加快反应时间,提高查询效率。对于大量稀疏南享数据采用压缩技术处理[ 9,10]。(2)基于关系数据库的星型模式(StarSchema)和雪02680952 31 512052233花模式(SnovflakeSchema)》星型模式由事实表和维表组0.9379383858000I本毒畜(尚品类型)成。事实表包含基本不含冗余数据的中心表。维表包含维数据的附属表,每维对应一个维表。事实表通过外图1按季度城市和商品图2逻辑数值的多维.键与维表相连接,像星星爆炸一样,故称为星型模式。类型三个维销售的数数据立方体雪花模式是星型模式的变形。在星型模式中某些维表据立方体(单位:万元)对应多维数组(O 上海计算机,1);较为复杂,用一张维表来描述会带来过多冗余数据,为(Q2上海计算机1);了避免冗余数据占用过多的空间将维表再进行模式分(Q3上海计算机1);解把数据进一步分解到附加的维表中,这样星型模式(Qa上海计算机1)形成类似雪花的形状故称为雪花模式。进行AND"运算结果为1”则说明计算机在上海一年雪花模式和星型模式的主要区别是雪花模式的维,四季都有很好的销售,可以为销售部门提供在上海加大表可能是规范化形式,以便减少冗余。但是由于执行查计算机进货力度的决策信息。询需要更多的连接操作,雪花结构可能导致浏览性能下同理对应多维数组(Q, 上海电话0);降使整个系统性能将会受到影响。因此在数据仓库(Q2上海电话0);和0LAHtf5地早型模式流行。(Q。上海电话0);中国煤化工(Q。上海电话0b3.2CNMHG进行OR"运算结果为0”则说明电话在上海一年四季(1彻万和功状( Slice and Dice)在多维数据结构销售情况都不是很好,可以为销售部门提供在上海减少中选定二维子集的操作理解为切片选定三维子集的电话进货力度或取消电话商品销售的决策信息。因为操作理解为切块。按二维进行切片按三维进行切块,销售数据用逻辑10表示其运算速度要比数值型数据.可得到所需要的分析数据。如在季度时间、城市、商品运算快得夏方勢換策人员决策进货或取消某种商品提类型"三维立方体中进行切片和切块,便可得到各城市、12.计算机应用研究2003年各商品在某时间的销售数据。方体结构(度量值、维度等)或对其现有源数据的更改。(2 )钻取( Drill)b 钻取包含向下钻取和向上钻取操②刷新。清除重新加载立方体数据并重新计算它的聚作分别称为下钻( Dill-down )和上卷( Roll-up)钻取的合。在立方体源数据已更改、但其结构未更改的情况下深度与维所划分的层次相对应。层次可以根据用户需使用此方法。③完全处理。在当前定义基础上完全重新求通过给定维或属性分组来定义。也可以由数据库中构造立方体然后重新计算它的数据。在文献11 ]中提.的隐含模式定义全序或偏序的模式分层。出了G-Cube M-Cube ,Hybrid-Cube三种算法应用于超大型(3 )旋转( Rotate夏 又称转轴( Pivo)旋转是- - -种视压缩数据仓库上提高了数据立方体的处理速度。图操作通过旋转可以得到不同视角的数据。为了使用户能从多角度观察多种数据,0LAP 技术(4 )其它操作。有些OLAP操作提供其它钻取操作提供了虚拟视图技术,虚拟视图又称为虛拟多维数据包括钻过( Dillacross )和钻透( Dill-through操作39。集。虚拟多维数据集是一个逻辑多维数据集内多个多上述分析操作,0LAP提供可视化的直方图、饼图等维数据集的组合,它与由其它视图和表组合而成的关系可视化效果呈现给用户但是由于维的层次级别和成员.数据库视图有些相似,即只存储其定义而不存储其组数量的增加在一个可视化图中,用户难以区分成员之件多维数据集的数据。因此,它们实际.上不需要物理存间的关系如图3所示。为了呈现在用户面前清晰的可储空间。可以使用虚拟多维数据集创建已有多维数据视化效果,有必要引入概念层次提升处理。例如",彩集的组合及变形,而不需要使用大量的额外存储空间。电""冰箱”"空调”等,可以将概念层次提升到家用电由于用户操作的是虚拟视图那么对数据的更新操作也器”概念层次上来",面包””饼干”等,可以提升到食在虚拟视图上进行。依据关系数据库视图原理我们约品”概念层上来等等。概念提升到高层次可视化效果束只有来源于一个数据立方体的虚拟视图(我们称其为清晰可见如图4所示。子集虚拟视图)才能进行更新操作,更新后的数据通过子集虚拟视图映射回原始数据立方体。4OLAPServer分类及体系结构从逻辑上讲0LAP Server为用户提供来自数据仓库图3多级概念层次效果饼图图4概念提升后的效果饼图或数据集市的多维数据而不必关心如何存放问题。但是0LAP Server的物理结构和实现必须要考虑数据存放3.3 数据立方体的计算问题12。目前0LAPServer的数据是以星型模式和多维多维数据分析的核心是有效地计算多个维的聚集。数组形式存放。0LAP Server实现包括:在文献3 ]中介绍了对立方体有效计算的三种方法:●关系OLAR Relational OLAP ,ROLAP Server ;( 1 )Computer Cube操作●多维OLAR Multidimensional OLAP ,MOLAP )Server ;这是一种扩充SQL的方法,包含Computer Cube 操●混合OLAR Hybrid OLAP ,HOLAP )Server。ROLAP Server是-种中间件服务器具有可伸缩性;作。Computer Cube操作指定维的所有子集上计算聚集。.MOLAP Server是一种基于 数组的多维存储引擎支持数(2 )方体物化●方体的选择计算据的多维视图并将多维视图直接映射到数据立方体数方体的物化有三种选择:①不物化,即不预先计算组结构,具有快速性;H0LAP Server 是结合ROLAP和任何非基本”方体②全物化,即预先计算所有方体;③MOLAP技术得益于ROLAP较大的可伸缩性和MOLAP部分物化,即在方体集中,有选择地物化一个适当的子的快速计算。集。部分物化在存储空间和响应时间两者之间提供了OLAP采用三层的体系结构:数据库服务器、OLAP很好的折中。但是在部分物化时要考虑三个因素:①确服务器和用户(图5)定要物化的方体子集;②利用查询处理时物化的方体;随着www技术的普遍应用,用户需要使用浏览器③在装入和刷新时,有效地更新物化的方体。来访问传统的基于客户/服务器方式的OLAP应用。现( 3 )数据立方体中多维数据聚集在很多OLAP产品支持三层Web体系结构如图6所示。①ROLAP立方体计算使用技术HTML●排序、散列和分组操作用于维属性,以便对相关客户浏览器Jave. Serp元组重新排序和聚类;Database Server jOLAP Senver Front-end ToWeb服务器应用ICGI3355-API●在特定子集上分组;中国煤化工OLAP Server●在聚集.上计算新的聚集。YHCNMHGDatabase Serverr小相何图6基于Web的②MOLAP立方体计算使用技术OLAP体系结构●采用多路数组聚集技术将数组分成块;●通过数据单元计算聚集。5OLAP产品及应用立方体的更新又分为三种:①增量更新。将新数据添加到立月体平的分区并更新聚合。此方法不处理对立如果把0LAP定义为对共享的多维信息的快速分析第8期张忠平等联机分析处理的综述和分析13 .( Fast Analysis of Shared Multidimensional Informnation ,FAS-品指出了0LAP可视化的不足提出了联机分析处理非MI )有很多产品可以划入此类按使用方式的不同可分数值型的量度和虛拟视图的更新方法。0LAP 在各个领为通用型OLAP工具和特定商业问题分析软件两类[13]。域应用已日益受到青睐,但在理论和应用上仍然存在一数据密集型行业( Data Rich Industies X生活资料、零售、些有待进-步研究的问题,比如维类型的数值型(非离金融服务、运输)是OLAP软件的主要需求者,针对其中散量)变量的非数值型、维类型与量度之间的转换、概各个行业的OLAP解决方案也出现了很多行业也从中念层次提升、实时更新、0LAP分析结果的可视化等等问得到了收益,获得了极大的经济效益。随着OLAP技术题。0LAP、数据仓库、数据挖掘技术的集成是未来研究的日渐成熟,相应的产品在功能上也日渐丰富,如表1所示。的热点。表1 OLAP 产品对照表参考文献:[1] EF Codd ,S B Codd C T Salley. Providing OLAP to User-Ana-HYPERION程序具有几百个计算公式支持多种计算用户可以自Hperin Esduse OLAP Serv-|己构件复杂的查询 支持多用户同时读写有30多个剪lysts :An IT Mandate[ EB/OL ]. http ://www. cis . com. mx/pdf/端工具可供选择支持多种财务标准采用类似数组的结构避免了连接操作提供组存储过wp _ providing - olap_ to _ enduser. pdf 2002-01.ORACLE程语言来支持对数据的抽取灵活的数据组织方式数据Orade Express Sener为以在势森后政箱Son肉也可直接在BDB上使用有[2] A Multdimensional Database and View Mode[ EB/OL ]. http ://erad. ict. ac. en/ papers/1999-2-214. htm 2002-01 .将lryrin, Exsbus的OL4P引警和DR的关系数据库集IBM DB2 OLAP Sener .关系数振库中们完全兼容数据用皇型模型存放|[3] Jiawei Han , Micheline Kamber. Data Mining Concepts and Tec-采里Murdeo技术通过QLE和ODBC对外开放采用中,hique[ M ].北京高等教育出版社2001.INFORMIX ..开放的体系结构司以方便地其它数据库及前台工員进行集成[4] Rich Caickhoff.A New Face For OLAF[ Z ]. Intermet Systems ,SYBASE数据垂直分数搜列"存储)采用了突破性的数据存取January 1997Sybase Pwwer Dinension方法一i索引技术在教据压缩和并行处理方面有独到之处提供有效的预连織Po.in肢术[5 ] Kalyan Mukherjee ,Sushankar Daspal ,et al. Advanced DatabaseMICROSOFTManagement System[ C ]. Term Paper On Online Analytical Pro-SQL Sener 7.0 OLAP应速度降低网络流量通过OLE DB u 0LAP ,允许不同的客户端访问cessing,Xavier Institute of Management ,Bhubaneswar 2001.[6] Seok-Ju Chun ,Chin- Wan Chung ,Ju- Hong Lee ,et al. Dynamic6从联机分析处理到联机分析挖掘Update Cube for Range Sum Querie[ M ]. VLDB 2001.在数据挖掘领域将联机分析处理与数据挖掘以及[7 ] Surajit Chaudhuri ,Microsoft Ressearch ,Redmond. Umeshwar Da-在数据仓库中发现知识集成在-起称之为联机分析挖yal. HewletPackard Lads, Palo Alto ,An Overview of Data掘( On-Line Analytical Mining , 0LAM ),也称OLAP挖Warehousing and OLAP Technolog[L EB/OL ]. http ://www. cs.掘3.14]。这是因为:sfu. ca/CourseCentral/459/ han/ papers/ chaudhuri97. pdf ,①数据仓库中有高质量的数据;2002-01 .②构建数据仓库有良好的基础设施;[8] Cheng Li ,X Sean Wang. A Data Model for Supporting On-Line③OLAP具有探测式数据分析能力;Analytical Processing[ EB/OL]. http ://www. isse. gmu. edu/④数据挖掘具有联机选择功能。数据挖掘和OLAPfaculty/xywang/ Papers/ cikm96. ps 2001-09.在算法结合方面具有下列方式:[9 ] Gayatri Sathe , Sunita Sarawagi . Itelligent Rollups in Mulidi-●先进行立方体计算后进行数据挖掘;mensional 0LAP Dat[ M ] VLDB 2001 .●先对多维数据进行数据挖掘然后再利用立方体[ 10 ] Wei Wang. Supprting Online Analytical Processing EB/OL]计算算法对挖掘结果分析;www . cs. ust. hk/ pg/ defenses/ Soyabs QL Wang w. txt 2002-01 .●立方体计算与数据挖掘同时进行。[11]高宏李建中.超大型压缩数据仓库上的CUBE算法J]. .数据挖掘是一种挖掘型工具,它能自动地发现隐藏软件学报2001 1X 6) 830-839.在数据中的模式是一种能有效地从大量数据中发现潜[ 12] Alex Berson , Stephen J Smith. Data W arehousing ,Data Mining ,在数据模式、做出预测性分析的分析工具。0LAP 是一&OLAH[ M ]. McGraw-Hill Book Co. ,1999.种自上而下、不断深入的分析工具用户提出问题或假[ 13] 0LAP市场状况及产品评测EB/OL ]. htp :/www dnmgroup.设,0LAP负责从上而下深入地提取出关于该问题的详org. cn/zs12. htm 2002-01.细信息并以可视化的方式呈现给用户。作为验证型分[14]刘中国煤化工到0LAM[ EB/OL ]. ht:/析工具,OLAP更需要对用户需求有全面而深入地了解。1:.HCNMH G/ htm olap4. htm 2002-01.0数据挖掘和OLAP紧密结合能为用户选择所期望的数据作者简介:挖掘功能动态修改挖掘任务提供灵活性。张忠平( 1972-)男,吉林人,讲师,博士研究生研究方向为数据库与知识库、数据挖掘李荣( 1970- ),女山东人,讲师,博士7结论与展望研究生研究方向为数据库与知识库、生物信息学;郭丽丽本文论述了OLAP的基本概念、结构、操作及相关产( 1978- ),女黑龙江人工程师。

论文截图
版权:如无特殊注明,文章转载自网络,侵权请联系cnmhg168#163.com删除!文件均为网友上传,仅供研究和学习使用,务必24小时内删除。