OLAP性能分析及优化

期刊名字：现代电子技术
文件大小：225kb
论文作者：李彩霞
作者单位：青海民族学院
更新时间：2020-09-25
下载次数：次

论文简介

软件技术李彩霞:OLAP性能分析及优化OLAP性能分析及优化李彩霞(青海民族学院计算机科学与技术系青海西宁810007)摘要:数据仓库存储大量历史数据,OLAP应用涉及到对大面积历史数据的复杂查询,查询优化是提高OLAP响应速度的关键。目前最有效的方法是增加综合数据存储及查询方式的优化,但存储空间的有限限制了综合数据的存储量。常规优化数据库的方法不能满足OLAP的要求,针对以上出现的问题分别从数据仓库存储优化.OLAP实现方式的选择等工作出发,基于OLAP性能优化的查询优化策略等多角度实现对OLAP响应速度及提高查询优化。对这个问题进行了深入的研关键词:数据仓库;OLAP;变粒度存储策略;X-OLAP中图分类号:TP311.131文献标识码:B文章编号:1004 - 373X(2006)18- 116-03Analysis and Optimization on OLAP CapabilityLI Caixia .(Department of Computer Science of Technology ,Qinghai Nationality University, Xining .810007.China)Abstract: Data warehouse stores volumes of historical data, and OLAP applications involve complex queries on these data.Queries optimization is the key of improving the speed of OLAP response. At present the most eftive way is to increase thestorage of general data and the way of queries, but the limited spaces restrict the storage of general data. The normal regula-tions is excellent to turn the method of the database can't satisfy the OLAP request, this text aims at the problem of the aboveemergence respectively from the data warehouse saving excellent turn, the OLAP realizes choice. work of the way sets out. Ac-cording to the function of OLAP the excellent the search that turn is excellent to turn strategy , many the angle realizes to re-spond to the OLAP speed and increase the search is excellent to turn, This paper studies it deeply on this problem.Keywords:data warehouse;OLAP ;variable granularity storage method;X - OLAP数据进行多层面多角度分析和处理。由于历史数据只能1引言追加而不能被删除的特点使得数据仓库中的数据量极大，联机数据分析系统(On - Line Analytical Processing,而且随时间推移,数据量不断按年增长,严重影响了OLAP)是关系型数据库之父E. F. Codd 1993 提出的,当OLAP的响应速度。因此，提高OLAP的响应速度是当前时,E. F. Codd认为OLTP已不能满足终端用户对数据库.数据仓库研究的核心问题之一。常规优化数据库的方法查询分析的需要,用户的决策分析需要对关系数据库进行不能满足OLAP的要求,减小OLAP过程中的动态计算大量计算才能得到结果,而查询的结果并不能满足决策者机,事先存储OLAP查询所需要综合数据等手段是提高提出的需求,因此他提出了多维数据库和多维分析的概.OLAP响应速度的有效途径。以往研究数据仓库时都是念,即OLAP。将数据以最小粒度存储在数据仓库中作为基本数据。OLAP是针对特定问题的联机数据访问和分析。通OLAP更关心数据发展变化的趋势,大量的细粒度数据具过对信息很多种可能的观察形式进行快速稳定.-致和有很大的随机性,0LAP很少直接对他进行分析处理,往交互性的存取,允许管理决策人员对数据进行深入观察。往要将这些数据聚集到-定的粗粒度数据后才用来进行OLAP的基本分析动作包括:数据切片、数据切块、数据钻分析处理。本文针对以上出现的问题从多角度实现对取、数据聚合、数据旋转。OLAP通过对数据库中的数据OLAP响应速度及提高查询优化。进行相应的操作从多个角度、多个侧面进行快速、一致和2相关知识点交互地存取,从而使分析人员能够对数据进行深入的分析观察凹。中国煤化工的逻辑通常称为OLAPOLAP是基于数据仓库的,而数据仓库存储大量的历的实现MYHC N M H C接影响其响应速度。现史数据。OLAP以多维分析为基础,对数据仓库中的历史阶段OLAP实现途径主要有3种: ROLAP, MOLAP和HOLAP。ROLAP 基于关系数据库的数据存储,通常采用收稿日期:2006 -05-16星型模式或雪花模式存储数据,而MOLAP采用多维数组116《现代电子技术》2006年第18期总第233期D嵌入式与单片机<模式进行数据存储。ROLAP可扩展性好,但查询过程中调整。因此,对数据集的粒度访问频率f。设定一个阈值需要进行表关联,很难满足联机分析处理要求的快速响.fn。访问频率随时间推移不断变化，为防止动态调整过于应;MOLAP响应速度快,但可扩展性差;HOLAP是RO-频繁,并由此影响OLAP响应速度,设定一个访问频率下LAP和MOLAP的混合,希望能兼具ROLAP的可扩展优偏系数,即当连续出现多个访问频率小于设定的阈值时，势和MOLAP的快速响应优势凹才进行动态调整。视图物化数据仓库的数据量规模巨大,OLAP涉及其中,粒度访问频率:f。= (f.+ f2+...+ fv)/n(单到大面积数据查询与聚集操作,提高数据仓库性能除了采位时间内,联机分析处理对某-数据集在某一粒度级别上用常规数据库的许多查询优化技术外,通常采用的方法是的访问次数称为该数据集在该粒度的访问频率的平均使用空间换时间的方法:实视图技术,针对一些大范围查值'°]。访问频率的下偏系数:询建立实视图，即不仅存储其定义,而且存储其内容,称为n视图物化又称为CUBE计算。其策略分为:完全物化、部mZ(fn- f,)*分物化.不进行物化田。分介质、变粒度存储策略提高了OLAP响应速度。但粒度数据粒度反应数据库中数据单元的详细程度是变粒度存储策略需要复杂的元信息标志数据存储的全和级别的指标。数据越详细粒度越小,相应级别也就越方位置,有时需要对多数据立方体采取不同的聚集方法得低;数据综合程度越高,粒度越大,相应级别也就越高。粒到查询结果.聚集操作相对比较复杂。度可由各维所在层次定义。粒度是一个n元集合(d,d，(1)视图物化存储策略d...,},其中d;∈D,,(i= 1,2..n.D,代表第i维)。.不同环境下对视图物化的时间有着不同的要求,所以.大粒度数据都是由小粒度数据经过聚集产生的,因此大粒实际应用中通常采取以下3种物化策略:度数据又称为相应小粒度数据的产生数据,小粒度数据称完全物化策略即生成所有的Cuboid。这种策略提为相应大粒度数据的产生源。OLAP主要是挖掘历史数供了最短的查询响应时间。但是在属性统计表个数较多据中的一些隐含规律,大量的小粒度数据具有很大随机.的情况’下,物化视图的I/O成本较高,计算时间较长;而.性,OLAP很少会用他们直接进行分析处理,因此在多维且数据量可能是原来的几百倍,空间花费很大;此外空间数据库中可只存储这些小粒度数据经过聚集后的大粒度的占用也会影响索引性能。所以完全物化策略是-种在数据,大量小粒度数据可以存储在大容量、低速介质以此存储空间较大,CPU占用时间较长,对查询速度有较高要解决OLAP响应速度与数据爆炸问题之间的矛盾。求的情况下的物化视图方案。3OLAP性能优化部分物化策略即生成部分的Cuboid。有文献记载生成所有的Cuboid是不必的:在物化视图过程中,很多由于数据量大,且查询复杂,性能是一个严重的问题,Cuboid可以从其他Cuboid中生成;通过选择合适的Cu-为了提高性能,本文从以下几个角度进行了研究:boid进行物化可以达到很好的查询性能。所以,部分物化3.1提高OLAP性能所需的数据仓库存储优化是在存储空间有限、查询速度要求不太高的情况下的一种采用一定的存储策略可以提高OLAP的响应速度和物化视图的策略。优化查询。本文从2方面改变存储策略:不进行物化即不生成任何Cuboid,完会依赖数据库将历史数据以不同介质、不同粒度进行存储。以往数系统处理。据仓库都是将数据以最小粒度存储在数据仓库中作为基从分析可知,在硬件环境允许和CPU有较大空闲的本数据。OLAP更关心数据发展变化的趋势,大量的细粒情况下，为提高分析效率,完全物化是最好的策略。度数据具有很大的随机性,OLAP很少直接对他进行分析(2)不增加动态计算前提下压维数据立方体体积,增处理,往往将这些数据聚集到一定的粗粒度数据后才用来加综合数据的存储量。进行分析处理,将大量OLAP很少直接使用的细粒度数据目前OLAP的实现途径面临的最大问题是所生成的存储在数据仓库当中无疑是一种资源浪费。将很少被使数据立方体体积庞大,特别是当维属性较多、基本元组也用的细粒度存储到低速介质上,然后将这些细粒度数据聚较多时这个问题尤为严重。而XML( eXtensible Markup集到相对粒度较粗的数据存储到数据仓库中供OLAP用Languagel作为数据交拖的标准格式,XML文档具有明显中国煤化工来分析处理,以此提高OLAP的响应速度和解决数据爆炸的层次种基于XML格式的问题。将哪些细粒度数据存储到低速介质上以及将这些OLAP实HcNMHGML本身的层次结构体存储在低速介质上的数据聚集到什么样的粗粒度数据?现数据立方体中元组之间的聚集关系,能有效地减小数据采用一种动态调整的方法。为了提高OLAP的响应速度立方体的体积[3]。防止数据爆炸,多维数据库应能对数据集的物化进行动态X-OLAP模式为满足下列条件的XML模式称为X-117软件技术李彩霞:OLAP性能分析及优化OLAP模式:中，更显出他的优势。用位图索引查询,主要是对二进制对于含有n个维属性和m个度量属性的数据立方体，位串进行按位与和按位或运算。位图索引的优点及适用将M个度量属性用-个元素M表示，生成根Root;设维属的范围是:性的基按升序排列的顺序为( D.,......，建立最宜在大表的低基数属性.上建立位图索引,主要用于Root→D、*→D2* .....1*→D*→M所示.多属性条件查询。的层次结构，(其中X→Y表示X = parent(Y)(X,Y ∈位图索引的维护比较麻烦,适用于只读或以读取为主( Root, D ,0..... ,M});的应用,面向的DW正好为只读型的。从(D.......D.中选择所有可能的维组合,对每位图索引便于并行访问。位图与表按行对应,在搜索-维组合不破坏其排列的先后顺序,建立层次结构:时主要通过按位逻辑运算。在查询一个大表及位图索引.Root→D,*→....D,*;很容易分成多块,并行处理。对于通常采用并行处理的所有级元素都包含M, Refs,D,-ID和D,等属性,其中DW位图索引的这一性质是一个重要优点。M存储聚集度量值,Refs用来来向其可能的孩子元素,Di位图的数据冗余较大,有压缩的余地。- ID和Di分别存储维元素的标志和取值(i= .......(3)基于星型查询优化的方法有四种n);根节点Root包含M和Refs,属性M用来存储聚集度- 种是逐个将维表同事实表连接运算;第二种是由量值ALL;设Root→D....- D,为一条从根节点开.DW系统识别维表和事实表;第三种方法是索引连接。这始到任意非叶子节点结束的完整路径，则在终节点D,的种方法是使用索引进行连接运算，然后根据索引连接的结属性M中用来存储由CUBEBY(.......产生的相果来查找对应表记录;第四种方法一-位图索引。前两种应元组的聚集度量值。方法使得连接运算器需要很大的存储空间来支持;以上几3.2 OLAP实现方式的选择种方法很难说哪-种是最优的,对于小型的查询,第-、二由于MOLAP和ROLAP有着各自的优缺点,且他们种方法法简单方便,对于范围基数很小的维表的问题,第的结构迥然不同,这给分析人员设计OLAP结构提出了难四种方法较好,对于-次只从结果中选择很少的记录的查题,为此，必须选择一个新的OLAP结构- -- 混合型询,第三种方法较好(1+5]。OLAP,他能把两种结构的优点结合起来。存储数据时采用ROLAP型;查询分析时采用MOLAP型。本文重点研究的是OLAP实现技术及性能优化的问.3.3基于OLAP性能优化的查询优化策略对于联机分析处理技术OLAP来说，系统执行效率和题。首先分析了OLAP中影响性能的因素,分别对OLAP响应速度是用户最为关心的问题,在OLAP中影响查询性以多维分析为基础,对数据仓库中的历史数据进行多层面能有几个因素,分别是索引方式、系统结构等。特别是多角度分析和处理.提高OLAP的响应速度是当前数据仓OLAP中大量的计算是多维聚集函数的计算。因此,无论库研究的核心问题之一。常规优化数据库的方法不能满在查询中还是在其他方面,多维聚集函数计算的优化在足OLAP的要求,本文针对以上出现的问题分别从数据仓库存储优化、OLAP实现方式的选择等工作出发,基于OLAP中是更加重要的。OLAP性能优化的查询优化策略等多角度实现对OLAP(1)聚集函数的优化根据对聚集函数的分析,在计算机聚集函数时,可灵响应速度及提高查询优化。活地使用下述原则:参考文献首先,利用最小实视图法则,在查询时常驻机构会生成[1]陈京民.数据仓库与数据挖掘技术[M].北京:电子工业出实视图,常由已有的实视图导出。但可选择的实视图有多版社,2002.个，应在其中选择元组最少的实视图。其次,尽量减少I/O。[2] 唐林燕.数据仓库查询与智能查询程序的实现[J].计算机在从磁盘中取出数据时,如果在以后的处理中还会再用,应工程与应用,2000(8):197 - 200.尽量保存在内存中,以减少I/O。最后,共享排序结果。计3]陈小萍.数据开采的知识管理[J].计算机工程与应用，算聚集函数最费时的是GROUP BY子句,-般用排序方法2001,37(16):192 - 194.实现。一旦排序好,就要充分共享,避免重复排序。[4] 李庆忠，赵培英。郑永清,等. Web数据的数据仓库化模型(2)索引方法的选择中国煤化工198 -201.在多维查询的OLAP中,索引扮演了重要的角色。位[5]赵洁MHCNMHG面向主题的数据网络模图索引可以显著提高性能和节省存储空间,特别是在DW型[J].计算机应用研究,2004(12):85 - 87 ,90.作者简介李彩霞女,1964年出生,青海民族学院计算机系副教授,实验中心主任。研究方向为数据仓库与数据挖掘。118

论文截图