Operationele analytische verwerking. OLAP: online analytische gegevensverwerking

Online analytische verwerking (OLAP)

De technologie voor complexe multidimensionale data-analyse heet OLAP (On-Line Analytical Processing). OLAP is een belangrijk onderdeel van datawarehousing. Het OLAP-concept werd in 1993 beschreven door Edgar Codd en stelt de volgende vereisten voor multidimensionale analysetoepassingen:

multidimensionale conceptuele representatie van gegevens, inclusief volledige ondersteuning voor hiërarchieën en meerdere hiërarchieën (een belangrijke vereiste van OLAP);

het verstrekken van analyseresultaten aan de gebruiker binnen een aanvaardbare tijd (meestal niet meer dan 5 s), ten koste van een minder gedetailleerde analyse;

de mogelijkheid om elke logische en statistische analyse uit te voeren die specifiek is voor een bepaalde applicatie en deze op te slaan in een vorm die toegankelijk is voor de eindgebruiker;

toegang voor meerdere gebruikers tot gegevens met ondersteuning voor passende vergrendelingsmechanismen en geautoriseerde toegangsmiddelen;

de mogelijkheid om toegang te krijgen tot alle noodzakelijke informatie, ongeacht het volume ervan.

Een OLAP-systeem bestaat uit vele componenten. Op het hoogste presentatieniveau omvat het systeem een ​​gegevensbron, een multidimensionale database (MDB), die de mogelijkheid biedt om een ​​rapportagemechanisme te implementeren op basis van OLAP-technologie, een OLAP-server en een client. Het systeem is gebouwd volgens het client-server-principe en biedt toegang op afstand en voor meerdere gebruikers tot de MDB-server.

Laten we eens kijken naar de componenten van een OLAP-systeem.

Bronnen. De bron in OLAP-systemen is de server die gegevens aanlevert voor analyse. Afhankelijk van het gebruik van het OLAP-product kan de bron een datawarehouse zijn, een oudere database met algemene gegevens, een reeks tabellen waarin financiële gegevens worden samengevoegd, of een combinatie hiervan.

Gegevensopslag. Brongegevens worden verzameld en opgeslagen in een magazijn dat is ontworpen volgens de principes van datawarehousing. Het datawarehouse is een relationele database (RDB). De hoofdgegevenstabel (feitentabel) bevat numerieke waarden van indicatoren waarvoor statistische informatie wordt verzameld.

Multidimensionale database. Een datawarehouse dient als informatieleverancier voor een multidimensionale database, die een verzameling objecten is. De hoofdklassen van deze objecten zijn afmetingen en maten. Dimensies omvatten sets van waarden (parameters) waarmee gegevens worden geïndexeerd, bijvoorbeeld tijd, regio's, type instelling, etc. Elke dimensie wordt gevuld met waarden uit de overeenkomstige dimensietabellen van het datawarehouse. De reeks metingen bepaalt de ruimte van het onderzochte proces. Indicatoren verwijzen naar multidimensionale datakubussen (hyperkubussen). De hyperkubus bevat de gegevens zelf, evenals geaggregeerde bedragen voor de dimensies die in de indicator zijn opgenomen. Indicatoren vormen de hoofdinhoud van de MDB en worden ingevuld conform de feitentabel. Langs elke as van een hyperkubus kunnen gegevens worden georganiseerd in een hiërarchie die verschillende detailniveaus vertegenwoordigt. Hierdoor kunt u hiërarchische dimensies maken, die tijdens de daaropvolgende gegevensanalyse worden gebruikt om de gegevenspresentatie te aggregeren of in te zoomen. Een typisch voorbeeld van een hiërarchische dimensie is een lijst met territoriale objecten, gegroepeerd op districten, regio's en districten.

Server. Het toepassingsgedeelte van het OLAP-systeem is de OLAP-server. Deze component doet al het werk (afhankelijk van het systeemmodel) en slaat alle informatie op waartoe actieve toegang wordt verleend. Serverarchitectuur wordt beheerst door verschillende concepten. Het belangrijkste functionele kenmerk van OLAP-producten is met name het gebruik van MDB of RDB voor gegevensopslag.

Klanttoepassing. Gegevens die overeenkomstig zijn gestructureerd en in de MDB zijn opgeslagen, zijn beschikbaar voor analyse met behulp van een clientapplicatie. De gebruiker krijgt de mogelijkheid om op afstand toegang te krijgen tot gegevens, complexe zoekopdrachten te formuleren, rapporten te genereren en willekeurige subsets van gegevens te verkrijgen. Het verkrijgen van een rapport komt neer op het selecteren van specifieke meetwaarden en het construeren van een gedeelte van een hyperkubus. De doorsnede wordt bepaald door de geselecteerde meetwaarden. Gegevens voor andere metingen zijn samengevat.

De belangrijkste concepten van een multidimensionaal datamodel zijn: Data Hypercube, Dimension, Memders, Cell en Measure.

Een gegevenshyperkubus bevat een of meer dimensies en is een geordende verzameling cellen. Elke cel wordt gedefinieerd door slechts één set dimensiewaarden: labels. De cel kan gegevens bevatten: een maateenheid of leeg zijn.

Een dimensie is een reeks markeringen die een van de vlakken van een hyperkubus vormen. Een voorbeeld van een tijdsdimensie is een lijst met dagen, maanden, kwartalen. Een voorbeeld van een geografische dimensie zou een lijst van territoriale objecten kunnen zijn: nederzettingen, districten, regio's, landen, enz.

Om toegang te krijgen tot de gegevens moet de gebruiker een of meer cellen opgeven door de dimensiewaarden te selecteren die overeenkomen met de gewenste cellen. Het proces van het selecteren van meetwaarden wordt bevestigingslabels genoemd, en de set geselecteerde meetwaarden wordt een set vaste labels genoemd.

Voordelen van het gebruik van server-OLAP-tools vergeleken met client-OLAP-tools: bij het gebruik van servertools vindt de berekening en opslag van geaggregeerde gegevens plaats op de server en ontvangt de clienttoepassing alleen de resultaten van zoekopdrachten, waardoor het netwerkverkeer en de uitvoering van zoekopdrachten doorgaans kunnen worden verminderd tijd- en resourcevereisten die door de clienttoepassing worden verbruikt.

1. Multidimensionale gegevenspresentatie - tools voor eindgebruikers die multidimensionale visualisatie en manipulatie van gegevens bieden; De multidimensionale representatielaag abstraheert van de fysieke structuur van de gegevens en behandelt de gegevens als multidimensionaal.

2. Multidimensionale verwerking - een middel (taal) voor het formuleren van multidimensionale queries (de traditionele relationele taal SQL is hier niet geschikt) en een processor die een dergelijke query kan verwerken en uitvoeren.

3. Multidimensionale opslag - middelen voor de fysieke organisatie van gegevens, waardoor de effectieve uitvoering van multidimensionale zoekopdrachten wordt gegarandeerd.

De eerste twee niveaus zijn verplicht in alle OLAP-tools. Het derde niveau, hoewel wijdverspreid, is niet nodig, omdat gegevens voor een multidimensionale representatie ook uit gewone relationele structuren kunnen worden gehaald.

In elk datawarehouse - zowel regulier als multidimensionaal - worden naast gedetailleerde gegevens uit operationele systemen ook geaggregeerde indicatoren (totale indicatoren), zoals de som van de verkoopvolumes per maand, per productcategorie, enz. opgeslagen.

De belangrijkste nadelen zijn de toename van het volume aan opgeslagen informatie (bij het toevoegen van nieuwe dimensies groeit het gegevensvolume waaruit de kubus bestaat exponentieel) en de tijd die het kost om ze te laden.

De mate van toename van het datavolume bij het berekenen van aggregaten hangt af van het aantal dimensies van de kubus en de structuur van deze dimensies, d.w.z. de verhouding tussen het aantal ‘ouders’ en ‘afstammelingen’ op verschillende meetniveaus. Om het probleem van het opslaan van aggregaten op te lossen, worden complexe schema's gebruikt, die het mogelijk maken om een ​​aanzienlijke verbetering van de queryprestaties te bereiken bij het berekenen van niet alle mogelijke aggregaten.

Zowel ruwe als geaggregeerde gegevens kunnen worden opgeslagen in relationele of multidimensionale structuren. In dit opzicht worden momenteel drie methoden voor het opslaan van multidimensionale gegevens gebruikt:

MOLAP (Multidimensional OLAP) - bron- en geaggregeerde gegevens worden opgeslagen in een multidimensionale database. Door gegevens op te slaan in multidimensionale structuren kunt u de gegevens manipuleren als een multidimensionale array, waardoor de snelheid van het berekenen van de geaggregeerde waarden voor elk van de dimensies hetzelfde is. In dit geval is de multidimensionale database echter redundant, aangezien de multidimensionale gegevens volledig de oorspronkelijke relationele gegevens bevatten.

Deze systemen bieden een volledige cyclus van OLAP-verwerking. Ze bevatten, naast de servercomponent, hun eigen geïntegreerde clientinterface, of gebruiken externe spreadsheetprogramma's om met de gebruiker te communiceren.

ROLAP (Relationeel OLAP) - de originele gegevens blijven in dezelfde relationele database waar deze zich oorspronkelijk bevonden. Geaggregeerde gegevens worden in servicetabellen geplaatst die speciaal zijn gemaakt om deze in dezelfde database op te slaan.

HOLAP (Hybride OLAP) - de originele gegevens blijven in dezelfde relationele database waar deze zich oorspronkelijk bevonden, en de verzamelde gegevens worden opgeslagen in een multidimensionale database.

Sommige OLAP-tools ondersteunen het opslaan van gegevens alleen in relationele structuren, andere alleen in multidimensionale structuren. De meeste moderne server-OLAP-tools ondersteunen echter alle drie de gegevensopslagmethoden. De keuze van de opslagmethode hangt af van het volume en de structuur van de brongegevens, vereisten voor de snelheid van de uitvoering van query's en de frequentie van het bijwerken van OLAP-kubussen.

De structuur van de magazijndatabase is doorgaans zo ontworpen dat de analyse van informatie zoveel mogelijk wordt vergemakkelijkt. Het zou handig moeten zijn om de gegevens in verschillende richtingen te “lay-outen” (dimensies genoemd). Tegenwoordig wil een gebruiker bijvoorbeeld een overzicht zien van onderdelenleveringen per leverancier om hun activiteiten te vergelijken. Morgen zal dezelfde gebruiker een beeld nodig hebben van de veranderingen in het volume van de levering van onderdelen per maand om de dynamiek van de levering te volgen. De databasestructuur moet dit soort analyses ondersteunen door de extractie van gegevens mogelijk te maken die overeenkomen met een gegeven reeks dimensies.

De basis van operationele analytische gegevensverwerking is het principe van het organiseren van informatie in een hyperkubisch model. De eenvoudigste driedimensionale gegevenskubus voor de onderdelenvoorziening voor de eerder besproken testdatabase wordt getoond in Fig. 3.11. Elke cel komt overeen met een ‘feit’ – bijvoorbeeld het leveringsvolume van een onderdeel. Langs één zijde van de kubus (één dimensie) staan ​​de maanden waarin de door de kubus weerspiegelde leveringen plaatsvonden. De tweede dimensie bestaat uit soorten onderdelen en de derde dimensie komt overeen met leveranciers. Elke cel bevat de leveringshoeveelheid voor de overeenkomstige combinatie van waarden in alle drie de dimensies. Opgemerkt moet worden dat bij het vullen van de kubus de waarden voor leveringen van elke maand uit de testdatabase werden samengevoegd.


3.11. Een vereenvoudigde hypercube-optie voor het analyseren van de onderdelentoevoer

OLAP-klassesystemen verschillen in de manier waarop ze gegevens presenteren.

Multidimensionaal OLAP (MOLAP) – deze systemen zijn gebaseerd op een multidimensionale datastructuur gebaseerd op dynamische arrays met bijbehorende toegangsmethoden. MOLAP wordt geïmplementeerd met behulp van gepatenteerde technologieën voor het organiseren van multidimensionale DBMS. Het voordeel van deze aanpak is het gemak van het uitvoeren van berekeningen op hyperkubuscellen, omdat Voor alle combinaties van metingen worden overeenkomstige cellen aangemaakt (zoals in een spreadsheet). Klassieke vertegenwoordigers van dergelijke systemen zijn onder meer Oracle Express en SAS Institute MDDB.



Relationeel OLAP (ROLAP)– ondersteunt multidimensionale analytische modellen via relationele databases. Deze klasse systemen omvat Meta Cube Informix, Microsoft OLAP Services, Hyperion Solutions, SAS Institute Relational OLAP.

Bureaublad-OLAP– tools voor het genereren van multidimensionale queries en rapporten voor lokale informatiesystemen (spreadsheets, platte bestanden). De volgende systemen kunnen worden onderscheiden: Business Objects, Cognos Power Play.

E.F. Codd definieerde twaalf regels waaraan een OLAP-product moet voldoen, waaronder multidimensionale conceptuele weergave van gegevens, transparantie, beschikbaarheid, robuuste prestaties, client-server-architectuur, dimensionale gelijkheid, dynamische verwerking van schaarse matrices, ondersteuning voor meerdere gebruikers, onbeperkte ondersteuning voor cross-dimensionale bewerkingen, intuïtieve gegevensmanipulatie, flexibel mechanisme voor het genereren van rapporten, onbeperkt aantal dimensies en aggregatieniveaus.



De meest voorkomende systemen zijn ROLAP-klasse. Ze stellen u in staat een informatiemodel te organiseren over een relationeel volledige opslag van elke structuur of over een speciale datamart.

Rijst. 3.12. Stervormig diagram van een analytische showcase voor de levering van onderdelen

Voor de meeste datawarehouses is de meest efficiënte manier om een ​​N-dimensionale kubus te modelleren als een ster. In afb. Figuur 3.11 toont een hyperkubusmodel voor het analyseren van het onderdelenaanbod, waarbij informatie wordt geconsolideerd langs vier dimensies (leverancier, onderdeel, maand, jaar). Het sterrenschema is gebaseerd op een feitentabel. De feitentabel bevat een kolom die de geleverde hoeveelheid aangeeft, evenals kolommen die de refererende sleutels voor alle dimensietabellen aangeven. Elke kubusdimensie wordt weergegeven door een tabel met waarden, die een verwijzing vormt naar de feitentabel. Om niveaus van informatiegeneralisatie te organiseren, worden categorische invoergegevens boven de meetreferentieboeken georganiseerd (bijvoorbeeld 'materieel deel', 'stad van leverancier').

De reden waarom het diagram in Fig. 3.12 wordt een “ster” genoemd, vrij duidelijk. De uiteinden van de ster worden gevormd door de dimensietabellen, en hun verbindingen met de feitentabel in het midden vormen de stralen. Met deze databasestructuur worden de meeste bedrijfsanalysequery's samengevoegd met een centrale feitentabel met een of meer dimensietabellen. Een zoekopdracht om het volume van de verzendingen van alle onderdelen in 2004 per maand te verkrijgen, uitgesplitst naar leverancier, ziet er bijvoorbeeld als volgt uit:

SELECTEER SUM(VALUE), LEVERANCIER.LEVERANCIER_NAME, FACT.MONTH_ID

VAN FEIT, LEVERANCIER

WAAR FACT.YEAR_ID=2004

EN FACT.SUPPLIER_CODE=LEVERANCIER.SUPPLIER_CODE

GROUP_BY LEVERANCIER_CODE, MONTH_ID

ORDER_VOOR LEVERANCIER_CODE, MAAND_ID.

In afb. Figuur 3.13 toont een fragment van het rapport dat is gegenereerd als gevolg van het opgegeven verzoek.

Hulpmiddelen van de OLAP-klasse (On-Line Analytical Processing, traditionele Russische vertaling - "online analytische verwerking") zijn tegenwoordig populaire analytische hulpmiddelen, zonder welke het bijna onmogelijk is om een ​​informatie- en analytisch systeem voor te stellen. De term OLAP zelf werd in 1993 bedacht door Codd, die de tekortkomingen van het relationele model besprak vanuit het standpunt van bedrijfsanalisten. Het instrument dat deze tekortkomingen moest corrigeren was het concept van OLAP. Om eerlijk te zijn moet worden gezegd dat vóór de introductie van deze term een ​​benadering werd gebruikt die vergelijkbaar was met OLAP (namelijk multidimensionale gegevensrepresentatie), maar de aanzet voor de wijdverbreide verspreiding van de technologie en de implementatie ervan in veel analytische producten was het artikel van Codd. .

Onder de nadelen van het relationele model en relationele DBMS met betrekking tot analysetaken merkte Codd het volgende op. Ten eerste zijn analytische query's behoorlijk complex en omvatten ze een groot aantal relatief langzame relationele join-bewerkingen. Ten tweede is het opstellen van queries voor relationele databases niet beschikbaar voor bedrijfsanalisten (van nu af aan zullen we ze ‘beslissers’ of DM’s noemen). Het tweede nadeel veroorzaakt een vrij lange cyclus voor het verkrijgen van de nodige informatie van de beslisser. Het is bijvoorbeeld noodzakelijk om contact op te nemen met de informatiedienst, waar zij een rapportformulier met de relevante informatie zullen opstellen en vervolgens de rapporten van deze zullen gebruiken. formulier. Codd zag een oplossing voor deze problemen in een analytisch hulpmiddel dat een multidimensionaal model ondersteunt, zoals begrijpelijk voor de beslisser. Dat wil zeggen dat er verschillende dimensies worden geïdentificeerd, in de context waarvan verschillende indicatoren van de prestaties van de onderneming worden overwogen. Een dergelijk model zou, vanwege zijn helderheid en intuïtiviteit, de beslisser in staat moeten stellen zelf toegang te krijgen tot de noodzakelijke informatie. Aan de andere kant moeten antwoorden op vragen snel genoeg worden gegenereerd (deze vereiste bepaalt het “On-Line”-gedeelte van het OLAP-acroniem).

Codd formuleerde ook twaalf regels waaraan een OLAP-systeem moet voldoen. Later werden deze regels herwerkt in 18 eigendommen, verdeeld in 4 groepen. Deze reeks regels is niet populair. Misschien omdat het artikel uit 1993, in tegenstelling tot Codds bekende manifest uit 1970, waarin het relationele datamodel werd beschreven, veel minder fundamentele rechtvaardiging bevatte en minder theoretisch werd geverifieerd. Bovendien is het gepubliceerd onder auspiciën van een gerenommeerde leverancier van analytische systemen en de daarin geformuleerde regels zijn misschien niet universeel, maar houden rekening met de specifieke kenmerken van de producten van deze leverancier. Op de een of andere manier is de zogenaamde FASMI-test populairder, die kan worden aangezien voor de definitie van OLAP. FASMI is een acroniem dat staat voor:

Snel – De reactietijd van het systeem moet in seconden worden gemeten. Onafhankelijke onderzoeken tonen aan dat de tijd die een gebruiker wacht op een reactie van een computer ongeveer 20 seconden bedraagt. Na deze periode begint de gebruiker ongemak te voelen. Ongetwijfeld is het binnen enkele seconden uitvoeren van zoekopdrachten op grote hoeveelheden informatie een moeilijke taak voor fabrikanten van OLAP-tools. In feite is dit een van de belangrijkste ontwikkelingsrichtingen op dit gebied. Zoals uit sommige onderzoeken blijkt, is een onbevredigende werksnelheid echter nog steeds een van de belangrijkste klachten van gebruikers over tools van deze klasse.

Analyses (analyse) - het systeem is ontworpen voor een uitgebreide studie van gegevens, en deze studie kan elementen van bedrijfslogica bevatten, door de gebruiker gedefinieerde afhankelijkheden ondersteunen, enzovoort.

Gedeeld (gedeeld, meerdere gebruikers) - het systeem moet werk voor meerdere gebruikers ondersteunen en tegelijkertijd het noodzakelijke niveau van vertrouwelijkheid garanderen. Als gebruikerscorrectie van gegevens is toegestaan, moet deze worden gecontroleerd door bekende vergrendelingsmechanismen op het vereiste niveau.

Multidimensionaal - Gegevens moeten in multidimensionale vorm worden gepresenteerd. Dit is het belangrijkste onderdeel van de definitie van OLAP.

Informatie (informatie) - dit onderdeel geeft aan dat het resultaat van de analyse informatie is (in tegenstelling tot gegevens die zijn opgeslagen in een relationele database).

De FASMI-test stelt, net als de regels van Codd, een bepaalde standaard vast: de “ideale OLAP-tool”. In feite kunnen verschillende producten met elkaar worden vergeleken op basis van hoe goed ze aan deze bepalingen voldoen. Er zijn momenteel geen producten die hieraan volledig voldoen.

Verbinding tussen OLAP en gegevensopslag

Datawarehouses weerspiegelen de moderne trend om gegevens uit transactiesystemen te verzamelen, op te schonen en op te slaan voor analysedoeleinden. De opkomst van datawarehouse-technologie is deels te danken aan dezelfde vereisten als OLAP: het verschil in analytische queries en typische queries voor boekhoudsystemen. Bovendien bleek de wens om gegevens uit alle bronnen in de onderneming te verzamelen om een ​​meer holistisch informatiebeeld te creëren zeer relevant.

Een type datawarehouse zijn datamarts (of datamarts). Het verschil met datawarehouses ligt vooral in de omvang. Als bedrijfsgegevens het datawarehouse binnenstromen, presenteert de showcase gegevens die betrekking hebben op slechts één divisie, dienst of vestiging. Een storefront kan onafhankelijk worden gemaakt of als een subset van een bedrijfsdatawarehouse.

Verzameld uit verschillende bronnen, zijn consistente en soms geaggregeerde gegevens ideaal voor analyse. Daarom worden OLAP-tools in de meeste gevallen specifiek ingezet op basis van een magazijn of datamart, en zijn ze ontworpen om de daarin opgeslagen gegevens te analyseren. Dit is zo'n algemene trend dat in sommige bronnen de concepten Data Warehousing (datamart) en OLAP niet worden onderscheiden. Uit methodologische noodzaak moet er echter nog steeds een onderscheid worden gemaakt. Datawarehouse-technologie is meer gericht op het verzamelen, opschonen en opslaan van gegevens, en OLAP is meer gericht op de verwerking en presentatie ervan.


Gerelateerde informatie.


Het OLAP-concept is gebaseerd op het principe van multidimensionale gegevensrepresentatie. In een artikel uit 1993 ging E.F. Codd in op de tekortkomingen van het relationele model, waarbij hij vooral wees op het onvermogen om ‘gegevens te combineren, te bekijken en te analyseren in termen van meerdere dimensies, dat wil zeggen op de meest begrijpelijke manier voor bedrijfsanalisten’, en definieerde hij de algemene vereisten voor OLAP-systemen die de functionaliteit van relationele DBMS uitbreiden en multidimensionale analyse als een van de kenmerken ervan omvatten.

In een groot aantal publicaties duidt het acroniem OLAP niet alleen een multidimensionale weergave van gegevens aan, maar ook de opslag van de gegevens zelf in een multidimensionale database. Over het algemeen is dit niet waar, zoals Codd zelf opmerkt: “Relationele databases waren, zijn en zullen de meest geschikte technologie zijn voor het opslaan van bedrijfsgegevens. Er is geen behoefte aan nieuwe databasetechnologie, maar eerder aan analysehulpmiddelen die de functies ervan aanvullen bestaande DBMS'en en voldoende flexibel om de verschillende soorten mining die inherent zijn aan OLAP mogelijk te maken en te automatiseren." Dergelijke verwarring leidt tot tegenstellingen zoals "OLAP of ROLAP", wat niet helemaal correct is, aangezien ROLAP (relationeel OLAP) op conceptueel niveau alle functionaliteit ondersteunt die wordt gedefinieerd door de term OLAP. Het lijkt beter om de speciale term MOLAP te gebruiken voor OLAP gebaseerd op multidimensionale DBMS'en, zoals wordt gedaan in.

Volgens Codd is een multidimensionale conceptuele weergave een meervoudig perspectief dat bestaat uit verschillende onafhankelijke dimensies waarlangs specifieke gegevenssets kunnen worden geanalyseerd. Gelijktijdige analyse langs meerdere dimensies wordt gedefinieerd als multivariate analyse. Elke dimensie omvat aanwijzingen voor gegevensconsolidatie, bestaande uit een reeks opeenvolgende generalisatieniveaus, waarbij elk hoger niveau overeenkomt met een grotere mate van gegevensaggregatie voor de overeenkomstige dimensie. De dimensie Performer kan dus worden bepaald door de richting van de consolidatie, bestaande uit de generalisatieniveaus “onderneming – divisie – afdeling – werknemer”. De dimensie Tijd kan zelfs twee consolidatierichtingen bevatten: “jaar – kwartaal – maand – dag” en “week – dag”, aangezien het tellen van de tijd per maand en per week niet compatibel is. In dit geval wordt het mogelijk om willekeurig het gewenste detailniveau van informatie voor elk van de dimensies te selecteren. De drill-downoperatie komt overeen met de beweging van hogere naar lagere consolidatiefasen; integendeel, het oprollen betekent beweging van lagere naar hogere niveaus (Fig. 2).

Rijst. 2. Afmetingen en richtingen van gegevensconsolidatie

OLAP (Online Analytical Processing) is een informatieproces waarmee de gebruiker het systeem kan bevragen, analyses kan uitvoeren, enz. in operationele modus (online). Resultaten worden binnen enkele seconden gegenereerd.

OLAP-systemen zijn gemaakt voor eindgebruikers, terwijl OLTP-systemen zijn gemaakt voor professionele IS-gebruikers. OLAP omvat activiteiten zoals het genereren van zoekopdrachten, het opvragen van ad-hocrapporten, het uitvoeren van statistische analyses en het bouwen van multimediatoepassingen.

Het aanbieden van OLAP vereist het werken met een datawarehouse (of multidimensionaal magazijn) en een set tools, meestal met multidimensionale mogelijkheden. Deze tools kunnen querytools, spreadsheets, dataminingtools, datavisualisatietools, enz. zijn.

Het OLAP-concept is gebaseerd op het principe van multidimensionale gegevensrepresentatie. E. Codd onderzocht de tekortkomingen van het relationele model, waarbij hij allereerst wees op het onvermogen om gegevens te combineren, bekijken en analyseren vanuit het oogpunt van meerdere dimensies, dat wil zeggen op de meest begrijpelijke manier voor bedrijfsanalisten, en identificeerde algemene vereisten voor OLAP-systemen die de functionaliteit van relationele DBMS'en uitbreiden en multidimensionale analyse als een van de kenmerken ervan omvatten.

12 regels waaraan een softwareproduct uit de OLAP-klasse moet voldoen. Deze regels:

1. Multidimensionale conceptuele representatie van gegevens.

2. Transparantie.

3. Beschikbaarheid.

4. Stabiele prestaties.

5. Client-serverarchitectuur.

6. Gelijkheid van metingen.

7. Dynamische verwerking van schaarse matrices.

8. Ondersteuning voor modus voor meerdere gebruikers.

9. Onbeperkte ondersteuning voor cross-dimensionale operaties.

10. Intuïtieve gegevensmanipulatie.

11. Flexibel mechanisme voor het genereren van rapporten.

12. Onbeperkt aantal dimensies en aggregatieniveaus.

De reeks van deze vereisten, die als de feitelijke definitie van OLAP dienden, moet als richtlijn worden beschouwd, en specifieke producten moeten worden beoordeeld op basis van de mate waarin zij de ideale volledige naleving van alle vereisten benaderen.


Datamining en kennismining. Beheer en analyse van grote hoeveelheden data (Big data). Business Intelligence-systemen (BI).

Datamining (IDA) is een algemene term voor data-analyse met het actieve gebruik van wiskundige methoden en algoritmen (optimalisatiemethoden, genetische algoritmen, patroonherkenning, statistische methoden, datamining, enz.), waarbij de resultaten van toepassingsmethoden worden gebruikt voor visuele presentatie van gegevens.



Over het algemeen bestaat het IAD-proces uit drie fasen:

1) patronen identificeren (vrij zoeken);

2) het gebruiken van geïdentificeerde patronen om onbekende waarden te voorspellen (forecasting);

3) analyse van uitzonderingen om afwijkingen in de gevonden patronen te identificeren en te interpreteren.

Soms is er tussen ontdekking en gebruik een tussenfase waarin de betrouwbaarheid van de gevonden patronen wordt gecontroleerd (validatiefase).

Alle IDA-methoden, gebaseerd op het principe van het werken met brongegevens, zijn onderverdeeld in twee groepen:

Op casussen gebaseerde redeneringstechnieken – ruwe gegevens kunnen tot in expliciete details worden opgeslagen en direct worden gebruikt voor voorspelling en/of uitzonderingsanalyse. Het nadeel van deze groep methoden is de moeilijkheid om ze op grote hoeveelheden gegevens te gebruiken.

Methoden voor het identificeren en gebruiken van geformaliseerde patronen waarbij informatie uit primaire gegevens moet worden gehaald en omgezet in een aantal formele structuren, waarvan het type afhangt van de specifieke methode.

Data Mining (DM) is een technologie voor het detecteren in ‘ruwe’ gegevens die voorheen onbekende, niet-triviale, praktisch bruikbare en toegankelijke interpretatie zijn van kennis die nodig is voor besluitvorming op verschillende gebieden van menselijke activiteit. De algoritmen die bij datamining worden gebruikt, vereisen een groot aantal berekeningen, wat voorheen een beperkende factor was voor het wijdverbreide praktische gebruik van deze methoden, maar de toegenomen prestaties van moderne processors hebben dit probleem verlicht.

De Business Intelligence-markt bestaat uit 5 sectoren:

1. OLAP-producten;

2. Dataminingtools;

3. Tools voor het bouwen van datawarehousing en datashowcases;

4. Managementinformatiesystemen en -applicaties;

5. Eindgebruikerstools voor bevraging en rapportage.

Momenteel kunnen we onder de leiders van zakelijke BI-platforms MicroStrategy, Business Objects, Cognos, Hyperion Solutions, Microsoft, Oracle, SAP, SAS Institute en anderen benadrukken (bijlage B biedt een vergelijkende analyse van enkele functionaliteiten van BI-systemen).