Datawarehouse-concept. Gegevensanalysemodellen

Volgens de definitie van E. Inmon is een datawarehouse een domeinspecifieke, geïntegreerde, onveranderlijke, historisch onderhouden set gegevens, georganiseerd voor beslissingsondersteunende doeleinden.

Er zijn twee soorten gegevensopslag: virtueel en fysiek. In systemen die het concept van virtuele opslag implementeren, worden analytische vragen beantwoord
rechtstreeks naar de OID en de verkregen resultaten worden in de operatie geïntegreerd
het RAM-geheugen van de computer. Bij fysieke opslag worden de gegevens overgedragen
worden vanuit verschillende OID's overgebracht naar één enkele repository waar de analyses naartoe worden gestuurd
tical queries Een lichtgewicht versie van het datawarehouse is het datawarehouse, dat alleen thematisch gecombineerde gegevens bevat. VD is aanzienlijk kleiner in volume dan CD, en de implementatie ervan vereist geen grote kosten. VD kan zowel zelfstandig als in combinatie met HD worden geïmplementeerd.

Het datawarehouse omvat: metadata, gedetailleerde, geaggregeerde en gearchiveerde gegevens. De gegevens die naar de datawarehouse-formulieren worden verplaatst informatiestromen: input, generalisatie, return, output en metadatastream.

Gedetailleerde gegevens zijn onderverdeeld in twee klassen: dimensies en feiten. Dimensies zijn sets gegevens die nodig zijn om gebeurtenissen te beschrijven. Feiten zijn gegevens die de essentie van een gebeurtenis weerspiegelen.

Geaggregeerde gegevens worden verkregen uit gedetailleerde gegevens door ze over dimensies heen op te tellen. Voor snelle toegang voor de meest gevraagde geaggregeerde gegevens moeten deze worden opgeslagen in het datawarehouse en niet worden berekend bij het uitvoeren van query's.

Metagegevens noodzakelijk voor de gebruiker om informatie te verkrijgen over de gegevens die zijn opgeslagen in het datawarehouse. Volgens de principes van Zachman moeten metadata objecten beschrijven vakgebied gepresenteerd in het datawarehouse, gebruikers die met data werken, dataopslaglocaties, acties op data, dataverwerkingstijd en redenen voor datawijzigingen.

Het algemene idee achter datawarehouses is om OLTP-databases te scheiden van analytische databases en deze vervolgens dienovereenkomstig te ontwerpen. Het concept van dataopslag wordt al geruime tijd op de een of andere manier besproken door specialisten op het gebied van informatiesystemen. De eerste artikelen die specifiek aan de ZvH waren gewijd, verschenen in 1988. De auteurs waren B. Devlin en P. Murphy. In 1992 beschreef W. Inmon dit concept in detail in zijn monografie “Building the Data Warehouse”, tweede editie - QED Publishing Group, 1996.

Het concept van gegevensopslag is gebaseerd op het idee van scheiding van gegevens die daarvoor worden gebruikt operationele verwerking en voor het oplossen van analyseproblemen. Dit maakt het gebruik van datastructuren mogelijk die voldoen aan de opslagvereisten voor gebruik in OLTP-systemen en analysesystemen. Met deze indeling kunt u zowel de operationele opslagdatastructuren (online databases, bestanden, spreadsheets enz.) om invoer-, wijzigings-, verwijderings- en zoekbewerkingen uit te voeren, en datastructuren die voor analyse worden gebruikt (om analytische zoekopdrachten uit te voeren). In de DSS worden deze twee soorten gegevens respectievelijk aangeroepen operationele gegevensbronnen(OID) en gegevensopslag. In zijn werk gaf Inmon de volgende definitie van de ZvH.

Gegevensopslag- een domeinspecifieke, geïntegreerde, onveranderlijke, historische dataset georganiseerd voor beslissingsondersteunende doeleinden.

Hieronder zullen we geven algemene kenmerken belangrijkste eigenschappen van HD

Onderwerporiëntatie. Dit is het fundamentele verschil tussen HD en OID.
Verschillende OID's kunnen gegevens bevatten die hetzelfde onderwerpgebied vanuit verschillende gezichtspunten beschrijven (bijvoorbeeld vanuit het oogpunt van boekhouding, magazijnboekhouding, planningsafdeling, enz.). Een beslissing die slechts vanuit één standpunt wordt genomen, kan ineffectief of zelfs onjuist zijn. Met datawarehouses kunt u informatie integreren die verschillende standpunten over één onderwerp weerspiegelt. Met onderwerporiëntatie kunt u in het datawarehouse ook alleen die gegevens opslaan die nodig zijn voor hun analyse (voor analyse heeft het bijvoorbeeld geen zin om informatie op te slaan over de aantallen verkoop- en inkoopdocumenten, terwijl hun inhoud - hoeveelheid, prijs van verkochte goederen - zijn noodzakelijk). Dit verlaagt de opslagmediakosten aanzienlijk en verhoogt de veiligheid van de gegevenstoegang.

Integratie. OID's worden meestal ontwikkeld in verschillende tijden verschillende teams met hun eigen instrumenten. Dit resulteert in gegevens die hetzelfde object weerspiegelen echte wereld V verschillende systemen, beschrijf het op verschillende manieren. Door de verplichte integratie van data in het datawarehouse kunnen we dit probleem oplossen door de data naar het datawarehouse te brengen uniform formaat.

Ondersteuning voor chronologie. De gegevens in de OID zijn nodig om er bewerkingen op uit te voeren huidige moment tijd. Daarom zijn ze mogelijk niet tijdsgebonden. Voor data-analyse is het vaak belangrijk om de chronologie van veranderingen in domeinindicatoren te kunnen volgen. Daarom moeten alle gegevens die in het datawarehouse zijn opgeslagen, overeenkomen met opeenvolgende tijdsintervallen.

Onveranderlijkheid. Vereisten voor OID's leggen beperkingen op aan de tijd waarin ze gegevens opslaan. De gegevens die niet nodig zijn voor operationele verwerking worden in de regel uit de OID verwijderd om het verbruik van bronnen te verminderen. Analyse daarentegen vereist gegevens over een zo lang mogelijke periode. Daarom worden de gegevens in het datawarehouse, in tegenstelling tot de OID, pas gelezen na het laden. Hiermee kunt u de snelheid van de gegevenstoegang aanzienlijk verhogen, zowel vanwege de mogelijke redundantie van opgeslagen informatie als door het elimineren van wijzigingsoperaties.

Wanneer geïmplementeerd in DSS-concept Gegevensopslag van verschillende OID's wordt naar één opslag gekopieerd. De verzamelde gegevens worden in één formaat gebracht, gecoördineerd en samengevat. Analytische verzoeken worden gericht aan het datawarehouse

Een dergelijk model leidt onvermijdelijk tot duplicatie van informatie in de OID en in het datawarehouse.

Informatie in OID is in de regel operationeel van aard en gegevens die hun relevantie hebben verloren, worden verwijderd. Het datawarehouse daarentegen slaat historische informatie op. Vanuit dit oogpunt blijkt de duplicatie van de inhoud van het datawarehouse met OID-gegevens zeer onbeduidend. Het datawarehouse slaat algemene informatie op die niet in de OID is opgenomen.

Tijdens het laden in de gegevensopslag worden de gegevens gewist (verwijderd). onnodige informatie), en na een dergelijke verwerking nemen ze veel minder volume in beslag.

Redundantie van informatie kan tot nul worden teruggebracht met behulp van virtuele HD.V in dit geval In tegenstelling tot het klassieke (fysieke) datawarehouse worden gegevens uit de OID niet naar één opslag gekopieerd. Ze worden direct geëxtraheerd, getransformeerd en geïntegreerd bij het uitvoeren van analytische zoekopdrachten in RAM computer. De belangrijkste voordelen van virtuele opslag zijn: - het minimaliseren van de hoeveelheid geheugen die wordt ingenomen door informatie op het opslagmedium en het werken met actuele, gedetailleerde gegevens. Deze aanpak heeft echter veel nadelen. De verwerkingstijd voor verzoeken aan een virtuele opslag overschrijdt aanzienlijk de overeenkomstige indicatoren voor fysieke opslag. Bovendien zijn operationele databasestructuren ontworpen voor het intensief bijwerken van afzonderlijke records, in hoge graad genormaliseerd. Om een analytische query uit te voeren, is een unie vereist groot aantal tabellen, wat ook leidt tot een afname van de prestaties.

Een geïntegreerd beeld van virtuele opslag is alleen mogelijk als aan de voorwaarde van constante beschikbaarheid van alle OID's wordt voldaan. De tijdelijke onbeschikbaarheid van ten minste één van de bronnen kan dus leiden tot het mislukken van het analytische verzoek of tot onjuiste resultaten.

Het uitvoeren van complexe analytische vragen op OID vereist aanzienlijke computerbronnen. Dit leidt tot een afname van de prestaties van OLTP-systemen, wat onaanvaardbaar is, aangezien de uitvoeringstijd van bewerkingen in dergelijke systemen vaak erg kritisch is.

Verschillende OID's kunnen ondersteuning bieden verschillende formaten en gegevenscoderingen. Vaak zijn er meerdere antwoorden mogelijk op dezelfde vraag. Dit kan te wijten zijn aan niet-synchronisatie van data-updatemomenten in verschillende OID's, verschillen in de beschrijving van identieke objecten en gebeurtenissen in het onderwerpgebied, invoerfouten, verlies van archieffragmenten, enz. In dit geval is het doel - de vorming van één consistent beeld van het besturingsobject – wordt mogelijk niet bereikt.

Het grootste nadeel van virtuele opslag is de praktische onmogelijkheid om gegevens over een lange periode te verkrijgen. Bij gebrek aan fysieke opslag zijn alleen de gegevens beschikbaar die op het moment van de aanvraag in de OID staan. Het hoofddoel van OLTP-systemen is de snelle verwerking van actuele gegevens, ze zijn dus niet gericht op het opslaan van gegevens over een lange periode. Naarmate gegevens verouderd raken, worden ze geüpload naar het archief en verwijderd uit de operationele database.

Ondanks de voordelen van fysieke opslag ten opzichte van virtuele opslag, moet worden erkend dat de implementatie ervan een nogal arbeidsintensief proces is. Laten we stilstaan bij de belangrijkste problemen bij het creëren van een datawarehouse:

De noodzaak om gegevens uit heterogene bronnen te integreren in een gedistribueerde omgeving;

De behoefte aan efficiënte opslag en verwerking is groot grote volumes informatie;

De behoefte aan metadatamappen met meerdere niveaus;

Verhoogde eisen voor gegevensbeveiliging.
Laten we deze problemen in meer detail bekijken.

Tot op heden hebben veel organisaties aanzienlijke hoeveelheden gegevens verzameld, op basis waarvan het mogelijk is een verscheidenheid aan analytische en managementproblemen op te lossen. Opslag- en verwerkingsproblemen analytische informatie worden steeds relevanter en trekken de aandacht van specialisten en bedrijven die werkzaam zijn op het gebied van informatietechnologie, wat heeft geleid tot de vorming van een volwaardige markt voor bedrijfsanalysetechnologieën.

Idealiter het werk van analisten en managers verschillende niveaus moet zo worden georganiseerd dat ze toegang hebben tot alle informatie waarin ze geïnteresseerd zijn en deze gemakkelijk en gemakkelijk kunnen gebruiken met eenvoudige middelen presentatie en werken met deze informatie. Informatietechnologieën, verenigd onder de algemene naam datawarehouses en bedrijfsanalyses, zijn gericht op het bereiken van deze doelen.

Volgens de definitie van Gartner is business intelligence (BI, Business Intelligence) een categorie van applicaties en technologieën voor het verzamelen, opslaan, analyseren en publiceren van data, waardoor zakelijke gebruikers beste oplossingen. In de Russischtalige terminologie worden dergelijke systemen ook wel beslissingsondersteunende systemen (DSS) genoemd.

Het verzamelen en opslaan van informatie, evenals het oplossen van problemen bij het ophalen van informatie, worden effectief geïmplementeerd met behulp van databasebeheersystemen (DBMS). OLTP-subsystemen (Online Transaction Processing) implementeren transactieverwerking gegevens. OLTP-systemen zelf zijn niet geschikt voor een volledige analyse van informatie vanwege de tegenstrijdige eisen voor OLTP-systemen en DSS.

Om informatie te verschaffen die nodig is voor de besluitvorming, is het meestal nodig om gegevens van meerdere te verzamelen transactionele databases andere structuur en inhoud. Het grootste probleem hier is de inconsistentie en tegenstrijdige aard van deze brondatabases en het ontbreken van één logische kijk op bedrijfsgegevens.

Daarom in één te combineren OLTP-systeem en DSS om het opslagsubsysteem te implementeren, wordt het concept van datawarehouses (DW) gebruikt. Het concept van een datawarehouse is gebaseerd op het idee van het scheiden van gegevens die worden gebruikt voor operationele verwerking en voor het oplossen van analyseproblemen, waardoor opslagstructuren kunnen worden geoptimaliseerd. Met een database kunt u eerder gescheiden gedetailleerde gegevens uit historische archieven die zijn verzameld in traditionele OLTP-systemen en afkomstig zijn van externe bronnen, integreren in één enkele database, waarbij de voorlopige coördinatie en eventueel aggregatie ervan wordt uitgevoerd.

Het analysesubsysteem kan worden gebouwd op basis van:

subsystemen voor het ophalen van informatie op basis van relationele DBMS en statische zoekopdrachten met behulp van de SQL-taal;
subsystemen voor operationele analyse. Om dergelijke subsystemen te implementeren, wordt online analytische verwerkingstechnologie gebruikt OLAP-gegevens, gebruikmakend van het concept van multidimensionale gegevensrepresentatie;
intelligente analysesubsystemen die methoden en algoritmen implementeren Datamining.

Datawarehouse-concept

Datawarehouse-technologie is bedoeld voor het opslaan en analyseren van grote hoeveelheden gegevens met als doel verborgen patronen daarin verder te ontdekken en maakt, samen met Data Mining-technologie, deel uit van het concept van ‘predictive analytics’. Datamining bestudeert op zijn beurt het proces van het vinden van nieuwe, geldige en potentieel bruikbare kennis in databases.

Database is een domeinspecifieke, geïntegreerde, zelden veranderende, historische dataset die is georganiseerd voor beslissingsondersteunende doeleinden. Onderwerporiëntatie betekent dat datawarehouses informatie integreren die reflecteert verschillende punten zicht op het vakgebied. Bij integratie wordt ervan uitgegaan dat de gegevens die in het datawarehouse zijn opgeslagen, naar één formaat worden gebracht. Chronologische ondersteuning betekent dat alle gegevens in het datawarehouse overeenkomen met opeenvolgende tijdsintervallen.

Naast het vermogen om met één enkele informatiebron te werken, moeten managers en analisten beschikken handige middelen datavisualisatie, aggregatie, trendzoeken, prognoses. Ondanks de verscheidenheid aan analytische activiteiten is het mogelijk standaardtechnologieën voor gegevensanalyse te identificeren, die elk overeenkomen met een specifieke set hulpmiddelen. Samen met het datawarehouse bieden deze tools een complete oplossing voor het automatiseren van analytische activiteiten en het creëren van corporate informatie- analytisch systeem .

Fysieke en virtuele gegevensopslag

Bij het laden van gegevens uit een OLTP-systeem in een datawarehouse vindt gegevensduplicatie plaats. Tijdens deze download worden de gegevens echter gefilterd omdat niet alle gegevens relevant zijn voor de analyseprocedures. Het datawarehouse slaat algemene informatie op die niet beschikbaar is in het OLTP-systeem.

Met behulp van een virtueel datawarehouse kan de redundantie van informatie tot nul worden teruggebracht. In een dergelijk systeem worden gegevens uit het OLTP-systeem niet naar één opslag gekopieerd. Ze worden geëxtraheerd, getransformeerd en rechtstreeks geïntegreerd in realtime analytische zoekopdrachten. In feite worden dergelijke vragen rechtstreeks naar het OLTP-systeem verzonden.

Voordelen van virtuele opslag:

het minimaliseren van de hoeveelheid opgeslagen gegevens;
werken met actuele, up-to-date data.

Nadelen van virtuele opslag:

hogere verwerkingstijd van verzoeken vergeleken met fysieke opslag;
de behoefte aan constante beschikbaarheid van alle OLTP-bronnen;
verminderde prestaties van OLTP-systemen;
OLTP-systemen zijn niet gericht op het indien nodig opslaan van gegevens over een langere periode; gegevens worden geüpload naar archieven, waardoor het niet altijd mogelijk is om deze fysiek te verkrijgen volledige set gegevens in HD.

Volgens onderzoeksbureau Forrester Research de meerderheid grote bedrijven gezichten volgende probleem: ze stapelen zich op enorm bedrag informatie die nooit wordt gebruikt. In vrijwel elke organisatie zijn er eigenlijk veel transactiesystemen, gericht op snelle gegevensverwerking (elk voor een specifieke taakklasse) en het voortdurend aanvullen van talloze databases. Bovendien bezitten ondernemingen vaak enorme hoeveelheden informatie die zijn opgeslagen in de zogenaamde. oudere systemen. Al deze gegevens worden verspreid over netwerken personal computers, worden opgeslagen op mainframes, werkstations en servers. Er is dus wel informatie, maar deze is verspreid, inconsistent, ongestructureerd, vaak overbodig en niet altijd betrouwbaar. Daarom kunnen deze gegevens in de meeste organisaties nog steeds niet worden gebruikt om cruciale zakelijke beslissingen te nemen. Het concept van Data Warehouse is erop gericht deze tegenstrijdigheid op te lossen.

Bill Inmon, de grondlegger van het concept, definieert datawarehouses in zijn klassieke artikel ‘What are Data Warehouses’ (D2K Incorporated, 1996) als ‘domeingeoriënteerde, geïntegreerde, onveranderlijke, historische gegevensverzamelingen die zijn georganiseerd met het doel het management te ondersteunen. ” Hij beschouwt repositories als de ‘enige en enige bron van waarheid’, het ‘centrum van het universum’ van beslissingsondersteunende systemen (DSS). “Vanuit datawarehouses”, schrijft hij, “stroomt informatie naar verschillende afdelingen, gefilterd volgens gegeven instellingen SPPR. Deze afzonderlijke besluitvormingsdatabases worden genoemd etalages gegevens."

Het concept van datawarehouses is gebaseerd op het idee van het combineren van bedrijfsgegevens verspreid over operationele gegevensverwerkingssystemen, historische archieven en andere externe bronnen. Deze bronnen kunnen gegevens bevatten die niet direct in de ODS worden gebruikt, maar wel essentieel zijn voor de DSS: wetgevend kader(inclusief belastingprognoses), ontwikkelingsplannen industrieën, statistische gegevens, elektronische telefoonboeken. Zoals de praktijk laat zien, blijkt een beslissing die op basis van alleen interne gegevens is genomen meestal onjuist.

Het doel van het datawarehouse-concept is om de verschillen in de kenmerken van gegevens in operationele en analytische systemen te verduidelijken, om de vereisten te bepalen voor gegevens die in het magazijn worden geplaatst, om te bepalen algemene principes en de fasen van de constructie ervan, de belangrijkste gegevensbronnen, geven aanbevelingen voor het oplossen van potentiële problemen die zich voordoen tijdens het lossen, schoonmaken, coördineren, transporteren en laden in de doelopslagdatabase.

Vergelijking van gegevenskenmerken in informatiesystemen gericht op operationele en analytische gegevensverwerking

Kenmerkend	Operationeel	Analytisch
Vernieuwingsfrequentie	Hoge frequentie, in kleine porties	Lage frequentie, grote porties
Gegevensbronnen	Voornamelijk intern	Voornamelijk extern
Volumes van opgeslagen gegevens	Honderden megabytes, gigabytes	Gigabytes en terabytes
Data-tijdperk	Actueel (voor een periode van enkele maanden tot een jaar)	Actueel en historisch (over een periode van meerdere jaren, decennia)
Doel	Vastleggen, online zoeken en transformeren van gegevens	Opslag van gedetailleerde en geaggregeerde historische gegevens, analytische verwerking, prognoses en modellering

Basisvereisten voor gegevens in een datawarehouse

Onderwerporiëntatie	Alle gegevens over een bepaald onderwerp (bedrijfsobject) worden verzameld (meestal uit een set). diverse bronnen), worden opgeschoond, gecoördineerd, aangevuld, geaggregeerd en gepresenteerd in één enkele vorm die handig is voor gebruik bij bedrijfsanalyses.
Integratie	Alle gegevens over verschillende bedrijfsobjecten zijn onderling consistent en worden opgeslagen in één bedrijfsopslag
Onveranderlijkheid	De originele (historische) gegevens blijven, nadat ze zijn overeengekomen, geverifieerd en in de bedrijfsopslag ingevoerd, ongewijzigd en worden uitsluitend in leesmodus gebruikt
Ondersteuning voor tijdlijnen	De gegevens zijn chronologisch gestructureerd en weerspiegelen de geschiedenis over een voldoende lange periode om bedrijfsanalyses en prognosetaken uit te voeren.

Het onderwerp van het datawarehouse-concept is niet de data-analyse, maar de data zelf, dat wil zeggen het concept van het voorbereiden ervan voor verdere analyse. Tegelijkertijd definieert het datawarehouse-concept niet slechts één logische kijk op bedrijfsgegevens, maar de implementatie van één enkele geïntegreerde gegevensbron.

Gegevensanalysemodellen

Ondanks het feit dat in het concept van datawarehouses, geformuleerd door B. Inmon, de nadruk ligt op de data zelf en het identificeren van de meest algemene eigenschappen, kenmerken en verbanden, is het duidelijk dat deze gegevens moeten worden gebruikt bij het nemen van zakelijke beslissingen op alle niveaus, zowel binnen het bedrijfsleven als tussen bedrijven. Tot op heden zijn er historisch gezien twee belangrijke data-analysemodellen ontstaan, waarop de bestaande analytische DSS zijn gebaseerd:

1. Statische analyse (DSS). Het concept van DSS (Decision Support Systems) wordt eigenlijk vertaald als DSS. Tot voor kort was dit het enige analytische concept. Het resultaat van het werk van dergelijke systemen waren strikt gereguleerde rapporten van meerdere pagina's, waarvan het genereren langdurige zoekopdrachten vereiste die enorme hoeveelheden gegevens verwerkten. Dergelijke verzoeken kunnen enkele uren, soms tientallen uren of zelfs dagen duren.

2. Online data-analyse (OLAP). De auteur van het concept OLAP (On-Line Analytische verwerking) is Dr. E. Codd, die in 1993 twaalf basisvereisten voor OLAP-implementatietools formuleerde. Het fundamentele verschil Dit model uit de traditionele statische DSS is een conceptuele weergave van gegevens in de vorm multidimensionale kubus. Tegelijkertijd toonde E. Codd de potentiële tekortkomingen aan van de relationele benadering in systemen gericht op data-analyse. Het doel van het creëren van dit concept was de fundamentele mogelijkheid om de eindgebruiker de middelen te bieden voor het genereren, verwerken en uitvoeren van ad hoc analytische vragen met minimale tijd systeem reactie. De noodzaak om dit nieuwe concept te laten ontstaan werd vooraf bepaald door het feit dat de analist vaak, na ontvangst van een standaardrapport met behulp van DSS, nieuwe vraag of het besef dat de vraag zelf verkeerd is geformuleerd. Het gevolg was dat hij opnieuw moest voor een lange tijd wacht op het volgende resultaat om vervolgens mogelijk terug te keren naar de volgende iteratie van dit proces.

Vergelijking van statische en dynamische analysekarakteristieken

Kenmerkend	Statische analyse	Dynamische analyse
Soorten vragen	Hoeveel? Hoe? Wanneer?	Waarom? Wat zal er gebeuren als...?
Reactietijd	Niet gereguleerd
Typische operaties	Gereglementeerd rapport, diagram	Opeenvolging van interactieve rapporten, grafieken, scherm vormen. Dynamische verandering aggregatieniveaus en dataplakken.
Niveau van analytische vereisten
Type schermformulieren	Meestal vooraf bepaald, gereguleerd	Door gebruiker gedefinieerd
Gegevensaggregatieniveau	Gedetailleerd en samenvatting	Voornamelijk totaal
Data-tijdperk	Historisch en actueel	Historisch, actueel en geprojecteerd
Soorten verzoeken	Meestal voorspelbaar	Onvoorspelbaar, van geval tot geval
Doel	Gereguleerde analytische verwerking	Multifunctionele analyse, modellering en forecasting

Tegenwoordig is de OLAP-richting misschien wel de meest veelbelovende voor het oplossen van analytische managementproblemen. Met behulp van de speciaal ontwikkelde OLAP Report-service zijn de twaalf oorspronkelijk door Dr. Codd geformuleerde eisen gedeeltelijk herzien en aanzienlijk aangevuld, zowel op basis- als op speciale kenmerken, zoals het benadrukken en verwerken van ontbrekende gegevens, enz. Maar toch is de kern van het OLAP-concept de multidimensionale representatie van gegevens op conceptueel niveau.

Datamarts

Volgens de klassieke definitie is een datamart een subset van een datawarehouse die de specifieke kenmerken van een afdeling (bedrijfsobject) weerspiegelt en voorziet in verhoogde productiviteit. De showcase is dus de link waarop een specifiek analytisch systeem is gebaseerd om zijn reeks problemen op te lossen. Niettemin is het mogelijk dat een bepaald gebied van de activiteit van een onderneming praktisch niet correleert met andere, en het is mogelijk om autonoom een overeenkomstige datamart te bouwen, zonder verwijzing naar een bedrijfsopslagfaciliteit. Vervolgens wordt de winkelpui rechtstreeks aangevuld met gegevens besturingssystemen transactieverwerking. Dergelijke datamarts worden onafhankelijk genoemd, in tegenstelling tot de klassieke datamarts die afhankelijk zijn van het datawarehouse en daaruit worden aangevuld.

In sommige gevallen kan het zinvol zijn om een datamart in te zetten in plaats van een volledig ingericht magazijn. Datamarts zijn minder veeleisend, goedkoper en gemakkelijker te bouwen, en zijn gebaseerd op goedkopere servers in plaats van multiprocessorsystemen. Met deze aanpak is het niet nodig om het geheel te gebruiken informatiesysteem bedrijf en ondersteunt complexe procedures voor het synchroon bijwerken van de datamart bij het bijwerken van het magazijn. Tegelijkertijd is het noodzakelijk om te begrijpen dat met deze aanpak datamarts zich kunnen vermenigvuldigen tot hele complexen van onafhankelijke informatie bases gegevens, en uiteraard zal het de taak zijn om individuele zoek-, onderhouds- en herstelstrategieën te beheren. Aan de andere kant is het bouwen van één enkel bedrijfsmagazijn op basis van meerdere onafhankelijke datamarts veel winstgevender dan te vertrouwen op gegevens die verspreid zijn over transactieverwerkingssystemen.

Dus wat is logisch: één enkele opslagplaats, zelfstandige datamarts, een opslagplaats met afhankelijke marts, of andere opties? Er is geen universeel antwoord op de vraag of het nodig is om een of andere optie te gebruiken. In elk geval beste optie bepaald door zakelijke vereisten, intensiteit van verzoeken, netwerk architectuur, de vereiste reactiesnelheid en andere omstandigheden.

Technologie voor het implementeren van datawarehouses

Bij het creëren van een datawarehouse is het normaal om een incrementele ontwerpaanpak te volgen. Hoewel geen enkele beschrijving van het proces van het bouwen van een datawarehouse als een opeenvolging van fasen alle aspecten kan omvatten feedback met zijn potentiële gebruikers, managers en analisten zijn er niettemin enkele basisstappen die van toepassing zijn op het enterprise-architectuurproces:

1. Bepaling van de behoefte eindgebruikers en het bouwen van een model van de zakelijke vragen die moeten worden beantwoord.

2. Identificeer gegevens uit bedrijfs- en externe bronnen die het datawarehouse of de datamart zullen voeden.

3. Analyseer gegevensbronnen en modelleer de functies en processen die deze bronnen bestrijken. Het beheersen van de regels waarmee een bedrijf opereert, is een van de belangrijkste voorwaarden voor het bouwen van datawarehouses of datamarts, aangezien op deze basis het detailniveau van elementen in het datawarehouse wordt vastgesteld.

4. Het definiëren van procedures voor transformatie, opschoning en logische integratie van brongegevens voordat ze in een magazijn of datamart worden geplaatst, en het reguleren van de implementatie van deze procedures die het datawarehouse bijwerken.

5. Creatie van metadata die de bronnen en methoden van datatransformatie en de logica van het datawarehouse beschrijven. De metadatarepository moet datadefinities, bedrijfsregels en gedetailleerde logica bevatten om de ontwikkeling van analysesystemen te modelleren.

6. Vorming van fysieke tabellen van het datawarehouse en de vulling ervan. Dit proces kan meerdere iteraties vereisen om rekening te houden met mogelijk herontwerp van datastructuren bij het analyseren van het magazijndataschema.

7. Bouw van een opslagplaats van datamarts, die subsets van gegevens uit het magazijn en vooraf geaggregeerde gegevens zal bevatten. Een deel van de metagegevens beschrijft hoe de onbewerkte magazijngegevens worden getransformeerd, geaggregeerd en in de cache opgeslagen in datamarts.

8. Installatie van OLAP-tools, applicatiesystemen, webservers en dergelijke noodzakelijke hulpmiddelen En serverprogramma's noodzakelijk voor toegang tot gegevens, analyse en rapportage.

9. Installatie van clientsoftware op werkstations van eindgebruikers software(“thick” client) of browsers die dit ondersteunen standaard formaten data- en Java-applets, evenals de benodigde plug-in-extensies (thin client) voor gebruikerstoegang tot gegevens.

Nadat het proces voor het maken van het datawarehouse is voltooid, lijkt het misschien alsof alles al is gedaan. In feite is de vorming van een magazijn een proces dat ook de noodzakelijke fasen van doorlopend toezicht en onderhoud van het datawarehouse omvat. Correct toezicht houdt niet alleen in dat de juistheid van de gegevens wordt gehandhaafd, maar ook dat de geheimhouding ervan wordt gewaarborgd, vooral als de toegang tot de opgeslagen gegevens via internet plaatsvindt. “Omdat het datawarehouse de grootste waarde van een onderneming bevat,” zegt R. Tenler, voorzitter van Information Advantage, “moeten de gegevens veilig zijn. Maar om de potentiële waarde van een datawarehouse te realiseren, zal een organisatie het aan potentiële kopers op de markt moeten brengen.”

Onderhouden van het datawarehouse goede staat voor een lange tijd is een andere de belangrijkste taak. Deze factor wordt vooral belangrijk wanneer het aantal gebruikers dat toegang heeft tot het systeem begint te groeien. Bovendien tijdens het ontwerpproces van een datawarehouse informatiediensten meestal een grondige verzoening data, de aandacht van mensen neigt na verloop van tijd af te nemen, en het datawarehouse kan een stortplaats worden. Om dit te voorkomen, is het noodzakelijk om degenen aan te wijzen die verantwoordelijk zijn voor het handhaven van de gegevenskwaliteit en die dit voortdurend zullen implementeren verificatie informatie afkomstig van transactieverwerkingssystemen met gegevens in een magazijn of markt.

Kortom, het proces van het ontwerpen van een datawarehouse dat werd gebruikt noodzakelijke informatie V besluitvormingsproces bedrijfs- en intercorporate niveau, is van cruciaal belang voor het voortbestaan van de onderneming. In de fase van de implementatie moet je niet alleen op de oplossing letten technische problemen, maar ook over problemen die verband houden met de menselijke factor. We mogen ook de noodzaak niet vergeten om voortdurend de haalbaarheid van de geleverde inspanningen te evalueren. Naast de juiste projectmanagementketen is het noodzakelijk om in elke fase rekening te houden met zowel de behoeften van gebruikers als de aanwezigheid van politieke aspecten die het project kunnen vertragen. Met de juiste aanpak om dit probleem op te lossen, kan een datawarehouse daar binnenkort onderdeel van worden commercieel systeem bedrijven door bepaalde externe gebruikers tegen betaling de mogelijkheid te bieden gegevens uit een bepaalde subset van de opslag te gebruiken. Deze aanpak zal niet alleen het werk aan het creëren van een datawarehouse terugverdienen, maar ook opleveren nieuw kanaal inkomensontvangsten.

Datawarehouse-concept

Een ‘datawarehouse’ is een domeinspecifieke, tijdgebonden en onveranderlijke verzameling gegevens ter ondersteuning van het managementbeslissingsproces.

De gegevens in het magazijn zijn afkomstig van operationele systemen (OLTP-systemen), die zijn ontworpen om bedrijfsprocessen te automatiseren. Bovendien kan de opslag worden aangevuld vanuit externe bronnen, zoals statistische rapporten, verschillende mappen, enz. Naast gedetailleerde informatie bevat het datawarehouse aggregaten, d.w.z. samenvattende informatie, zoals verkoopbedragen, hoeveelheden, totale uitgaven, enz.

Een belastingdatawarehouse moet worden gezien als een informatiecentrum dat de berekening van uitgestelde belastingen automatiseert, informatie uit externe bronnen ontvangt en opslaat, en de gegevens omzet in een gebruiksvriendelijk formaat. Een dergelijke repository biedt een platform voor het opslaan van nauwkeurige en actuele belastinggegevens die kunnen worden opgehaald en waarnaar kan worden overgedragen externe toepassingen voor analyse-, audit-, planning- en prognosedoeleinden.

Het datawarehouse is een opslagplaats informatiebronnen en biedt bedrijfsgegevensconsolidatie voor rapportage- en analysedoeleinden. Gegevens en informatie, zowel operationeel als niet-operationeel, worden in het magazijn ingevoerd, doorgaans met behulp van ETL-tools uit gegevensbronnen zodra deze beschikbaar komen, of op regelmatige basis. Dankzij gegevenstransformatie kunnen verzoeken tijdig worden verwerkt en geanalyseerd, waardoor het proces van het voldoen aan verzoeken om informatie die oorspronkelijk uit andere bronnen kwamen, wordt vereenvoudigd en versneld.
De voordelen die opslag biedt, zijn onder meer de mogelijkheid om gegevens om te zetten in kwaliteitsinformatie die nodig is voor de voorbereiding belastingaangifte en belastingnaleving, voor gebruikers van alle niveaus. Alle belanghebbenden – klanten, partners, medewerkers, managers en leidinggevenden – kunnen altijd en overal interactieve inhoud ontvangen.
Het hebben van één enkele informatiebron voor belastingrapportage en belastingnaleving is voor veel belastingdiensten een grote stap voorwaarts.

Waarom moet je datawarehouses bouwen - deze bevatten tenslotte duidelijk overtollige informatie die al in databases of besturingssysteembestanden staat? Het is onmogelijk of zeer moeilijk om besturingssysteemgegevens rechtstreeks te analyseren. Dit wordt uitgelegd om verschillende redenen, inclusief de fragmentatie van gegevens en de opslag ervan in verschillende DBMS-formaten. Maar zelfs als een onderneming al haar gegevens op een centrale databaseserver opslaat, zal een analist vrijwel zeker de complexe, soms verwarrende structuren ervan niet begrijpen.

Het doel van de repository is dus om de ‘grondstof’ voor analyse op één plek en in een eenvoudige, begrijpelijke structuur te leveren.

Er is nog een reden die de verschijning van een aparte opslagfaciliteit rechtvaardigt: complexe analytische vragen naar operationele informatie vertragen het huidige werk van het bedrijf, blokkeren tabellen voor een lange tijd en nemen serverbronnen in beslag.

Een opslag betekent niet noodzakelijkerwijs een gigantische opeenstapeling van gegevens - het belangrijkste is dat het handig is voor analyse.

Datawarehouse-concept

De auteur van het concept van datawarehouses (Data Warehouse) is B. Inmon, die datawarehouses definieerde als: “domeinspecifiek, geïntegreerd, onveranderlijk, historisch onderhoudende datasets, georganiseerd met het doel het management te ondersteunen”, ontworpen om te handelen als “een enkele en enige bron van waarheid”, die managers en analisten voorziet van betrouwbare informatie die nodig is voor operationele analyse en besluitvorming. Het datawarehouse-diagram kan als volgt worden weergegeven:

De fysieke uitvoering van dit schema kan zeer divers zijn. Laten we de eerste optie eens bekijken: een virtueel datawarehouse, dit is een systeem dat toegang biedt tot een regulier opnamesysteem dat het werken met een datawarehouse emuleert. Virtuele opslag kan op twee manieren georganiseerd worden. U kunt een reeks "views" in de database maken of gebruiken speciale middelen toegang tot de database (bijvoorbeeld desktop-OLAP-klasseproducten).

Omdat het bouwen van een datawarehouse een complex proces is dat meerdere jaren kan duren, bouwen sommige organisaties in plaats daarvan datamarts met afdelingsspecifieke informatie. Een marketingdatamart mag bijvoorbeeld alleen klant-, product- en verkoopinformatie bevatten en geen leveringsplannen. Er kunnen meerdere afdelingsdatamarts naast het hoofddatawarehouse bestaan, waardoor gedeeltelijk inzicht wordt geboden in de inhoud van het magazijn. Datamarts worden veel sneller gebouwd dan een datawarehouse, maar kunnen later voor problemen zorgen ernstige problemen met integratie als de initiële planning werd uitgevoerd zonder rekening te houden met het volledige bedrijfsmodel. Dit is de tweede manier.

Het bouwen van een volwaardig enterprise datawarehouse gebeurt meestal in drieledige architectuur. Op het eerste niveau zijn er verschillende gegevensbronnen: interne registratiesystemen, hulpsystemen, externe bronnen(gegevens persbureaus, macro-economische indicatoren). Het tweede niveau bevat een centrale opslagplaats, waar informatie uit alle bronnen van het eerste niveau stroomt, en mogelijk een operationeel datawarehouse, dat geen historische gegevens bevat en twee hoofdfuncties vervult.

Het concept van datawarehouses is gebaseerd op twee fundamentele ideeën:

1) integratie van eerder gescheiden gedetailleerde gegevens in één datawarehouse, hun coördinatie en mogelijk aggregatie:

· historische archieven;

· gegevens uit traditionele ODS;

· gegevens uit externe bronnen.

2) scheiding van datasets die worden gebruikt voor operationele verwerking en datasets die worden gebruikt om analyseproblemen op te lossen.

Het doel van het datawarehouse-concept is om de vereisten te verduidelijken voor gegevens die in de doeldatabase van het datawarehouse worden geplaatst (tabel 1), om de algemene principes en fasen van de constructie ervan, de belangrijkste gegevensbronnen, te bepalen, om aanbevelingen te doen voor het oplossen van problemen. potentiële problemen die zich voordoen tijdens het lossen, schoonmaken, coördineren, transporteren en laden in de doeldatabase.

Tabel 1. Basisvereisten voor gegevens in het Data Warehouse.

Onderwerporiëntatie	Alle gegevens over een bepaald onderwerp (bedrijfsobject) worden verzameld (meestal uit veel verschillende bronnen), opgeschoond, gecoördineerd, aangevuld, geaggregeerd en gepresenteerd in één enkele vorm die handig is voor gebruik in bedrijfsanalyses.
Integratie	Alle gegevens over verschillende bedrijfsobjecten zijn onderling consistent en worden opgeslagen in één bedrijfsbrede opslag.
Onveranderlijkheid	De originele (historische) gegevens blijven, nadat deze zijn overeengekomen, geverifieerd en ingevoerd in de bedrijfsopslag, ongewijzigd en worden uitsluitend in de leesmodus gebruikt.
Ondersteuning voor tijdlijnen	De gegevens zijn chronologisch gestructureerd en weerspiegelen de geschiedenis gedurende een periode die voldoende is om bedrijfsanalyses en prognosetaken uit te voeren.

Het onderwerp van het datawarehouse-concept zijn de gegevens zelf. Nadat een traditioneel gegevensverwerkingssysteem (DPS) is geïmplementeerd en begint te functioneren, wordt het precies hetzelfde onafhankelijke object van de echte wereld als ieder ander productieproces. En de gegevens, die er één van zijn eindproducten dergelijke productie, hebben precies dezelfde eigenschappen en kenmerken als elk industrieel product: houdbaarheid, opslaglocatie, compatibiliteit met gegevens uit andere industrieën (SOD), marktwaarde, transporteerbaarheid, volledigheid, onderhoudbaarheid, enz.

Vanuit dit gezichtspunt worden de gegevens in datawarehouses bekeken. Dat wil zeggen dat het doel hier niet de methoden zijn voor het beschrijven en weergeven van objecten in het onderwerpgebied, maar de gegevens zelf, zoals onafhankelijk voorwerp vakgebied gegenereerd als resultaat van het functioneren van eerder gecreëerde informatiesystemen.

Om dit concept goed te begrijpen, is het noodzakelijk om de volgende fundamentele punten te begrijpen:

· Het concept van datawarehousing is geen concept van data-analyse, maar eerder een concept van het voorbereiden van gegevens voor analyse.

· Het concept van datawarehouses bepaalt niet vooraf de architectuur van het beoogde analytische systeem. Er wordt gesproken over welke processen in het systeem moeten worden uitgevoerd, maar niet waar precies en hoe deze processen moeten worden uitgevoerd.

·Het concept van datawarehouses omvat niet alleen een enkele logische weergave van de gegevens van een organisatie, maar de implementatie van een enkele geïntegreerde gegevensbron.

Naast een uniforme metadatadirectory, middelen voor het uploaden, aggregeren en afstemmen van gegevens, impliceert het concept van datawarehouses: integratie, onveranderlijkheid, chronologische ondersteuning en gegevensconsistentie. En als de eerste twee eigenschappen (integratie en onveranderlijkheid) de data-analysemodi beïnvloeden, dan beperken de laatste twee (chronologische ondersteuning en consistentie) de lijst met op te lossen analytische taken aanzienlijk.

Zonder de ondersteuning van chronologie (de beschikbaarheid van historische gegevens) is het onmogelijk om te praten over het oplossen van problemen op het gebied van prognoses en trendanalyse. Maar de meest kritieke en pijnlijke kwesties hebben betrekking op de afstemming van gegevens.

De belangrijkste vereiste van een analist is niet zozeer efficiëntie als wel de betrouwbaarheid van het antwoord. Maar betrouwbaarheid wordt uiteindelijk bepaald door consistentie. Zolang er nog niet is gewerkt om het onderling eens te worden over de waarden van data uit verschillende bronnen, is het moeilijk om over de betrouwbaarheid ervan te praten.

Vaak wordt een manager geconfronteerd met een situatie waarin hij, bij het beantwoorden van dezelfde vraag, diverse systemen kan en zal meestal een ander antwoord geven. Dit kan te wijten zijn aan niet-synchronisatie van gegevenswijzigingsmomenten, verschillen in de interpretatie van dezelfde gebeurtenissen, concepten en gegevens, veranderingen in de semantiek van gegevens tijdens het ontwikkelingsproces van het vakgebied, elementaire fouten tijdens invoer en verwerking, gedeeltelijke verlies van individuele archieffragmenten, enz. Het is duidelijk niet realistisch om vooraf rekening te houden met de algoritmen voor het oplossen van alle mogelijke botsingen en deze vooraf te bepalen. Bovendien is het onmogelijk om dit binnen te doen operationele modus, dynamisch, direct tijdens het genereren van een antwoord op een verzoek.

Gerelateerde informatie.