Datawarehouse-concepten. eigenschappen van datawarehouses

De evolutie van datawarehousing

Sinds de jaren zeventig zijn organisaties meer geïnteresseerd in het investeren van hun geld in nieuwe producten computersystemen dan bij het automatiseren van de bedrijfsprocessen die zij gebruiken. Hierdoor konden ze hun concurrentievermogen vergroten door systemen in te zetten die klanten een efficiënter en goedkoper dienstenpakket konden bieden. Sindsdien zijn organisaties gegroeid enorm bedrag informatie die is opgeslagen in hun operationele databases. Maar nu, als gevolg van het wijdverbreide gebruik van beslissingsondersteunende systemen, streven organisaties ernaar hun aandacht te richten op manieren om verzamelde operationele gegevens te gebruiken, met als doel hierdoor extra groei in hun concurrentievermogen te verkrijgen.

Oudere systemen online verwerking is ontworpen zonder enige ondersteuning voor dergelijke zakelijke vereisten, dus de conversie conventionele systemen OLTP in beslissingsondersteunende systemen is buitengewoon effectief gebleken uitdagende taak. Doorgaans heeft een typische organisatie veel verschillende operationele verwerkingssystemen met overlappende en soms conflicterende definities, b.v. verschillende soorten, gekozen om dezelfde gegevens weer te geven. De hoofdtaak van de organisatie is om de verzamelde data-archieven om te zetten in een bron van nieuwe kennis, en wel op zo'n manier dat de gebruiker één enkel, geïntegreerd en geconsolideerd beeld krijgt van de data van de organisatie. Het datawarehouse-concept is opgevat als een technologie die kan voldoen aan de eisen van beslissingsondersteunende systemen en gebaseerd is op informatie afkomstig van verschillende systemen diverse bronnen operationele gegevens.

De meest gebruikte aanpak voor het creëren van een datawarehouse werd voorgesteld door Bill Inmon. Hij definieert HD als volgt:

Gegevensopslag. Domeinspecifiek, geïntegreerd, verankerd tegen de tijd en een onveranderlijke dataset ontworpen om besluitvorming te ondersteunen.

In de bovenstaande definitie worden de gespecificeerde gegevenskenmerken als volgt beschouwd.

Onderwerporiëntatie. Het datawarehouse is georganiseerd rond de kernonderwerpen (of entiteiten) van de organisatie (bijvoorbeeld klanten, producten en verkoop), in plaats van rond de toepassingsgebieden van de activiteiten (klantenfacturatie, voorraadbeheer en verkoop van goederen). Deze eigenschap weerspiegelt de noodzaak om gegevens op te slaan die bedoeld zijn om de besluitvorming te ondersteunen, in plaats van gewone operationele gegevens.

Integratie. De betekenis van dit kenmerk is dat operationele gegevens meestal afkomstig zijn van verschillende bronnen, die vaak inconsistente representaties van dezelfde gegevens bevatten, zoals het gebruik van verschillende formaten. Om de gebruiker één enkel, geconsolideerd overzicht van de gegevens te bieden, is het noodzakelijk om een ​​geïntegreerde bron te creëren die de consistentie van de opgeslagen informatie garandeert.



Bindend aan de tijd. De gegevens in het magazijn zijn alleen accuraat en geldig als ze aan een bepaald tijdstip of een bepaalde periode zijn gekoppeld. De noodzaak om een ​​datawarehouse aan tijd te binden vloeit voort uit de lange periode waarin de daarin opgeslagen informatie is verzameld, uit de expliciete of impliciete verbinding van tijdstempels met alle opgeslagen gegevens, en uit het feit dat de opgeslagen informatie daadwerkelijk is opgeslagen. een reeks momentopnamen van de status van de gegevens.

Onveranderlijkheid. Dit betekent dat de gegevens niet worden bijgewerkt operationele modus, maar worden alleen regelmatig bijgewerkt met informatie uit besturingssystemen verwerking. Tegelijkertijd vervangen nieuwe gegevens nooit de oude, maar vullen ze deze alleen aan. Zo wordt de opslagdatabase voortdurend bijgewerkt met nieuwe gegevens, consistent geïntegreerd met de reeds verzamelde informatie.

Het uiteindelijke doel van het creëren van een datawarehouse is het integreren van bedrijfsgegevens in één enkele opslagplaats van waaruit gebruikers query's kunnen uitvoeren, rapporten kunnen opstellen en gegevensanalyses kunnen uitvoeren. Samenvattend is datawarehouse-technologie een technologie voor gegevensbeheer en -analyse.

Datawarehouse-concept

Een ‘datawarehouse’ is een domeinspecifieke, tijdgebonden en onveranderlijke verzameling gegevens ter ondersteuning van het managementbeslissingsproces.

De gegevens in het magazijn zijn afkomstig van operationele systemen (OLTP-systemen), die zijn ontworpen om bedrijfsprocessen te automatiseren. Bovendien kan de repository worden aangevuld vanuit externe bronnen, zoals statistische rapporten, verschillende mappen, enz. Naast gedetailleerde informatie bevat het datawarehouse aggregaten, d.w.z. samenvattende informatie, zoals verkoopbedragen, hoeveelheden, totale uitgaven, enz.

Een belastingdatawarehouse moet worden gezien als een informatiecentrum dat de berekening van uitgestelde belastingen automatiseert, informatie uit externe bronnen ontvangt en opslaat, en de gegevens omzet in een gebruiksvriendelijk formaat. Een dergelijke repository biedt een platform voor het opslaan van nauwkeurige en actuele belastinggegevens die kunnen worden opgehaald en waarnaar kan worden overgedragen externe toepassingen voor analyse-, audit-, planning- en prognosedoeleinden.

Het datawarehouse is een opslagplaats informatiebronnen en biedt bedrijfsgegevensconsolidatie voor rapportage- en analysedoeleinden. Gegevens en informatie, zowel operationeel als niet-operationeel, worden in het magazijn ingevoerd, doorgaans met behulp van ETL-tools uit gegevensbronnen zodra deze beschikbaar komen, of op regelmatige basis. Dankzij gegevenstransformatie kunnen verzoeken tijdig worden verwerkt en geanalyseerd, waardoor het proces van het voldoen aan verzoeken om informatie die oorspronkelijk uit andere bronnen kwamen, wordt vereenvoudigd en versneld.
De voordelen die opslag biedt, zijn onder meer de mogelijkheid om gegevens om te zetten in kwaliteitsinformatie die nodig is voor de voorbereiding belastingaangifte en belastingnaleving, voor gebruikers van alle niveaus. Alle belanghebbenden – klanten, partners, medewerkers, managers en leidinggevenden – kunnen altijd en overal interactieve inhoud ontvangen.
Het hebben van één enkele informatiebron voor belastingrapportage en belastingnaleving is voor veel belastingdiensten een grote stap voorwaarts.

Waarom moet je datawarehouses bouwen - deze bevatten tenslotte duidelijk overtollige informatie die al in databases of besturingssysteembestanden staat? Het is onmogelijk of zeer moeilijk om besturingssysteemgegevens rechtstreeks te analyseren. Dit wordt uitgelegd om verschillende redenen, inclusief de fragmentatie van gegevens en de opslag ervan in verschillende DBMS-formaten. Maar zelfs als een onderneming al haar gegevens op een centrale databaseserver opslaat, zal een analist vrijwel zeker de complexe, soms verwarrende structuren ervan niet begrijpen.

Het doel van de repository is dus om de ‘grondstof’ voor analyse op één plek en in een eenvoudige, begrijpelijke structuur te leveren.

Er is nog een reden die de verschijning van een afzonderlijke opslag rechtvaardigt: complexe analytische vragen naar operationele informatie vertragen het huidige werk van het bedrijf, blokkeren tabellen voor een lange tijd en nemen serverbronnen in beslag.

Een opslag betekent niet noodzakelijkerwijs een gigantische opeenstapeling van gegevens - het belangrijkste is dat het handig is voor analyse.

Datawarehouse-concept

De auteur van het concept van datawarehouses (Data Warehouse) is B. Inmon, die datawarehouses definieerde als: “domeinspecifiek, geïntegreerd, onveranderlijk, historisch onderhoudende datasets, georganiseerd met het doel het management te ondersteunen”, ontworpen om te handelen als “een enkele en enige bron van waarheid”, die managers en analisten voorziet van betrouwbare informatie die nodig is voor operationele analyse en besluitvorming. Het datawarehouse-diagram kan als volgt worden weergegeven:

De fysieke uitvoering van dit schema kan zeer divers zijn. Laten we de eerste optie eens bekijken: een virtueel datawarehouse, dit is een systeem dat toegang biedt tot een regulier opnamesysteem dat het werken met een datawarehouse emuleert. Virtuele opslag kan op twee manieren worden georganiseerd. U kunt een reeks "views" in de database maken of gebruiken speciale middelen toegang tot de database (bijvoorbeeld desktop-OLAP-klasseproducten).

Omdat het bouwen van een datawarehouse een complex proces is dat meerdere jaren kan duren, bouwen sommige organisaties in plaats daarvan datamarts met afdelingsspecifieke informatie. Een marketingdatamart mag bijvoorbeeld alleen klant-, product- en verkoopinformatie bevatten en geen leveringsplannen. Er kunnen meerdere afdelingsdatamarts naast het hoofddatawarehouse bestaan, waardoor gedeeltelijk inzicht wordt geboden in de inhoud van het magazijn. Datamarts worden veel sneller gebouwd dan een datawarehouse, maar kunnen later voor problemen zorgen ernstige problemen met integratie als de initiële planning werd uitgevoerd zonder rekening te houden met het volledige bedrijfsmodel. Dit is de tweede manier.


Het bouwen van een volwaardig enterprise datawarehouse gebeurt meestal in architectuur met drie niveaus. Op het eerste niveau zijn er verschillende gegevensbronnen: interne registratiesystemen, hulpsystemen, externe bronnen(gegevens persbureaus, macro-economische indicatoren). Het tweede niveau bevat een centrale opslagplaats, waar informatie uit alle bronnen van het eerste niveau stroomt, en mogelijk een operationeel datawarehouse, dat geen historische gegevens bevat en twee hoofdfuncties vervult.

Het concept van datawarehouses is gebaseerd op twee fundamentele ideeën:

1) integratie van eerder gescheiden gedetailleerde gegevens in één datawarehouse, hun coördinatie en mogelijk aggregatie:

· historische archieven;

· gegevens uit traditionele ODS;

· gegevens uit externe bronnen.

2) scheiding van datasets die worden gebruikt voor operationele verwerking en datasets die worden gebruikt om analyseproblemen op te lossen.

Het doel van het datawarehouse-concept is het achterhalen van de vereisten voor gegevens die in de doeldatabase van het datawarehouse zijn geplaatst (tabel 1), bepalen algemene principes en de fasen van de constructie ervan, de belangrijkste gegevensbronnen, geven aanbevelingen voor het oplossen van potentiële problemen die zich voordoen tijdens het lossen, schoonmaken, coördineren, transporteren en laden in de doeldatabase.

Tabel 1. Basisvereisten voor gegevens in het Data Warehouse.

Onderwerporiëntatie Alle gegevens over een bepaald onderwerp (bedrijfsobject) worden verzameld (meestal uit veel verschillende bronnen), opgeschoond, gecoördineerd, aangevuld, geaggregeerd en gepresenteerd in één enkele vorm die handig is voor gebruik in bedrijfsanalyses.
Integratie Alle gegevens over verschillende bedrijfsobjecten zijn onderling consistent en worden opgeslagen in één bedrijfsbrede opslag.
Onveranderlijkheid De originele (historische) gegevens blijven, nadat deze zijn overeengekomen, geverifieerd en ingevoerd in de bedrijfsopslag, ongewijzigd en worden uitsluitend in de leesmodus gebruikt.
Ondersteuning voor tijdlijnen De gegevens zijn chronologisch gestructureerd en weerspiegelen de geschiedenis gedurende een periode die voldoende is om bedrijfsanalyses en prognosetaken uit te voeren.

Het onderwerp van het datawarehouse-concept zijn de gegevens zelf. Nadat een traditioneel gegevensverwerkingssysteem (DPS) is geïmplementeerd en begint te functioneren, wordt het precies hetzelfde onafhankelijke object echte wereld, zoals iedereen productieproces. En de gegevens, die er één van zijn eindproducten dergelijke productie, hebben precies dezelfde eigenschappen en kenmerken als elk industrieel product: houdbaarheid, opslaglocatie, compatibiliteit met gegevens uit andere industrieën (SOD), marktwaarde, transporteerbaarheid, volledigheid, onderhoudbaarheid, enz.

Vanuit dit gezichtspunt worden de gegevens in datawarehouses bekeken. Dat wil zeggen, het doel hier is niet manieren om objecten te beschrijven en weer te geven vakgebied, en de gegevens zelf zijn als onafhankelijk voorwerp vakgebied gegenereerd als resultaat van het functioneren van eerder gecreëerde informatiesystemen.

Om dit concept goed te begrijpen, is het noodzakelijk om de volgende fundamentele punten te begrijpen:

· Het concept van datawarehousing is geen concept van data-analyse, maar eerder een concept van het voorbereiden van gegevens voor analyse.

· Het concept van datawarehouses bepaalt niet vooraf de doelarchitectuur analytisch systeem. Er wordt gesproken over welke processen in het systeem moeten worden uitgevoerd, maar niet waar precies en hoe deze processen moeten worden uitgevoerd.

·Het concept van datawarehouses omvat niet alleen een enkele logische weergave van de gegevens van een organisatie, maar de implementatie van een enkele geïntegreerde gegevensbron.

Naast een uniforme metadatadirectory, middelen voor het uploaden, aggregeren en afstemmen van gegevens, impliceert het concept van datawarehouses: integratie, onveranderlijkheid, chronologische ondersteuning en gegevensconsistentie. En als de eerste twee eigenschappen (integratie en onveranderlijkheid) de data-analysemodi beïnvloeden, dan beperken de laatste twee (chronologische ondersteuning en consistentie) de lijst met op te lossen analytische taken aanzienlijk.

Zonder de ondersteuning van chronologie (de beschikbaarheid van historische gegevens) is het onmogelijk om te praten over het oplossen van problemen op het gebied van prognoses en trendanalyse. Maar de meest kritieke en pijnlijke kwesties hebben betrekking op de afstemming van gegevens.

De belangrijkste vereiste van een analist is niet zozeer efficiëntie als wel de betrouwbaarheid van het antwoord. Maar betrouwbaarheid wordt uiteindelijk bepaald door consistentie. Zolang er nog niet is gewerkt om het onderling eens te worden over de waarden van data uit verschillende bronnen, is het moeilijk om over de betrouwbaarheid ervan te praten.

Vaak wordt een manager geconfronteerd met een situatie waarin hij bij het beantwoorden van dezelfde vraag: diverse systemen kan en zal meestal een ander antwoord geven. Dit kan te wijten zijn aan niet-synchronisatie van gegevenswijzigingsmomenten, verschillen in de interpretatie van dezelfde gebeurtenissen, concepten en gegevens, veranderingen in de semantiek van gegevens tijdens het ontwikkelingsproces van het vakgebied, elementaire fouten tijdens invoer en verwerking, gedeeltelijke verlies van individuele archieffragmenten, enz. Het is duidelijk niet realistisch om vooraf rekening te houden met de algoritmen voor het oplossen van alle mogelijke botsingen en deze vooraf te bepalen. Bovendien is het onrealistisch om dit online, dynamisch en direct tijdens het genereren van een antwoord op een verzoek te doen.


Gerelateerde informatie.


Lees ook:
  1. Bonpoс 19 Legeringen op basis van aluminium en magnesium. Eigenschappen en toepassingen.
  2. Absolute hydrostatische druk en zijn eigenschappen
  3. Aldehyden, homologe reeksen, structuur, functionele groep. Chemische eigenschappen van aldehyden. Bereiding van aldehyden in de geneeskunde.
  4. Ammoniak (gebruiksvolgorde, eigenschappen, ziektebeeld van schade aan mensen en boerderijdieren, eerste hulp, bescherming).
  5. Analyse van de externe omgeving en de invloed ervan op de ontwikkeling van managementbeslissingen. Eigenschappen van de externe omgeving.
  6. Analyse van het gebruik van de nettowinst wordt uitgevoerd met behulp van de methode van verticale en horizontale analyse, waarvoor de indicatoren zijn gegroepeerd in een tabel vergelijkbaar met Tabel 20.
  7. Risicoanalyse, risiconiveau, risicobeoordeling op basis van beschikbare gegevens.
  8. Analytisch signaal. Eigenschappen van Hilbert-conjugaatsignalen.

Datawarehouse (DW)– een domeinspecifieke, geïntegreerde, onveranderlijke, historische verzameling gegevens, georganiseerd voor beslissingsondersteunende doeleinden.

Het concept van een datawarehouse is gebaseerd op het idee van het scheiden van gegevens die worden gebruikt voor operationele verwerking en voor het oplossen van analyseproblemen. Met deze indeling kunt u zowel de operationele opslagdatastructuren (online databases, bestanden, spreadsheets enz.) om invoer-, wijzigings-, verwijderings- en zoekbewerkingen uit te voeren, en datastructuren die voor analyse worden gebruikt (om analytische zoekopdrachten uit te voeren).

In DSS (Decision Support System) worden deze twee soorten gegevens respectievelijk operationele gegevensbronnen (ODS) en datawarehouse genoemd.

Datamart(VD)– dit is een vereenvoudigde versie van het datawarehouse, dat alleen thematisch gecombineerde gegevens bevat.

Eigenschappen gegevensopslag:

Onderwerporiëntatie (Dit is het fundamentele verschil tussen een datawarehouse en een OID. Verschillende OID's kunnen gegevens bevatten die hetzelfde onderwerpgebied beschrijven vanuit verschillende gezichtspunten (bijvoorbeeld vanuit het oogpunt van boekhouding, magazijnboekhouding, planningsafdeling, enz.). Een beslissing die slechts vanuit één standpunt wordt genomen, kan ineffectief of zelfs onjuist zijn. Met datawarehouses kunt u informatie integreren die verschillende standpunten over één onderwerp weerspiegelt.)

Integratie (OID's worden meestal ontwikkeld in verschillende tijden verschillende teams met hun eigen instrumenten. Dit leidt ertoe dat gegevens die hetzelfde object uit de echte wereld weerspiegelen, in verschillende systemen, beschrijf het op verschillende manieren. Door de verplichte integratie van data in het datawarehouse kunnen we dit probleem oplossen door de data naar het datawarehouse te brengen uniform formaat.)

Chronologische ondersteuning (gegevens in de OID zijn nodig om er bewerkingen op uit te voeren huidige moment tijd. Daarom zijn ze mogelijk niet tijdsgebonden. Voor data-analyse is het vaak belangrijk om de chronologie van veranderingen in domeinindicatoren te kunnen volgen. Daarom moeten alle gegevens die in het datawarehouse zijn opgeslagen, overeenkomen met opeenvolgende tijdsintervallen.)

Onveranderlijkheid (Vereisten voor OID leggen beperkingen op aan de tijd waarin gegevens daarin worden opgeslagen. Gegevens die niet nodig zijn voor operationele verwerking, worden in de regel uit OID verwijderd om de gebruikte bronnen te verminderen. Voor analyse zijn integendeel gegevens vereist voor de langst mogelijke periode. Daarom worden gegevens in het datawarehouse, in tegenstelling tot OID, pas gelezen na het laden. Hierdoor kunt u de snelheid van de gegevenstoegang aanzienlijk verhogen, zowel vanwege de mogelijke redundantie van opgeslagen informatie als door het elimineren van wijzigingsbewerkingen .)



Er kan het volgende worden onderscheiden DSS-architecturen met behulp van HD:

1) DSS met fysieke (klassieke) HD. Een dergelijk model leidt onvermijdelijk tot duplicatie van informatie in de OID en in het datawarehouse. De redundantie van gegevens die in de DSS zijn opgeslagen, bedraagt ​​echter niet meer dan 1%.

Dit kan worden verklaard om de volgende redenen:

Bij het laden van informatie uit de OID in het datawarehouse worden de gegevens gefilterd. Velen van hen vallen niet in het datawarehouse omdat ze betekenisloos zijn vanuit het oogpunt van gebruik in analyseprocedures.

Informatie in OID is in de regel operationeel van aard en gegevens die hun relevantie hebben verloren, worden verwijderd. Het datawarehouse daarentegen slaat historische informatie op. Vanuit dit oogpunt blijkt de duplicatie van de inhoud van het datawarehouse met OID-gegevens zeer onbeduidend. Het datawarehouse slaat algemene informatie op die niet in de OID is opgenomen.

Tijdens het laden in de gegevensopslag worden de gegevens gewist (verwijderd). onnodige informatie), en na een dergelijke verwerking nemen ze veel minder volume in beslag.



2) DSS met virtuele opslag. Redundantie binnen deze optie DSS is teruggebracht tot nul. IN in dit geval In tegenstelling tot het klassieke (fysieke) datawarehouse worden gegevens uit de OID niet naar één opslag gekopieerd. Ze worden direct geëxtraheerd, getransformeerd en geïntegreerd wanneer analytische zoekopdrachten worden uitgevoerd RAM computer. Dergelijke verzoeken worden feitelijk rechtstreeks aan de OID gericht. De belangrijkste voordelen van virtuele opslag zijn: het minimaliseren van de hoeveelheid geheugen die wordt ingenomen door informatie op de media; werken met actuele, gedetailleerde data.

Gebreken deze aanpak:

De verwerkingstijd voor verzoeken aan een virtuele opslag overschrijdt aanzienlijk de overeenkomstige indicatoren voor fysieke opslag.

Een geïntegreerd beeld van virtuele opslag is alleen mogelijk als aan de voorwaarde van constante beschikbaarheid van alle OID's wordt voldaan. De tijdelijke onbeschikbaarheid van ten minste één van de bronnen kan dus leiden tot het mislukken van het analytische verzoek of tot onjuiste resultaten.

Het uitvoeren van complexe analytische vragen op OID vereist aanzienlijke computerbronnen.

Verschillende OID's kunnen ondersteuning bieden verschillende formaten en gegevenscoderingen. Vaak zijn er meerdere antwoorden mogelijk op dezelfde vraag. Dit kan te wijten zijn aan:

– niet-synchronisatie van gegevensupdatemomenten in verschillende OID's;

– verschillen in de beschrijving van identieke objecten en gebeurtenissen in het vakgebied;

– fouten bij het invoeren;

– verlies van archieffragmenten etc.

In dit geval wordt het doel - de vorming van één consistent beeld van het controleobject - mogelijk niet bereikt.

Belangrijkste nadeel virtuele opslag is de praktische onmogelijkheid om gegevens over een lange periode te verkrijgen. Bij gebrek aan fysieke opslag zijn alleen de gegevens beschikbaar die op het moment van de aanvraag in de OID staan.

3) DSS met VD. De voordelen van deze aanpak zijn:

VD ontwerpen om een ​​specifiek scala aan vragen te beantwoorden;

Snelle implementatie van autonome vliegtuigen en het verkrijgen van voordelen;

Vereenvoudiging van VD-vulprocedures en verhoging van de productiviteit ervan door rekening te houden met de behoeften van een bepaalde groep gebruikers.

De nadelen van autonome luchtvoertuigen zijn:

Herhaalde opslag van gegevens in verschillende datawarehouses, wat leidt tot hogere opslagkosten en potentiële problemen die verband houden met de noodzaak om de gegevensconsistentie te behouden;

Gebrek aan gegevensconsolidatie op vakgebiedniveau, en als gevolg daarvan een gebrek aan een uniform beeld.

4) DSS met HD en VD. IN de laatste tijd Het idee om HD en VD in één systeem te combineren wordt steeds populairder. In dit geval wordt het datawarehouse gebruikt als de enige bron van geïntegreerde gegevens voor alle datawarehouses.

Het datawarehouse is één gecentraliseerde informatiebron voor het hele vakgebied, en de datadomeinen zijn subsets van gegevens uit de repository, georganiseerd om informatie te presenteren over thematische secties van een bepaald gebied.

Eindgebruikers hebben de mogelijkheid om toegang te krijgen tot gedetailleerde opslaggegevens als de gegevens in de winkel onvoldoende zijn, en om een ​​completer informatiebeeld te krijgen.

De voordelen van deze aanpak zijn:

Gemakkelijk aanmaak en vullen van datawarehouses, omdat het vullen afkomstig is uit één gestandaardiseerde, betrouwbare bron van opgeschoonde gegevens: uit het datawarehouse;

Gemakkelijk de DSS uit te breiden door nieuwe ID's toe te voegen;

Vermindering van de belasting van de hoofdopslageenheid.

Nadelen zijn onder meer:

Redundantie (gegevens worden zowel in het datawarehouse als in het datawarehouse opgeslagen);

Extra kosten voor het ontwikkelen van DSS met HD en VD.

Volgens de definitie van E. Inmon is een datawarehouse een domeinspecifieke, geïntegreerde, onveranderlijke, historisch onderhouden set gegevens die is georganiseerd voor beslissingsondersteunende doeleinden.

Er zijn twee soorten gegevensopslag: virtueel en fysiek. In systemen die het concept van virtuele opslag implementeren, worden analytische vragen beantwoord
rechtstreeks naar de OID en de verkregen resultaten worden in de operatie geïntegreerd
computergeheugen. Bij fysieke opslag worden de gegevens overgedragen
worden overgebracht van verschillende OID's naar één enkele opslag waarnaar analyses worden geadresseerd
tical queries Een lichtgewicht versie van het datawarehouse is het datawarehouse, dat alleen thematisch gecombineerde gegevens bevat. VD is aanzienlijk kleiner in volume dan CD, en de implementatie ervan vereist geen grote kosten. VD kan zowel zelfstandig als in combinatie met HD worden geïmplementeerd.

Het datawarehouse omvat: metadata, gedetailleerde, geaggregeerde en gearchiveerde gegevens. De gegevens die naar de datawarehouse-formulieren worden verplaatst informatiestromen: input, generalisatie, return, output en metadatastream.

Gedetailleerde gegevens zijn onderverdeeld in twee klassen: dimensies en feiten. Dimensies zijn sets gegevens die nodig zijn om gebeurtenissen te beschrijven. Feiten zijn gegevens die de essentie van een gebeurtenis weerspiegelen.

Geaggregeerde gegevens worden verkregen uit gedetailleerde gegevens door ze over dimensies heen op te tellen. Voor snelle toegang voor de meest gevraagde geaggregeerde gegevens moeten deze worden opgeslagen in het datawarehouse en niet worden berekend bij het uitvoeren van query's.

Metagegevens noodzakelijk voor de gebruiker om informatie te verkrijgen over de gegevens die zijn opgeslagen in het datawarehouse. Volgens de principes van Zachman moeten metadata de domeinobjecten beschrijven die in het datawarehouse worden weergegeven, gebruikers die met data werken, dataopslaglocaties, acties op data, dataverwerkingstijd en redenen voor datawijzigingen.

Het algemene idee achter datawarehouses is om OLTP-databases te scheiden van analytische databases en deze vervolgens dienovereenkomstig te ontwerpen. Het concept van dataopslag wordt al geruime tijd op de een of andere manier besproken door specialisten op het gebied van informatiesystemen. De eerste artikelen die specifiek aan CD waren gewijd, verschenen in 1988, de auteurs ervan waren B. Devlin en P. Murphy. In 1992 beschreef W. Inmon dit in detail dit concept in zijn monografie “Building the Data Warehouse”, tweede editie - QED Publishing Group, 1996.



Het concept van een datawarehouse is gebaseerd op het idee van het scheiden van gegevens die worden gebruikt voor operationele verwerking en voor het oplossen van analyseproblemen. Dit maakt het gebruik van datastructuren mogelijk die voldoen aan de opslagvereisten voor gebruik in OLTP-systemen en analysesystemen. Door deze scheiding kunt u zowel de operationele opslagdatastructuren (online databases, bestanden, spreadsheets, etc.) optimaliseren voor het uitvoeren van invoer-, wijzigings-, verwijderings- en zoekbewerkingen, als de datastructuren die worden gebruikt voor analyse (voor het uitvoeren van analytische queries). In de DSS worden deze twee soorten gegevens respectievelijk aangeroepen operationele gegevensbronnen(OID) en gegevensopslag. In zijn werk gaf Inmon de volgende definitie van CD.

Gegevensopslag- een domeinspecifieke, geïntegreerde, onveranderlijke, historische dataset georganiseerd voor beslissingsondersteunende doeleinden.

Hieronder zullen we geven algemene kenmerken belangrijkste eigenschappen van HD

Onderwerporiëntatie. Dit is het fundamentele verschil tussen HD en OID.
Verschillende OID's kunnen gegevens bevatten die hetzelfde onderwerpgebied vanuit verschillende gezichtspunten beschrijven (bijvoorbeeld vanuit het oogpunt van boekhouding, magazijnboekhouding, planningsafdeling, enz.). Een beslissing die slechts vanuit één standpunt wordt genomen, kan ineffectief of zelfs onjuist zijn. Met datawarehouses kunt u informatie integreren die verschillende standpunten over één onderwerp weerspiegelt. Onderwerporiëntatie stelt u ook in staat om in het datawarehouse alleen die gegevens op te slaan die nodig zijn voor hun analyse (voor analyse heeft het bijvoorbeeld geen zin om informatie op te slaan over de aantallen verkoop- en inkoopdocumenten, terwijl hun inhoud - hoeveelheid, prijs van verkochte goederen - zijn noodzakelijk). Dit verlaagt de opslagmediakosten aanzienlijk en verhoogt de veiligheid van de gegevenstoegang.

Integratie. OID's worden in de regel op verschillende tijdstippen ontwikkeld door verschillende teams met hun eigen tools. Dit leidt ertoe dat gegevens die hetzelfde object uit de echte wereld in verschillende systemen weerspiegelen, het anders beschrijven. Door de verplichte integratie van gegevens in een datawarehouse kunnen we dit probleem oplossen door de gegevens in een uniform formaat te brengen.

Ondersteuning voor chronologie. De gegevens in de OID zijn nodig om er op dit moment bewerkingen op uit te voeren. Daarom zijn ze mogelijk niet tijdsgebonden. Voor data-analyse is het vaak belangrijk om de chronologie van veranderingen in domeinindicatoren te kunnen volgen. Daarom moeten alle gegevens die in het datawarehouse zijn opgeslagen, overeenkomen met opeenvolgende tijdsintervallen.

Onveranderlijkheid. Vereisten voor OID's leggen beperkingen op aan de tijd waarin ze gegevens opslaan. De gegevens die niet nodig zijn voor operationele verwerking worden in de regel uit de OID verwijderd om het verbruik van bronnen te verminderen. Analyse daarentegen vereist gegevens over een zo lang mogelijke periode. Daarom worden de gegevens in het datawarehouse, in tegenstelling tot de OID, pas gelezen na het laden. Hiermee kunt u de snelheid van de gegevenstoegang aanzienlijk verhogen, zowel vanwege de mogelijke redundantie van opgeslagen informatie als door het elimineren van wijzigingsoperaties.

Bij het implementeren van het concept van gegevensopslag in een DSS worden gegevens van verschillende OID's naar één opslag gekopieerd. De verzamelde gegevens worden in één formaat gebracht, gecoördineerd en samengevat. Analytische verzoeken worden gericht aan het datawarehouse

Een dergelijk model leidt onvermijdelijk tot duplicatie van informatie in de OID en in het datawarehouse.

Informatie in OID is in de regel operationeel van aard en gegevens die hun relevantie hebben verloren, worden verwijderd. Het datawarehouse daarentegen slaat historische informatie op. Vanuit dit oogpunt blijkt de duplicatie van de inhoud van het datawarehouse met OID-gegevens zeer onbeduidend. Het datawarehouse slaat algemene informatie op die niet in de OID is opgenomen.

Tijdens het laden in het datawarehouse worden de gegevens gewist (onnodige informatie wordt verwijderd) en na een dergelijke verwerking neemt het een veel kleiner volume in beslag.

Redundantie van informatie kan tot nul worden teruggebracht met behulp van een virtueel datawarehouse. In dit geval worden gegevens uit de OID, in tegenstelling tot een klassiek (fysiek) datawarehouse, niet naar één opslag gekopieerd. Ze worden direct geëxtraheerd, geconverteerd en geïntegreerd bij het uitvoeren van analytische zoekopdrachten in het RAM van de computer. De belangrijkste voordelen van virtuele opslag zijn: - het minimaliseren van de hoeveelheid geheugen die wordt ingenomen door informatie op het opslagmedium en het werken met actuele, gedetailleerde gegevens. Deze aanpak heeft echter veel nadelen. De verwerkingstijd voor verzoeken aan een virtuele opslag overschrijdt aanzienlijk de overeenkomstige indicatoren voor fysieke opslag. Bovendien zijn operationele databasestructuren ontworpen voor het intensief bijwerken van afzonderlijke records, in hoge graad genormaliseerd. Om een ​​analytische query uit te voeren, is een unie vereist groot aantal tabellen, wat ook leidt tot een afname van de prestaties.

Een geïntegreerd beeld van virtuele opslag is alleen mogelijk als aan de voorwaarde van constante beschikbaarheid van alle OID's wordt voldaan. De tijdelijke onbeschikbaarheid van ten minste één van de bronnen kan dus leiden tot het mislukken van het analytische verzoek of tot onjuiste resultaten.

Het uitvoeren van complexe analytische vragen op OID vereist aanzienlijke computerbronnen. Dit leidt tot een afname van de prestaties van OLTP-systemen, wat onaanvaardbaar is, aangezien de uitvoeringstijd van bewerkingen in dergelijke systemen vaak erg kritisch is.

Verschillende OID's kunnen verschillende gegevensformaten en coderingen ondersteunen. Vaak zijn er meerdere antwoorden mogelijk op dezelfde vraag. Dit kan te wijten zijn aan niet-synchronisatie van data-updatemomenten in verschillende OID's, verschillen in de beschrijving van identieke objecten en gebeurtenissen in het onderwerpgebied, invoerfouten, verlies van archieffragmenten, enz. In dit geval is het doel - de vorming van één consistent beeld van het besturingsobject – kan mogelijk niet worden bereikt.

Het belangrijkste nadeel virtuele opslag is de praktische onmogelijkheid om gegevens over een langere periode te verkrijgen. Bij gebrek aan fysieke opslag zijn alleen de gegevens beschikbaar die op het moment van de aanvraag in de OID staan. Het belangrijkste doel van OLTP-systemen is operationele verwerking actuele gegevens, dus ze zijn niet gericht op het opslaan van gegevens over een lange periode. Naarmate gegevens verouderd raken, worden ze geüpload naar het archief en verwijderd uit de operationele database.

Ondanks de voordelen van fysieke opslag ten opzichte van virtuele opslag, moet worden erkend dat de implementatie ervan een nogal arbeidsintensief proces is. Laten we stilstaan ​​bij de belangrijkste problemen bij het creëren van een datawarehouse:

De noodzaak om gegevens uit heterogene bronnen te integreren in een gedistribueerde omgeving;

De behoefte aan efficiënte opslag en verwerking is groot grote volumes informatie;

De behoefte aan metadatamappen met meerdere niveaus;

Verhoogde eisen voor gegevensbeveiliging.
Laten we deze problemen in meer detail bekijken.