Adatok egyhelyen és struktúráltan!

Adatmodell kialakítása
Az első fázisban megtervezzük az adatmodellt, melyet leginkább alkalmasnak tartunk a feladat megvalósítására. Ebben a fázisban rengeteg információt kell begyűjtenünk, s a rendelkezésre álló információkat mérlegelve kell majd meghoznunk a döntést, hogy milyen legyen a kialakításra kerülő adatmodell. Mérlegelnünk kell az adottságokat, az elvárásokat és a lehetőségeket. Számít (nagyon számít!), hogy mennyi adat kezelésére kell felkészülnünk, hogy ezek az adatok milyen gyakorisággal érkeznek, hogy mennyi ideig kell tárolnunk az adatokat, hogy milyen lekérdezések (riportok) kiszolgálását várják a rendszertől, hogy a riportok adatokkal való ellátására mennyi időnk van stb.

A szóba jöhető adat modellezési technikák a következők:
  • Normálformás modellezés
  • Denormalizált dimenzió modellezés (csillagséma)
  • Normalizált dimenzió modellezés (hópehely séma)
  • Data Vault modellezés

Adattárház környezetben leginkább a csillagsémás dimenzió modell alkalmazását javasolja a szakirodalom (és a gyakorlat). Adattárház építés esetén a normalizálás nem javallott, mert lassítja a lekérdezés sebességét, a Data Vault módszertan pedig leginkább a nagymennyiségű adat optimalizált tárolására van kihegyezve.

Az adatok kinyerése és adattárházba töltése
Ebben a fázisban feladatunk a javarészt tranzakciós feladatokat ellátó forrásrendszerek adatainak adattárházba töltése. Az adatkinyerés és betöltés folyamata részfeladatokra bontható az alábbiak szerint:
  • Az adatok kinyerése az operatív rendszerekből (extraction)
  • Az adatminőség ellenőrzése (validating)
  • Az adatok tisztítása (cleaning)
  • Adat transzformáció, azaz a különböző formátumban, felbontásban, mértékegységben stb. elérhető adatok egységes alapra hozása (transformation)
  • Az adatok “felösszegzése” (calculating)
  • Az adatok betöltése az adattárházba (loading)

Kérje személyre szabott ajánlatunkat az alábbi email címen: info@bitline.hu