Data Quality

Natrag
Travanj 29, 2020
Vrijeme čitanja: 5 minuta

Kvaliteta podataka (Data Quality) je mjerljivo stanje podataka bazirano na faktorima kao što su točnost, kompletiranost i konzistentnost. Skraćeno - podaci su kvalitetni, ako su upotrebljivi za izvršenje određenog zadatka. U doba digitalne transformacije kvaliteta podataka postaje jedna od najvažnijih stavki poslovnog procesa. Digitalizacijom različitih načina poslovanja izlažemo se riziku da naši podaci postanu neupotrebljivi. Kontrola kvalitete podataka, jedna je od osnovnih komponenti upravljanja podacima.

Neki od klasičnih primjera gdje su kvalitetni podaci od iznimnog značaja su:

  • Marketing
  • Online prodaja
  • Operacije pri opskrbnim lancima
  • Financijsko izvještavanje

Ako imamo loše podatke, nemamo kvalitetne informacije. S neupotrebljivim informacijama imamo manje znanja što će na kraju rezultirati donošenjem riskantnih poslovnih odluka. Time riskiramo porast nepredviđenih troškova, ali i nemogućnost pravovremenog reagiranja.

U 2019.godini istraživanja su pokazala da je čak 59% netočnih podataka uzrokovala ljudska pogreška, a ostalih 41% uzrokovano je nedostatkom komunikacije ili upotrebom neadekvatnih poslovnih logika.

Što možemo učiniti da unaprijedimo našu kvalitetu podataka?

Nabrojati ćemo neke parametre koji mogu utjecati na dimenzije podataka: dupli podaci, višestruki podaci koji opisuju isti entitet (real world), netočni podaci npr. adresa, različite mjerne jedinice, izostanak vremenskog okvira.

Pri unaprjeđenju kvalitete podataka cilj je zapravo unaprjeđenje dimenzije kvalitete podataka, a to su još jednom:

  • Točnost je mjera koliko su podaci ispravni, pouzdani i provjereni bez detektiranih grešaka
  • Kompletiranost je dostupnost svih podataka potrebnih za zadovoljavanje korisničkih zahtjeva
  • Konzistentnost i pravovremenost su stupanj sigurnosti da je vrijednost atributa još uvijek aktualna

Na kvalitetu podataka u bazi podataka osim kvalitete podataka koji pristižu s izvora, utječe i ETL (Extract, Transform, Load) proces. Naime, moguće je da točan i potpun podatak s izvora podataka zbog ugrađene logike, dinamike objavljivanja ili čak pogreške u ETL procesu, nije proslijeđen u odredišno skladište podataka, ili pak ima vremensku odgodu/potpun izostanak. Drugim riječima, dimenzije kvalitete podataka s izvora podataka ovise i o kvaliteti ETL procesa.

Prije svega možemo primijeniti „Shift left“ metodologiju koja se osniva na ranom testiranju i testiranju u svim fazama. Ona nam omogućuje da developer uvijek ima uvid u svoje fragmente koda, i funkcioniraju li oni doista sa svrhom kojom su je napisali.

Postoji nekoliko vrsta testiranja koje možemo odraditi:

  • Pre-screening test: provjerimo izvor podataka i jesu li podaci na broju, duplikate, formate
  • Metadata test: provjerava jesu li se tablica ili informacije o koloni promijenili tijekom punjenja podataka
  • Completeness: označava brojanje između izvora i odredišta
  • Uniqueness test: provjerava UNIQUE constraint na fajlovima i tablicama
  • Referential integrity test: provjerava jesu li svi podaci kopirani i je li logički integritet ispoštovan
  • Data reconciliation test: pokreće kompletnu provjeru između izvora i odredišta—uključujući file-to-database and database-to file usporedbe

Shift-left“ je agilna metoda koja je vrlo važna jer provodimo rana testiranja u razvojnom ciklusu. Također, potvrđuje nam da je testiranje sastavni dio razvoja software-a. Najveća prednost „Shift-left“ metode je navikavanje developera na pisanje koda koji mogu ponovno upotrijebiti. Osim toga, omogućuje ranu automatizaciju procesa.

Osim koraka i ciljanih akcija koje možemo poduzeti, postoji i drugi način kako da unaprijedimo kvalitetu podataka. Na tržištu postoji mnogo software alata koji se bave ovim problemom. Zadatak tih alata je da kroz automatizirani proces ili prema uputama korisnika prepozna problematične podatke i o tome napravi izvješće kako bi mogli točno i promptno reagirati na javljene greške. Jedan od takvih alata je i Agilos IT - Agile Query aplikacija koja radi na APEX (Oracle Application Express) platformi. Osmišljena je kao filter loših podataka u DWH-u. Također, Agile Query aplikacija pospješuje komunikaciju između developera i klijenta jer pri svakoj pokrenutoj kontroli podataka korisniku pruža izvješće. Na taj se način može pratiti omjer pogrešnih i ispravljenih podataka u jedinici vremena.

Zaključno: ako vodimo računa o kvaliteti naših podataka s kojima obavljamo određene zadatke, rezultati će se uspješno odraziti na poslovanje.

Autor Roman Hromadko

"Ako imamo loše podatke, nemamo kvalitetne informacije. S neupotrebljivim informacijama imamo manje znanja što će na kraju rezultirati donošenjem riskantnih poslovnih odluka. Time riskiramo porast nepredviđenih troškova, ali i nemogućnost pravovremenog reagiranja."

Roman Hromadko

Developer

Želiš podijeliti? Slobodno!

Kvalitetna, inovativna i jednostavna rješenja su ono što nas čini
uspješnima, razgovarajmo o vašim idejama.