Práce s daty
Opravdovou vypovídací hodnotu datových analýz zajistíme pouze následováním tří základních pilířů, jejichž dodržení je nutné pro účelné zpracování dat. Které to jsou?
Prvním pilířem je seznam otázek, na které chceme odpovědi.
Při práci s daty v podstatě vedeme živý rozhovor. Ptáme se dat na otázky, a ta nám poskytnou odpověd. Tázaný může na dotaz odpovědět jen tehdy, má-li potřebné informace. Stejně tak datová sada odpoví pouze v případě, že vychází ze správných záznamů a proměnných. To znamená, že musíme pečlivě uvážit, které otázky potřebujeme zodpovědět ještě předtím, než začneme data pořizovat. V podstatě budeme pracovat pozpátku.
Předně si musíme vypsat, které výkazy podepřené reálnými daty chceme získávat. Poté rozhodneme, jaké záznamy a proměnné musíme pořizovat a analyzovat, abychom výkaz / výstup získali.
Ve zkratce se dá říci, že je vždy lepší požadovat a pořizovat do systému (databáze) všechny dostupné údaje. Časově nahodilá zajišťování dílčích informací pro konkrétní výstup mohou způsobit vznik dalších otázek, na jejichž zodpovězení bychom byli nuceni dokládat a pořizovat data další. Z maximálního možného seznamu dat si vždy můžeme zajistit částečný výkaz, takže pořizovat “všechna” data se ve finále vyplatí časově, i finančně. Na druhou stranu, částečná databáze je rozhodně lepší, než databáze žádná, v případě že znáte její vypovídající limity.
Druhým znakem je, že data bývají neutříděná a potřebují pročistit
To je obvykle největší a nejnáročnější část celkové práce. Na jednoduchém příkladu si předvedeme, o co jde. Pořizování adresáře klientů ve vašem hotelovém rezervačním systému zpravidla zahrnuje i vyplnění kolonky “oslovení” (tituly ponecháme stranou). Ta často zahrnuje oslovení žádné (nevyplněné), a “pan”, “paní”. Pokud nemáme přímo otevírací nabídku, kdy zvolíme možnost označením myší a odkliknutím, pak jsme závislí na tom, kdo a jak tato oslovení vyplnil (pořídil). Z “pána” se tak dostaneme ke zkratkám i překlepům, čili se nám otevře variace možností, např. “p.”, “P”, “pn”, anglické “Mr.” nebo “M”, či statistické označení “0”. Pořizování dat tedy musíme v první řadě standardizovat - přisoudit každému údaji jednotnou variantu zapsání. U stávajících dat nezbývá, než je na tuto formu upravit.
Narychlo zjistit, jak nesourodá databáze je, se dá její extrakcí do tabulkového procesoru. Na některém jednoduchém poli jako je např. takovéto oslovení, ihned vidíme výsledek.
V případě údajů, které se do hotelového adresáře převádějí automaticky z online rezervačního systému, je dobré vložit jen otevírací nabídky, kde klient pouze vybere a označí danou možnost. U zadávání jmen a adres je vhodné umístit legendu, v jakém tvaru je třeba údaj vepsat. Např. jméno a příjmení přesně ve tvaru, jak je napsáno v cestovním dokladu či OP, bez zkratek prostředních a dalších jmen, adresu taktéž. Pokud nějaký údaj není znám, zvolit možnost “není známo” či nevyplňovat vůbec. Zamezí se tak zdvojení a násobení klientských karet, a dalším desinformacím. Pokud při check-inu nějaký údaj z rezervace nesouhlasí, je třeba jej vždy opravit.
Třetím faktem je, že data mohou mít nepodložené rysy.
Proto si musíme být před jejich zpracováním jisti, že během zadávání nedošlo např. k založení nového kódu, který není uveden ve směrnici, nebo že obsluha systému nevyplnila pole “není známo” nějakým jiným údajem “jen proto aby tam něco bylo”, že nedošlo k jakékoliv funkční změně v systému samotném atd. I z toho důvodu se na výsledek analýzy musíme nejdříve podívat tzv. selským rozumem. “Dává to smysl? Zní tento závěr pravděpodobně?”