ANALÝZA POMOCÍ PYTHONU
Chtěly jsme si vyzkoušet analýzu dat nejen na základě pohledu na vizualizovaná data. K tomuto účelu jsme si opět zvolily jako pomocníka Python. Vytvořily jsme si dva skripty:
-
Skript vhodnost_mereni – nahrály jsme si data z databáze o nehodách a měřených úsecích a pro každý bod nehody na základě shody ulice pro nehodu i měřený úsek (urychlení procesu) se spočítá vzdálenost bodu nehody od bodů na tomto úseku pomocí funkce get_distance(start_lat, start_long, end_lat, end_long). Je-li tato vzdálenost menší než 20 m, přiřazujeme tento bod k danému měřenému úseku. Zjištěná data jsme opět nahrály do databáze jako první analytickou tabulku vhodnost_mereni.
-
Skript nehodovost_a_mereni – nejdříve se vytvoří gridy (kombinace všech zaokrouhlených zeměpisných délek a šířek všech nehod i měřených úseků). Ostatní gridy, které spadají do Brna, ignorujeme. Tímto postupem omezíme analýzu pouze na body, ve kterých dochází k nehodám a na body, kde se měří rychlost. Každý grid potom porovnáváme se všemi body (dvojicemi zaokrouhlených zsměpisných délek a šířek) nehod i měřených úseků a poté těmto gridům přiřazujeme informaci o tom, zda je v daném gridu měřený úsek včetně id tohoto úseku/těchto úseků a v případě nehod zapisujeme každou nehodu, která do tohoto gridu spadá. Informace o jednotlivých gridech opět putovaly do databáze a vznikla tak druhá analytická tabulka nehodovost_a_mereni. Velikost každého gridu je 55×37 m.
Díky těmto zjištěním dokážeme určit:
-
počet nehod, které spadají do oblasti měřeného úseku včetně určení, o které nehody jde
-
místa s nejvyšším počtem nehod, kde se měří rychlost
-
místa s nejvyšším počtem nehod, kde se neměří rychlost
-
místa s nulovým počtem nehod, kde se měří rychlost
(poslední kombinace nás jednak nezajímá, jednak není tímto postupem zjistitelná, protože si ukládáme pouze gridy, kde dochází k nehodám nebo kde se měří rychlost)
ANALÝZA POMOCÍ POWER BI
Využily jsme také další mocný analytický nástroj Power BI. Vyčištěná a zpracovaná data z transakčního datového modelu jsme transformovaly do datového skladu jakožto vhodnější datové struktury pro práci v Power BI. Po importu jsme zkontrolovaly a upravily vazby mezi faktovými a dimenzionálními tabulkami, v Query editoru překontrolovaly datové typy jednotlivých atributů, vytvořily nové metriky pomocí jednoduchých příkazů v jazyce DAX a pustily se do tvoření dashboardů a hledání odpovědí na předem stanovené otázky.
Aby se výsledné výstupy netříštily a měly lepší výpovědní hodnotu, profiltrovaly jsme jednotlivé zkoumané kategorie a vyřadily skupiny, které by zkreslovaly výsledné hodnoty. Z datasetu jsme pro analytické účely zpracovávaly pouze nehody:
-
které se staly na území města Brna
-
zaviněné řidičem motorového vozidla (upustily jsme od zkoumání nehod zaviněných chodcem, lesní zvěří, závadou komunikace atd.)
-
s nenulovou hmotnou škodou
-
způsobené osobním automobilem, nákladním automobilem nebo motocyklem (upustily jsme od zkoumání nehod prostředků městské hromadné dopravy, cyklistů, vlaků, povozů s koňmi a jinými nemotorovými vozidly)
Pro výzkum nám posloužila data o dopravních nehodách a schválených úsecích pro měření rychlosti na území města Brna v letech 2016–2018. V analýze jsme se zaměřily na zkoumání datasetu nehod způsobených řidiči osobních a nákladních vozidel a motocyklů. Takových případů k prozkoumání jsme měly téměř čtyři a půl tisíce.

Od začátku roku 2016 do konce roku 2018 se v Brně událo 4481 dopravních nehod. Celková výše škod dosáhla v průběhu tří let na téměř 350 tisíc korun. Škody na životech se za tu stejnou dobu vyšplhaly na číslo osmnáct, těžká zranění na brněnských silnicích utrpělo 191 lidí a 1 521 jich bylo zraněno lehce.
Taková tedy byla datová sada, kterou jsme plánovaly prozkoumat a vypíchnout z ní případy, kdy lidé havarovali především z toho důvodu, že překročili maximální povolenou rychlost. Tyto případy jsme následně chtěly konfrontovat s úseky, kde se měří, a hledat ne/souvislosti.