Power Query – ultimátny nástroj na prípravu dát

Microsoft pred niekoľkými rokmi uviedol doplnok Power Query pre Excel, ktorý na prvý pohľad vyzerá ako jednoduchý nástroj na import dát do Excelu. Medzičasom sa však rozhodli integrovať ho do Power BI aj SSAS Tabular 2017, pretože je to tak silný nástroj pre prípravu dát, že by bola škoda nechať ho iba v Exceli. Preto sa naňho teraz pozrieme bližšie.

Power Query je nástroj na pokročilú prípravu a spájanie dát z rôznych zdrojov, či už v Exceli, Power BI alebo v najnovšom SSAS Tabulare. Jeho výhodou je to, že sa veľmi jednoducho ovláda, a nekladie žiadne limity na tvorivosť užívateľa. Vie sa pripojiť k cca. 50 rôznym dátovým zdrojom, a ak máte Power BI, tak tam je to až vyše stovky rôznych dátových zdrojov. Vie naimportovať dáta nielen z bežných databáz ako SQL Server, Oracle, DB2, Access či SAP HANA, ale aj z webu, z OLAP kociek Analysis Services, Excelu, CSV a XML súborov, SharePointu, Officu 365, Google Analytics či SalesForce. A v jeho najnovšej verzii sa dá tento zoznam aj programátorsky rozširovať cez vlastné konektory.

Pri importe dát to však nekončí. Výsledné dáta sa dajú v Power Query následne transformovať a ľubovoľne kombinovať medzi sebou. Viete si napríklad doplniť chýbajúce dáta, opraviť existujúce dáta, spájať dáta z viacerých súborov či databáz do jednej tabuľky, kombinovať dáta zo všetkých dátových zdrojov (napr. dáta z Excelu s dátami z SQL Servera), či vypočítavať ďalšie štatistiky podľa potreby. A to všetko pomocou jednoduchých krokov a bez obmedzení na to, odkiaľ tieto dáta prišli. Po ich naimportovaní sa totiž všetky dáta tvária ako tabuľky, a od toho momentu je úplne jedno, odkiaľ došli – všetky operácie fungujú rovnako nad všetkými z nich.

Power Query používa na transformácie vlastný jazyk M, ktorý momentálne obsahuje vyše 300 funkcií pre tranformáciu a prácu s dátami – napr. agregáciu dát, transpozíciu dát, horizontálne a vertikálne spájanie tabuliek, filtrovanie dát, vytváranie podmienených stĺpcov, inteligentné rozdeľovanie dát do viacerých stĺpcov, dátumové a časové výpočty, matematické, štatistické a vedecké operácie, iteráciu cez záznamy, a kopu ďalších operácií. A ak by Vám tieto operácie náhodou nestačili, tak máte možnosť vytvárať vlastné funkcie, a pomocou nich sa aj zložité tranformácie dajú neskôr vykonať na pár krokov. Zo začiatku však vôbec nebudete potrebovať tento jazyk ovládať, pretože veľká časť funkcionality je zabudovaná do užívateľského menu v podobe tlačítok.

Ďalšia obrovská výhoda používania Power Query je v tom, že všetky kroky, ktoré aplikujete na svoje dáta, si zapamätá v histórii krokov. A túto históriu môžete následne ľubovoľne meniť – môžete pridávať ďalšie kroky, meniť ich poradie, mazať a upravovať existujúce kroky, či vkladať ďalšie medzikroky. A to všetko len za jedným účelom – aby všetko pokračovalo a fungovalo ďalej, aj keď sa zmenia dáta či nebodaj ich štruktúra v dátovom zdroji. Či keď si nebodaj neskôr spomeniete, že ste mali použiť inú postupnosť krokov, aby ste to všetko nemuseli prerábať od začiatku. Všetky tieto kroky sú potom aplikované automaticky nielen na existujúce dáta, ale aj na nové dáta, ktoré prídu pri aktualizácii dát. A vďaka tomuto si viete extrémne zjednodušiť prípravu dát v niektorých prípadoch až natoľko, že nebudete musieť kvôli tomu prácne budovať dátový sklad. Prípadne čakať 3 týždne na IT oddelenie, ktoré za bežných okolností tieto dáta pripravuje, a kvôli zahlteniu inými úlohami to aj tak nestíha.

Power Query sa nachádza v týchto aplikáciách:

  • v Exceli 2010 a 2013 ako doplnok zadarmo – stiahnete ho z tohto odkazu, ktorý po zapnutí pridá novú záložku Power Query do hlavného menu:
  • v Exceli 2016 ako súčasť menu DATA, resp. ÚDAJE, pod skupinou Získať a transformovať:
  • v Power BI Desktope ako Editor Power Query:
  • v SSAS Tabulare 2017 ako Table Import Wizard, Query Editor a Shared Expressions, s užívateľským rozhraním podobným Power BI (ktoré ho na pozadí používa):

V závislosti od toho, kde ho používate, sa mierne líši zoznam dátových zdrojov aj funkcionalita. Napr. v Exceli máte dostupných okolo 50 dátových zdrojov, v Power BI vyše 100, a v SSAS Tabulare okolo 25. Všetko ostatné v nich však funguje plus mínus rovnako.

Power Query v Exceli 2013 a vyššom má ďalší bonus – priamu integráciu s PowerPivotom. Dáta nemusíte ťahať cez Excel, ale môžete ich priamo načítať do dátového modelu. Čo je dosť užitočná skratka, ak analyzujete milióny riadkov. Navyše, ak prekonvertujete takýto excelovský súbor na súbor Power BI, tak sa vám doňho prenesú aj všetky tieto nastavenia dotazov Power Query.

A zároveň vychádzajú pre Power Query nové aktualizácie každý mesiac.

Power Query je jednoducho nástroj, ktorý tu mal byť už pred mnohými rokmi. A zároveň je spravený tým spôsobom, akým si väčšina užívateľov predstavuje prácu s dátami pri ich príprave. V skutočnosti by tento nástroj mal byť povinný pre všetkých, ktorí si potrebujú pripraviť dáta pre svoje analýzy alebo reporty. Pretože ak ho zvládnete, tak Vám ušetrí kopec času a trápenia v porovnaní s klasickými postupmi prípravy dát, a zároveň budete dobre pripravení aj do budúcnosti na prípadné zmeny. Pretože celý nástroj je tak flexibilný, že snáď neexistuje situácia, ktorú by nedokázal zvládnuť. A ak by sa Vám ho nechcelo učiť vlastnými silami, tak ste sa práve dozvedeli, kde sa ho viete naučiť 🙂 Pretože nie každý má čas skúšať metódou pokus-omyl, ako spraviť to čo potrebuje. Nech sa už rozhodnete akokoľvek, tak určite si tento nástroj aspoň vyskúšajte. Po chvíli hrania sa s ním budete prekvapení, čo všetko sa s ním dá robiť 🙂

Pridaj komentár

Vaša e-mailová adresa nebude zverejnená.