Automatické získání dat z webu (parsování) - bez programování
Ukážeme si jednoduchý způsob získání dat z webové stránky. Data se uloží do dokumentu Google Spreadsheet (obdoba MS Excel). Obejdeme se bez programování a bez placení.
Web scraping?
Parsování dat - nebo web scraping - je postup automatizovaného získávání dat z webových stránek. Data pak použijeme pro vlastní potřebu - buď je jen uložíme nebo s nimi provádíme další operace.
V tomto návodu si ukážeme automatické získání dat z webu, který obsahuje data o ceně benzínu a nafty.
Existuje mnoho způsobů, jak data z webu získat. Ať už se jedná o profesionální služby typu import.io nebo apifier. My si ukážeme jednoduché "domácí" řešení.
Co budeme potřebovat?
Každý, kdo má aktivní účet u společnosti Google (např. email), má současně přístup ke službě Google Docs (Dokumenty Google). Jejich součástí jsou i Google Spreadsheet (Tabulky Google), obdoba MS Excelu.
Pro toto řešení tedy použijeme Google Spreadsheet a prohlížeč (+ připojení k internetu). A to je vše.
Postup
Celý postup jsem zveřejnil formou videa na Youtube.
V Google Spreadsheet importujeme část webové stránky s využitím funkce importhtml(). Té předáme URL adresu webu. Data se načtou do listu v tabulce Google a poté je můžeme vhodně upravit, např. zkopírovat jejich část na jiný list.
Poznámka: funkce importhtml() umí získat data z webu, jsou-li umístěna v tabulce (table) nebo seznamu (ul, ol). Pokud nejsou, použijeme funkci importxml().
Zpracování dat mimo tabulku Google
Pokud potřebujeme s daty dále pracovat, např. je načíst do webové či mobilní aplikace, můžeme je vyexportovat jako JSON formát pomocí skriptu - i to je názorně vysvětleno ve videu.
A to je vše
Děkuji za skvělý tip. Já se automatickému získání dat z webové stránky věnuji již nějakou dobu a tuto funkci v Google Sheets jsem neznal. Na web scraping používám hlavně Python a musím se přiznat, že někdy v něm řeším i takto jednoduché úkony. Příště si ulehčím práci.