Automatické získání dat z webu (parsování) - bez programování

Pavel, 18.03.2017 17:00, Internet, 0 odpovědí (1343 zobrazení)

Ukážeme si jednoduchý způsob získání dat z webové stránky. Data se uloží do dokumentu Google Spreadsheet (obdoba MS Excel). Obejdeme se bez programování a bez placení.

Web scraping?

Parsování dat - nebo web scraping - je postup automatizovaného získávání dat z webových stránek. Data pak použijeme pro vlastní potřebu - buď je jen uložíme nebo s nimi provádíme další operace.

V tomto návodu si ukážeme automatické získání dat z webu, který obsahuje data o ceně benzínu a nafty.

Existuje mnoho způsobů, jak data z webu získat. Ať už se jedná o profesionální služby typu import.io nebo apifier. My si ukážeme jednoduché "domácí" řešení.

Co budeme potřebovat?

Každý, kdo má aktivní účet u společnosti Google (např. email), má současně přístup ke službě Google Docs (Dokumenty Google). Jejich součástí jsou i Google Spreadsheet (Tabulky Google), obdoba MS Excelu.

Pro toto řešení tedy použijeme Google Spreadsheet a prohlížeč (+ připojení k internetu). A to je vše.

Postup

Celý postup jsem zveřejnil formou videa na Youtube.

V Google Spreadsheet importujeme část webové stránky s využitím funkce importhtml(). Té předáme URL adresu webu. Data se načtou do listu v tabulce Google a poté je můžeme vhodně upravit, např. zkopírovat jejich část na jiný list.

Poznámka: funkce importhtml() umí získat data z webu, jsou-li umístěna v tabulce (table) nebo seznamu (ul, ol). Pokud nejsou, použijeme funkci importxml().

Zpracování dat mimo tabulku Google

Pokud potřebujeme s daty dále pracovat, např. je načíst do webové či mobilní aplikace, můžeme je vyexportovat jako JSON formát pomocí skriptu - i to je názorně vysvětleno ve videu.

A to je vše :-)

Odpovědět


PředmětAutorDatum

info: Nebyly nalezeny žádné odpovědi.


TOPlist