Získání dat z webu, služba Apify.com

Ukážeme si způsob, jakým získat data z cizí webové stránky. Data pak můžeme použít ve vlastní webové či mobilní aplikaci. Na konci článku je odkaz na online prezentaci (praktický příklad získání dat z programu kina).

0. Úvod

Před rokem jsem tu publikoval návod na získání dat z webu s využitím Google Spreadsheet, dnes použijeme službu Apify.com

Krátká terminologie: Získání dat z webu říkáme scrapování; skript, kterým ho provádíme nazýváme crawler; plánovač, kterýho v zadaném čase spouští je scheduler.

Scrapování dat z webu se hodí např. pro zjištění aktuálního kurzu měn, jídelního lístku závodní jídelny či restaurace, programu kina atd.

Služba Apify umožňuje zdarma provést 5000 crawlerů za měsíc, což je pro soukromé a hobby použití více než dostatečné. Crawler se píše v JavaScriptu s využitím knihovny jQuery.

Na konci článku je odkaz na online prezentaci.

1. Píšeme crawler - získáme data z webu

Po bezplatné registraci do služby Apify.com začneme s psaním crawleru. K dispozici je nápověda s ukázkami a fórum pro řešení problémů.

Celou činnost rozdělíme do několika kroků.

Předně musíme navštívit požadovanou webovou stránku (ze které potřebujeme získat data) a zobrazit její zdrojový kód (v jazyku HTML). Najdeme požadavané informace a zjistíme, ve kterých elementech jsou na stránce uloženy (značky jazyka HTML, jako <td>, <div>, <span> apod.).
Pak napíšeme crawler, který načte naši stránku, získá z ní požadovaná data a výsledky uloží. Data se samozřejmě dají ještě upravit, můžeme použít nahrazování řetězců; získat jen textová data nebo fragmenty kódu HTML atd.
V případě potřeby ještě můžeme získaná data zapsat do databáze, např. Firebase.

2. Nastavíme scheduler - automatické spouštění crawleru

Po odladění crawleru vytvoříme scheduler (plánovač), který bude náš crawler spouštět v zadaných časech nebo intervalech. Lze zvolit nejen čas, ale i den v měsíci, den v týdnu; i pravidelné spouštění v zadaných intervalech - např. každé čtyři hodiny.

3. Použití dat

K výsledkům získaným crawlerem - tj. námi požadovaných dat - se dostaneme přes API rozhraní služby Apify.com, přes URL adresu. Data pak můžeme použít ve vlastní webové či mobilní aplikaci.

V této online prezentaci je popsán celý výše uvedený postup. Prezentace obsahuje i zdrojový kód crawleru, který získá informaci o programu brněnského kina Velký Špalíček.