Wikipedia: jak stáhnout obsah?
Na Wikipedii je pár témat, který jsou pro mě natolik zajímavý, že bych je měl rád i offline. Normální web jde určitě stáhnout něčím jako HTTrack. V něm jsem neúspěšně zkoušel stáhnot i wikipedii. Dle mýho je buď problém v tom, že dělám něco blbě a nevím co nebo ve způsobu zápisu adresy kategorie ve Wikipedii, jako např. http://cs.wikipedia.org/wiki/Kategorie:Grafické_sou borové_formáty
Poradil by mi někdo něco rozumnýho? Díky.
Pavel
Wikipedia sa bráni sťahovaniu stránok pomocou nástrojov ako HTTrack, pretože to zaťažuje ich servre (http://en.wikipedia.org/wiki/Wikipedia:Database_dow nload#Please_do_not_use_a_web_crawler). Takže by mohlo pomôcť nastaviť sťahovanie stránok po jednej sekunde (neskúšal som).
Aha, tohle jsem nevěděl. Rád bych to i respektoval (moc Wikipedii fandím a snažím se ji "prosazovat"), ale je to příliš lákavý takový info nechat jen pro přístup online.
Díky,
Pavel
Kúp si stodolárový notebook.
AR.asp
Tak tuhle věcičku si pořídím, pakliže půjde sehnat, akorát bych to viděl na $200
Pavel
A čo tak použiť webdownloader a stiahnuť stránku so zanorením 1?
Edit: Nabudúce si prečítam všetky príspevky.
Tak Wikipedia se brání, mám z toho dojem že mě odstřihla. Nastavil jsem v HTTrack 1 spojení za sekundu, pak i 0.1 a nepomáhá. Velká škoda.
Pavel
Jestli to chápu dobře, tak tady 20060921 by se (snad) dal stáhnout celej obsah české verze Wikipedie.
Pavel
Mě to tam, kde jsem byl s HTTrackem neúspěšný, často stáhnul bez potíží JoBo.
JoBo
Inzerát: prodám celý obsah Internetu vypálený na 25 589 254 DVD nebo bez porna na 4 DVD. Značka "Levně"
Skvělý!
Pavel
a jenom porno ?
=> porno = (25 589 254 - 4) DVD
Tak jsem stáhl tento archiv http://download.wikimedia.org/cswiki/20060921/cswik i-20060921-pages-meta-current.xml.bz2, kterej jsem WInRARem rozbalil, je tam jeden soubor XML o velikosti 242 MB - ale co s ním? Nemáte někdo představu. Ani ho nemůžu otevřít, je moc velkej na moje PC...
Pavel
Nevymýšlej žádné finty a přečti si pozorně článek, který všechno potřebné popisuje:
http://en.wikipedia.org/wiki/Wikipedia:Database_dow nload
Ty jseš dobrej, prej žádný finty. Já se o finty nesnažím, právě chci jen přijít na to, jak stáhnout obsah. Už jsem přišel na to, že českej obsah je v souboru http://download.wikimedia.org/cswiki/20060921/cswik i-20060921-pages-articles.xml.bz2 no a teď hledám co s tím souborem dál.
Ten odkaz cos mi dal vypadá na něco jako PHP a MySQL nebo nějakou alternativu běžící v Javě. Jinak se ten text čte když víš (aspoň přibližně co a jak) a jinak když ti ty pojmy a SW nic neříkají...
Ale díky za nasměrování.
Pavel
Nepotrebujes ani php ani MySQL (to je o sql verzii a nie o xml verzii).
Sice som v zivote nemal 200MB .xml subor, ale skusil by som sa popozerat (www.google.com) po slovach xml viewer
Prehliadac to asi chce zobrazit vsetko naraz, a je toho moc.
BTW. na wikipedii pisu cosi ze v tom .xml nie su obrazky (kvoli pravam na ne, a asi aj kvoli velkosti), len texty.
Já se o to otevření přece jen pokusil v IE, ale ten blb mi ten XML otevřel "textově", tj. místo aby ty značky použil a pochopil, tak je vypsal jako vobyčejnej text. To mi není k ničemu. Domů jsem to nebral abych s tím laboroval, tak to zkusím zas zítra, jestli se s tím dá něco dělat.
Díky,
Pavel
To XML sú "čisté" dáta, takže na nejaké prezeranie to samo o sebe nestačí. Dá sa to použiť pri importe do iného systému alebo na nejaké strojové spracovanie.
Wikipedia umožňuje vytvoriť XML len z takých tém, ktoré si vyberieš, takže nemusíš pracovať s niekoľkostomegovým súborom. Postup je popísaný na stránke Special:Export. Pre českú wikipediu platí ten istý postup, ale v ich rozhraní ho nejako zabudli uviesť.
Pre prezeranie offline by som ale šiel buď cestou hľadania správnych parametrov pre web-crawlera, alebo by som skúsil rozbehať ten WikiFilter (wikifilter.sourceforge.net), na ktorý odkazujú z tej stránky, kde píšu o sťahovaní databázy.
Teda děkuju moc, s pomocí poradny to snad dotáhnu do konce.
Věřím tomu, že tohle téma může zajímat víc lidí, přece jenom mít českou wikipedii po ruce (např. na CD) mi přijde fakt dost dobrý.
Pavel
co som cital ten odkaz od michich-a, tak by si mal na prezeranie lokalnych xml suborov pouzit nejaky wiki filter, ktory dynamicky vytvara html z xml - wikifilter.sourceforge.net
Pane jo, to su tak neschopnej? Já nic takovýho nečetl...
Děkuji.
Pavel
Jo tak to už (podle rychlýho pohledu) vypadá použitelně. V XP Home asi velkou slávu z MS IIS nenadělám, tak ten Apache. Snad to dotáhnu do vítěznýho konce.
Pavel
drzim palce.
Používám intranetový server od p Ponkráce
http://www.slunecnice.cz/product/Intranetovy-server /
Nic nemusíš nastavovat, vše je česky, pouze dáš po instalaci do adresáře "doc" to, co chceš spouštět (třeba PHP scripty), spustíš server a jede to.
No, potrebuje to na lokali web server (IIS alebo Apache), ale ok, XP-pro by mal mat uz v sebe.
Ako by to xml zobrazil nejaky xml viewer, napr. product1.html ?
V XP Home IIS není, aspoň oficiálně ne, ale Apache by to spravil. Hm, takže konfigurovat Apache, ale to se snad dá.
Pavel
Vyřešeno. Web server stažen z odkazu co dal Kráťa (vlastně jsem napsal autorovi o novou verzi), stáhl jsem si "dumb" z Wikipedie, nainstaloval filter WikiFilter. Celý mi to trvalo asi hodinu, některý věci jsem nepochopil...
Už mi to jede z lokálu, děkuju všem zůčastněnejm, je to super věc!
Pavel
Zdravím, jen jsem se chtěl zeptat jestli by někdo veškerý postup neshrnul do jedno příspěvku. Koukal jsem tu na všechno a moc sem toho nepobral. Děkuji
Založte si nové vlákno, za 7 let se dělá spousta věcí jinak. Tohle zamykám. (Kráťa)