Wikipedia: jak stáhnout obsah?

Na Wikipedii je pár témat, který jsou pro mě natolik zajímavý, že bych je měl rád i offline. Normální web jde určitě stáhnout něčím jako HTTrack. V něm jsem neúspěšně zkoušel stáhnot i wikipedii. Dle mýho je buď problém v tom, že dělám něco blbě a nevím co nebo ve způsobu zápisu adresy kategorie ve Wikipedii, jako např. http://cs.wikipedia.org/wiki/Kategorie:Grafické_sou borové_formáty

Poradil by mi někdo něco rozumnýho? Díky.

Pavel

Předmět	Autor	Datum
Wikipedia sa bráni sťahovaniu stránok pomocou nástrojov ako HTTrack, pretože to zaťažuje ich servre… los 21.09.2006 18:21	los	21.09.2006 18:21
Aha, tohle jsem nevěděl. Rád bych to i respektoval (moc Wikipedii fandím a snažím se ji "prosazovat"… Pavel 21.09.2006 19:03	Pavel	21.09.2006 19:03
Kúp si stodolárový notebook.:-) AR.asp msx. 21.09.2006 20:55	msx.	21.09.2006 20:55
Tak tuhle věcičku si pořídím, pakliže půjde sehnat, akorát bych to viděl na $200 Pavel Pavel 21.09.2006 21:21	Pavel	21.09.2006 21:21
A čo tak použiť webdownloader a stiahnuť stránku so zanorením 1? Edit: Nabudúce si prečítam všetky… msx. 21.09.2006 20:57	msx.	21.09.2006 20:57
Tak Wikipedia se brání, mám z toho dojem že mě odstřihla. Nastavil jsem v HTTrack 1 spojení za sekun… Pavel 25.09.2006 00:17	Pavel	25.09.2006 00:17
Jestli to chápu dobře, tak tady 20060921 by se (snad) dal stáhnout celej obsah české verze Wikipedie… Pavel 25.09.2006 00:23	Pavel	25.09.2006 00:23
Mě to tam, kde jsem byl s HTTrackem neúspěšný, často stáhnul bez potíží JoBo. JoBo Kráťa 25.09.2006 01:48	Kráťa	25.09.2006 01:48
Inzerát: prodám celý obsah Internetu vypálený na 25 589 254 DVD nebo bez porna na 4 DVD. Značka "Lev… Georgij Gadjukin 25.09.2006 07:53	Georgij Gadjukin	25.09.2006 07:53
Skvělý! :-) Pavel Pavel 25.09.2006 09:17	Pavel	25.09.2006 09:17
a jenom porno :-) ? angel333 25.09.2006 17:39	angel333	25.09.2006 17:39
Inzerát: prodám celý obsah Internetu vypálený na 25 589 254 DVD nebo bez porna na 4 DVD. Značka "Lev… ancer 25.09.2006 18:28	ancer	25.09.2006 18:28
Tak jsem stáhl tento archiv http://download.wikimedia.org/cswiki/20060921/cswik i-20060921-pages-met… Pavel 25.09.2006 09:42	Pavel	25.09.2006 09:42
Nevymýšlej žádné finty a přečti si pozorně článek, který všechno potřebné popisuje: http://en.wikipe… michich 25.09.2006 13:26	michich	25.09.2006 13:26
Ty jseš dobrej, prej žádný finty. Já se o finty nesnažím, právě chci jen přijít na to, jak stáhnout… Pavel 25.09.2006 13:35	Pavel	25.09.2006 13:35
Nepotrebujes ani php ani MySQL (to je o sql verzii a nie o xml verzii). Sice som v zivote nemal 200M… MM.. 25.09.2006 17:34	MM..	25.09.2006 17:34
Já se o to otevření přece jen pokusil v IE, ale ten blb mi ten XML otevřel "textově", tj. místo aby… Pavel 25.09.2006 18:08	Pavel	25.09.2006 18:08
To XML sú "čisté" dáta, takže na nejaké prezeranie to samo o sebe nestačí. Dá sa to použiť pri impor… los 25.09.2006 18:40	los	25.09.2006 18:40
Teda děkuju moc, s pomocí poradny to snad dotáhnu do konce. Věřím tomu, že tohle téma může zajímat… Pavel 25.09.2006 18:45	Pavel	25.09.2006 18:45
co som cital ten odkaz od michich-a, tak by si mal na prezeranie lokalnych xml suborov pouzit nejaky… IgorK 25.09.2006 18:36	IgorK	25.09.2006 18:36
Pane jo, to su tak neschopnej? Já nic takovýho nečetl... Děkuji. Pavel Pavel 25.09.2006 18:39	Pavel	25.09.2006 18:39
Jo tak to už (podle rychlýho pohledu) vypadá použitelně. V XP Home asi velkou slávu z MS IIS nenaděl… Pavel 25.09.2006 18:43	Pavel	25.09.2006 18:43
drzim palce. :-) IgorK 25.09.2006 18:44	IgorK	25.09.2006 18:44
Používám intranetový server od p Ponkráce http://www.slunecnice.cz/product/Intranetovy-server / Nic… Kráťa 25.09.2006 18:59	Kráťa	25.09.2006 18:59
No, potrebuje to na lokali web server (IIS alebo Apache), ale ok, XP-pro by mal mat uz v sebe. Ako b… MM.. 25.09.2006 18:46	MM..	25.09.2006 18:46
V XP Home IIS není, aspoň oficiálně ne, ale Apache by to spravil. Hm, takže konfigurovat Apache, ale… Pavel 25.09.2006 18:53	Pavel	25.09.2006 18:53
Vyřešeno. Web server stažen z odkazu co dal Kráťa (vlastně jsem napsal autorovi o novou verzi), stáh… Pavel 04.10.2006 12:07	Pavel	04.10.2006 12:07
Zdravím, jen jsem se chtěl zeptat jestli by někdo veškerý postup neshrnul do jedno příspěvku. Koukal… poslední Lotu 29.04.2013 07:22	Lotu	29.04.2013 07:22

Wikipedia sa bráni sťahovaniu stránok pomocou nástrojov ako HTTrack, pretože to zaťažuje ich servre (http://en.wikipedia.org/wiki/Wikipedia:Database_dow nload#Please_do_not_use_a_web_crawler). Takže by mohlo pomôcť nastaviť sťahovanie stránok po jednej sekunde (neskúšal som).

Aha, tohle jsem nevěděl. Rád bych to i respektoval (moc Wikipedii fandím a snažím se ji "prosazovat"), ale je to příliš lákavý takový info nechat jen pro přístup online.

Díky,
Pavel

Kúp si stodolárový notebook.
AR.asp

Tak tuhle věcičku si pořídím, pakliže půjde sehnat, akorát bych to viděl na $200

Pavel

A čo tak použiť webdownloader a stiahnuť stránku so zanorením 1?

Edit: Nabudúce si prečítam všetky príspevky.

Tak Wikipedia se brání, mám z toho dojem že mě odstřihla. Nastavil jsem v HTTrack 1 spojení za sekundu, pak i 0.1 a nepomáhá. Velká škoda.

Pavel

Jestli to chápu dobře, tak tady 20060921 by se (snad) dal stáhnout celej obsah české verze Wikipedie.

Pavel

Mě to tam, kde jsem byl s HTTrackem neúspěšný, často stáhnul bez potíží JoBo.
JoBo

Inzerát: prodám celý obsah Internetu vypálený na 25 589 254 DVD nebo bez porna na 4 DVD. Značka "Levně"

Skvělý!

Pavel

a jenom porno ?

Inzerát: prodám celý obsah Internetu vypálený na 25 589 254 DVD nebo bez porna na 4 DVD. Značka "Levně"

=> porno = (25 589 254 - 4) DVD

Tak jsem stáhl tento archiv http://download.wikimedia.org/cswiki/20060921/cswik i-20060921-pages-meta-current.xml.bz2, kterej jsem WInRARem rozbalil, je tam jeden soubor XML o velikosti 242 MB - ale co s ním? Nemáte někdo představu. Ani ho nemůžu otevřít, je moc velkej na moje PC...

Pavel

Nevymýšlej žádné finty a přečti si pozorně článek, který všechno potřebné popisuje:
http://en.wikipedia.org/wiki/Wikipedia:Database_dow nload

Ty jseš dobrej, prej žádný finty. Já se o finty nesnažím, právě chci jen přijít na to, jak stáhnout obsah. Už jsem přišel na to, že českej obsah je v souboru http://download.wikimedia.org/cswiki/20060921/cswik i-20060921-pages-articles.xml.bz2 no a teď hledám co s tím souborem dál.

Ten odkaz cos mi dal vypadá na něco jako PHP a MySQL nebo nějakou alternativu běžící v Javě. Jinak se ten text čte když víš (aspoň přibližně co a jak) a jinak když ti ty pojmy a SW nic neříkají...

Ale díky za nasměrování.

Pavel

Nepotrebujes ani php ani MySQL (to je o sql verzii a nie o xml verzii).
Sice som v zivote nemal 200MB .xml subor, ale skusil by som sa popozerat (www.google.com) po slovach xml viewer
Prehliadac to asi chce zobrazit vsetko naraz, a je toho moc.
BTW. na wikipedii pisu cosi ze v tom .xml nie su obrazky (kvoli pravam na ne, a asi aj kvoli velkosti), len texty.

Já se o to otevření přece jen pokusil v IE, ale ten blb mi ten XML otevřel "textově", tj. místo aby ty značky použil a pochopil, tak je vypsal jako vobyčejnej text. To mi není k ničemu. Domů jsem to nebral abych s tím laboroval, tak to zkusím zas zítra, jestli se s tím dá něco dělat.

Díky,
Pavel

To XML sú "čisté" dáta, takže na nejaké prezeranie to samo o sebe nestačí. Dá sa to použiť pri importe do iného systému alebo na nejaké strojové spracovanie.

Wikipedia umožňuje vytvoriť XML len z takých tém, ktoré si vyberieš, takže nemusíš pracovať s niekoľkostomegovým súborom. Postup je popísaný na stránke Special:Export. Pre českú wikipediu platí ten istý postup, ale v ich rozhraní ho nejako zabudli uviesť.

Pre prezeranie offline by som ale šiel buď cestou hľadania správnych parametrov pre web-crawlera, alebo by som skúsil rozbehať ten WikiFilter (wikifilter.sourceforge.net), na ktorý odkazujú z tej stránky, kde píšu o sťahovaní databázy.

Teda děkuju moc, s pomocí poradny to snad dotáhnu do konce.

Věřím tomu, že tohle téma může zajímat víc lidí, přece jenom mít českou wikipedii po ruce (např. na CD) mi přijde fakt dost dobrý.

Pavel

co som cital ten odkaz od michich-a, tak by si mal na prezeranie lokalnych xml suborov pouzit nejaky wiki filter, ktory dynamicky vytvara html z xml - wikifilter.sourceforge.net

Pane jo, to su tak neschopnej? Já nic takovýho nečetl...

Děkuji.

Pavel

Jo tak to už (podle rychlýho pohledu) vypadá použitelně. V XP Home asi velkou slávu z MS IIS nenadělám, tak ten Apache. Snad to dotáhnu do vítěznýho konce.

Pavel

drzim palce.

Používám intranetový server od p Ponkráce
http://www.slunecnice.cz/product/Intranetovy-server /
Nic nemusíš nastavovat, vše je česky, pouze dáš po instalaci do adresáře "doc" to, co chceš spouštět (třeba PHP scripty), spustíš server a jede to.

No, potrebuje to na lokali web server (IIS alebo Apache), ale ok, XP-pro by mal mat uz v sebe.
Ako by to xml zobrazil nejaky xml viewer, napr. product1.html ?

V XP Home IIS není, aspoň oficiálně ne, ale Apache by to spravil. Hm, takže konfigurovat Apache, ale to se snad dá.

Pavel

Vyřešeno. Web server stažen z odkazu co dal Kráťa (vlastně jsem napsal autorovi o novou verzi), stáhl jsem si "dumb" z Wikipedie, nainstaloval filter WikiFilter. Celý mi to trvalo asi hodinu, některý věci jsem nepochopil...

Už mi to jede z lokálu, děkuju všem zůčastněnejm, je to super věc!

Pavel

Zdravím, jen jsem se chtěl zeptat jestli by někdo veškerý postup neshrnul do jedno příspěvku. Koukal jsem tu na všechno a moc sem toho nepobral. Děkuji

Založte si nové vlákno, za 7 let se dělá spousta věcí jinak. Tohle zamykám. (Kráťa)

Zpět do poradny Nahoru