Přidat otázku mezi oblíbenéZasílat nové odpovědi e-mailemZamknutoVyřešeno Wikipedia: jak stáhnout obsah?

Na Wikipedii je pár témat, který jsou pro mě natolik zajímavý, že bych je měl rád i offline. Normální web jde určitě stáhnout něčím jako HTTrack. V něm jsem neúspěšně zkoušel stáhnot i wikipedii. Dle mýho je buď problém v tom, že dělám něco blbě a nevím co nebo ve způsobu zápisu adresy kategorie ve Wikipedii, jako např. http://cs.wikipedia.org/wiki/Kategorie:Grafické_sou borové_formáty

Poradil by mi někdo něco rozumnýho? Díky.

Pavel

Předmět Autor Datum
Wikipedia sa bráni sťahovaniu stránok pomocou nástrojov ako HTTrack, pretože to zaťažuje ich servre…
los 21.09.2006 18:21
los
Aha, tohle jsem nevěděl. Rád bych to i respektoval (moc Wikipedii fandím a snažím se ji "prosazovat"…
Pavel 21.09.2006 19:03
Pavel
Kúp si stodolárový notebook.:-) AR.asp
msx. 21.09.2006 20:55
msx.
Tak tuhle věcičku si pořídím, pakliže půjde sehnat, akorát bych to viděl na $200 Pavel
Pavel 21.09.2006 21:21
Pavel
A čo tak použiť webdownloader a stiahnuť stránku so zanorením 1? Edit: Nabudúce si prečítam všetky…
msx. 21.09.2006 20:57
msx.
Tak Wikipedia se brání, mám z toho dojem že mě odstřihla. Nastavil jsem v HTTrack 1 spojení za sekun…
Pavel 25.09.2006 00:17
Pavel
Jestli to chápu dobře, tak tady 20060921 by se (snad) dal stáhnout celej obsah české verze Wikipedie…
Pavel 25.09.2006 00:23
Pavel
Mě to tam, kde jsem byl s HTTrackem neúspěšný, často stáhnul bez potíží JoBo. JoBo
Kráťa 25.09.2006 01:48
Kráťa
Inzerát: prodám celý obsah Internetu vypálený na 25 589 254 DVD nebo bez porna na 4 DVD. Značka "Lev…
Georgij Gadjukin 25.09.2006 07:53
Georgij Gadjukin
Skvělý! :-) Pavel
Pavel 25.09.2006 09:17
Pavel
a jenom porno :-) ?
angel333 25.09.2006 17:39
angel333
Inzerát: prodám celý obsah Internetu vypálený na 25 589 254 DVD nebo bez porna na 4 DVD. Značka "Lev…
ancer 25.09.2006 18:28
ancer
Tak jsem stáhl tento archiv http://download.wikimedia.org/cswiki/20060921/cswik i-20060921-pages-met…
Pavel 25.09.2006 09:42
Pavel
Nevymýšlej žádné finty a přečti si pozorně článek, který všechno potřebné popisuje: http://en.wikipe…
michich 25.09.2006 13:26
michich
Ty jseš dobrej, prej žádný finty. Já se o finty nesnažím, právě chci jen přijít na to, jak stáhnout…
Pavel 25.09.2006 13:35
Pavel
Nepotrebujes ani php ani MySQL (to je o sql verzii a nie o xml verzii). Sice som v zivote nemal 200M…
MM.. 25.09.2006 17:34
MM..
Já se o to otevření přece jen pokusil v IE, ale ten blb mi ten XML otevřel "textově", tj. místo aby…
Pavel 25.09.2006 18:08
Pavel
To XML sú "čisté" dáta, takže na nejaké prezeranie to samo o sebe nestačí. Dá sa to použiť pri impor…
los 25.09.2006 18:40
los
Teda děkuju moc, s pomocí poradny to snad dotáhnu do konce. Věřím tomu, že tohle téma může zajímat…
Pavel 25.09.2006 18:45
Pavel
co som cital ten odkaz od michich-a, tak by si mal na prezeranie lokalnych xml suborov pouzit nejaky…
IgorK 25.09.2006 18:36
IgorK
Pane jo, to su tak neschopnej? Já nic takovýho nečetl... Děkuji. Pavel
Pavel 25.09.2006 18:39
Pavel
Jo tak to už (podle rychlýho pohledu) vypadá použitelně. V XP Home asi velkou slávu z MS IIS nenaděl…
Pavel 25.09.2006 18:43
Pavel
drzim palce. :-)
IgorK 25.09.2006 18:44
IgorK
Používám intranetový server od p Ponkráce http://www.slunecnice.cz/product/Intranetovy-server / Nic…
Kráťa 25.09.2006 18:59
Kráťa
No, potrebuje to na lokali web server (IIS alebo Apache), ale ok, XP-pro by mal mat uz v sebe. Ako b…
MM.. 25.09.2006 18:46
MM..
V XP Home IIS není, aspoň oficiálně ne, ale Apache by to spravil. Hm, takže konfigurovat Apache, ale…
Pavel 25.09.2006 18:53
Pavel
Vyřešeno. Web server stažen z odkazu co dal Kráťa (vlastně jsem napsal autorovi o novou verzi), stáh…
Pavel 04.10.2006 12:07
Pavel
Zdravím, jen jsem se chtěl zeptat jestli by někdo veškerý postup neshrnul do jedno příspěvku. Koukal… poslední
Lotu 29.04.2013 07:22
Lotu

Ty jseš dobrej, prej žádný finty. Já se o finty nesnažím, právě chci jen přijít na to, jak stáhnout obsah. Už jsem přišel na to, že českej obsah je v souboru http://download.wikimedia.org/cswiki/20060921/cswik i-20060921-pages-articles.xml.bz2 no a teď hledám co s tím souborem dál.

Ten odkaz cos mi dal vypadá na něco jako PHP a MySQL nebo nějakou alternativu běžící v Javě. Jinak se ten text čte když víš (aspoň přibližně co a jak) a jinak když ti ty pojmy a SW nic neříkají...

Ale díky za nasměrování.

Pavel

Nepotrebujes ani php ani MySQL (to je o sql verzii a nie o xml verzii).
Sice som v zivote nemal 200MB .xml subor, ale skusil by som sa popozerat (www.google.com) po slovach xml viewer
Prehliadac to asi chce zobrazit vsetko naraz, a je toho moc.
BTW. na wikipedii pisu cosi ze v tom .xml nie su obrazky (kvoli pravam na ne, a asi aj kvoli velkosti), len texty.

Já se o to otevření přece jen pokusil v IE, ale ten blb mi ten XML otevřel "textově", tj. místo aby ty značky použil a pochopil, tak je vypsal jako vobyčejnej text. To mi není k ničemu. Domů jsem to nebral abych s tím laboroval, tak to zkusím zas zítra, jestli se s tím dá něco dělat.

Díky,
Pavel

To XML sú "čisté" dáta, takže na nejaké prezeranie to samo o sebe nestačí. Dá sa to použiť pri importe do iného systému alebo na nejaké strojové spracovanie.

Wikipedia umožňuje vytvoriť XML len z takých tém, ktoré si vyberieš, takže nemusíš pracovať s niekoľkostomegovým súborom. Postup je popísaný na stránke Special:Export. Pre českú wikipediu platí ten istý postup, ale v ich rozhraní ho nejako zabudli uviesť.

Pre prezeranie offline by som ale šiel buď cestou hľadania správnych parametrov pre web-crawlera, alebo by som skúsil rozbehať ten WikiFilter (wikifilter.sourceforge.net), na ktorý odkazujú z tej stránky, kde píšu o sťahovaní databázy.

Teda děkuju moc, s pomocí poradny to snad dotáhnu do konce.

Věřím tomu, že tohle téma může zajímat víc lidí, přece jenom mít českou wikipedii po ruce (např. na CD) mi přijde fakt dost dobrý.

Pavel

Vyřešeno. Web server stažen z odkazu co dal Kráťa (vlastně jsem napsal autorovi o novou verzi), stáhl jsem si "dumb" z Wikipedie, nainstaloval filter WikiFilter. Celý mi to trvalo asi hodinu, některý věci jsem nepochopil...

Už mi to jede z lokálu, děkuju všem zůčastněnejm, je to super věc!

Pavel

Zdravím, jen jsem se chtěl zeptat jestli by někdo veškerý postup neshrnul do jedno příspěvku. Koukal jsem tu na všechno a moc sem toho nepobral. Děkuji

Založte si nové vlákno, za 7 let se dělá spousta věcí jinak. Tohle zamykám. (Kráťa)

Zpět do poradny Nahoru