Přidat otázku mezi oblíbenéZasílat nové odpovědi e-mailemZamknutoVyřešeno Wikipedia: jak stáhnout obsah?

Na Wikipedii je pár témat, který jsou pro mě natolik zajímavý, že bych je měl rád i offline. Normální web jde určitě stáhnout něčím jako HTTrack. V něm jsem neúspěšně zkoušel stáhnot i wikipedii. Dle mýho je buď problém v tom, že dělám něco blbě a nevím co nebo ve způsobu zápisu adresy kategorie ve Wikipedii, jako např. http://cs.wikipedia.org/wiki/Kategorie:Grafické_sou borové_formáty

Poradil by mi někdo něco rozumnýho? Díky.

Pavel

loading...
Předmět Autor Datum
Wikipedia sa bráni sťahovaniu stránok pomocou nástrojov ako HTTrack, pretože to zaťažuje ich servre…
los 21.09.2006 18:21
los
Aha, tohle jsem nevěděl. Rád bych to i respektoval (moc Wikipedii fandím a snažím se ji "prosazovat"…
Pavel 21.09.2006 19:03
Pavel
Kúp si stodolárový notebook.:-) AR.asp
msx. 21.09.2006 20:55
msx.
Tak tuhle věcičku si pořídím, pakliže půjde sehnat, akorát bych to viděl na $200 Pavel
Pavel 21.09.2006 21:21
Pavel
A čo tak použiť webdownloader a stiahnuť stránku so zanorením 1? Edit: Nabudúce si prečítam všetky…
msx. 21.09.2006 20:57
msx.
Tak Wikipedia se brání, mám z toho dojem že mě odstřihla. Nastavil jsem v HTTrack 1 spojení za sekun…
Pavel 25.09.2006 00:17
Pavel
Jestli to chápu dobře, tak tady 20060921 by se (snad) dal stáhnout celej obsah české verze Wikipedie…
Pavel 25.09.2006 00:23
Pavel
Mě to tam, kde jsem byl s HTTrackem neúspěšný, často stáhnul bez potíží JoBo. JoBo
Kráťa 25.09.2006 01:48
Kráťa
Inzerát: prodám celý obsah Internetu vypálený na 25 589 254 DVD nebo bez porna na 4 DVD. Značka "Lev…
Georgij Gadjukin 25.09.2006 07:53
Georgij Gadjukin
Skvělý! :-) Pavel
Pavel 25.09.2006 09:17
Pavel
a jenom porno :-) ?
angel333 25.09.2006 17:39
angel333
Inzerát: prodám celý obsah Internetu vypálený na 25 589 254 DVD nebo bez porna na 4 DVD. Značka "Lev…
ancer 25.09.2006 18:28
ancer
Tak jsem stáhl tento archiv http://download.wikimedia.org/cswiki/20060921/cswik i-20060921-pages-met…
Pavel 25.09.2006 09:42
Pavel
Nevymýšlej žádné finty a přečti si pozorně článek, který všechno potřebné popisuje: http://en.wikipe…
michich 25.09.2006 13:26
michich
Ty jseš dobrej, prej žádný finty. Já se o finty nesnažím, právě chci jen přijít na to, jak stáhnout…
Pavel 25.09.2006 13:35
Pavel
Nepotrebujes ani php ani MySQL (to je o sql verzii a nie o xml verzii). Sice som v zivote nemal 200M…
MM.. 25.09.2006 17:34
MM..
Já se o to otevření přece jen pokusil v IE, ale ten blb mi ten XML otevřel "textově", tj. místo aby…
Pavel 25.09.2006 18:08
Pavel
To XML sú "čisté" dáta, takže na nejaké prezeranie to samo o sebe nestačí. Dá sa to použiť pri impor…
los 25.09.2006 18:40
los
Teda děkuju moc, s pomocí poradny to snad dotáhnu do konce. Věřím tomu, že tohle téma může zajímat…
Pavel 25.09.2006 18:45
Pavel
co som cital ten odkaz od michich-a, tak by si mal na prezeranie lokalnych xml suborov pouzit nejaky…
IgorK 25.09.2006 18:36
IgorK
Pane jo, to su tak neschopnej? Já nic takovýho nečetl... Děkuji. Pavel
Pavel 25.09.2006 18:39
Pavel
Jo tak to už (podle rychlýho pohledu) vypadá použitelně. V XP Home asi velkou slávu z MS IIS nenaděl…
Pavel 25.09.2006 18:43
Pavel
drzim palce. :-)
IgorK 25.09.2006 18:44
IgorK
Používám intranetový server od p Ponkráce http://www.slunecnice.cz/product/Intranetovy-server / Nic…
Kráťa 25.09.2006 18:59
Kráťa
No, potrebuje to na lokali web server (IIS alebo Apache), ale ok, XP-pro by mal mat uz v sebe. Ako b…
MM.. 25.09.2006 18:46
MM..
V XP Home IIS není, aspoň oficiálně ne, ale Apache by to spravil. Hm, takže konfigurovat Apache, ale…
Pavel 25.09.2006 18:53
Pavel
Vyřešeno. Web server stažen z odkazu co dal Kráťa (vlastně jsem napsal autorovi o novou verzi), stáh…
Pavel 04.10.2006 12:07
Pavel
Zdravím, jen jsem se chtěl zeptat jestli by někdo veškerý postup neshrnul do jedno příspěvku. Koukal… poslední
Lotu 29.04.2013 07:22
Lotu

Ty jseš dobrej, prej žádný finty. Já se o finty nesnažím, právě chci jen přijít na to, jak stáhnout obsah. Už jsem přišel na to, že českej obsah je v souboru http://download.wikimedia.org/cswiki/20060921/cswik i-20060921-pages-articles.xml.bz2 no a teď hledám co s tím souborem dál.

Ten odkaz cos mi dal vypadá na něco jako PHP a MySQL nebo nějakou alternativu běžící v Javě. Jinak se ten text čte když víš (aspoň přibližně co a jak) a jinak když ti ty pojmy a SW nic neříkají...

Ale díky za nasměrování.

Pavel

Nepotrebujes ani php ani MySQL (to je o sql verzii a nie o xml verzii).
Sice som v zivote nemal 200MB .xml subor, ale skusil by som sa popozerat (www.google.com) po slovach xml viewer
Prehliadac to asi chce zobrazit vsetko naraz, a je toho moc.
BTW. na wikipedii pisu cosi ze v tom .xml nie su obrazky (kvoli pravam na ne, a asi aj kvoli velkosti), len texty.

Já se o to otevření přece jen pokusil v IE, ale ten blb mi ten XML otevřel "textově", tj. místo aby ty značky použil a pochopil, tak je vypsal jako vobyčejnej text. To mi není k ničemu. Domů jsem to nebral abych s tím laboroval, tak to zkusím zas zítra, jestli se s tím dá něco dělat.

Díky,
Pavel

To XML sú "čisté" dáta, takže na nejaké prezeranie to samo o sebe nestačí. Dá sa to použiť pri importe do iného systému alebo na nejaké strojové spracovanie.

Wikipedia umožňuje vytvoriť XML len z takých tém, ktoré si vyberieš, takže nemusíš pracovať s niekoľkostomegovým súborom. Postup je popísaný na stránke Special:Export. Pre českú wikipediu platí ten istý postup, ale v ich rozhraní ho nejako zabudli uviesť.

Pre prezeranie offline by som ale šiel buď cestou hľadania správnych parametrov pre web-crawlera, alebo by som skúsil rozbehať ten WikiFilter (wikifilter.sourceforge.net), na ktorý odkazujú z tej stránky, kde píšu o sťahovaní databázy.

Vyřešeno. Web server stažen z odkazu co dal Kráťa (vlastně jsem napsal autorovi o novou verzi), stáhl jsem si "dumb" z Wikipedie, nainstaloval filter WikiFilter. Celý mi to trvalo asi hodinu, některý věci jsem nepochopil...

Už mi to jede z lokálu, děkuju všem zůčastněnejm, je to super věc!

Pavel

Zdravím, jen jsem se chtěl zeptat jestli by někdo veškerý postup neshrnul do jedno příspěvku. Koukal jsem tu na všechno a moc sem toho nepobral. Děkuji

Založte si nové vlákno, za 7 let se dělá spousta věcí jinak. Tohle zamykám. (Kráťa)

Zpět do poradny Nahoru

loading...