Jak zjistit link na podřízené www stránky, na něž nevede link z hlavní strany?
Ahoj, můžete mi prosím poradit?
Na některých odborných serverech, kam často chodím, udělali jakousi reorganizaci webových stránek. Stalo se tak, že na předchozí a dosud existující webové stránky s cennými staršími informacemi nevede link z hlavní strany ani z dalších přístupných stránek. Můžete mi poradit nějaký příkaz či utilitku, jak bych zjistila strukturu přístupných informací na nějaké website?
Příklad - firemní web firmy ABC (odkazy jsou smyšlené):
Hlavní strana index.htm
dále jsou strany strana1.htm až strana9.htm
Tyto všechny stránky jsou provázány odkazy a dá se na ně normálně dostat "klikáním"
Na serveru firmy jsou ale uložené i dřívejší verze stránek s důležitými informacemi dejme tomu info.htm a old.htm
Když vím adresy těchto "schovaných" stránek a zadám je do adresního řádku, tak se mi normálně zobrazí - nejsou tedy nijak skryté před veřejností. Jenže když nevím přesný link, tak na ně nenatrefím nebo jen náhodně.
Můžete mi prosím poradit, jak zjistit existenci a link pro ty "schované" stránky? Nějaká obdoba příkazu DIR ve starém dobrém MS DOSu nebo tak něco... Děkuju předem
A nemá dotyčný web nějakou "mapu webu"?
Jinak zkus použít tento program: http://www.stahuj.cz/internet_a_site/vyhledavani/li nks-extractor/
Ono je těch webů víc, kde bych potřebovala hledat. Mapy webů nemají, to jsem hledala jako první.
Děkuju za tip, stáhla jsem si Links Extractor 1.2 , ale asi s ním neumím pracovat
Domnívala jsem se, že když do pole Enter url zadám např. www.abc.cz , tak se mi vedle v poli links objeví cosi jako strana1.htm až strana9.htm a též info.htm a old.htm
Ale ono se tam neobjevuje vůbec nic. Ani odkazy na ty stránky, kam vedou linky a kam se dá dostat normálně klikání, a už vůbec ne ty hledané schované stránky Co dělám špatně, prosím?
PS: Zkoušela jsem tam samozřejmě zadat existující website, který má nějaké podřízené stránky jako uvod.htm apod. A zkoušela jsem i ty stránky, u nichž vím, že existuje "schovaný", leč přístupný archív. Program mi bohužel nenašel vůbec nic.
Tak jsem si jej kvůli Tobě nainstaloval...
Zadá se URL adresa, pak se klikne na Get. Dole vybereš Full link. A pak tlačítko Search file. V pravém okně se objeví seznam všech odkazů, které vedou z té zadané stránky.
Což není ale asi to pravé ořechové, protože pokud je to tak, jak říkáš, že na ty schované stránky odkazy nevedou, tak je zřejmě tento program nenajde.
Pak asi jedině nějaký offline stahovač/prohlížeč, jak radí L-Core. Třeba Offline Explorer nebo HTTTrack Website Copier.
Připadám si jako BFU, ale fakt mi to nejde. Podařilo se mi to u poradna.net , ale třeba u stránek www.ucto2000.cz mi to nenajde vůbec nic, i když to zkusím zadat jako www.ucto2000.cz Přitom když si najedeš na ty stránky, tak po straně vidíš menu s odkazy jako novinky.htm atd. Tak nevím
Ano, potřebuju odkazy právě na ty schované stránky. Např. na výše uvedených stránkách jsou schované, leč přístupné history.htm
Stranka je delana pomoci ramu. Zkus to ze stranky:
menu.htm
Vyhodilo mi to jen link loose.dtd
Jakou verzi toho Links Extractoru máte? Já 1.2
To bude tim, ze ten extractor neumi pracovat s relativnimi odkazy.
Ja ten program neznam...
Hm, odkazy v tom menu jsou zapsány relativně (bez http://), takže je asi ten LinkExtractor nedokáže identifikovat.
Takže tenhle prográmek mi stejně nepomůže. Neumí relativní odkazy, musela bych zkoumat, jak jsou dělané které stránky (rámy) a ani tak nenajde "skryté" stránky na doméně. Máte někdo ještě nějaký jiný nápad?
Podobný online nástroj, ale stále to není ono...
http://www.webmaster-toolkit.com/link-extractor.sht ml?url=http%3A%2F%2Fwww.ucto2000.cz%2Fmenu.htm&typ e =href
Případně zkusit nějaký z těchto nástrojů:
http://www.freedownloadscenter.com/Best/link-extrac tor.html
Dobře vypadá tento program, bohužel placený (jen trial download)
index.htm
Jak se mi zdá, tak to ale všechno vyzobává odkazy vedoucí z hlavní stránky - což nepotřebuju, ty tam vidím. A navíc musím vědět, že je web v rámcích a podle toho zadat dotaz na tu hlavní stránku (např. menu ) což je nešikovné. Moje představa je, že do nástroje zadám, ať mi ukáže strukturu webu www.neco.cz a on mi ji ukáže bez ohledu na to, jestli je stránka v rámcích a jestli je vše provázáno linky nebo ne.
Uvedené nástroje mi nenajdou stránky, na něž nevede link - a o ně mi právě jde.
Jakým nástrojem mám najít třeba tu stránku history.htm , na níž nevede link ani z www.ucto2000.cz ani z menu.htm ? Nejde jen o tuto stránku, berte to prosím jen jako příklad, na němž ilustruju, o co mi jde.
Co kontaktovat webmastera těch stránek? Protože: 1. U složité struktury nemusí ani tušit, že někde vypadl odkaz na archív. 2. Chce to zrušit, vyházel odkazy a jen to tam tak nějak zbylo - pak je vhodné mu sdělit, že informace jsou pro lidi cenné.
Obávám se, že všechny Teleporty a pod. jen vyzobou odkazy. Tohle chce spíš nějaký hackerský nástroj na propátrání toho WEBu .
myslím že je to opravdu tak
pokud byly stránky indexované googlem (což je dost pravděpodobné), možná by něco našel i z těch starších (při použití vyhledávání v té konkrétní doméně)
Ano, přes google se dá najít ledacos, zkoušela jsem to a něco jsem našla, ale ne všechno.
Ano, to jsem již udělala, ale zatím žádná odezva. (Tato poznámka se netýká výše uvedeného webu ucto2000, ale jiných, o které mám zájem).
Možná by mohl pomoci sw jako Teleport Pro na stahování celých webů. Muselo by se v něm pečlivě vyfiltrovat, co stahovat (*.htm*) a vzdálenost od hlavní stránky. Nevím ale, zda dovede strukturu webu jen naznačit (což by bylo ono), nebo rovnou stahuje obsah.
Ano, to je přesně to, co potřebuju - zobrazit strukturu webu.
ještě lepší je Offline Explorer Enterprise, ten má přímo volbu "Explore all possible subdirectories". Ale je dost složitý na nastavení a není free. Ale má 30-ti denní verzi tuším. Nicméně pokud je na serveru zablokováno prohlížení adresářů, tak nepomůže nic.
Tééda Jirko, mockrát děkuju za tip. Ten prográmek je složitý, to máš pravdu, ale šikovný - a dokonce mluví i česky Musela jsem důkladně prozkoumat všechny volby, než jsem přišla na to, jak z něj dostat požadované informace. Určitě mi toho ještě hodně uteklo, ale i tak už vidím, že je to skutečně vynikající nástroj. Takže ještě jednou DÍKY!!!
sice tomu nerozumím , ale zkusil bych příkaz na google
site:www.abc.cz , který vypíše všechny zaindexované strany googlem z té strnánky.
Azore, vidím, že to nejjednodušší řešení je nakonec nejlepší. Máš pravdu - google našel snad úplně všechno včetně těch "schovaných" stránek Jen jsem se musela prolistovat a pročíst celkem 44 obrazovkami výpisů a odkazů Škoda jen, že google neumí zobrazit výsledky také v přehledné stromové struktuře. Tam by se vše hledalo lépe. Ale i tak díky - pokud se mi nepodaří najít lepší nástroj (který bych ovládala ) , budu používat tento dotaz na strejdu Gůůůgla Děkuju a posílám virtuální pivečko!
Když já pivo nepiju...
btw: kdyžtak si to ulož, buhví co s tim budou dělat...
no moznosti je viac. jedna z nich je ta, co spominal AZOR pomocou google index, druha staci dat v FF prave tlacitko a zvolit page info a zvolit zalozku links a tretia niekym viac a niekym menej pouzivana moznost je robots.txt alebo robots.txt
Jenže tak se mi zobrazí jen stránky, na něž VEDOU odkazy. A já jsem potřebovala najít stránky, na něž linky nevedou.
To ale na všech stránkách taky nefunguje, jak jsem vyzkoušela.
Takže zůstanu u toho softíku Offline Explorer Enterprise - fakt vynikající! Ještě jednou děkuju Jirkovi1 za odkaz. Jsem jen zvědavá, jak se bude chovat po 30 dnech - jestli bude jen upozorňovat, ale bude ho možno používat, nebo jestli nebude chodit vůbec Ale 400 USD je fakt moc
Pro zájemce uvádím link
http://www.metaproducts.com/mp/Offline_Explorer_Ent erprise.htm
Offline Explorer ti takisto podla mna neda stranky, ktore nie su nezname. pokial nie je povoleny v apache directory listing, tak neviem odkial by sa mohol o tych strankach dozvediet, pokial nebudu vlozene priamo v stranke. tak schvalne, ktoru stranku ti nasiel, ktoru nenajdes mnou popisanym sposobom? jedine co ti moze povedat, ake vsetky povolene linky existuju na abc.cz a roznych podadresaroch. tu uznavam, ze to ulahci pracu, aj ked sa to da manualne urobit aj tym mojim sposobom.
robots? Tam nic zajímavého nenajde.Většinou tam je, to co je pro vyhledávače nedostupné a nebo pak hvězdičky, pro indexaci všeho. Jedinej zajimavej robots.txt je na robots.txt - co všechno WH blokuje .
Když už tak spíš sitemap.xml - tedy seznam stránek pro google v XML, ale málokdo to používá.
jasne ze robots.txt, vsak uz to dnes nikto nerobi cez meta a kde konci google s site:nieco.xyz, tam nastupuje robots.txt. napr. tu: http://209.85.135.104/search?q=cache:OdvaE1KKNW0J:w ww.zive.cz/robots.txt+robots.txt+site:zive.cz&hl=en &ct=clnk&cd=4