Encodovani webove stranky pro UTF-8

Dobry den,
Nedavno jsem se rozhodl vytvorit program v c# pro parsovani webove stranky 171.

Parsovaní mi jde v pohodě, ale narazil jsem ale na problém s encodováním znaků.

Pokud si zobrazíte zdrojový kód zmíněné stránky, pak lze v tagu <title> vidět text: Zelenina Zastráň - bedýnky.cz.

Chtel bych se zeptat, zda-li někdo nevi, co to muze zpusobovat takovou špatnou reprezentaci textu UTF8, když při normalním prohlížení stránek je vše kódováno správně.

Děkuji za odpovědi

Jsou zobrazeny jen nové odpovědi. Zobrazit všechny

Předmět	Autor	Datum
Ve&scaron;kerá nabízená produkce je na&scaron;í výroby, vyjma med… IQ37 19.12.2014 09:20	IQ37	19.12.2014 09:20
nene prave nejsem autor, chtel jsem pomoct sestre, ktera ma za ukol vypsat informace o vsech podnici… hajnis 19.12.2014 11:03	hajnis	19.12.2014 11:03
Dá se to "opravit" celkem jednoduše (alespoň u mě to fungovalo). Stránku si ulož do počítače - otevř… nový IQ37 19.12.2014 18:35	IQ37	19.12.2014 18:35
Stránku si ulož do počítače - otevři ji - a zdroják se pak zobrazí už normálně. - Tutu stranku/toto… poslední CoCoChanel 19.12.2014 18:40	CoCoChanel	19.12.2014 18:40
Tak zpět, jsem slepý. Tohle se encodováním vůbec nesouvisí. Jsou tam použité HTML Entity. entity-vse… nový Wikan 19.12.2014 11:29	Wikan	19.12.2014 11:29
Len doplním, že na dekódovanie sa dá použiť napríklad metóda WebUtility.HtmlDecode, prípadne pre sta… nový los 19.12.2014 11:36	los	19.12.2014 11:36

Ve&scaron;kerá nabízená produkce je na&scaron;í výroby, vyjma medu, který vyrábí ná&scaron; soused, jeho pilné včeličky nám na farmě pomáhájí.

Ty jsi autor toho webu?
Chyba je v rozdílu znakových sad stránky (UTF-8) a kódování editoru, ve kterém byla stránka napsaná.

nene prave nejsem autor, chtel jsem pomoct sestre, ktera ma za ukol vypsat informace o vsech podnicich, aby to nemusela manualne otrocky vypisovat

Dá se to "opravit" celkem jednoduše (alespoň u mě to fungovalo).
Stránku si ulož do počítače - otevři ji - a zdroják se pak zobrazí už normálně.
I když jsi to už označil jako Vyřešené...

Stránku si ulož do počítače - otevři ji - a zdroják se pak zobrazí už normálně.

- Tutu stranku/toto vlakno, sleduju uz od vcerejska, - Konfirmuji funguje to -

Tak zpět, jsem slepý. Tohle se encodováním vůbec nesouvisí. Jsou tam použité HTML Entity.
entity-vsechny.html

Len doplním, že na dekódovanie sa dá použiť napríklad metóda WebUtility.HtmlDecode, prípadne pre staršie FW HttpUtility.HtmlDecode.

Zpět do poradny Odpovědět na původní otázku Nahoru