
Počet výskytu slova v jazyce - seřazení slovíček
Dobrý den, mam na naučení připravených větší množsví slovíček (2000+) z angličtiny - jsou to všechna slovíčka, která jsem posbíral s tím, že jsme je někde viděl (různé zdroje - muzika, videa, články) a muj problém je ten, že je to MIX slovíček od trošku pokročilejších až po opravdu raritní, jejiž ekivivalent znám sotva v čj. A rád bych se seřadil podle počtu výskytu v angličtině. Nechci udělat žádnou tlustou čáru které ano či které se naučit - spíše to seřadit a začít se to učit od těch nějvíce používaných. Otázka je kde sehant zdroj?. Uplně nejlepší by byla hrubá síla+google s tím, že google vždycky napíše cca 240 000 výsledku. Což by bylo geniální a něco podobného hledám - problém je, že google použivá nějakou javascriptovou komprimaci a tudíš to scriptem nesparsuji (alespon né jednoduše). Jinak bych si byl asi schopen napsat script sám :)
Někdo nějaký nápad? Jiný search engine, nějaká webservisa nebo tak něco?
Thx
wordnet
diky moc, mrknu na to až budu na kompu, ale mame takový pocit, že to bude trpět podobným problémem jako dole, alespon co jsem ted odpovídal a sjel jsem na tabletu rychle očima popis, nicméně stáhnu a uvidím diky za tip
Možno i v powershellu
$dictionary = @'
jedna
dva
tri
jedna
jedna
ctyri
pet
dva
'@
$vysledek = ConvertFrom-Csv $dictionary -Header "slovnik"
$vysledek |Group-Object slovnik |select count,name
Count Name
----- ----
3 jedna
2 dva
1 tri
1 ctyri
1 pet
dik ale nejde mi o to jak to provést, ale o ten zdroj "$dictionary = @'" což by měla být angličtina jako taková. Možná jsem zmátl s tim počtem človíček ale v těch mých 2000 slovíčkách jsou všehny jen jednou - jde mi o to jak se vyskytují v angličtiny abych věděl od kterých nejnutnějších se se mam učit, tzn nějak jim připřadit rank.
No,
tak si můžeš načíst do multi-line stringu několik AJ textů :) a udělat si četnost slovíček sám :p
Př.:
Count Name Group
----- ---- -----
11 the {the, the, the, the...}
6 is {is, is, is, is...}
4 user {user, user, user, user}
co tohle:
https://simple.wiktionary.org/wiki/Wiktionary:Most _frequent_1000_words_in_English
Stačí jen umět hledat:
Word frequency data, Top 5000 words.
Frequency Word Lists
6,000 most frequently used English words
... a mnoho dalších
A něco v češtině:
Anglická slovní zásoba v číslech - možná můžeš začít na Simple English Wikipedia.
TOP 1000 nejpoužívanějších anglických slov