
Počet výskytu slova v jazyce - seřazení slovíček
Dobrý den, mam na naučení připravených větší množsví slovíček (2000+) z angličtiny - jsou to všechna slovíčka, která jsem posbíral s tím, že jsme je někde viděl (různé zdroje - muzika, videa, články) a muj problém je ten, že je to MIX slovíček od trošku pokročilejších až po opravdu raritní, jejiž ekivivalent znám sotva v čj. A rád bych se seřadil podle počtu výskytu v angličtině. Nechci udělat žádnou tlustou čáru které ano či které se naučit - spíše to seřadit a začít se to učit od těch nějvíce používaných. Otázka je kde sehant zdroj?. Uplně nejlepší by byla hrubá síla+google s tím, že google vždycky napíše cca 240 000 výsledku. Což by bylo geniální a něco podobného hledám - problém je, že google použivá nějakou javascriptovou komprimaci a tudíš to scriptem nesparsuji (alespon né jednoduše). Jinak bych si byl asi schopen napsat script sám :)
Někdo nějaký nápad? Jiný search engine, nějaká webservisa nebo tak něco?
Thx
Možno i v powershellu
$dictionary = @'
jedna
dva
tri
jedna
jedna
ctyri
pet
dva
'@
$vysledek = ConvertFrom-Csv $dictionary -Header "slovnik"
$vysledek |Group-Object slovnik |select count,name
Count Name
----- ----
3 jedna
2 dva
1 tri
1 ctyri
1 pet
dik ale nejde mi o to jak to provést, ale o ten zdroj "$dictionary = @'" což by měla být angličtina jako taková. Možná jsem zmátl s tim počtem človíček ale v těch mých 2000 slovíčkách jsou všehny jen jednou - jde mi o to jak se vyskytují v angličtiny abych věděl od kterých nejnutnějších se se mam učit, tzn nějak jim připřadit rank.
co tohle:
https://simple.wiktionary.org/wiki/Wiktionary:Most _frequent_1000_words_in_English
Stačí jen umět hledat:
Word frequency data, Top 5000 words.
Frequency Word Lists
6,000 most frequently used English words
... a mnoho dalších
A něco v češtině:
Anglická slovní zásoba v číslech - možná můžeš začít na Simple English Wikipedia.
TOP 1000 nejpoužívanějších anglických slov