Přidat otázku mezi oblíbenéZasílat nové odpovědi e-mailem Počet výskytu slova v jazyce - seřazení slovíček

Dobrý den, mam na naučení připravených větší množsví slovíček (2000+) z angličtiny - jsou to všechna slovíčka, která jsem posbíral s tím, že jsme je někde viděl (různé zdroje - muzika, videa, články) a muj problém je ten, že je to MIX slovíček od trošku pokročilejších až po opravdu raritní, jejiž ekivivalent znám sotva v čj. A rád bych se seřadil podle počtu výskytu v angličtině. Nechci udělat žádnou tlustou čáru které ano či které se naučit - spíše to seřadit a začít se to učit od těch nějvíce používaných. Otázka je kde sehant zdroj?. Uplně nejlepší by byla hrubá síla+google s tím, že google vždycky napíše cca 240 000 výsledku. Což by bylo geniální a něco podobného hledám - problém je, že google použivá nějakou javascriptovou komprimaci a tudíš to scriptem nesparsuji (alespon né jednoduše). Jinak bych si byl asi schopen napsat script sám :)

Někdo nějaký nápad? Jiný search engine, nějaká webservisa nebo tak něco?

Thx

Jsou zobrazeny jen nové odpovědi. Zobrazit všechny
Předmět Autor Datum
wordnet
Flash_Gordon 29.09.2015 03:45
Flash_Gordon
diky moc, mrknu na to až budu na kompu, ale mame takový pocit, že to bude trpět podobným problémem j… nový
huggomar 29.09.2015 17:47
huggomar
Možno i v powershellu $dictionary = @' jedna dva tri jedna jedna ctyri pet dva '@ $vysledek = Conve… nový
MKc 29.09.2015 09:55
MKc
dik ale nejde mi o to jak to provést, ale o ten zdroj "$dictionary = @'" což by měla být angličtina… nový
huggomar 29.09.2015 17:45
huggomar
No, tak si můžeš načíst do multi-line stringu několik AJ textů :) a udělat si četnost slovíček sám :… nový
MKc 30.09.2015 09:11
MKc
co tohle: https://simple.wiktionary.org/wiki/Wiktionary:Most _frequent_1000_words_in_English nový
jirka44 30.09.2015 09:46
jirka44
Stačí jen umět hledat: Word frequency data, Top 5000 words. Frequency Word Lists 6,000 most frequent… poslední
MachR55 30.09.2015 09:58
MachR55

dik ale nejde mi o to jak to provést, ale o ten zdroj "$dictionary = @'" což by měla být angličtina jako taková. Možná jsem zmátl s tim počtem človíček ale v těch mých 2000 slovíčkách jsou všehny jen jednou - jde mi o to jak se vyskytují v angličtiny abych věděl od kterých nejnutnějších se se mam učit, tzn nějak jim připřadit rank.

No,
tak si můžeš načíst do multi-line stringu několik AJ textů :) a udělat si četnost slovíček sám :p

Př.:

$string = @' 
Constructed Attributes cannot be returned as value data in an LDAP search request. unless the search scope is set to "base" which means that the LDAP client accesses only one single object.
If USER is the Entry on which the attribute msDS-UserPasswordExpiryTimeComputed is read. 
If USER is not in a domain NC, then USER:msDS-UserPasswordExpiryTimeComputed = null. 
If DC is the root of the domain NC containing USER. The DC applies the following rules, in the order specified below, to determine the value of USER:msDS-UserPasswordExpiryTimeComputed: If any of the following are set bits is set on USER entry:User-Account-Control Attribute: 
'@

($string -replace '[^\p{L}\p{Nd}\s]', '').toLower().split(" ") |group |sort count -Descending

Count Name Group
----- ---- -----
11 the {the, the, the, the...}
6 is {is, is, is, is...}
4 user {user, user, user, user}

Zpět do poradny Odpovědět na původní otázku Nahoru