|
|
ru.algorithms- RU.ALGORITHMS ---------------------------------------------------------------- From : Evgeny Pisarev 2:5025/77.75 02 Aug 2001 19:05:58 To : George Shepelev Subject : частота встpечаемости слов в тексте --------------------------------------------------------------------------------
Wednesday August 01 2001 00:31, you изобретал для me:
EP>> Интересно, а вообще проблема "язык" и "большой словарь" только такое
EP>> решение имеет? В смысле, нельзя получить чисто принципиально весь
EP>> "язык" через "маленький словарь"?
GS>
GS> Можно. Будет набор правил, маленький словарь и большой-большой
GS> список исключений ;)
Я думаю, и не очень-то и большой: если учесть что на Яндексе крутиться словарь
на 120-150 Килослов, и учитывая ср. длину слова в 8 букв, получаем:
150*8*1000 = 1 200 000 Байт. Фи, какой-то мегабайт... :)
А если все исключения пронумеровать (я думаю, типа Integer хватит) и добавить к
каждому слову этот тип исключения, то получим 1 800 000 Байт.
+ 200 000 байт, на описание самих исключений...
Что мы 2 Мб данных не обработаем, что-ли? :)
Желаю творческой удачи,
Evgeny
--- GoldED/W32 3.0.1
* Origin: Изобретатель - друг Человека... (2:5025/77.75)
Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.algorithms/161593b69a5b4.html, оценка из 5, голосов 10
|