|
|
ru.algorithms- RU.ALGORITHMS ---------------------------------------------------------------- From : Kazman 2:5030/2470.71 07 Aug 2001 00:56:18 To : Victor Medved Subject : частота встpечаемости слов в тексте --------------------------------------------------------------------------------
_*ЯЯЯЯЯ*_ ИНННННННННННННННДДДДДДДДДДДДДДДДДъъъъъ ъ ъ ъ
03 Авг 01 14:12, _Victor Medved_ НН. /Evgeny Pisarev/:
EP>> Интеpесно, а вообще пpоблема "язык" и "большой словаpь" только
EP>> такое pешение имеет? В смысле, нельзя полyчить чисто
EP>> пpинципиально весь "язык" чеpез "маленький словаpь"?
VM>
VM> Увы батенька только в эспеpанто по одномy коpню можно создать более
VM> восьмидесяти слов и все четко pегламентиpовано пpавилами
VM> словообpазования и одна часть pечи имеет только ей пpисyщее окончание
VM> и тп и тд
Школа грамотности Hатальи и Hиколая Романовых умещает бОльшую часть русского
языка, кстати, великого и могучего, в чуть больше десятка правил - алгоритмов.
А в Латыни, если не считать греческих исключений, вообще всё элементарно - если
знаешь правила словообразования и корень - составить необходимую терминологию -
вопрос только машинного времени. Кстати, если включить в алгоритм механизм
узнавания греческих слов и слов греческого происхождения, а также
соответствующий алгоритм их обработки (словообразование там также жёстко
подчинено определённым правилам), то обработка "современного" (дожившего до
наших дней) варианта латыни также не представляет особой сложности.
А в английском - если грамотно посмотреть цепь происхождения слова - его
грамматику определить не сложно. (то же в принципе касается всей группы
языков). Теперь в алгоритм добавим обработку всех родительских языков - и
получаем довольно простую обработку текста любой сложности.
Дело в том, что если отталкиваться не от упрощённой реализации алгоритма
проверки грамматики и орфографии, то есть проверки по словарю, а рассматривать
исключительно механизм словообразования и иметь небольшой словарь
новоприобретённых языком слов, то в принципе задача не невыполнимая. Алгоритм
получается сложный, многоуровневый, что гораздо сложнее проверки по словарю (
реализованной, скажем, в Office, программах-переводчиках и проч.) - в этом его
минус. Hо при работе такого алгоритма есть и плюсы - универсальность - при
небольшом объёме словаря мы получаем возможность обработки разнообразных языков
на весьма неплохом уровне.
Единственное исключение из этого "правила" навскидку можно предположить -
группу восточных языков с их "словарным алфавитом" - иероглифами.
ъ ъъъДН» Hу я вроде все сказал... Bye _*Victor*_ !
ИНННННННННННННННДДДДДДДДДДДДДДДДДъъъъъ ъ ъ ъ
... Билл ГЕЙц умpи !
--- GoldEd 3.00.Beta5+ & Fido Master 2000
* Origin: Откpылась новая ББС, телефон: 02 (Кpуглосуточно) (2:5030/2470.71)
Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.algorithms/178403b6f407a.html, оценка из 5, голосов 10
|