|
ru.linux- RU.LINUX --------------------------------------------------------------------- From : Zahar Kiselev 2:5030/382.1 04 Feb 2005 23:40:06 To : Vladimir Goncharov Subject : Re: Поиск одинаковых файлов --------------------------------------------------------------------------------
Feb 04 16:49 05, Vladimir Goncharov wrote to Roman Belenov:
RB>>Предлагается натравливать её на все пары файлов ?
VG> Я не понял тогда вопроса. Я его прочитал так: "есть два файла.
VG> Hа вид одинаковы, но внутри чего-то поменяться могло". Отсуда
VG> два пути - либо следующий вопрос - "а чем они отличаются", либо
VG> - "и вообще, этих файлов тут тысячи". В общем, я пошел по
VG> первой ветке, а ты, видимо, по второй :) В любом случае,
VG> я бы размер первым делом сравнил бы :)
А я бы хотел не просто сравнивать, а вычислять "степень похожести" одних файлов
на другие и создавать какой-то индекс, по которому потом можно было бы
осуществлять поиск как в Гугле по нескольким возможным признакам. И чтобы как в
том же Гугле мне первыми выдавались наиболее подходящие ссылки на файлы.
Превратить компьютер в такую персональную "базу знаний", куда я мог бы "знания"
добавлять, искать их там и убивать ненужные или явно повторяющиеся.
Понятно, что создание достаточно полноценного индекса потребует огромной
вычислительной работы - надо фактически вычислить "коэффициент похожести" друг
на друга для всех нескольких десятков тысяч файлов, плюс запомнить в индексе все
основные признаки для каждого. Hо процессору домашнего компьютера все равно 95%
времени нечем заняться - вот пусть и поработает. Интересно - по каким ключевым
словам можно поискать готовые наработки в данной области?
Пусть хотябы для начала только для текстовых документов...
У меня например только сохраненных писем из фидо - многие тысячи...
Zahar
--- Msged/LNX 6.1.1
* Origin: FIDO over GPRS (2:5030/382.1)
Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.linux/328842039391.html, оценка из 5, голосов 10
|