Система для поиска по файлам

danaql

Есть большая файлопомойка, в которой находятся документы Word, Excel, сканы в pdf, картинки и пр.
Необходимо организовать поиск по содержимому файлов по ключевым словам. Примерно так, как это сделано в программе Evernote, когда картинки и pdf распознаются и по ним тоже идет поиск, по всем файлам офисных приложений тоже идет поиск. Желательно также поиск в архивах и пр.
Как можно такое организовать?

nik93

Google Desktop 5.9.1005.12335-ru-pb
Гугл правда давно прекратил поддержку, но я так замены и не нашел, крайне удобная штука. Единственное что распознавать текст с картинок не умеет.

danaql

Пока нашел в инете только http://habrahabr.ru/company/abbyy/blog/97193/
Еще Microsoft Search Server
Может быть кто-то организовывал поисковую систему по паре терабайт документов или работал с подобными продуктами?

BondarAndrey

Может быть кто-то организовывал поисковую систему по паре терабайт документов или работал с подобными продуктами?
Я использую с 2006 года. Сначала Beagle, потом tracker. Поиск и индексация по текстовым документам, e-mail, логам чатов, только картинки не умеет (и я сомневаюсь, что хоть кто-то умеет). Естественно, под Linux.

bestpilot8

Если говорить о других ОС, то сабж встроен в макось с самого начала. По умолчанию умеет индексировать текстосодержащие документы (в т. ч. почту) и названия всех файлов.
В принципе, есть сторонний OCR-софт, который распознаёт текст в pdf и на картинках (по меньшей мере, латиницу), так что можно и сканы включить в поиск, если поискать русский аналогичный софт.
Upd. Например, такая софтина поддерживает и русский! $33, поддержка automator (т. е. можно делать пакетную конвертацию через эту софтину).

danaql

ABBYY Recognition Server и плагин для Windows Search находится. Только цену что-то нигде не пишут :-(

BondarAndrey

то сабж встроен в макось с самого начала
Кажется, ты сам называл 2007 год в качестве времени появления. Может он встроен "с самого начала" только в ОС определенной версии?

oliva

WIndows Search + Adobe PDF iFIlter. Сканы тока не умеет частично распознавать, если этого не сделано в ПДФке ранее.

bestpilot8

Я говорил о словаре.
Впрочем, я действительно соврал: Spotlight появился лишь 8 лет назад (OS X 10.4).
Кстати, он поддерживает бинарные операторы, а я даже и не знал.

danaql

ABBYY Recognition Server и плагин для Windows Search находится. Только цену что-то нигде не пишут :-(
От 180т.р. за 50тыс.стр/мес. Если нужен модуль для поисковика +25т.р. Если поддержка виртуализации +25т.р.

Kira

Я сталкивался с решением, которое как раз на базе windows search в вариации 2003 сервера искало по 40гб стопке из html файлов. Работало ОЧЕНЬ медленно.

danaql

Windows Search может искать за 10 секунд в полумиллионне файлов. Если только перед этим будет проведена полная индексация, которая занимает пару дней :-)

Kira

вот как-то так и было - примерно 700 000 файлов (ещё и лежащих в одном каталоге, что NTFS крайне не любит. Чтобы их банально грохнуть потребовалось часа четыре), поиск секунд 10-20. Что очень медленно. После перевода контента файлов в Sql Server, полнотекстовый поиск по ним выполнялся меньше чем за секунду.
Оставить комментарий
Имя или ник:
Комментарий: