Система для поиска по файлам
Гугл правда давно прекратил поддержку, но я так замены и не нашел, крайне удобная штука. Единственное что распознавать текст с картинок не умеет.
http://habrahabr.ru/company/abbyy/blog/97193/
Еще Microsoft Search Server
Может быть кто-то организовывал поисковую систему по паре терабайт документов или работал с подобными продуктами?
Пока нашел в инете только Еще Microsoft Search Server
Может быть кто-то организовывал поисковую систему по паре терабайт документов или работал с подобными продуктами?
Может быть кто-то организовывал поисковую систему по паре терабайт документов или работал с подобными продуктами?Я использую с 2006 года. Сначала Beagle, потом tracker. Поиск и индексация по текстовым документам, e-mail, логам чатов, только картинки не умеет (и я сомневаюсь, что хоть кто-то умеет). Естественно, под Linux.
В принципе, есть сторонний OCR-софт, который распознаёт текст в pdf и на картинках (по меньшей мере, латиницу), так что можно и сканы включить в поиск, если поискать русский аналогичный софт.
Upd. Например, такая софтина поддерживает и русский! $33, поддержка automator (т. е. можно делать пакетную конвертацию через эту софтину).
ABBYY Recognition Server и плагин для Windows Search находится. Только цену что-то нигде не пишут :-(
то сабж встроен в макось с самого началаКажется, ты сам называл 2007 год в качестве времени появления. Может он встроен "с самого начала" только в ОС определенной версии?
WIndows Search + Adobe PDF iFIlter. Сканы тока не умеет частично распознавать, если этого не сделано в ПДФке ранее.
Впрочем, я действительно соврал: Spotlight появился лишь 8 лет назад (OS X 10.4).
Кстати, он поддерживает бинарные операторы, а я даже и не знал.
ABBYY Recognition Server и плагин для Windows Search находится. Только цену что-то нигде не пишут :-(От 180т.р. за 50тыс.стр/мес. Если нужен модуль для поисковика +25т.р. Если поддержка виртуализации +25т.р.
Я сталкивался с решением, которое как раз на базе windows search в вариации 2003 сервера искало по 40гб стопке из html файлов. Работало ОЧЕНЬ медленно.
Windows Search может искать за 10 секунд в полумиллионне файлов. Если только перед этим будет проведена полная индексация, которая занимает пару дней :-)
вот как-то так и было - примерно 700 000 файлов (ещё и лежащих в одном каталоге, что NTFS крайне не любит. Чтобы их банально грохнуть потребовалось часа четыре), поиск секунд 10-20. Что очень медленно. После перевода контента файлов в Sql Server, полнотекстовый поиск по ним выполнялся меньше чем за секунду.
Оставить комментарий
danaql
Есть большая файлопомойка, в которой находятся документы Word, Excel, сканы в pdf, картинки и пр.Необходимо организовать поиск по содержимому файлов по ключевым словам. Примерно так, как это сделано в программе Evernote, когда картинки и pdf распознаются и по ним тоже идет поиск, по всем файлам офисных приложений тоже идет поиск. Желательно также поиск в архивах и пр.
Как можно такое организовать?