[lorien] Error: Cannot found any index for you query.

helpall

Раньше поиск в лориене всегда выдавал результаты. А сейчас часть появляется ошибка вроде Error: Cannot found any index for you query., когда, как я понимаю, я использую в поиске слишком частоупотребимую последовательность символов. Или если её нет вообще.
Нельзя ли всё вернуть на место? Очень неудобно получается, если, например, я пытаюсь искать что-то вроде "2004 \\ 01 mp3".

Landstreicher

Раньше база была маленькая, поэтому непосредственный просмотр ее осуществлялся быстро. Теперь база большая и полный поиск по ней работает долго. Основная проблема в том, что база не влезает в оперативную память, а при каждом поиске читать сотни мегабайт с диска нереально.
Поэтому для ускорения поиска применяются индексы. Соответственно, иногда возникает ситуация, что для какого-то слова индекс найти не удается (например mp3 или gif - наиболее часто используемы слова). В таких случаях выдается указанное сообщение.
Это техническое ограничение (в том смысле, что это не случайная ошибка, а так было задумано). Я пока не придумал как составлять индексы для слов с цифрами. Дело в том, что слов сейчас ~600 тысяч, а если разрешить цифры то будет ~1200 тысяч. Это ведет к сильному разбуханию словаря, индексов.
Вернуть все на место нельзя, так как база не влезает в память, старые безиндексовые алгоритмы более не работоспособны.

AlexV769

Мммм. А сколько не хватает памяти и какой?
Мб стоит попропросить админов всех сетей сброситься на гиг-другой.
ресурс, по-любому, этого стоит.

Landstreicher

Это конечно, может помочь, но только кратковременно.
База постоянно растет: http://lorien.local/mrtg/netsize.html (yearly graph)
Скоро наверное будет поиск по FTP, это еще увеличит базу раза в 1.5
Если так подходить то придется каждые пару месяцев покупать по планке памяти
imho это не правильный способ.
я хочу провести оптимизацию на уровне алгоритмов - строить более правильные индексы, в другом порядке хранить данные, не требуя увеличения объема занятой памяти. возможно это потребует некоторого времени на сбор статистики (какие запросы остаются без индекса) и теоретическое рюхание.
можно обсудить методы построения индексов прямо здесь. если кто-то выскажет идеи как улучшить работу - буду очень признателен.

AlexV769

а грузить с HDD сжатые индексы, распаковывая на лету не получится?

Landstreicher

сами по себе индексы маленькие (~160 Mb в то время как информация о файлах занимает ~540 Mb. Индексы все время лежат в памяти и с ними все ок. Основная проблема - чтение с диска самого массива записей о файлах (или выборка записей с нужными id если нашелся индекс).

AlexV769

Глупый вопрос наверное задам. А информацию о файлах сжимать? Насколько я понимаю, проблемы именно со скоростью считывания информации.
Как ещё один вариант "железного" решения вопроса - RAID 0.

Landstreicher

> А информацию о файлах сжимать? Насколько я понимаю, проблемы именно со скоростью считывания информации.
Интересная мысль! Надо подумать. Строковую информацию, наверное, можно хорошо сжать (lzw какое-нибудь). Здесь явно будет выигрыш. Информация о дате/размере наверное хуже сожмется (все-таки более случайна).
Единственная трабла - сейчас доступ к таким структурам сделан "явно", с использованием C++ - указателей. При паковке/распаковке такое не применимо - придется как-то менять организацию доступа к данным.

AlexV769

развернуть эти явные указатели в IO-потоки. тогда какой-нить guzip покатит через | наверное.

yoya

Delete

yoya

TAS>Может посмотреть как что-то подобное реализовано в поисковиках (инетовских)?

gsharov

Может хуйню скажу полную, но типа стандартные средства не катят? Не скажу, что у меня совсем уж много файлов на машине (~60000 но slocate ищет совершенно незаметно для глаза даже если использовать regexp-ы... База весит что то около 6 мегов правда Но машинка у меня слабенькая и оперативы всего 64 мега было когда то а результат был тот же. Есть подозрение, что байда типа glimpse еще круче с подобными задачами справится. Типа нужно просто создать на серваке фс, копирующую структуру сети, те сохраняющую папки (типа в корне папки V gz-v, hackers... дальше имена компов, шар,...) . А для файлов создать их двойников текстового вида с записями типа "типа" , размера, даты, айди 3 тега в конце концов... Затем по поисковому запросу прошерстить locate или glimpse эту псевдо сеть, получить сравнительно небольшое число текстовых файлов. Ну а дальше grep / fgrep / awk - наш лучший друг Можно даже просто оговорить, что первая строчка значит то то итд - тогда вообще просто...
По идее должно работать довольно быстро, особенно если использовать какуюнить шуструю фс типа reiser4, а базу в оперативе - она там кстати зипованая ( в slocate - точно можно сделать). Я так понимаю в данном случае база эта выступает в роли индексов скорее, размер не шибко большой должен получиться.
ps я понимаю, что это наполовину новый поисковик получится, но все же

eee1

с какого века 60000 файлов уже много? у меня не меньше 600000

gsharov

Свежий линух, + мастдай в урезаном варианте и то и другое На 12 гигах шибко не разгуляешся
Да, я ща кстати на работе - на тутошней машинке 4 диска по 160 Гб почти полностью забиты, но тем не менее - всего ~ 600000 файлов и есть... Правда довольно много больших файлов, но все равно... А slocate ищет тоже ~ 0.01 s real time-a...

eee1

на unix.hackers: 1868378 файлов

gsharov

Интересно, скока файлов пошарено в сетке? На лориене в статистике че то не нашел...

eee1

http://lorien.hackers/serverstat.pl
Total hosts: 2199
Total files: 12996972

gsharov

всего то 13 милионов * 2 если фтп еще будет Думаю намально будет работать...

Landstreicher

здесь, мягко говоря, совсем не те размеры чтобы работали стандартные средства.
взять тот же slocate - у него база 6 мегов. а тут база 540 мегов, в 90 раз больше.
создать на диске 13 миллионов файлов - тоже гиблое занятие. На каждый файл ведь хранится куча информации, типа владелец, дата, inode итп. Когда 13 миллионов файлов каждые дополнительные 4 байта оборачиваются 52 мегабайтами. Я думаю, файловая система загнется (или будет работать очень медленно).
grep/sed/awk - в топку, потому что grep-ать 540 мегабайт - это долго, при таких размерах просто необходимо использовать индексы.
Единственное, что представляет интерес - это glimpse. Он решает в некотором роде подобную задачу, и масштабы данных у него тоже большие. Я не знаю как он работает. Почитаю на досуге его сырцы. Думаю, там должны быть нетривиальные вещи.

Julie16

Слушай, а ты можешь расшарить какой-нибудь дамп всех файлов сетки? Просто построчный. Хочу попробовать состыковать все это дело с уже существующими поисковиками.

gsharov

не, грепать 540 мегов без мазы это факт. но я ведь ничего такого и не предлагал касательно же locate - если поиск по базе в 6 мегов занимает <0,01 секунды, то поиск по базе в 90 раз большей - это 1 секунда. На самом деле - я думаю, что сильно быстрее (кроме того - сам сказал индексы весят 160) . Насчет 13 миллионов файлов это ты не прав - на unix.hackers - 1,8 и все работает тип топ Я 100% уверен, что и 10^8 файлов не шибко большая проблема. У меня в лабе сервак сановский стоит с прикрученным дисковым массивом - дык там 24 ТБ данных со средним размером файла 100 кб. Там конечно не одна фс, но не 1000 по любому Крутится все это дело на xfs - не самая плохая файл система, но все же... reiser4 круче. Особенно если ее настроить именно под такую задачу. А глимпс - это тот же греп по сути, но переделанный сильно ( он сделан на основе powergrep, который на основе agrep, который на основе fgrep, a что это такое все и так знают Работает он, кстати довольно медленно. Идея была в том, чтобы использовать в качестве БД саму файловую систему (чем она и является по сути а в качестве таблицы индексов быстро работающую и к тому же сжатую базу slocate ( точнее даже просто locate, поскольку на права на файлы в данном случае положить ). Ща попробую создать 13 миллионов файлов и посмотреть, что из этого выйдет

gsharov

Процесс пошел - уже миллион есть

Landstreicher

Ну вот видишь как медленно создаются. Средняя скорость сканирования - 1 комп в минуту. Представь себе что тебе придется каждую минуту стирать/создавать тысячи файлов.
Конечно, можно создать 13 миллионов файлов, но по-моему накладные расходы при таком подходе будут просто чудовищные. Учти что создание каждого файла требует кучу системных вызовов.

gsharov

среднее число файлов на компе? Учти я все выводил в xterm, потому как заломало еще и условие туда приписывать и остановил просто по ctrl-c, когда 2 милиона стало. создает он легко ~100000 файлов в минуту. у тебя по сети полюбе больше инфы идет, а диск полюбе быстрее. ща график сделаю. Но первая индексация долго идет - эт без вопросов...

gsharov

А как часто у тебя индексы перестраиваются?

gsharov

В общем довел я число файлов до девяти миллионов с лишним ( с инкрементом в полтора) - дальше спать пора И построил графики зависимости от числа файлов всех интересующих меня величин - потом сделал оценку по линейному МНК (все зависимости очень линейны, кооф кореляции >0.99 ) и для 13 миллионов файлов получил следующие вещи:
1) Объем базы данных slocate.db = 42(1) Mb
2) Среднее время получения из файла инфы ( time cat `slocate filename`) - 0,891(8)
3) Ожидаемое время полной индексации всего дерева 60(5) минут.
Машина - p4 2,8Ghz без ht, 256mb с очень галимыми таймингами. hdd - хрен знает какой, но выдает на hdparm -T ~ 42 Mb/s
Файловая система - reiserfs3.6.
Жесткий диск 1 - те свап тоже на нем же, во время индексации проц загружен процентов на 80, в основном из за интенсивного своппинга ( машина не моя - поэтому на не gnome, gdesklets и все такое, памяти не хватает савсем.). Во время поиска использования процессора замечено не было Говорят, можно не индексировать заново, а обновлять только новые файлы, при этом время индексации должно сильно сократиться (до пары минут) . Как это сделать я пока не рюхнул. Для уменьшения времени поиска базу надо засунуть в оперативку - пробовать не стал - прав не хватает. Уменьшить накладные затраты на disk i/o можно если юзать SCSI диски и\или Reiser4fs. Создание и чтение миллионов мелких файлов - ее конек - тут она в ~1.5 раза быстрее и во столько же раз менее требовательна к процу. (поищи бенчмарки в инете). Еще было замечено, что время поиска не слишком сильно зависит от размера db - при 240000 файлов - это 0.099 с , при 13000000 - 0.891 - типа прямая. В общем ищет быстро и не навязчиво, индексирует долго и навязчиво Хотя повторюсь нужно только обновлять базу а не строить заново - тогда все будет очень даже пучком. Такие дела Кстати файловая система не тормозит при прибавлении такого числа файлов - я каждый раз мерял время копирования папки с 1.5 млн файлов - оно оставалось постоянным - около 25 минут, или примерно 1000 файлов в секунду - врядли лориен столько файла в секунду сканирует.... Содержание файла - текст "file is the #XXXXX" - те что то около 20 символов). Отожрали все эти файлы где то ГБ на миллион файлов. все.
PS не все - ядро 2.6.9 nitro 4 - то есть чисто десктопное, в котором как раз io функции и прибиты маленько. Так что я думаю - покатит такая тема в плане скорости, если толково все сделать... .

Landstreicher

Был немножко изменен метод выделения слов для построения индексов. Теперь индексируются такие слова, как win2k, j2re, m2m (взято из реальных запросов, которые раньше не работали).
Все кто сталкивался с такой ошибкой - убедительная просьба проверить снова, ищется ли сейчас и написать сюда (или мне в приват/мыло).
Оставить комментарий
Имя или ник:
Комментарий: