Google vs Yandex, поиск на русском языке.

Lorin

гугл лучше любого поисковика - задай ЛЮБУЮ строку и посмотри (кол-во результатов)/(время)^2 у гугла данный параметр будет в 2^10 раз лучше тех же яндекса яху и т.д.

durka82

А не подскажешь ссылку на описание, как подключать их поиск?

Dasar

> гугл лучше любого поисковика - задай ЛЮБУЮ строку
важно не кол-во, а релевантность.

Lorin

раньше бесплатно было

Lorin

алгоритм релевантности воруют друг у друга ...

Lorin

радует что гугл в отличии от яндекса не рандом по одинаковым приоритетам

Dasar

> алгоритм релевантности воруют друг у друга ...
пофигу - какие алгоритмы
Главное, что у yandex-а на русском языке релевантность выше, чем у Google-а

maggi14

а гугл вообще по словоформам не ищет

ava3443

Главное, что у yandex-а на русском языке релевантность выше, чем у Google-а
Откуда дровишки?

maggi14

Оттуда, что Гугль вообще не претендует на релевантность русским запросам.

ava3443

Интересное утверждение. Опять же, откуда такая информация? Как ты думаешь, зачем они www.google.ru сделали?

maggi14

Ты, может быть, не знаешь, но указанная ссылка отличается от главной страницы только языком интерфейса и областью (корневым доменом) запроса по умолчанию
Чтобы не быть голословным, демонстрирую:
вот и вот : сравни
Как по-твоему, поиск без учета морфологии, вообще, способен хоть как-то адекватно считать релевантность?

ava3443

указанная ссылка отличается от главной страницы только языком интерфейса и областью (корневым доменом) запроса по умолчанию
Если ты имеешь ввиду "site:.ru", то этого НЕТ по умолчанию для www.google.ru
Как по-твоему, поиск без учета морфологии, вообще, способен хоть как-то адекватно считать релевантность?
Ладно, сдаюсь. Просто я очень давно уже не пользовался поиском по русским словам.

Dasar

> Откуда дровишки?
Из опытных измерений.
Соответственно релевантность выше, как минимум:
за счет кол-ва проиндексированных страниц: у yandex-а в несколько раз больше проиндексированных русских страниц
за счет учета русских словоформ.

ava3443

Супер. Ну буду знать... Как-то совсем редко пользуюсь русским поиском

yolki


D:\>nslookup
Default Server: server-32.hackers
Address: 172.16.32.1

> google.com
Server: server-32.hackers
Address: 172.16.32.1

Non-authoritative answer:
Name: google.com
Addresses: 216.239.37.99, 216.239.57.99, 216.239.39.99

> google.ru
Server: server-32.hackers
Address: 172.16.32.1

Non-authoritative answer:
Name: google.ru
Addresses: 216.239.37.99, 216.239.57.99, 216.239.39.99

ava3443

Ты это к чему?

yolki

да так, просто.. гугль.ком и гугль.ру один ип имеют..

Flack_bfsp

На одном из спецсемов 4го курса, посвящённом всяким поисковикам, нам раскрыли один из главных секретов скорости гугла - он просто после определённого времени (достаточно маленького, определённого статически) перестаёт искать и выдаёт то, что нашёл. Или не нашёл.

sergey_m

Откуда информация?

Flack_bfsp

Я же ясно написал откуда. На спецсеме было. Я даже не помню, кто читал тот спецсем.

ava3443

В каком смысле перестаёт искать?
Если про выдаваемые пользователю результаты, то какой же это секрет? Вполне естественное ограничение, одним из первых приходящее в голову )

Flack_bfsp

Проходит, условно говоря, две секунды и он выдаёт результат, даже если база ещё не вся просканена. Что непонятного?

Lorin

тот, кто читал вам семинар либо сказать глупость, либо поторопился и выдал не то, что хотел сказать (подозреваю одного человека на 3 потоке ВМиК - ему это свойственно)
про ограничение гугла - оно действительно есть - но совсем не то, о чём пошла речь (глупости про базу)
суть ограничения в следующем - селект идёт по индексам дата-март'ам из текущего обновления (уже закоммиченного индексирования) , остальные же не обновляются и выдаётся инфа напрямую из DWH (хранилища) , подвох в том, что первые результаты уже в кэше, а если перейти на страничку результатов подальше (одна из буковок гОООООООгл) , то будет вызван отдельный подзапрос
з.ы.:ботайте лучше на своём семинаре

Lorin

Интересная колбаса ...
вроде бы я не создавал данной темы - а тут наткнулся на данное творение (один из бывших постов)
поясним ?
з.ы.:могу пояснить практически любые вопросы по гуглу (знаком с одним из разработчиков)

Flack_bfsp

Так это только сейчас появилось, наверное. То, про что нам говорили, было актуально года два назад.
А говорил это, кажется, Абрамов. Но не уверен.
Короче ,это не мои слова и я в домике

TYU_2008

ограничение по времени на генерение страницы с результатами поиска есть у всех поисковиков, в том числе и у яндекса. а главный секрет скорости гугла - это те сотни тысяч серверов, которые его обслуживают.

Flack_bfsp

Нет. Дословно я не помню, но они реально читерством занимались. Это раскрылось в исходниках и, скорее всего, это было исправлено.

Lorin

могу тебя поздравить с наблюдением про два года, только движок гугла был написан 5,25 лет назад
the main benefit of GoooooooGLE search behavior - это отнюдь не сервера, а методы индексации

stm7884696

и это отнють не значит, что он не модифицировался и не улучшался...
Да, тогда kyb на нем выехали... А ща у них уже все совершенно другое стоит )

Lorin

на самом деле - это утверждение моего знакомого, который дорабатывал бету в 98-99 годах вместе с командой Брином и Пэйджа - "движок поисковика не претерпел изменений с того времени, добавлены были лишь новые примочки и интерфейсы"

Lorin

похоже тема переходит во флуд ... не особо связанный с поиском на русском языке

stm7884696

движок - ядро
примочки и интерфейсы - поиск по словоформам, по релевантнасти...
Такой вариант допускаешь?
Ибо ну не верю я , что гугл ищет все по тем же алгоритмам, что и 5 лет назад... Было бы так, давно бы уже зангнулись...

TYU_2008

а вот нету принципиально новых алгоритмов в поиске, все уже придумано

ava3443

прямо так всё уже придумано?
тогда почему, например, news.google.com есть только у Гугла?

voronina

один из главных секретов скорости гугла - он просто после определённого времени (достаточно маленького, определённого статически) перестаёт искать и выдаёт то, что нашёл. Или не нашёл.
может я идиот, но какой нормальный человек просмотрит, хотябы 100 000 ссылок?
проще изменить запрос.
зачем искать, если уже эти 100 000 ссылок нашили?
тем более если большая часть этих сслылок находилось в кэше

sinet

Вот тебе другой крайний случай:
Мы ничего не нашли, а, поискав подольше, нашли бы.

ava3443

http://news.yandex.ru/
http://www.novoteka.ru/
О! Не знал. Радует конечно, что Яндекс, оказывается, не совсем ещё отстал от гугла...

stm7884696

яндекс кстати вообще не отстал от гугла...
И если гугл рулит в англоязычном писке, то яндекс позиционирует себя как русскоязычный поисковик и по поиску на русскоязычных сайтах рвет всех...
По крайней мере он выдает всегда то, что я ищу на первой странице!
В отличие от гугла, который может то-то найти, а потом еще страниц 10 мусолить те же самые слова на страницах того-же сайта...

Varvara2002

>яндекс позиционирует себя как русскоязычный поисковик и по поиску на русскоязычных сайтах рвет всех...
Только вот рвать-то некого - кругом чешки

stm7884696

то, что кругом чешки, как раз и является доказательством того, что яндекс их порвал...
Ибо помнится мне в 2000 год и апорт был неплох, и рамблер....

sergey_m

Превосходство Яндекса либо самозародившаяся легенда, либо очень грамотный PR. Причём как правило, если у самого яростного поклонника Яндекса спросить, а когда же он последний раз пробовал искать на Рамблере, то он ответит "пару лет назад".
К примеру, берем запрос "Глеб Смирнов" (без кавычек) и ищем. Яндекс находит "не менее 444 сайтов". Сразу жмём на восьмой десяток ссылок. Опа, уже "не менее 421 сайта". Хорошо, теперь ищем на Рамблере. Рамблер находит 948 сайтов. Жмём в 11ый десяток ссылок. Опять 948 сайтов.
Хорошо, теперь охватим наш запрос двойными кавычками, что бы запретить морфологию. Яндекс даёт 87 сайтов, и попытка посмотреть последний десяток ссылок приводит к тому, что мы видим только 71 ссылку, а дальше ничего нет. Рамблер даёт 96 сайтов, и листание не уменьшает их число.
Моё имя не волшебное, вы можете попробовать с разными запросами и будете получать аналогичные результаты.
Внимание, я не хочу сказать, что Рамблер находит всё, что находит Яндекс и даже больше. Внимательное рассмотрение результатов запросов обычно показывает, что вне зависимости от того, какой поисковик нашел больше, он не включает всё найденное другим. Множества пересекаются, но меньшее не является включением большего!

Varvara2002

Простая оценка количества найденных страниц, google также делает (или делал). И ничего тут плохого не вижу.

sergey_m

Я показываю, что Рамблер находит больше.

Varvara2002

Вообще-то rambler не умеет толком дубли выкидывать отсюда и больше.
(У yandex-a раньше была такая проблема, сейчас вроде вылечился).

sergey_m

На запросах, которые возвращают меньше я убедился в том, о чём говорю. Например Яндекс находит 14 сайтов, а Рамблер 15. Из них пересечение - 12.
На тему дублей можно поспорить. При подсчете страниц дубли обычно играют роль, но не при подсчете сайтов. Хотя если подобрать такой запрос, который часто миррорится (например цитату из FIDO то тогда будет много дублей.

Varvara2002

Попробуй в yandex-е в расширенном поиске сказать "Искомые слова
расположены относительно друг друга: на одной странице" и теперь сравни.

sergey_m

> например цитату из FIDO
Очень странно, но поиск по "R.O.C. FAQ" в кавычках не находит ни одного миррора фидо. Ни на Рамблере, ни на Яндексе. Находит только ссылки на него во всяких форумах. Рамлер - 3 сайта, Яндекс - 1 сайт.
Ладно, попробуем "орёл лапчатый" без кавычек. Кто читал ru.anti-antisex догадывается, о чём речь. Опять ни одного миррора fido Но, что интересно, Рамблер находит 5 сайтов, где встречаются эти два слова. Яндекс находит аж 1121. Фигасе как много. Вот только на них есть одно из этих слов, а не два. Выходит у Рамблера по дефолту между словами &, а у Яндекса |. Будем знать.

Varvara2002

>а у Яндекса |. Будем знать.
Не совсем так. У них поиск по кворуму, т.е. ищут m из n слов запроса.

sergey_m

Попробуй в yandex-е в расширенном поиске сказать "Искомые слова
расположены относительно друг друга: на одной странице" и теперь сравни.
Действительно, больше. Опять же различие дефолтных настроек поисковиков. Если в Рамблере сделать расширенный поиск и указать, что расстояние между словами ограничено (аналог "не очень далеко" в Яндексе то оно находит 592 сайта, что конечно меньше чем 940, но всё же больше чем 380.

sergey_m

Попробуй в yandex-е в расширенном поиске сказать "Искомые слова
расположены относительно друг друга: на одной странице" и теперь сравни.
Кстати, это не применимо к случаю, когда мы два слова охватили кавычками.

TYU_2008

В первую очередь яндекс рвет всех в пиаре самого себя. Я не хочу сказать, что в техническом плане они чешаки, наоборот, они лидеры, в общем-то... но позицируют они себя просто на недосягаемую высоту, этакий мегарокетсайнс.

Lorin

согласен, что яндекс пытается поглотить собой область поиска в и-нете, тем не менее слияние с Рамблером было более грамотным маркетинговым ходом, ибо рекламная составляющая рамблера бьёт любой российский портал на сегодняшний день. Политика ясна - поиск и развлечения на Яндексе - реклама и ссылки на Рамблере.

rosali

поиск и развлечения на Яндексе, реклама ... на Рамблере
Чего-то я не догнал, разве поисковики не рекламой живут?

Lorin

у Яндекса реклама скрыта в каждой из множества групп, называемых мной развлечениями, хотя среди них есть и полезные, например Маркет, который живёт баблосами от магазинов, которые указываются в ссылках
з.ы.:я немного пьяный и видимо изъясняюсь неочень

123anna

По поводу релевантности результатов гугла и яндекса. Я бы выделил 2 типа вопросов: по ключевым словам ( купить велосипед дорого, Маша Иванова ) и цитаты ( "выпьем с горя где же кружка" ). В первом случае рулит конечно яндекс, потому что мне нужна Маша, Машу, Марию и т.п. и мне пофигу в каких 20 из 200 магазинов присматривать велосипед. Но в случае точных цитат часто яндекс меня совсем посылает, а гугл находит 1-2 страницы (иногда все не в зоне .ru). Единственный вывод который я могу из этого сделать --- гугл заиндексировал больше страниц на русском, а у яндекса просто есть русская морфология и мб лучше настройки поиска.

stm7884696

это то конечно да, но стоит учесть, что живем то мы в россии, и если нам нужен поиск по рускоязычным ресурсам, то яндекс рулит...
А вот ести надо искать в английском варианте, то тут гугл без обсуждения... Ибо сам яндекс говорит, что регистрирует только рускоязычные ресурсы...

evgen5555

Суперфишка гугла - в префиксах поиска "intitle:" и "inurl:".
Когда яндокс об этом будет печься - хз.

sergey_m

это то конечно да, но стоит учесть, что живем то мы в россии, и если нам нужен поиск по рускоязычным ресурсам, то яндекс рулит...
Опять легенда. Прочти внимательно то, что написал . Если ты ищешь четко обозначенную цитату (как правило, охваченную скобками то в большинстве случаев Google найдет больше сайтов, чем Яндекс, по той причине, что у него больше объем базы. Перед тем как спорить рекомендую поэкспериментировать.

Dasar

> по той причине, что у него больше объем базы.
Хочеться увидеть примеры запросов.
взятые наугад цитаты показывают другое:
"Семь раз отмерь - один раз отрежь" - ya.ru - 13286, google.com - 4,570
"Новое обличие императора" - ya.ru - 10107, google.com - 722
"автомат Калашникова" - ya.ru - 73473, google.com - 34600

123anna

Тоже спросил наугад (была еще попытка когда никто ничего не нашел)
"почему она пропала я ее не обижала"
"варкалось хливкие шарьки"
"плясовницею слыву да притворщицей"
Результатов мало и можно проследить, что даже если у яндекса больше, то не включает все что у гугла. И что доменное имя пофиг.
Каждый из вопросов в кавычках и без. Очень интересно посмотреть когда яндекс без кавычек находит а в кавычках нет. В последнем запросе такого много и почему для меня загадка.

Dasar

Ты уверен, что запросы взяты наугад, а не подобраны?
Если запросы чуть поменять, то ситуация меняется:
"хливкие шарьки" - ya.ru - 413, google.com - 160
"варкалось хливкие" - ya.ru - 1839, google - 1830

123anna

Ну, я думал заранее, что спросить чтобы подтвердить мою теорию, но потом не перегадывал. Вреоятно моя главная ошибка когда я искал раньше --- в случаях редкой цитаты нужно искать яндексом без кавычек. Я же искал в кавычках в яндексе, потом в гугле и запоминал что гугл хороший.

Vladislav177Rus

Не "шарьки", а "шорьки". От того и разница такая в количестве сайтов.

Flack_bfsp

Это точно. Классику надо знать!

yolki

О да! на самом деле -
"воркалось хливкие шорьки"
yandex 536, google 51

sergey_m

"Семь раз отмерь - один раз отрежь" - ya.ru - 13286, google.com - 4,570
"Новое обличие императора" - ya.ru - 10107, google.com - 722
"автомат Калашникова" - ya.ru - 73473, google.com - 34600
Это не взятые наугад цитаты. Пословица, название книги, и очень часто встречающееся словосочетание.
Запросы в которых гугл выигрывает, это когда ты ищешь большой текст, который существует в инете в нескольких экземплярах. Ты знаешь одно предложение из этого текста. Например цитата: "Как бороться со сменой IP адресов клиентами локальной сети?", охваченная кавычками. Яндекс - 6 сайтов, Google - несколько сотен.

pupsik77

в большинстве случаев Google найдет больше сайтов, чем Яндекс, по той причине, что у него больше объем базы.
у гугла и яндекса принципиально разный подход к поиску.
релевантность у гугла определяется кол-вом ссылок ведущих на данную страницу.
именно поэтому гугл - идеален для поиска хоумпейджей и ответов на часто-задаваемые-вопросы.
у яндекса релевантность строится по иным правилам (я их не знаю).
плюс к этому разные поисковики индексируют разный контент: содержимое мета-тегов, комментарии, комментарии к картинкам, сам текст, всплывающие подсказки.
из-за этого получается различное кол-во результатов поиска.
далее: у каждого поисковика своя система выкидывания "накрученных" сайтов и фильтрации оных, чем тоже объясняется разное кол-во результатов.
PS. алгоритмы работы рамблера не знаю вообще, Глеб, может ты знвешь принципы его инидексирования и построения релевантных зависимостей?

Flack_bfsp

Ага, несколько сотен, с учётом того, что по нескольку десятков на одних и тех же серваках.
На самом деле он находит всего 29.

Lorin

да тут я смотрю прям "сёрч-холи-вор" начинаецца

ava3443

релевантность у гугла определяется кол-вом ссылок ведущих на данную страницу.
именно поэтому гугл - идеален для поиска хоумпейджей и ответов на часто-задаваемые-вопросы
Первое утверждение ИМХО не верно, а вывод вообще непонятно как получился из первого утверждения.
У гугла есть штука под названием Pagerank. Чем больше pagerank у сайта - тем выше сайт будет в результатах поиска. Pagerank зависит не только от числа ссылок на данный сайт, но и от того, какой Pagerank у сайтов, с которых ведут ссылки.

pupsik77

Первое утверждение ИМХО не верно, а вывод вообще непонятно как получился из первого утверждения.
У гугла есть штука под названием Pagerank. Чем больше pagerank у сайта - тем выше сайт будет в результатах поиска. Pagerank зависит не только от числа ссылок на данный сайт, но и от того, какой Pagerank у сайтов, с которых ведут ссылки.
pagerank формируется из pagerankov ссылающихся сайтов... в чем ошибочность моего утверждения? ты просто уточнил, КАК именно релевантность определяется. но причины остались те же..
второе утверждение вытекает очень просто какой сайт будет хоумпейджем компании "рога и копыта", с вероятностью 95 процентов именно тот на который ссылается большинство источников содержащих слово "рога и копыта".

123anna

Я сделал дополнительное утверждение: если у яндекса спросить без кавычек он найдет то что нужно (+кучу мусора). Почему с кавычками он эти ссылки не выдает непонятно, может даже ошибка.
Про шорьков не знаю как пишется, но мне взбрело значит актуальный запрос

123anna

Я слышал, что некоторые поисковики считают как часто ищущий по данному ключевому слову идет на данную страницу [и там остается, т.е. перестает перебирать]. Именно поэтому там некоторый сайт оказавшийся в топ10 среди похожих часто в топ10 и остается.
Далее могу заметить, что никакой из поисковиков не вычисляет ранк только исходя из контента, т.к. отражения одного и того же в результатах поиска идут не подряд. Значит сайт, где это опубликовано как-то влияет.

ava3443

Извини, не правильно понял тебя, когда ты сказал, что релевантность определяется количеством ссылок. Просто я думал, что когда говорят, "определяется...", имеют ввиду, "зависит только от...", а в противном случае "зависит в том числе и от ..."
Вообще, не вижу серьёзных альтернатив гуглу при англоязычном поиске (если, конечно, не требуется специализированный поиск).

Vladislav177Rus

Вроде, не "воркалось", а все-таки "варкалось", потому что это время, когда пора варить обед, а шорьки - потому что гибрид штопора и хорька

pupsik77

Вообще, не вижу серьёзных альтернатив гуглу при англоязычном поиске (если, конечно, не требуется специализированный поиск).
есть мнение, что у Yahoo способ индексации и определения релевантности близок к Яндексу. (точнее наоборот). отсюда можно предположить, что для англоязычного поиска можно использовать Яху.
но я сам использую гугл

ava3443

ИМХО Yahoo не сканирует веб так агрессивно и массово, как это делают роботы Гугла.

Varvara2002

>Почему с кавычками он эти ссылки не выдает непонятно, может даже ошибка.
(Это точно не ошибка)
+
>Я слышал, что
Что за народ - лиш бы поболтать.
Прежде чем что-то говорить, узнай так это или нет. (Например, на самом яндексе почитай, что он пишет о себе)
А про всякие алгоритмы кто как ищет тебе никакой умный человек не скажет: секреты хранить надо.

maksimys19

запрос: site:.ru
http://www.google.com/search?as_q=&num=10&hl=en&btnG=Google+Search&as_epq=&as_oq=&as_eq=&lr=&as_ft=i&as_filetype=&as_qdr=all&as_occt=any&as_dt=i&as_sitesearch=.ru&safe=images
найдено 41.7 млн страниц
http://company.yandex.ru/
Яндекс сегодня
Уникальных серверов: 1 692 499,
уникальных документов: 425 688 378,
объем проиндексированной информации: 11 936 ГБ.

maksimys19

site:lenta.ru
rambler 233573 документов
yandex 156639
google 42300
site:3dnews.ru
rambler 29564
yandex 63396
google 44900
поверхностный вывод:
в рунете ищи на русском сначала в яндексе и/или рамблере, а потом только в гугле

ava3443

а мне гугл выдаёт 243,000 на lenta.ru
а на 3dnews.ru 138,000
так что поверхностные выводы противоположны?

poi1981

почитал тред, решил обратиться за помощью к яндексу:
запрос - "поисковая система", 1 место - Яндекс
запрос - "лучшая поисковая система", 1 место - Google
Вот так

Lorin

5+
чувэ, меня пробрало с твоего поста

Lorin

site:lenta.ru
rambler 233573
yandex 156639
google 42300
данный запрос в очередной раз подтверждает, что рамблер и яндекс имеют кривой синтаксис запросов, так как 'site:' означает в гугле поиск по сайту - соответственоо находятся релевантные страницы = итог: на яндекс либо криво индексируют обновления (не избавляясь от дубликатов либо ты фальсифицировал результаты

Varvara2002

Лучше оцени скромность гугла этими же запросами

sergey_m

> Лучше оцени скромность гугла этими же запросами
Кстати, да. А в Рамблере правильный ответ, похоже hardcoded.

Lorin

>Кстати, да. А в Рамблере правильный ответ, похоже hardcoded.
зайди на Yahoo | Altavista -> посмеёшься
Оставить комментарий
Имя или ник:
Комментарий: