Google vs Yandex, поиск на русском языке.
А не подскажешь ссылку на описание, как подключать их поиск?
http://www.google.com/apis/
потом сюда
http://www.google.com/accounts/NewAccount?continue=http://api.google.com/createkey&followup=http://api.google.com/createkey
потом сюда
http://www.google.com/accounts/NewAccount?continue=http://api.google.com/createkey&followup=http://api.google.com/createkey
важно не кол-во, а релевантность.
раньше бесплатно было
алгоритм релевантности воруют друг у друга ...
радует что гугл в отличии от яндекса не рандом по одинаковым приоритетам
http://www.google.ru/search?hl=ru&q=Search&btnG=%D0%9F%D0%BE%D0%B8%D1%81%D0%BA+%D0%B2+Google
и вот вам
http://www.yandex.ru/yandsearch?stype=www&nl=0&text=Search
и вот вам
http://www.yandex.ru/yandsearch?stype=www&nl=0&text=Search
пофигу - какие алгоритмы
Главное, что у yandex-а на русском языке релевантность выше, чем у Google-а
а гугл вообще по словоформам не ищет
Главное, что у yandex-а на русском языке релевантность выше, чем у Google-аОткуда дровишки?
Оттуда, что Гугль вообще не претендует на релевантность русским запросам.
www.google.ru сделали?
Интересное утверждение. Опять же, откуда такая информация? Как ты думаешь, зачем они Чтобы не быть голословным, демонстрирую:
вот и вот : сравни
Как по-твоему, поиск без учета морфологии, вообще, способен хоть как-то адекватно считать релевантность?
указанная ссылка отличается от главной страницы только языком интерфейса и областью (корневым доменом) запроса по умолчаниюЕсли ты имеешь ввиду "site:.ru", то этого НЕТ по умолчанию для www.google.ru
Как по-твоему, поиск без учета морфологии, вообще, способен хоть как-то адекватно считать релевантность?Ладно, сдаюсь. Просто я очень давно уже не пользовался поиском по русским словам.
Из опытных измерений.
Соответственно релевантность выше, как минимум:
за счет кол-ва проиндексированных страниц: у yandex-а в несколько раз больше проиндексированных русских страниц
за счет учета русских словоформ.
Супер. Ну буду знать... Как-то совсем редко пользуюсь русским поиском
D:\>nslookup
Default Server: server-32.hackers
Address: 172.16.32.1
> google.com
Server: server-32.hackers
Address: 172.16.32.1
Non-authoritative answer:
Name: google.com
Addresses: 216.239.37.99, 216.239.57.99, 216.239.39.99
> google.ru
Server: server-32.hackers
Address: 172.16.32.1
Non-authoritative answer:
Name: google.ru
Addresses: 216.239.37.99, 216.239.57.99, 216.239.39.99
Ты это к чему?
да так, просто.. гугль.ком и гугль.ру один ип имеют..
На одном из спецсемов 4го курса, посвящённом всяким поисковикам, нам раскрыли один из главных секретов скорости гугла - он просто после определённого времени (достаточно маленького, определённого статически) перестаёт искать и выдаёт то, что нашёл. Или не нашёл.
Откуда информация?
Я же ясно написал откуда. На спецсеме было. Я даже не помню, кто читал тот спецсем.
Если про выдаваемые пользователю результаты, то какой же это секрет? Вполне естественное ограничение, одним из первых приходящее в голову )
Проходит, условно говоря, две секунды и он выдаёт результат, даже если база ещё не вся просканена. Что непонятного?
про ограничение гугла - оно действительно есть - но совсем не то, о чём пошла речь (глупости про базу)
суть ограничения в следующем - селект идёт по индексам дата-март'ам из текущего обновления (уже закоммиченного индексирования) , остальные же не обновляются и выдаётся инфа напрямую из DWH (хранилища) , подвох в том, что первые результаты уже в кэше, а если перейти на страничку результатов подальше (одна из буковок гОООООООгл) , то будет вызван отдельный подзапрос
з.ы.:ботайте лучше на своём семинаре
вроде бы я не создавал данной темы - а тут наткнулся на данное творение (один из бывших постов)
поясним ?
з.ы.:могу пояснить практически любые вопросы по гуглу (знаком с одним из разработчиков)
А говорил это, кажется, Абрамов. Но не уверен.
Короче ,это не мои слова и я в домике
ограничение по времени на генерение страницы с результатами поиска есть у всех поисковиков, в том числе и у яндекса. а главный секрет скорости гугла - это те сотни тысяч серверов, которые его обслуживают.
Нет. Дословно я не помню, но они реально читерством занимались. Это раскрылось в исходниках и, скорее всего, это было исправлено.
the main benefit of GoooooooGLE search behavior - это отнюдь не сервера, а методы индексации
Да, тогда kyb на нем выехали... А ща у них уже все совершенно другое стоит )
на самом деле - это утверждение моего знакомого, который дорабатывал бету в 98-99 годах вместе с командой Брином и Пэйджа - "движок поисковика не претерпел изменений с того времени, добавлены были лишь новые примочки и интерфейсы"
похоже тема переходит во флуд ... не особо связанный с поиском на русском языке
примочки и интерфейсы - поиск по словоформам, по релевантнасти...
Такой вариант допускаешь?
Ибо ну не верю я , что гугл ищет все по тем же алгоритмам, что и 5 лет назад... Было бы так, давно бы уже зангнулись...
а вот нету принципиально новых алгоритмов в поиске, все уже придумано
тогда почему, например, news.google.com есть только у Гугла?
один из главных секретов скорости гугла - он просто после определённого времени (достаточно маленького, определённого статически) перестаёт искать и выдаёт то, что нашёл. Или не нашёл.может я идиот, но какой нормальный человек просмотрит, хотябы 100 000 ссылок?
проще изменить запрос.
зачем искать, если уже эти 100 000 ссылок нашили?
тем более если большая часть этих сслылок находилось в кэше
Мы ничего не нашли, а, поискав подольше, нашли бы.
http://news.yandex.ru/О! Не знал. Радует конечно, что Яндекс, оказывается, не совсем ещё отстал от гугла...
http://www.novoteka.ru/
И если гугл рулит в англоязычном писке, то яндекс позиционирует себя как русскоязычный поисковик и по поиску на русскоязычных сайтах рвет всех...
По крайней мере он выдает всегда то, что я ищу на первой странице!
В отличие от гугла, который может то-то найти, а потом еще страниц 10 мусолить те же самые слова на страницах того-же сайта...
Только вот рвать-то некого - кругом чешки
Ибо помнится мне в 2000 год и апорт был неплох, и рамблер....
К примеру, берем запрос "Глеб Смирнов" (без кавычек) и ищем. Яндекс находит "не менее 444 сайтов". Сразу жмём на восьмой десяток ссылок. Опа, уже "не менее 421 сайта". Хорошо, теперь ищем на Рамблере. Рамблер находит 948 сайтов. Жмём в 11ый десяток ссылок. Опять 948 сайтов.
Хорошо, теперь охватим наш запрос двойными кавычками, что бы запретить морфологию. Яндекс даёт 87 сайтов, и попытка посмотреть последний десяток ссылок приводит к тому, что мы видим только 71 ссылку, а дальше ничего нет. Рамблер даёт 96 сайтов, и листание не уменьшает их число.
Моё имя не волшебное, вы можете попробовать с разными запросами и будете получать аналогичные результаты.
Внимание, я не хочу сказать, что Рамблер находит всё, что находит Яндекс и даже больше. Внимательное рассмотрение результатов запросов обычно показывает, что вне зависимости от того, какой поисковик нашел больше, он не включает всё найденное другим. Множества пересекаются, но меньшее не является включением большего!
Простая оценка количества найденных страниц, google также делает (или делал). И ничего тут плохого не вижу.
Я показываю, что Рамблер находит больше.
(У yandex-a раньше была такая проблема, сейчас вроде вылечился).
На тему дублей можно поспорить. При подсчете страниц дубли обычно играют роль, но не при подсчете сайтов. Хотя если подобрать такой запрос, который часто миррорится (например цитату из FIDO то тогда будет много дублей.
расположены относительно друг друга: на одной странице" и теперь сравни.
Очень странно, но поиск по "R.O.C. FAQ" в кавычках не находит ни одного миррора фидо. Ни на Рамблере, ни на Яндексе. Находит только ссылки на него во всяких форумах. Рамлер - 3 сайта, Яндекс - 1 сайт.
Ладно, попробуем "орёл лапчатый" без кавычек. Кто читал ru.anti-antisex догадывается, о чём речь. Опять ни одного миррора fido Но, что интересно, Рамблер находит 5 сайтов, где встречаются эти два слова. Яндекс находит аж 1121. Фигасе как много. Вот только на них есть одно из этих слов, а не два. Выходит у Рамблера по дефолту между словами &, а у Яндекса |. Будем знать.
Не совсем так. У них поиск по кворуму, т.е. ищут m из n слов запроса.
Попробуй в yandex-е в расширенном поиске сказать "Искомые словаДействительно, больше. Опять же различие дефолтных настроек поисковиков. Если в Рамблере сделать расширенный поиск и указать, что расстояние между словами ограничено (аналог "не очень далеко" в Яндексе то оно находит 592 сайта, что конечно меньше чем 940, но всё же больше чем 380.
расположены относительно друг друга: на одной странице" и теперь сравни.
Попробуй в yandex-е в расширенном поиске сказать "Искомые словаКстати, это не применимо к случаю, когда мы два слова охватили кавычками.
расположены относительно друг друга: на одной странице" и теперь сравни.
В первую очередь яндекс рвет всех в пиаре самого себя. Я не хочу сказать, что в техническом плане они чешаки, наоборот, они лидеры, в общем-то... но позицируют они себя просто на недосягаемую высоту, этакий мегарокетсайнс.
согласен, что яндекс пытается поглотить собой область поиска в и-нете, тем не менее слияние с Рамблером было более грамотным маркетинговым ходом, ибо рекламная составляющая рамблера бьёт любой российский портал на сегодняшний день. Политика ясна - поиск и развлечения на Яндексе - реклама и ссылки на Рамблере.
поиск и развлечения на Яндексе, реклама ... на РамблереЧего-то я не догнал, разве поисковики не рекламой живут?
з.ы.:я немного пьяный и видимо изъясняюсь неочень
По поводу релевантности результатов гугла и яндекса. Я бы выделил 2 типа вопросов: по ключевым словам ( купить велосипед дорого, Маша Иванова ) и цитаты ( "выпьем с горя где же кружка" ). В первом случае рулит конечно яндекс, потому что мне нужна Маша, Машу, Марию и т.п. и мне пофигу в каких 20 из 200 магазинов присматривать велосипед. Но в случае точных цитат часто яндекс меня совсем посылает, а гугл находит 1-2 страницы (иногда все не в зоне .ru). Единственный вывод который я могу из этого сделать --- гугл заиндексировал больше страниц на русском, а у яндекса просто есть русская морфология и мб лучше настройки поиска.
А вот ести надо искать в английском варианте, то тут гугл без обсуждения... Ибо сам яндекс говорит, что регистрирует только рускоязычные ресурсы...
Когда яндокс об этом будет печься - хз.
это то конечно да, но стоит учесть, что живем то мы в россии, и если нам нужен поиск по рускоязычным ресурсам, то яндекс рулит...Опять легенда. Прочти внимательно то, что написал . Если ты ищешь четко обозначенную цитату (как правило, охваченную скобками то в большинстве случаев Google найдет больше сайтов, чем Яндекс, по той причине, что у него больше объем базы. Перед тем как спорить рекомендую поэкспериментировать.
Хочеться увидеть примеры запросов.
взятые наугад цитаты показывают другое:
"Семь раз отмерь - один раз отрежь" - ya.ru - 13286, google.com - 4,570
"Новое обличие императора" - ya.ru - 10107, google.com - 722
"автомат Калашникова" - ya.ru - 73473, google.com - 34600
"почему она пропала я ее не обижала"
"варкалось хливкие шарьки"
"плясовницею слыву да притворщицей"
Результатов мало и можно проследить, что даже если у яндекса больше, то не включает все что у гугла. И что доменное имя пофиг.
Каждый из вопросов в кавычках и без. Очень интересно посмотреть когда яндекс без кавычек находит а в кавычках нет. В последнем запросе такого много и почему для меня загадка.
Если запросы чуть поменять, то ситуация меняется:
"хливкие шарьки" - ya.ru - 413, google.com - 160
"варкалось хливкие" - ya.ru - 1839, google - 1830
Ну, я думал заранее, что спросить чтобы подтвердить мою теорию, но потом не перегадывал. Вреоятно моя главная ошибка когда я искал раньше --- в случаях редкой цитаты нужно искать яндексом без кавычек. Я же искал в кавычках в яндексе, потом в гугле и запоминал что гугл хороший.
Не "шарьки", а "шорьки". От того и разница такая в количестве сайтов.
Это точно. Классику надо знать!
"воркалось хливкие шорьки"
yandex 536, google 51
"Семь раз отмерь - один раз отрежь" - ya.ru - 13286, google.com - 4,570Это не взятые наугад цитаты. Пословица, название книги, и очень часто встречающееся словосочетание.
"Новое обличие императора" - ya.ru - 10107, google.com - 722
"автомат Калашникова" - ya.ru - 73473, google.com - 34600
Запросы в которых гугл выигрывает, это когда ты ищешь большой текст, который существует в инете в нескольких экземплярах. Ты знаешь одно предложение из этого текста. Например цитата: "Как бороться со сменой IP адресов клиентами локальной сети?", охваченная кавычками. Яндекс - 6 сайтов, Google - несколько сотен.
в большинстве случаев Google найдет больше сайтов, чем Яндекс, по той причине, что у него больше объем базы.у гугла и яндекса принципиально разный подход к поиску.
релевантность у гугла определяется кол-вом ссылок ведущих на данную страницу.
именно поэтому гугл - идеален для поиска хоумпейджей и ответов на часто-задаваемые-вопросы.
у яндекса релевантность строится по иным правилам (я их не знаю).
плюс к этому разные поисковики индексируют разный контент: содержимое мета-тегов, комментарии, комментарии к картинкам, сам текст, всплывающие подсказки.
из-за этого получается различное кол-во результатов поиска.
далее: у каждого поисковика своя система выкидывания "накрученных" сайтов и фильтрации оных, чем тоже объясняется разное кол-во результатов.
PS. алгоритмы работы рамблера не знаю вообще, Глеб, может ты знвешь принципы его инидексирования и построения релевантных зависимостей?
На самом деле он находит всего 29.
да тут я смотрю прям "сёрч-холи-вор" начинаецца
релевантность у гугла определяется кол-вом ссылок ведущих на данную страницу.Первое утверждение ИМХО не верно, а вывод вообще непонятно как получился из первого утверждения.
именно поэтому гугл - идеален для поиска хоумпейджей и ответов на часто-задаваемые-вопросы
У гугла есть штука под названием Pagerank. Чем больше pagerank у сайта - тем выше сайт будет в результатах поиска. Pagerank зависит не только от числа ссылок на данный сайт, но и от того, какой Pagerank у сайтов, с которых ведут ссылки.
Первое утверждение ИМХО не верно, а вывод вообще непонятно как получился из первого утверждения.pagerank формируется из pagerankov ссылающихся сайтов... в чем ошибочность моего утверждения? ты просто уточнил, КАК именно релевантность определяется. но причины остались те же..
У гугла есть штука под названием Pagerank. Чем больше pagerank у сайта - тем выше сайт будет в результатах поиска. Pagerank зависит не только от числа ссылок на данный сайт, но и от того, какой Pagerank у сайтов, с которых ведут ссылки.
второе утверждение вытекает очень просто какой сайт будет хоумпейджем компании "рога и копыта", с вероятностью 95 процентов именно тот на который ссылается большинство источников содержащих слово "рога и копыта".
Про шорьков не знаю как пишется, но мне взбрело значит актуальный запрос
Далее могу заметить, что никакой из поисковиков не вычисляет ранк только исходя из контента, т.к. отражения одного и того же в результатах поиска идут не подряд. Значит сайт, где это опубликовано как-то влияет.
Вообще, не вижу серьёзных альтернатив гуглу при англоязычном поиске (если, конечно, не требуется специализированный поиск).
Вроде, не "воркалось", а все-таки "варкалось", потому что это время, когда пора варить обед, а шорьки - потому что гибрид штопора и хорька
Вообще, не вижу серьёзных альтернатив гуглу при англоязычном поиске (если, конечно, не требуется специализированный поиск).есть мнение, что у Yahoo способ индексации и определения релевантности близок к Яндексу. (точнее наоборот). отсюда можно предположить, что для англоязычного поиска можно использовать Яху.
но я сам использую гугл
ИМХО Yahoo не сканирует веб так агрессивно и массово, как это делают роботы Гугла.
(Это точно не ошибка)
+
>Я слышал, что
Что за народ - лиш бы поболтать.
Прежде чем что-то говорить, узнай так это или нет. (Например, на самом яндексе почитай, что он пишет о себе)
А про всякие алгоритмы кто как ищет тебе никакой умный человек не скажет: секреты хранить надо.
http://www.google.com/search?as_q=&num=10&hl=en&btnG=Google+Search&as_epq=&as_oq=&as_eq=&lr=&as_ft=i&as_filetype=&as_qdr=all&as_occt=any&as_dt=i&as_sitesearch=.ru&safe=images
найдено 41.7 млн страниц
http://company.yandex.ru/
Яндекс сегодня
Уникальных серверов: 1 692 499,
уникальных документов: 425 688 378,
объем проиндексированной информации: 11 936 ГБ.
rambler 233573 документов
yandex 156639
google 42300
site:3dnews.ru
rambler 29564
yandex 63396
google 44900
поверхностный вывод:
в рунете ищи на русском сначала в яндексе и/или рамблере, а потом только в гугле
а на 3dnews.ru 138,000
так что поверхностные выводы противоположны?
запрос - "поисковая система", 1 место - Яндекс
запрос - "лучшая поисковая система", 1 место - Google
Вот так
чувэ, меня пробрало с твоего поста
site:lenta.ruданный запрос в очередной раз подтверждает, что рамблер и яндекс имеют кривой синтаксис запросов, так как 'site:' означает в гугле поиск по сайту - соответственоо находятся релевантные страницы = итог: на яндекс либо криво индексируют обновления (не избавляясь от дубликатов либо ты фальсифицировал результаты
rambler 233573
yandex 156639
google 42300
Лучше оцени скромность гугла этими же запросами
Кстати, да. А в Рамблере правильный ответ, похоже hardcoded.
зайди на Yahoo | Altavista -> посмеёшься
Оставить комментарий
Lorin
гугл лучше любого поисковика - задай ЛЮБУЮ строку и посмотри (кол-во результатов)/(время)^2 у гугла данный параметр будет в 2^10 раз лучше тех же яндекса яху и т.д.