can3p: (Default)
[personal profile] can3p

Волею случая заинтересовался вопросом, что возвращает в мир поиск Яндекс.Блогов и нашел интересное. Интересное было связано с ограничениями выдачи по времени.

Экспериментировал я со словом «Пекин». Будет много ссылок.

Интро – цифры могут гулять, выдача же живая.

Первым интересным результатом оказалось то, количество найденных результатов вполне может увеличиться. Пример, просто ищем по слову пекин – 6000 результатов. Теперь ищем то же самое, но с ограничением с 1 октября до 1 ноября 2010, тадам – 17000 результатов. Нам, конечно, все равно, т.к. просмотреть можно только первую тысячу результатов, но вопрос остается, как же так.

Если указать промежуток времени, то поиск выдает результаты отсортированные по дате, начиная с самых новых. В последнем запросе первый результат датировался 1 ноября, 23:49. Вкупе с ограничением по дате это может привести к тому, что вы не получите результаты за весь месяц, как вероятно ожидали. Обратимся к последней странице второго запроса. У меня последний запрос датировался 29 октября, круто. Отсюда вывод – надо ограничивать либо время, либо другие параметры, чтобы влезть в ту самую тысячу.

Теперь перейдем к более странному и гораздо более неприятному. У яндекса есть возможность отдавать результаты поиска в xml формате. И это хорошо, ваши программы могут эту выдачу легко парсить. Просто сервер опрашивать по некоторой информации небезопасно, т.к. за слишком частые запросы яндекс вполне может забанить.

Плохое состоит в том, что rss-поток результатов по своему содержимому не всегда соответствует обычной выдаче. Если искать просто по ключевым словам, то все хорошо. «Пекин» – html, rss. Добавим страну, будем искать в России – html, rss, все тоже хорошо. С параметром ft=all, т.е. искать везде, все тоже отлично, переходим ко времени. Ищем, начиная с 1 октября – html, rss, выдача совпадает, но количество результатов уже разное. В моем случае html-выдача сообщает про 7300 найденных результатов, rss знает только про 1400. Добавляем ограничение сверху, ищем до 1 ноября – html, rss. 3100 результатов против (!) 32. Выдача, конечно, отличается визуально.

Уже написав все это, увидел внизу переключалки с сортировки по дате к сортировке по релевантности. Все ок, они работают и даже влияют на rss-выдачу, хоть это и не задокументировано, но количество результатов при этом не меняется. Пробовал также искать с помощью языка запросов, результаты получаются идентичными. Отсюда могу сделать вывод, что неудачная фильтрация результатов происходит же в самом конце.

Еще про параметры запросов. Есть параметр numdoc, который отвечает за количество возвращаемых разом результатов. Так вот, максимальное значение параметра – 100 результатов, при превышении параметр сбрасывается до умолчальных десяти. Действует кстати а на обычную выдачу


Оригинал: http://blog.dpetroff.ru/tech/yandex_blogs_strange_search

Profile

can3p: (Default)
can3p

April 2017

S M T W T F S
      1
2 3 45678
9101112131415
16171819202122
23 242526272829
30      

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jul. 7th, 2025 06:27 pm
Powered by Dreamwidth Studios