«Яндекс» внедрил технологию сверхбыстрой индексации свежих материалов
2010-07-10Так называемый «быстрый робот» действует в поиске «Яндекса» уже несколько лет. Он занимается быстрым индексированием и выкладкой в поисковую выдачу наиболее интересных из только что появившихся документов. Этот робот построен по «пакетному» принципу, и задержка на обработку документов у него составляет не менее 20 минут. Теперь же «Яндекс» представил новые технологии, позволяющие реагировать на появление новых материалов в режиме реального времени. «Сверхбыстрый» поиск представлен двумя взаимодействующими разработками — «Orange Crawler» и «Real-Time поиск». Данные технологии созданы сотрудниками калифорнийского отделения «Яндекса» — Yandex Labs (в сотрудничестве со специалистами из московского офиса).
Робот «Orange» способен находить самые свежие документы в режиме реального времени. Для этого он изучает ссылочную структуру Интернета, обходя некоторую часть «старых страниц». Из найденного «свежака» робот выбирает самые интересные документы и мгновенно рассчитывает для них ссылочные факторы ранжирования. Затем в действие вступает второй робот — «Real-Time поиск», который индексирует найденные документы и сразу же выкладывает их в поисковую выдачу. Как отметил менеджер качества поиска «Яндекса» Федор Романенко, в настоящее время ценность информации типа real-time серьезно возросла. Часто люди ищут в Интернете именно такие сведения – особенно это касается новостей. Представленные технологии позволяют сделать это довольно легко и быстро. Но и в дальнейшем «Яндекс» будет улучшать качество поиска по новостным запросам.