Поисковые машины и технологии: Рецепт вашего поисковика на примере ТехОбзора
Так как Хабр я люблю и уважаю, решил проанонсировать наш новый нишевой поисковик здесь, а заодно и попросить помощи у сообщества.
Итак, ТехОбзор это новый поисковик, который поможет вам легко найти тесты, обзоры и отзывы пользователей современной бытовой и потребительской техники.
Пару слов о нем, и подробный рецепт создания вашего собственного поисковика
То, что проще перед покупкой почитать тесты и отклики реальных пользователей понравившейся железки, чем потом кусать локти из-за скоропалительного решения, ни у кого не вызывает сомнения. Проблема в том, что многочисленные добропорядочные и не очень продавцы этой самой техники тоже знают об этом нашем обыкновении. Поэтому чем дальше, тем больше спекулируют на запросах, начинающихся со слов "обзор ...", "тест ...", "отзывы ...".
Задача ТехОбзора – дать доступ ищущим к «чистому знанию» в виде поисковой выдачи действительно содержащей ссылки на тесты, обзоры и отзывы пользователей, а не на маскирующиеся под этим видом «супервыгодныеуникальныепуперпредложения».
Не имеет смысла долго рассказывать о нашем поисковике и раздувать из мухи слона - составить представление о том, что может и чего не может ТехОбзор, вы можете просто задав пару запросов - например, о технике которая стоит на вашем столе, или которую вы собираетесь приобрести. Уверен - узнаете много нового :)
Теперь перехожу к обещанному рецепту создания собственного поисковика.
На самом деле, сделать нишевой поисковик в наше время совсем несложно - благо Google CSE дает довольно широкие возможности даже при минимальном владении инструментами разработки. А если к этому приложить немного программистских навыков и капельку дизайна, то может получиться вполне привлекательная штучка.
Но для того, чтобы получить свою аудиторию, поисковику не достаточно просто существовать. Он должен значительно превосходить своих старших братьев типа Яндекса и Гугла в чистоте выдачи. А вот этого достичь как раз совсем непросто. И успех здесь лежит только в одном направлении — очень качественный подбор ресурсов, которыми ограничивается поисковый индекс.
Итак, если вы собрались сделать свой нишевой поисковик, необходимо облазить интернет и аккуратненько насобирать два мешка URL:
Мешок №1: Список сайтов, на которых публикуется качественная информация по теме поиска. В случае ТехОбзора это:
- сайты онлайновых и оффлайновых СМИ, публикующие тесты и обзоры;
- тематические форумы, на которых происходит обсуждение новинок техники, а также
технических проблем;
- разделы коммерческих сайтов (в первую очередь, интернет-магазинов), которые
публикуют хорошие тесты и обзоры техники, написанные независимыми журналистами.
При этом важно, чтобы отобранные сайты публиковали уникальные обзоры, а не просто дерли без особого разбора статьи с других источников. Проверяется это либо по ссылкам после статьи (все-таки, большинство уже указывает источник, откуда взята статья), либо с помощью специальных систем проверки типа Copyscape.
Также важно стараться по возможности выделять на сайте-источнике именно тот раздел, в котором публикуется нужная информация. В нашем случае это было относительно легко – на большинстве сайтов статьи расположены по урле типа domain.ru/article/stat1.html . Тогда в список вносится повторяющаяся часть URL - domain.ru/article/ - и в Google CSE выбирается параметр «Include all pages whose address contains this URL» (он, кстати, выбран у гугла по умолчанию). Теперь поиск будет производиться только в этом разделе, а остальная часть сайта будет проигнорирована.
Почему это полезно? Потому что:
- даже на достаточно серьезных сайтах рунета часто встречается линкопомоечная страница, содержащая тонну ссылок на всякие славные ресурсы с сопутствующими текстами, которые совсем не украсят поисковую выдачу вашего будущего поисковика;
- на сайтах часто встречаются заброшенные гостевые книги или плохо модерируемые форумы с вытекающими отсюда конфетками типа «всех проституток Москвы», которые тоже неожиданно будут радовать посетителей вашего поисковика;
- один и тот же сайт может содержать разделы из разных сфер, в том числе и не соответствующих вашим задачам, и они также будут замусоривать выдачу. В нашем случае часто встречались разделы «Игры», «Новости Интернета» и т.п., которые к обзорам техники не имеют никакого отношения.
Мешок №2: Стоп-лист. Очень важно сделать и поддерживать список страниц-исключений. Причины тут те же, что я описал выше. Просто не всегда удается четко выделить нужный информационный раздел, и тогда приходится идти от обратного – указывать сайт целиком и потом вносить в стоп-лист те страницы и разделы, которые не должны попадать в поисковую выдачу. Гугл дает небольшой, но достаточно функциональный инструментарий для задания паттернов страниц, которые вы хотели бы исключить из своей выдачи. Он достаточно хорошо описан на сайте Google CSE.
После того, как вы проработали эти два списка (у нас ушла на это неделя плотной работы одного редактора), можно забить их в интерфейс Google CSE (прямо гуртом, там все хорошо продумано в этом плане), и начинать тестировать поисковик. Тестировать нужно долго и тщательно, используя не только правильные и красивые запросы, но и такие, которые провоцируют проявление мусорных страниц. Все выявленные страницы и разделы вносим в стоп-лист. И так до бесконечности – потому что нет предела совершенству :)
По этому алгоритму мы провели достаточно большую работу над набором сайтов, по которым ищет тесты и обзоры ТехОбзор. Но за время этой работы глаза замылились, руки заклинились, а мозг побежал по кругу. Поэтому я хочу попросить у вас помощи в ее завершении.
Помощь, в принципе, простая, и заключается она в пополнении Двух Мешков ТехОбзора ссылками, которые есть в ваших закладках или которые вы сможете найти. Я понимаю, что большинство хабровчан люди занятые, поэтому со своей стороны обещаю, что ваши усилия не останутся неоцененными:
- за каждую ссылку на сайт, публикующий тесты и обзоры, присланную мне на хабрапочту или указанную в комментариях, я гарантирую плюс к карме приславшего;
- за каждую найденную мусорную страницу или раздел в выдаче ТехОбзора – плюсик за комментарий.
Ссылки на сайты с обзорами должны отсутствовать в ТехОбзоре и соответствовать простым правилам, описанным на сайте (щелкаем на ссылку "Для тех, кто хочет, чтобы нашли"). Если одну и ту же ссылку опубликуют разные люди – то работает принцип первенства.
Я понимаю, что от этих плюсиков особо никому не холодно и не жарко, но с моей стороны это то немногое, чем я могу выразить свою признательность за помощь в нашей работе.
Спасибо всем, кто откликнется!
- Opera: Opera 9.5 для разработчиков С версией 9.5 Опера полностью перешла на новый движок Core-2. Теперь Opera Kestrel может предложить разработчикам несколько новых фич для использования на сайтах. Уже сейчас Вы можете оценить новые фишки CSS3, SVG и новый движок для Javascript. Скажи привет CSS3 селекторам Кестрел поддерживает весь список CSS3 селекторов. С помощью них, например, можно создавать группы элементов без добаления лишних тегов или имен классов.Исполосуй таблицы Чередовать цвета строк в таблицах - довольно популярна
- Бывшие владельцы “Петерхоста”дали провайдерам пузомерку В сервисе 1stat.ru появился рейтинг провайдеров по числу размещенных у них доменов, а также возможность сравнивать провайдеров по категориям.Создатели сервиса, бывшие владельцы "Петерхоста" Дмитрий Костяхин и Виталий Шубинский, ведут статистику зоны RU с октября 2004 года. Новый проект стал развитием их старого сервиса domstat.p8.ru, обогатившись новыми функциями. Наиболее интересной фичей 1stat.ru является возможность сравнения провайдеров в рамках своей категории - ISP, регистраторы, хостеры,
- Веб-стандарты: Google Suggest в стиле HTML5 Введение HTML5 — следующая большая переделка HTML (и XHTML), и разрабатывается совместно группами WHATWG и W3C HTML WG (работа еще не завершена, но в этой статье мы будем называть её просто HTML5). Я уже описывала начала HTML-форм и возможные улучшения с помощью HTML5 в моей предыдущей статье, поэтому сейчас рассмотрю некоторые более сложные аспекты полей ввода в HTML5, и завершу примером, демонстрирующим простоту создания автодополняющегося поля ввода — коротким серверным скриптом и нескольким
- Ruby: Знакомство с Ruby on Rails (часть 2) В пpoдoлжeнии cтaтьи ”Пepвoe знaкoмcтвo c Ruby on Rails” мы нaучимcя paбoтaть c бaзoй дaнныx, и coздaдим кaтaлoг cтaтeй.Узнaeм кaк нaпиcaть плaгин, пoпpoбуeм иcпoльзoвaть AJAX и paccмoтpим нeкoтopыe пpoблeмы пpи paзвёpтывaнии пpилoжeния нa xocтингe.Нaчнeм c бaзы дaнныx.Я paбoтaю c MySQL, пoэтoму пpимepы уcтaнoвки будут для нeё.Пoльзoвaтeлям Windows нужнo cкaчaть и уcтaнoвить MySQL-5.0.Пoльзoвaтeлям Linux (Ubuntu) eщe пpoщe:$>sudo apt-get install mysql-server-5.0 libmysql-rubyПocлe
- Тёмная сторона Pages и Numbers Постинг в блоге "Компьютерры-Онлайн"Автор: Олег ПарамоновОпубликовано 01 ноября 2007 годаПохвалы, которые я раздавал Pages и Numbers, полюбовавшись на их демо-версию, когда они только вышли, вероятно, стоит считать недействительными. Переехав на новый ноутбук, где ещё не были установлены традиционные Word и Excel, я решил проверить их по-настоящему - вдруг сгодятся.Не сгодились. При ближайшем рассмотрении и в той, и в другой программе обнаружились недостатки, мириться с которыми по собственной