Какая поисковая система появилась раньше других. История поисковых систем. Персональные результаты и пузыри фильтров

Принято считать, что история первых поисковиков российского сегмента интернета начинает свой отсчет с 1995 года. Именно в этом году пользователям Рунета стало доступно морфологическое расширение к поисковику Altavista. Практически следом за расширением появились оригинальные поисковики Апорт и Рамблер, которые и считаются первыми российскими поисковыми машинами.

AltaVista появилась в декабре 1995 г. и была поддержана самым мощным доступным на тот момент вычислительным сервером DEC Alpha. Это был самый быстрый поисковик, который мог обрабатывать миллионы поисковых запросов в день.

Апорт

Поисковая система Апорт была продемонстрирована широкой общественности на несколько месяцев раньше Рамблера в феврале 1996 года. На момент своего запуска машина производила поиск только по сайту russia.agama.com. В дальнейшем разработчики Апорта продемонстрировали крайнюю нерасторопность в развитии своего проекта, очень долго налаживая поиск, сначала по 4 серверам, потом по 6. Индексировать весь Рунет Апорт научился только к ноябрю 1997 года, тогда же и прошла его официальная . К этому моменту в русскоязычном сегменте уже успешно работал другой поисковик под названием Рамблер.

Несмотря на все эти обстоятельства, Апорту до начала 2000-х гг. удавалось успешно конкурировать с основными игроками рынка Рамблером и Яндексом, и входить в список лидеров поиска в Рунете. Впоследствии, компания создавшая эту поисковую систему была выкуплена телекоммуникационным холдингом, все разработки были прекращены, и Апорт быстро сдал свои позиции, уступив своим основным конкурентам.

На данный момент Апорт представляет из себя электронную торговую площадку, с большой базой фирм и компаний, предлагающих более 8 миллионов наименований товаров, в 1400 категориях.

Рамблер

Создать оригинальную российскую поисковую машину команда телекоммуникационной компании Стек решила еще в 1994 году. К тому моменту Стек уже имел определенный опыт в работе с сетью интернет, серверами и веб-сайтами. Работая с русским сегментом интернета, специалисты компании определили, что зарубежные поисковые машины практически не воспринимают кириллицу и страницы с несколькими кодировками, и очень плохо индексируют сайты Рунета.

Rambler» в переводе с английского языка - «странник», «бродяга», «праздношатающийся человек».

Ядро нового поисковика буквально за несколько месяцев написал программист Дмитрий Крюков. Работа над новой машиной финансировалась компанией Стек, создатель которой Сергей Лысаков активно помогал Крюкову в его весьма непростой работе. Название Рамблер и логотип будущей поисковой системы, также Дмитрий. Домен rambler.ru был зарегистрирован 26 сентября 1996 года, а 8 октября поисковая машина носящая название Rambler была выложена ее создателем в сеть. На тот момент новым поисковиком было проиндексировано 100 тысяч документов, что являлось продуманным и стратегически важным шагом, позволившим Рамблеру на несколько лет стать безоговорочным лидером поиска в Рунете.

В первые годы развития интернет сообщества, активные интернет пользователи были меньшинством, а объем информации на интернет ресурсах сравнительно небольшим. Доступ к мировой информационной сети имели в большинстве своем только работники научных лабораторий и больших учебных заведений. В целом использование сетевого ресурса не было так актуально, по сравнению с сегодняшним днем.

История развития поисковых систем

Большим шагом в сторону распространения интернета в массы стало появление в 1990 году сайта info.centr.ch. Этот сайт представлял собой первый общедоступный каталог интернет сайтов. Создателем является ученый из Британии Тим Бернерс-Ли, который так же считается создателем URI, HTTP, World Wide Web и URL. С того момента интернет сайты стали актуальны не только в специализированных кругах пользователей, но и среди обычных обладателей домашних компьютеров. В этом каталоге, для удобства, ресурсы с информацией были скомпонованы на основе групп по схожей тематике, что заметно облегчало поиск информации.

Но прогресс на этом не остановился и в 1994 году на свет появляется разработанная университетом Карнеги технология поиска, известная как Lucos. Этот каталог, ответственным за создание которого был Майкл Малдин, стартовал с ресурсом более 50 000 документов. В Lucos, в запросах учитывали приближенные совпадения запроса, а результат поиска ранжировался в зависимости от совпадения вводимой и выводимой информации. А так же, шло постоянное пополнение ресурса новыми интернет страницами. В ноябре Lucos насчитывал уже более 55 миллиионов страниц и документов, намного больше чем у любого каталога документов того времени.

В конце 1994 года появился ресурс Infosek. Он имел ряд преимуществ относительно других ресурсов. Например добавление сайтов пользователем в базу каталога в режиме реального времени.

Новым монстром в сфере поисковых систем в 1995 году стала AltaVista. Она быстро заслужила популярность среди интернет пользователей и заняла передовые позиции в своей сфере. Главной ее особенностью стала возможность формулировать запросы на естественном, разговорном языке, а так же юзерам было дозволено добавлять собственные URL адреса. Но все же основной заслугой AltaVista являлась поддержка множественных языковых пакетов, таких как корейский, японский, и китайский, а так же русский.

Огромным шагом в поисковых технологиях стало появление на просторах интернета новой поисковой системы, название которой на сегодняшний день на слуху у каждого пользователя, а именно Google. В 1997 году, Л. Пейдж и С. Брин из Стэнфордского университета внедрили в поисковые алгоритмы своего детища новые возможности. В поиске использовались системы релевантности выдаваемых системой результатов поиска, а при запросе в учет ставились морфология и возможные орфографические ошибки.

В наше время на рынке поисковых систем четко выделяются три основных лидера - Bing, Google и Yahoo. В их распоряжении имеются поисковые алгоритмы и базы собственного производства. Многие поисковые системы, коих существует множество, используют наработки именно этих трех титанов среди поисковых систем.

Благодаря поисковым системам простому человеку стало легче открывать для себя необъятные просторы информационного поля. Без их развития невозможно совершенствование способов обмена информацией между людьми.

1. Введение

Поисковая оптимизация сайтов обычно включает в себя преобразование структуры сайта, наполнение текстовым содержимым в зависимости от продвигаемых запросов, а также различные способы повышения цитируемости ресурса. Кроме стандартных оптимизационных процессов имеются многочисленные методы, которые применяются уже к конкретной поисковой системе. Конечно, поисковики с открытыми кодами пока редкость, и оптимизаторам есть над чем поломать головы, но некоторые основные закономерности поведения можно проследить и у уже утвердившихся систем.

В этом мастер-классе мы с оттенком сравнительного анализа рассмотрим самые популярные зарубежные поисковики и поисковые системы России.

2. Российские поисковые системы

Google, Yandex, и Rambler на сегодняшний день считаются наиболее популярными поисковыми машинами в России. Система Yandex является более посещаемой и имеющей в необходимой степени релевантную выдачу, следовательно, чаще всего оптимизаторы берутся продвигать ресурс именно в этой системе.

Рассмотрим более подробно каждую их этих поисковых систем.

Google

Google имеет свой российский аналог, менее популярный чем исходный американский, но ничем ему не уступающий по качеству поиска. У Google в России есть многочисленные поклонники, считающие, что этот поисковик выдает наилучший результат.

PageRank, используемый в Google, в основном основан на link popularity. Т.е. при вычислении релевантности страницы наибольший вклад имеет количество и качество ссылок на страницы с других страниц.

На данный момент база данных Google насчитывает более миллиарда проиндексированных страниц.

Google - одна из немногих поисковых систем, которая глубоко индексирует ваш сайт. Google использует link popularity как наиболее весомый фактор в определении релевантности страницы. Поэтому большим и популярным сайтам проще попасть на высокие позиции в результатах поиска. Это также защищает Google от спама.

Google полагает, что следующие факторы будут наиболее весомыми при ранжировании страниц:

  • Link popularity (индекс цитирования);
  • Keyword proximity and density (плотность и частота ключевых слов);
  • Keywords in the link text (ключевые слова в ссылках);
  • Emphasized text (выделенный текст).
Yandex

Отличительная особенность Yandex – интуитивный поиск во всех словоформах. Уникальная разработка под особенности русского языка.

В каталоге Яндекса используется такое понятие, как тематический индекс цитирования (тИЦ) . Он определяется количеством и качеством внешних ссылок на ваш сайт. На качество ссылки влияет тИЦ ресурса, ссылающегося на вас. Немаловажную роль играет тематическая близость вашего сайта ссылающимися на вас ресурсам.

При подсчете индекса цитирования не берутся во внимание ссылки с форумов, веб-досок, конференций, сайтов, расположенных на бесплатных хостингах (если они не описаны в каталоге Яндекса). Естественно, не учитываются ссылки с тех сайтов, которые Яндекс не индексирует (например, зарубежные сайты).

Количество хостов зависит от посетителей (чем их больше, тем больше хостов), а индекс цитирования Яндекса – от авторов сайтов (чем больше авторов поставят ссылку на ваш ресурс, тем выше значение CY).

По значению индекса цитирования определяется релевантность ресурса в каталоге Яндекса и, соответственно, позиция вашего сайта в выбранном разделе.

Переиндексация документа происходит примерно раз в две недели, но под каждый сайт робот подстраивается в отдельности. Все зависит от частоты обновления. По словам Яндекса, тег < meta name="Revizit-after" content="n-days"> никакой роли в работе робота не играет.

Яндекс индексирует российскую сеть, поэтому в поисковую машину вносятся сервера в доменах su, ru, am, az, by, ge, kg, kz, md, ua, uz. Остальные сервера вносятся, только если на них найден текст на русском языке.

Информация в заголовке (тег < title >) Яндекс отображает в результатах поиска. Слова, находящиеся в теге < title >, имеют больший вес чем все остальные. Ключевые слова в теге < meta> также увеличивают вес слова в документе, но только если само слово находится на странице.

Помимо вышеперечисленных способов, на релевантность слова влияют частота его использования в заголовках (< h1>, < h2> ...), в атрибуте alt, во всплывающих подсказках (тег < acronym>) и процент встречаемости этого слова в документе, т.е. как часто вы его используете. Но при этом необходимо сохранить смысл документа, иначе Яндекс может посчитать это слово спамом.

Rambler

Является лучшим рубрикатором на сегодняшний день. Удобен тем, что все ресурсы разбиты на разделы, подразделы и т.д. Многие из них участвуют в рейтинге Top100, что позволяет определить популярность того или иного ресурса.

Считается, что основополагающим фактором для продвижения сайта в Rambler является хороший контент и посещаемость, измеряемая с помощью установленного на сайте счетчика. Таким образом, высокие позиции в рейтинге может занимать сайт хорошо раскрученный, качественно и давно зарекомендовавший себя в интернете, с большой посещаемостью.

Aport

Наименее популярная из перечисленных поисковых систем. Основные критерии, которые данная система учитывает при сортировке сайтов:

  • количество искомых слов в тексте документа (в процентах), расстояние между поисковыми словами в тексте документа;
  • место в тексте, где встречаются поисковые слова (заголовок, описание, мета-тег и т.п.);
  • внешний вид шрифта, которым набраны в тексте искомые слова (размер, жирность, цвет);
  • количество ссылок из Интернета на данный документ;
  • использование искомого слова в тексте ссылок из Интернета на данный документ.

3. Зарубежные поисковые системы

Представленные ниже зарубежные поисковые системы широко известны и используются во всем мире. Для веб-мастеров эти поисковые системы – наиболее важные места для регистрации, так как потенциально они способны привести большое количество посетителей на сайт. Некоторые из перечисленных систем не являются полноценными поисковиками, а лишь используют ресурсы других известных поисковых систем.

Считается по количеству проиндексированных страниц одной из наиболее крупных поисковых систем. Большую популярность система получила благодаря возможности вести поиск по усложненным критериям отбора. AltaVista предлагает дополнительные услуги в виде поиска по каталогам из Open Directory, LookSmart, Ask Jeeves.

Google – это поисковая система, которая использует количество ссылок на веб-сайт, как основной параметр популярности сайта. Это особенно полезно при поиске хороших сайтов с помощью простых поисковых запросов. Google знаменит высокой релевантностью ссылок. Google имеет очень большую базу данных проиндексированных сайтов и предоставляет часть своих результатов Yahoo и Netscape Search.

Yahoo является наиболее популярным и старейшим поисковым средством. В Yahoo работает около 150 редакторов, которые составляют и редактируют содержимое своих каталогов. Yahoo имеет в базе данных более 1 миллиона проиндексированных сайтов. Также, в случае нехватки своей собственной базы данных, Yahoo использует базу данных Google, а ранее, надо сказать, использовал базу Inktomi.

Direct Hit измеряет количество кликов. Сайты, по которым больше кликают, получают лучший рейтинг. Известна под названием "поисковая система популярности".

Результаты Direct Hit также появляются в HotBot, а также, в виде опции, могут показываться в MSN Search.

Результаты системы берутся из LookSmart, Inktomi, RealNames и Direct Hit. Для пользователей Search существует уникальная возможность сохранять результаты предыдущего поиска.

Ярким отличием системы является то, что позиции в выдаче продаются. GoTo считает такую выдачу более релевантной. Также можно купить более высокие места в различных рейтингах. Неоплаченные результаты предоставляет Inktomi.

В этой системе не реализована возможность ввода поискового слова напрямую, только через интерфейс других поисковых систем. А таких превеликое множество.

Характерной чертой можно назвать отличные результаты для каждого их партнеров этой базы. Варьирование результатов предоставляет возможность выдаче отдельного поисковика отличаться от других.

Наполнение данной системы осуществлялось с привлечением добровольцев. После достаточного формирования стало возможным свободно пользоваться ее результатами. В настоящее время Open Directory используют Lycos, AOL Search, AltaVista и HotBot.

Отличительная особенность этой системы заключается в том, что при наборе ключевого слова (например, бренда компании) можно попасть на официальный сайт этой компании.

4. Особенности продвижения

Какой бы ни была поисковая система, российской или зарубежной, какие бы она алгоритмы фильтрации не имела, все равно основным критерием оценки релевантности ресурса относительно конкретного запроса является наличие качественного текстового наполнения, что не может не радовать. Для добросовестных оптимизаторов первостепенной задачей при продвижении ресурса является, прежде всего, оптимизация контента сайта, его внутренней ссылочной навигации и удобства для непосредственного пользователя, а не прямая оптимизация под определенную поисковую систему.

Второй по значимости шаг при продвижении во многих поисковиках – это наличие максимального количества ссылок на ресурс. Хотя среди многих непосредственных пользователей бытует мнение, что этот критерий не может в полной мере предоставлять результат, на сегодняшний день он является необходимым.

Можно сказать, что другие особенности продвижения для разных поисковых систем, которые, откровенно говоря, уже и являются не совсем «чистыми», формируются непосредственно издержками фильтрующих алгоритмов самих поисковиков. Таким образом, сами поисковые системы провоцируют оптимизаторов идти на ухищрения. Особенно это касается основных российских поисковиков, отличающихся тенденцией к монополизму.

5. Заключение

Мастер-класс позволяет оценить принципиальные различия поисковых гигантов и составить некоторое представление о том, каким же образом в интернете можно получить более или менее релевантную информацию. Наличие многочисленных поисковых систем создает значительную конкуренцию, а, как известно, конкуренция влечет за собой процессы, направленные на прогресс и развитие в нужном направлении. В данном случае главным приоритетом все же является качественный результат. Ура!








Популярность поисковых систем в России, Украине и мире. История развития поисковых систем. Рамблер и Апорт – вымершие динозавры.
Я всегда утверждал и буду утверждать, что узкий специалист, не интересующийся ничем, кроме сугубо практических деталей, не сможет достичь настоящих высот в своей профессии. Такой человек становится не «узким», а «узколобым»:-) Поэтому давайте рассмотрим историю развития поисковых машин, а также то, какую долю рынка занимает каждый из поисковиков в настоящее время. Популярность поисковых систем в России и Украине – очень значимый момент для продвижения.

История развития поисковых систем . В далекие 90-е годы, когда Интернет только-только начал входить в жизнь, поисковых систем в современном понимании этого слова не существовало. Поиск нужного ресурса происходил через каталоги сайтов, где имевшиеся на тот момент Интернет-проекты упорядочивались по рубрикам. Поскольку пользователей в сети было немного, а сайтов и вообще мало – то такой способ структурирования данных был вполне удобным и адекватным.

Первой полноценной поисковой машиной стал проект WebCrawler. Принципиальное отличие от предшественников состояло в том, что этот поисковик осуществлял т.н. полнотекстовый поиск. Т.е. искал не только локально по какому-то каталогу, не только по мета-тегу Keywords, но анализировал полный текст веб-страницы, что позволяло успешно находить любые фразы (а не только те, которые вебмастер указал в описании своего сайта как ключевые).

Лично мне название WebCrawler ни о чем не говорит – это слишком далеко в прошлом, в России в те времена само слово-то Интернет не каждый слышал:-) А вот появившийся в 1996 Lycos уже на слуху у вебмастеров постарше, во всяком случае название это многим знакомо. Вскоре за Лайкосом была запущена лучшая поисковая система своего времени AltaVista – уж это-то имя вы наверняка слышали. Примерно до 2000 года АльтаВиста оставалась лидирующей поисковой системой в мире.

В 1998 году была создана компания Google. Ее разработчики, Сергей Брин и Лари Пэйдж, совершили революцию в качестве поиска, разработав алгоритм PageRank, позволяющий учитывать «вес» страницы, в зависимости от числа ссылок на нее. Это настолько радикально улучшило качество поиска, что Google стал быстрыми темпами завоевывать аудиторию и через несколько лет стал лидирующей поисковой машиной мира, которой и остается до сих пор. Помнится, году примерно в 2000, я в институте наблюдал спор между двумя студентами нашей группы о том, что Альтависта отстой, а Гугл ищет лучше:-)

Поисковая система Апорт . Разработка компании Агама, увидевшая свет в 1996 году. Проект, который в течение нескольких лет оставался лидирующей поисковой машиной Рунета. Пишу это и сам себя начинаю ощущать очень древним:-) Ведь когда-то, будучи студентами, именно Апортом мы и пользовались для поиска. Других альтернатив не было, да они были и не нужны, ведь Aport прекрасно справлялся со своей задачей.


Прекрасный старт, однако, не обеспечил столь же прекрасного развития в дальнейшем. Апорт был таким лакомым кусочком, что несколько раз менял владельцев, с каждым разом продаваясь все дороже и дороже. Именно это его, судя по всему, и погубило. На первый план вышел «эффективный менеджмент и маркетинг», а на техническое обеспечение банально «забили». После этого пользователи Рунета повернулись к Апорту задом – благо два других главных поисковика – Рамблер и Яндекс – активно боролись за место под солнцем.

Не помню уже точных дат, но сперва Апорт отказался от собственных алгоритмов ранжирования, начав использовать данные Яндекса, а пару лет назад и вовсе прекратил свое существование как поисковая система. Теперь на знаменитом домене расположен Интернет-магазин, причем не самого лучшего качества.

Эх… а ведь когда-то у Апорта был еще и свой каталог, в который вебмастера стремились попасть почти с той же силой, что нынче в Яндекс. Кстати, первый дизайн для Апорта разрабатывал Артемий Лебедев… практически одновременно с дизайном для Яндекса.

Поисковая система Рамблер . Рамблер был запущен все в том же 1996 году и почти десятилетие оставался одним из главных игроков на рынке. В отличие от Апорта, который «сошел на нет» очень и очень быстро, Рамблер скатывался к нынешнему «бомж-положению» медленно и с сопротивлением.


Практически до самого последнего момента у Рамблера продолжал работать свой поисковый движок, выдававший кстати неплохое качество. Подумать только – долгие годы Рамблер был вторым поисковиком Рунета, причем третьим шел вовсе не полудохлый уже Апорт, а могущественный Гугл!

Тем не менее, доля Рамблера на рынке все уменьшалась и уменьшалась, а в 2011 году он был выкуплен Яндексом и стал выдавать идентичные с Яндексом результаты. Так закончилась история Рамблера, некогда сильнейшего российского поисковика.

Поисковые системы Гугл и Яндекс . На данный момент по сути остались только две актуальные поисковые машины – Яндекс и Гугл. Всякого рода Лукосы и Альтависты давно забыты и в качестве поисковых сервисов не функционируют. Рамблер был куплен Яндексом и сейчас показывает результаты последнего. Апорт превратился в Интернет-магазин. Очень небольшую долю рынка удерживают Yahoo и Bing – поиск от компании Майкрософт. В России помимо Яндекса и Гугла существует еще Майл.ру, но он не имеет собственного поискового движка, а использует результаты поиска от Гугл, внося в них лишь незначительные коррективы.

Популярность поисковых систем в России, Украине и в мире . На данный момент рынок поиска в России поделен примерно так:

Яндекс – 63%
Гугл – 26%
Майл.ру – 8%
Рамблер – 1.5%
Бинг – 0.6%

На Украине соотношение существенно иное, Яндекс здорово отстает от своего главного конкурента, но потихоньку увеличивает свою долю рынка:

Гугл – 60%
Яндекс – 29%
Майл.ру – 6%

В мировом поиске лидер только один, абсолютный и безоговорочный – Гугл.

Кстати говоря, мы с вами можем испытывать заслуженную гордость за свою страну – только в России и в Китае были созданы свои собственные системы поиска. Больше нигде в мире качественных поисковых машин не появилось. В европейских странах – Франции, Германии и прочих – Гугл используют до 97-99% пользователей, т.е. альтернативы по сути нет.

Есть в этом и практический аспект – у российского вебмастера больше шансов получить посетителей из поиска. Часто бывает, что Яндекс сайт «любит», а гугл нет, или наоборот. Но и в том и в другом случае клиенты у сайта имеются. У наших западных коллег работает принцип «все или ничего».

Есть и второй момент – продвижение в Гугл и в Яндекс в определенной мере различается, и желание попасть в топ обоих лидеров накладывает свой отпечаток на модель раскрутки сайта.

Моя книга издана в бумажном варианте. Если этот учебник оказался для вас полезным - то вы можете отблагодарить меня не только морально, но и вполне осязаемо.
Для этого нужно перейти на

Поисковые системы (ПС) уже приличное время являются обязательной частью интернета. Сегодня они громадные и сложнейшие механизмы, которые представляют собой не только инструмент для нахождения любой необходимой информации, но и довольно увлекательные сферы для бизнеса.


Многие пользователи поиска никогда не думали о принципах их работы, о способах обработки пользовательских запросов, о том, как построены и функционируют данные системы. Данный материал поможет людям, которые занимаются оптимизацией и , понять устройство и основные функции поисковых машин.

Функции и понятие ПС

Поисковая система – это аппаратно-программный комплекс, который предназначен для осуществления функции поиска в интернете, и реагирующий на пользовательский запрос который обычно задают в виде какой-либо текстовой фразы (или точнее поискового запроса), выдачей ссылочного списка на информационные источники, осуществляющейся по релевантности. Самые распространенные и крупные системы поиска: Google, Bing, Yahoo, Baidu. В Рунете – Яндекс, Mail.Ru, Рамблер.

Рассмотрим поподробнее само значение запроса для поиска, взяв для примера систему Яндекс.

Запрос обязан быть сформулирован пользователем в полном соответствии с предметом его поиска, максимально просто и кратко. К примеру, мы желаем найти информацию в данном поисковике: «как выбрать автомобиль для себя». Чтобы сделать это, открываем главную страницу и вводим запрос для поиска «как выбрать авто». Потом наши функции сводятся к тому, чтобы зайти по предоставленным ссылкам на информационные источники в сети.




Но даже действуя таким образом, можно и не получить необходимую нам информацию. Если мы получили подобный отрицательный результат, нужно просто переформировать свой запрос, или же в базе поиска действительно нет никакой полезной информации по данному виду запроса (такое вполне возможно при заданных «узких» параметров запроса, как, к примеру, «как выбрать автомобиль в Анадыри»).

Самая основная задача каждой поисковой системы – доставить людям именно тот вид информации, который им нужен. А приучить пользователей создавать «правильный» вид запросов к поисковым системам, то есть фразы, которые будут соответствовать их принципам работы, практически, невозможно.

Именно поэтому специалисты-разработчики поисковиков делают такие принципы и алгоритмы их работы, которые бы давали пользователям находить интересующие их сведения. Это означает, что система, должна «думать» так же, как мыслит человек при поиске необходимой информации в интернете.

Когда он вводит свой запрос в поисковую машину, он желает найти то, что ему надо, как можно проще и быстрее. Получив результат, пользователь составляет свою оценку работе системы, руководствуясь несколькими критериями. Получилось ли у него найти нужную информацию? Если нет, то сколько раз ему пришлось переформатировать текст запроса, чтобы найти ее? Насколько актуальная информация была им получена? Как быстро поисковая система обработала его запрос? Насколько удобно были предоставлены поисковые результаты? Был ли нужный результат первым, или находился на 30-ом месте? Сколько «мусора» (ненужной информации) было найдено вместе с полезными сведениями? Найдется ли актуальная для него информация, при использовании ПС, через неделю, либо через месяц?




Для того чтобы получить правильные ответы на подобные вопросы, разработчики поиска постоянно улучшают принципы ранжирования и его алгоритмы, добавляют им новые возможности и функции и любыми средствами пытаются сделать быстрее работу системы.

Основные характеристики поисковых систем

Обозначим главные характеристики поиска:

Полнота.

Полнота является одной из главнейших характеристик поиска, она представляет собой отношение цифры найденных по запросу информационных документов к их общему числу в интернете, относящихся к данному запросу. Например, в сети есть 100 страниц имеющих словосочетание «как выбрать авто», а по такому же запросу было отобрано всего 60 из общего количества, то в данном случае полнота поиска составит 0,6. Понятно, что чем полнее сам поиск, тем больше вероятность, что пользователь найдет именно тот документ, который ему необходим, конечно, если он вообще существует.

Точность.

Еще одна основная функция поисковой системы – точность. Она определяет степень соответствия запросу пользователя найденных страниц в Сети. К примеру, если по ключевой фразе «как выбрать автомобиль» найдется сотня документов, в половине из них содержится данное словосочетание, а в остальных просто есть в наличии такие слова (как грамотно выбрать автомагнитолу, и установить ее в автомобиль»), то поисковая точность равна 50/100 = 0,5.

Чем поиск точнее, тем скорее пользователь найдет необходимую ему информацию, тем меньше разнообразного «мусора» будет встречаться среди результатов, тем меньше найденных документов будут не соответствовать смыслу запроса.

Актуальность.

Это значимая составляющая поиска, которую характеризует время, проходящее с момента опубликования информации в интернете до занесения ее в индексную базу поисковика.

К примеру, на следующий день после возникновения информации о выходе нового iPad, множество пользователей обратилась к поиску с соответствующими видами запросов. В большинстве случаев информация об этой новости уже доступна в поиске, хотя времени с момента ее появления прошло очень мало. Это происходит благодаря наличию у крупных поисковых систем «быстрой базы», которая обновляется несколько раз за день.

Скорость поиска.

Такая функция как скорость поиска теснейшим образом связана с так называемой «устойчивостью к нагрузкам». Ежесекундно к поиску обращается огромное количество людей, подобная загруженность требует значительного сокращения времени для обработки одного запроса. Тут интересы, как поисковой системы, так и пользователя целиком совпадают: посетитель хочет получить результаты как можно быстрее, а поисковая система должна отработать его запрос тоже максимально быстро, чтобы не притормозить обработку последующих запросов.

Наглядность.

Наглядное представление результатов является важнейшим элементом удобства поиска. По множеству запросов поисковая система находит тысячи, а в некоторых случаях и миллионы разных документов. Вследствие нечеткости составления ключевых фраз для поиска или его не точности, даже самые первые результаты запроса не всегда имеют только нужные сведения.

Это значит, что человеку часто приходится осуществлять собственный поиск среди предоставленных результатов. Разнообразные компоненты страниц выдачи ПС помогают ориентироваться в поисковых результатах.

История развития поисковых систем

Когда интернет только начал развиваться, число его постоянных пользователей было небольшим, и объем информации для доступа был сравнительно невеликим. В основном доступ к этой сети имели лишь специалисты научно-исследовательских сфер. В то время, задача нахождения информации не была столь актуальна как сейчас.

Одним из самых первых методов организации широкого доступа к ресурсам информации стало создание каталогов сайтов, причем ссылки на них начали группировать по тематике. Таким первым проектом стал ресурс Yahoo.com, который открылся весной 1994-ого года. Впоследствии когда количество сайтов в Yahoo-каталоге существенно увеличилось, была добавлена опция поиска необходимых сведений по каталогу. Это еще не было в полной мере поисковой системой, так как область такого поиска была ограничена только сайтами, входящими в данный каталог, а не абсолютно всеми ресурсами в интернете. Каталоги ссылок весьма широко использовались раньше, однако в настоящее время, практически в полной мере утратили свою популярность.

Ведь даже сегодняшние, громадные по своим объемам каталоги имеют информацию о незначительно части сайтов в интернете. Самый известный и большой каталог в мире имеет информацию о пяти миллионах сайтов, когда база Google содержит информацию о более чем 25 миллиардов страниц.




Самой первой настоящей поисковой системой стала WebCrawler, возникшая еще в 1994-ом году.

В следующем году появились AltaVista и Lycos. Причем первая была лидером по поиску информации очень длительное время.




В 1997-ом году Сергей Брин вместе с Ларри Пейджем создал машину поисковую Google как исследовательский проект в Стэндфордском университете. Сегодня именно Google, самая востребованная и популярная поисковая система в мире.




В сентябре 1997-ом году была анонсирована (официально) ПС Yandex, которая в настоящий момент является самой популярной системой поиска в Рунете.




По данным на сентябрь 2015 года , доли поисковых систем в мире распределены следующим образом:
  • Google - 69,24 %;
  • Bing - 12,26 %;
  • Yahoo! - 9,19 %;
  • Baidu - 6,48 %;
  • AOL - 1,11 %;
  • Ask - 0,23 %;
  • Excite - 0,00 %


По данным на декабрь 2016 года , доли поисковых систем в Рунете:

  • Яндекс - 48,40%
  • Google - 45,10%
  • Search.Mail.ru - 5,70%
  • Rambler - 0,40%
  • Bing - 0,30%
  • Yahoo - 0,10%

Принципы работы поисковой системы

В России главной системой поиска является Яндекс, затем Google, а потом Поиск@Mail.ru. Все большие системы поиска имеют свою структуру, которая весьма отличается от других. Но все-таки можно выделить общие для всех поисковиков основные элементы.

Модуль индексирования.

Данный компонент состоит из трех программ-роботов:

Spider (по англ. паук) – программа которая предназначена для того чтобы скачивать веб-страницы. «Паук» скачивает определенную страницу, одновременно извлекая из нее все ссылки. Скачивается код html практически с каждой страницы. Для этого роботы используют HTTP-протоколы.




«Паук» функционирует следующим образом. Робот передает запрос на сервер “get/path/document” и иные команды запроса HTTP. В ответ программа-робот получает поток текста, который содержит информацию служебного вида и, естественно, сам документ.
  • URL скаченной страницы;
  • дата, когда осуществлялось скачивание страницы;
  • заголовок http-ответа сервера;
  • html-код, «тела» страницы.
Crawler («путешествующий» паук). Данная программа автоматически заходит на все ссылки, которые найдены на странице, а также выделяет их. Его задача – определиться, куда в дальнейшем должен заходить паук, основываясь на этих ссылках или исходя из заданного списка адресов.

Indexer (робот-индексатор) – это программа, анализирующая страницы, которые скачали пауки.



Индексатор полностью разбирает страницу на составные элементы и проводит их анализ, применяя свои морфологические и лексические виды алгоритмов.

Анализ проводится над разнообразными частями страницы, такими как заголовки, текст, ссылки, стилевые и структурные особенности, теги html и др.

Таким образом, модуль индексирования дает возможность проходить по ссылкам заданного количества ресурсов, скачивать страницы, извлекать ссылочную массу на новые страницы из полученных документов и делать подробный их анализ.

База данных

База данных (или индекс поисковика) - комплекс хранения данных, массив информации в котором сохраняются определенным образом переделанные параметры каждого обработанного модулем индексации и скачанного документа.

Поисковый сервер

Это самый важный элемент всей системы, потому что от алгоритмов, лежащих в основе ее функциональности, прямо зависит скорость и, конечно же, качество поиска.

Поисковый сервер работает следующим образом:

  • Запрос, который идет от пользователя подвергается морфологическому анализу. Информационное окружение любого документа, имеющегося в базе, генерируется (оно и будет в дальнейшем отображаться как сниппет, т.е. информационное поле текста соответствующего данному запросу).
  • Полученные данные передают как входные параметры специализированному модулю ранжирования. Они обрабатываются по всем документам, и в итоге для каждого такого документа рассчитывается свой рейтинг, который характеризует релевантность такого документа запросу пользователя, и иных составляющих.
  • В зависимости от условий заданных пользователем этот рейтинг вполне может быть подкорректирован дополнительными.
  • Затем генерируется сам сниппет, т.е. для любого найденного документа из соответствующей таблицы извлекают заголовок, аннотацию, наиболее отвечающую запросу, и ссылка на этот документ, при этом найденные словоформы и слова подсвечивают.
  • Результаты полученного поиска передаются осуществившему его человеку в виде страницы, на которую выдают поисковые результаты (SERP).
Все эти элементы тесно связаны между собой и функционируют, взаимодействуя, образовывая отчетливый, но достаточно непростой механизм функционирования ПС, требующий громадных затрат ресурсов.
Понравилось? Лайкни нас на Facebook