Средства поиска данных в интернете

Семакин И.Г., Хеннер Е.К. Информатика 10-11 класс

World Wide Web — Глобальная паутина

Разглядим более детально, что же такое World Wide Web (WWW). В большинстве случаев эта идиома переводят как Глобальная паутина. Любой может представить себе паутину — сеть, которую плетет паук.

В разглядываемом контексте исторически термин «сеть» закрепился за понятием «совокупность взаимосвязанных компьютеров» (т. е. техническая совокупность), а термин «паутина» (Web) — за понятием «совокупность взаимосвязанных документов» (т. е. структура данных).

Очевидно, «паутина» документов существует на базе компьютерной сети.

Глобальная паутина (World Wide Web, WWW) — это совокупность (сеть) документов, связанных между собой гиперссылками.

Любой отдельный документ, имеющий личный адрес, именуется Web-страницей.

Любая Web-страница может иметь множество связей с другими страницами, каковые сохраняются как на том же самом компьютере, так и на других компьютерах сети.

Web-сервер — это компьютер, на котором трудится сервер-программа WWW. В его дисковой памяти сохраняются Web-страницы. В доменном имени Web-сервера младший домен в большинстве случаев обозначается как www.

К примеру:

www. psu . ru — Web-сервер узла Интернета Пермского государственного университета.

www. 1 September. ru — Web-сервер газеты «Первое сентября».

Web-страница (документ) может содержать самую различную информацию: текст, рисунок, звукозапись. Любая страница хранится в отдельном файле, имя которого имеет расширение htm либо html.

Гиперссылка — это некое главное слово либо объект в документе, с которым связан указатель для перехода на другую страницу в «паутине». В большинстве случаев изображение гиперссылки каким-то образом выделяется на странице, к примеру цветом либо подчеркиванием. При подведении к гиперссылке указателя мыши он принимает вид руки с показывающим пальцем. В случае если наряду с этим щелкнуть левой кнопкой мыши, то случится переход по указателю к связанному документу. Текст, в котором употребляются гиперссылки, называется гипертекстом.

Протокол, что употребляется работой WWW, именуется HTTP (HiperText Transfer Protocol — протокол передачи гипертекста). Его главное назначение — обработка гиперссылок, передача и поиск документов клиенту.

Web-сайт — это совокупность взаимосвязанных (в большинстве случаев тематически) страниц. Сайт в собственности некоему лицу либо учреждению. Web-сайт организуется на Web-сервере провайдера сетевых одолжений. Каждый сайт имеет основную страницу, являющуюся необычным титульным страницей сайта. В большинстве случаев, основная страница воображает обладателя сайта и содержит гиперссылки на различные разделы сайта. Пример основной страницы Web-узла ПГУ приведен на рис. 5.12.

URL-адрес. Уже рассказывалось о совокупности адресации в компьютерном пространстве Сети. Это IP-адреса, доменные адреса. В пространстве информационных ресурсов Интернета употребляется собственная совокупность адресации. Она именуется URL (Uniformed Resource Locator) — универсальный указатель ресурсов. Любая Web-страница либо файл имеют собственный уникальный URL-адрес, что складывается из трех частей: имя применяемого для доступа протокола; имя сервера, на котором хранится ресурс; полное имя файла (путь) на сервере. К примеру, URL-адрес основной страницы Web-сайта газеты «Первое сентября» выглядит так:

http://www.ISeptember.ru/ru/first.htm

Тут http: / / — протокол доступа;

www. 1 September. ru — имя сервера;

/ru/first.htm — полное имя файла/

Средства поиска данных в сети

Как уже говорилось выше, WWW — это совокупность Web-страниц, связанных между собой гиперссылками. Но эти связи не имеют регулярности, как, к примеру, в иерархической структуре данных. В этом смысле возможно сказать о том, что совокупность Web-страниц не структурирована.

Единственной координатой Web-документа есть его URL-адрес. Но URL-адрес никак не связан с содержанием документа. Но поиск данных производится как раз по содержанию. Как же он осуществляется?

В поиске информации в WWW пользователю оказывает помощь поисковая работа Интернета. Поисковая работа основана на одолжениях поисковых серверов. Существуют две разновидности поисковых серверов: поисковые указатели и поисковые каталоги.

Поисковые каталоги. В случае если вам приходилось пользоваться одолжениями громадных библиотек, то вы понимаете, что такое библиотечный каталог. Существуют алфавитные и предметные каталоги . В алфавитных каталогах карточки с библиографическими данными книг разложены в алфавитном порядке фамилий авторов. В предметных каталогах карточки систематизированы по содержанию книг.

Систематизация в предметном каталоге производится по иерархическому принципу: на первом уровне иерархии целый книжный фонд делится на большие разделы: художественная литература, учебная литература, публично-политическая литература, научно-техническя литература и т. п. Любой из этих разделов делится на подразделы; к примеру, учебная литература делится на разделы высшего образования, среднего образования, дошкольного образования. Книги для среднего образования смогут делиться по предметам, каковые, со своей стороны, делятся по классам. Чтобы подобрать литературу по нужной теме, читатель обязан понимать принцип организации каталога.

Поисковые каталоги WWW организованы по подобному иерархическому принципу. Лишь в них систематизируется информация не о книгах, а о документах, хранящихся в World Wide Web. На основной странице поискового каталога находится перечень главных тематических разделов (рубрик). К примеру: экономика и финансы, государство и право, образование и наука, компьютеры, политика и т. д. Каждое имя в этом перечне есть внутренней гиперссылкой, т. е. ссылкой на внутренний документ сайта, поискового каталога. Щелчок мышью на гиперссылке вызывает на экран перечень заголовков следующего подраздела и т. д. Очевидно, что такая совокупность подобна дереву файловой совокупности ОС. Перемещаясь по дереву внутренних гиперссылок каталога, пользователь в конечном итоге приобретает перечень внешних ссылок на искомые Web-документы.

Поисковые каталоги заполняются вручную экспертами, поддерживающими данную работу. При ручном методе отбора нереально получить в каталоге исчерпывающую данные о ресурсах Сети, и в этом состоит главной недочёт каталогов. Но таковой метод классификации исключает ссылки на случайные документы, не имеющие отношения к указанной теме. Так, поисковые каталоги при довольно маленьком охвате ресурсов Сети снабжают хорошее уровень качества подборки документов.

Поисковые указатели. Второе наименование этого вида поисковой службы — поисковики. Частенько в учебной и научной литературе в конце книги присутствуют предметные указатели (о них было сообщено выше). К примеру, отыщите в предметном указателе этого книжки по информатике словосочетание «информационная совокупность». После этого на страницах, номера которых указаны затем словосочетания, вы можете прочесть все, что написано про информационные совокупности.

Принцип работы поисковых указателей содержится в создании и использовании индексных перечней — аналогов книжных предметных указателей.

Задачи поисковиков пребывают в формировании индексных списков, так дабы охватить ими как возможно большее число документов «паутины», а также в ответах на запросы клиентов. Ясно, что таким методом проиндексировать вручную все документы WWW нереально. Их число в далеком прошлом перевалило за миллиард. Исходя из этого поисковики строят индексные перечни машинально.

Главной составляющей поисковиков являются программы просмотра Web-документов, каковые именуют по-различному: роботами, червяками, пауками и пр. Возможно, самоё подходящим есть название «пауки», в случае если уж сеть WWW именовать «паутиной»! Непрерывно, днем и ночью, они сканируют все информационное пространство WWW, просматривая все документы, определяя в них главные слова и записывая в собственную базу индексов данное слово с указателем на документ, в котором оно присутствует. Данный процесс не прерывается, потому, что содержание паутины все время изменяется. Кроме того в уже просмотренные документы авторы смогут внести трансформации либо по большому счету удалить их. Поисковая машина все время обязана поддерживать данные в актуальном состоянии.

Эффективность работы поисковика зависит от применяемых алгоритмов формирования базы указателей. Эти методы являются интеллектуальной собственностью их авторов и в большинстве случаев сохраняются в тайне. Число указателей к некоторым главным словам образовывает многие тысячи. Чем лучше метод, тем меньше в индексный перечень попадает «мусора» — случайных документов, не имеющих отношения к теме поиска.

В отборе самые важных документов пользователю оказывает помощь рейтинговый принцип, применяемый некоторыми поисковыми указателями. На запрос пользователя по главному слову совокупность выдает перечень ссылок на документы, расположенных по убыванию рейтинга. Рейтинг определяется по числу обращений к документу, каковые были сделаны ранее. Самые популярные документы попадают в начало перечня.

2. Инфопоиск. Особенности web-поиска, спайдер | Технострим


Также читать:

Понравилась статья? Поделиться с друзьями: