Фундаментальные исследования. Информационные системы интернет

1

В настоящее время в нашем динамично развивающемся информационном мире особую значимость приобретает способность принимать своевременные и правильные решения, которые невозможны без сбора, обработки, хранения, анализа большого объема информации и предоставления результатов их обработки пользователю. Одной из таких задач является оперативное выявление сайтов в сети Интернет, содержащих информацию, распространение которой в Российской Федерации запрещено. Перечень данной информации представлен в ч. 2 ст. 15.1 Федерального закона от 27.07.2006 № 149-ФЗ «Об информации, информационных технологиях и о защите информации». В данной статье рассмотрено построение информационно-аналитической системы, предназначенной для оперативного поиска информации в сети Интернет, распространение которой в Российской Федерации запрещено. Предложен подход к построению информационных систем, осуществляющих поиск информации в сетях общего пользования и обработку большого объема разнородных неструктурированных данных, которые представлены в различных форматах: текст, содержащий фрагменты из нескольких документов; аудио- и видеозаписи; изображения (фотографии и рисунки).

анализ данных

информационно-поисковые системы

неструктурированные данные

2. Ерохин Г.Н., Дружинин В.А., Царегородцев А.Л., Махнева Т.В., Огородников И.Н., Карташев Е.А. Телемедицина отложенных консультаций на примере северных регионов // Информационно-измерительные и управляющие системы. – 2009. – Т. 7. – № 12. – С. 49–53.

3. Зеленков Ю.Г., Сегалович И.В. Сравнительный анализ методов определения нечетких дубликатов для WEB-документов // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: труды 9-й Всероссийской научной конференции RCDL’2007: Сб. работ участников конкурса. – Т. 1. – Переславль- Залесский: «Университет города Переславля», 2007. – С. 166–174.

4. Карташев Е.А., Самков Л.М. Онлайновая информационно-аналитическая система мониторинга индикаторов жизнеобеспечения территориальных объектов Управление большими системами: сборник трудов. – 2009. – № 24. – С. 112–129.

5. Макунин, Алексей Анатольевич. Технология построения модульных автоматизированных информационных систем для сложных предметных областей и ее применение на примере информационной поддержки системы муниципального заказа органов местного самоуправления: дис. ... канд. техн. наук: 05.13.11. – Томск, 2005. – 228 с.

В настоящее время в нашем динамично развивающемся информационном мире особую значимость приобретает способность принимать своевременные и правильные решения, которые невозможны без сбора, обработки, хранения, анализа большого объема информации и предоставления результатов их обработки пользователю.

Одной из таких задач является оперативное выявление сайтов в сети Интернет, содержащих информацию, распространение которой в Российской Федерации запрещено. Перечень данной информации представлен в ч. 2 ст. 15.1 Федерального закона от 27.07.2006 № 149-ФЗ «Об информации, информационных технологиях и о защите информации». Зачастую такая информация представлена на сайтах в сети Интернет, которые могут существенно различаться как по использующимся в них технологиям, так и по их функциональности. В свою очередь информация не структурирована и может быть представлена в различных форматах: текст, содержащий фрагменты из нескольких документов; аудио- и видеозаписи; изображения (фотографии и рисунки).

На рынке существует ряд информационных систем, осуществляющих подобную обработку данных и применяемых в других сферах, но информация об их структуре и применяемых методах обработки данных не раскрывается. Зачастую они предоставляются по технологии SaaS (англ. software as a service), что неприемлемо с учетом специфики обрабатываемых данных.

Цель данной работы - предложить структуру информационной системы, обеспечивающей возможность оперативного получения неструктурированной информации с большого количества различных сайтов в сети Интернет и ее хранения для последующей обработки, при этом должна предусматриваться возможность увеличения объема обрабатываемых данных за счет увеличения количества применяемого оборудования (горизонтальное масштабирование) и использование невысокопроизводительного серверного оборудования.

Разработка автоматизированной информационной системы поиска и анализа информации в сети Интернет (далее АИС Поиск) осуществлялась в Югорском научно-исследовательском институте информационных технологий и предназначена: для взаимодействия с сайтами в сети Интернет; хранения и анализа собранной информации; предоставления результатов обработки информации в виде отчетов пользователю.

Взаимодействие с сайтами в сети Интернет направлено на сбор с них исходной информации, предусматривает работу в режиме запрос - ответ по следующим направлениям: поиск требуемой информации на сайте сети Интернет; загрузка найденной информации в АИС Поиск; актуализация информации, хранящейся в АИС Поиск, за счет сравнения с версией , расположенной на сайте сети Интернет (выполняется через определенный интервал времени, определяемый с учетом обновления информации).

Контекстная диаграмма потоков данных АИС Поиск

Хранение собранной информации с сайтов в сети Интернет предусматривает множество точек входа для сбора и обработки информации, при этом каждая из них может собирать и обрабатывать данные по своим уникальным правилам.

На этапе проектирования были разработаны диаграммы потоков данных, описывающие основные процессы АИС Поиск и потоки данных, циркулирующих в системе. На рисунке представлена контекстная диаграмма потоков данных АИС Поиск.

Рассмотрим процессы контекстной диаграммы подробнее.

1. Формирование критериев поиска документов (ключевые слова, тематические фразы, поисковые запросы, образцы изображений, фрагменты аудио- и видеозаписей) - определяются требования к содержанию документов, которые должны быть найдены на информационных ресурсах, расположенных в сети Интернет, и загружены в базу данных. Первоначальное наполнение осуществляется оператором, в последующем уточняется по результатам анализа документов.

2. Формирование задач поиска документов - определяется режим поиска документов на информационных ресурсах с учетом имеющихся возможностей, периодичности обновления информации и приоритетов пользователя. Формируется в виде задачи, для которой определяется: время запуска, информационные ресурсы, критерии поиска документов.

3. Поиск документов - обеспечивает выполнение задач по поиску документов: периодическая проверка наличия требующих запуска задач поиска документов, выполнение задачи поиска документов в рамках которой по количеству установленных критериев поиска документов и информационных ресурсов выполняется набор действий:

а) формирование запроса на получение данных к информационному ресурсу на основе определенных критериев поиска документов и его синтаксиса;

б) направление запроса на получение данных в информационный ресурс и ожидание ответа;

в) обработка ответа информационного ресурса (запись ссылок на найденные документы в базу данных).

4. Загрузка документов - обеспечивает загрузку документа по найденной ссылке: проверка доступности документа по найденной ссылке; сравнение загруженного документа с предыдущей версией, при ее наличии (проверка на наличие изменений) в базе данных; запись загруженного документа в базу данных.

5. Анализ документов - обеспечивает автоматическую обработку загруженных документов: извлечение объектов из документа (структурированные данные: ФИО, должности, название территорий и веществ, контактная информация, события и т.д.); определение характера связи для выявленных объектов: объект - субъект, негатив - позитив и т.д.; расчет вероятности отнесения документа к различным группам документов, ранее определенных пользователем (классификация документа); выявление похожих документов (с использованием методов классификации объектов по группам за счет выявления наперед неизвестных общих признаков (введен в 1939 году Robert Tryon) ); уточнение критериев поиска документов на основе ранее классифицированных и кластеризованных документов.

6. Формирование отчетов - подготовка данных для отображения пользователю (выполнение операций, которые не могут быть выполнены за время ожидания пользователем отклика АИС Поиск).

7. Представление отчетов - представление данных в виде отчетов на основе определенных шаблонов с учетом предпочтений пользователя, при этом ему предоставляется возможность установки фильтра для отбора данных в него включаемых.

8. Верификация данных - подтверждаются пользователем результаты анализа документов: классификация, извлеченные объекты, установленные связи.

По результатам изучения опыта построения подобных систем, в том числе представленных в , была выбрана модульная архитектура системы. Использование модульного подхода в качестве основы для такого инструментария позволяет не только просто строить сложные приложения, собирая их из «кирпичиков», но и обеспечивать их взаимозаменяемость для доработки программного обеспечения и расширения возможностей информационных систем. Основные преимущества модульной архитектуры этим не ограничиваются. Также к ключевым особенностям выбранного подхода к построению АИС Поиск можно отнести возможность выборочной ее компоновки, многократное использование однажды написанного кода и разработанных классов .

В общем виде структура АИС Поиск состоит из следующих модулей:

База данных (совокупность средств для обеспечения хранения и доступа к найденным данным).

Интерфейс пользователя (предоставляет инструменты пользователю для просмотра имеющихся данных и результатов их обработки, а также по управлению работой каждого из модулей).

Подсистема анализа (осуществляет обработку (классификация, определение объектов и связей) найденных данных).

Подсистема сбора данных (реализует заданный пользователем алгоритм работы Модулей взаимодействия (запуск, формирование параметров) и обеспечивает загрузку получаемых от них данных в Базу данных).

Модуль взаимодействия (обеспечивает получение данных с определенного информационного ресурса в соответствии с установленными параметрами).

Все эти собранные неструктурированные данные требуется быстро анализировать, что в свою очередь невозможно без соответствующей организации хранения этих данных. Тенденции последних лет показывают, что для хранения неструктурированных данных используются современные СУБД, сочетающие в себе гибкость модели хранилища документов и строгость и простоту реляционной модели.

Например, в СУБД PostreSQL 9.2 появилась поддержка типа данных JSON (JavaScript Object Notation), а в 9.3 добавились функции обработки значений в нём. Этот же тип данных теперь поддерживается и в MySQL начиная с версии 5.7.8. Аналогичный функционал есть и в СУБД Oracle, MSSQL.

Существует несколько подходов к хранению неструктурированных данных в информационных системах:

Непосредственно в базе данных, при этом большинство современных СУБД предусматривают для этого специализированный тип данных: JSONB в PostgreSQL, CLOB в Oracle и т.д.;

Вне базы данных (в виде файлов в соответствующих хранилищах), при этом в базе данных хранятся только ссылки на них. Основными недостатками данного варианта являются сложности с администрированием, обеспечением доступности и целостности данных. В свою очередь преимуществом данного подхода является возможность использования стандартных приложений по их обработке (просмотр), сокращение общего объема базы данных (не требуется выделять большой объем дискового пространства в одном месте), данные могут храниться на большом количестве различных серверов с небольшим объемом дискового пространства. На сегодняшний день данное направление активно поддерживается разработчиками СУБД и ведутся работы по устранению указанных недостатков, в частности в MS SQL Server 2012 появились таблицы FileTable для работы с файлами, а в Oracle - параметр SecureFiles для типа данных LOB.

Принимая во внимание, что наибольшую часть (объем) будут занимать неструктурированные данные, доступ к которым нужен будет эпизодически (на этапе загрузки для извлечения метаданных и несколько раз для демонстрации результатов пользователю), была предложена следующая структура: Файловый сервер - Драйвер доступа - СУБД.

В качестве файловых серверов было принято решение использовать сервера под управлением свободно распространяемой операционной системы Linux (Debian, или Astra Linux), а в качестве СУБД Postgres, так как она: свободно распространяемая, имеет развитые инструменты для полнотекстового поиска и может быть сертифицирована по требованиям безопасности информации например в составе операционной системы Astra Linux.

В соответствии с предложенным подходом нами в Югорском НИИ информационных технологий была осуществлена реализация АИС Поиск, которая используется компетентными ведомствами Ханты-Мансийского автономного округа - Югры для поиска доменных имен, указателей страниц сайтов в информационно-телекоммуникационной сети Интернет и сетевых адресов, позволяющих идентифицировать сайты в информационно-телекоммуникационной сети Интернет, содержащие информацию, распространение которой в Российской Федерации запрещено.

В настоящее время было обработано более 75 тыс. ссылок, загружено в базу данных более 21 тыс. уникальных документов. Для 922 документов было определено с высокой долей вероятности, что они содержат информацию, распространение которой в Российской Федерации запрещено, более 75 % из них были включены в соответствующий реестр, который ведется Роскомнадзором в соответствии с ч. 3 ст. 15.1 Федерального закона от 27.07.2006 № 149-ФЗ «Об информации, информационных технологиях и о защите информации».

В ходе опытной эксплуатации АИС Поиск получены положительные оценки от конечных пользователей, также ими отмечается предсказуемость появления документов в базе данных в зависимости от сформированных критериев поиска документов (результаты аналогичны полученным при ручном поиске) и снижение трудоемкости. По результатам также было рекомендовано ввести АИС Поиск в промышленную эксплуатацию.

В дальнейшем планируется проведение работ по повышению эффективности работы пользователей с АИС Поиск, в частности за счет внесения изменений в интерфейс пользователя, сокращению время отклика системы на действия пользователя за счет предварительной подготовки данных и повышению скорости работы алгоритмов обработки данных. Планируется также проведение работ по сравнению результатов классификации документов с использованием различных алгоритмов и методов.

Библиографическая ссылка

Карташев Е.А., Царегородцев А.Л. АВТОМАТИЗИРОВАННАЯ ИНФОРМАЦИОННАЯ СИСТЕМА ПОИСКА И АНАЛИЗА ИНФОРМАЦИИ В СЕТИ ИНТЕРНЕТ // Фундаментальные исследования. – 2016. – № 10-2. – С. 296-300;
URL: http://fundamental-research.ru/ru/article/view?id=40848 (дата обращения: 06.04.2019). Предлагаем вашему вниманию журналы, издающиеся в издательстве «Академия Естествознания»

Неотъемлемой чертой современных КИС стало применение технологий Internet . Использование Internet /Intranet-технологий в качестве базиса для построения КИС открывает новые возможности. Основной проблемой реализации подобной стратегии в рамках КИС является тот факт, что большинство данных, с которыми работает информационная система, относятся к операционной деятельности в узких рамках самой компании, и накопление и анализ всесторонних данных о круге потребителей представляет собой задачу, выходящую из этих рамок. Учитывая этот факт, при выборе составляющих КИС необходимо отдавать предпочтение программам, которые поддерживают полноценную работу из обычного браузера, фактически, имеют тонкий клиент и специальное серверное программное обеспечение, обеспечивающее функционирование данного клиента. Такое техническое решение позволяет использовать стандартные хранилища данных из локальных, корпоративных и глобальных сетей, не требуя существенных затрат на дополнительное администрирование и поддержание целостности, надежности и безопасности хранения данных.

Использование технологий Internet позволяет организовать в Internet полнофункциональное виртуальное представительство, т.е. полный спектр информационной поддержки всех поставщиков, дистрибуторов и потребителей продукции компании. Таким образом, осуществляется функция полной обратной связи по всему жизненному циклу изделий:

Управление сбытом/поставкой

Дистрибьюторы и потребители продукции могут напрямую заказывать продукцию через Internet . При этом заказ, после его ввода и подтверждения становится документом в КИС и встает в очередь на обработку. Заказчик в любое время сможет контролировать этапы выполнения заказа, вплоть до отгрузки.

Поставщики сырья и материалов, могут незамедлительно информировать КИС о переносах сроках поставки тех или иных комплектующих, для того, чтобы система успела переформировать производственный план и/или запустить в производство имеющиеся запасы комплектующих.

Поддержка продукции на протяжении всего жизненного цикла

Через сервер виртуального представительства, потребители продукции могут получать любую техническую и информационную поддержку, заполнять заказы на гарантийное и постгарантийное обслуживание, вносить свои предложения и замечания, участвовать в дискуссиях, касающихся обсуждения тех или иных изделий. Кроме того, может быть организована оперативная "горячая" линия поддержки всех потребителей, как по электронной почте, так и online . На основании анализа предложений и материалов дискуссии могут быть оперативно сделаны выводы о выпуске новых видов продукции или смене конфигурации существующих

Налаживание тесного взаимодействия с сетью распределения, контроль всей цепочки поставок

Одним из самых тривиальных и действенных методов конкурентной борьбы является снижение конечной цены продукции за счет снижения различных элементов спектра затрат, влияющих на ее себестоимость. Однако, если предприятие даже и добилось существенного уменьшения затрат, очень часто случается, что до конечного потребителя продукция доходит по прежней цене, а весь выигрыш в рентабельности распределяется замысловатым образом по цепочке распределения. Тем самым, обороты предприятия изготовителя не растут, а адекватной информации о том, почему это происходит, у руководства нет. Исходя из этого, очень важно налаживать регулярный обмен информацией между всеми участниками логистической цепочки, чтобы четко представлять себе все ее элементы, где возникает дополнительное ценообразование. С помощью виртуальных представительств, может быть налажен оперативный мониторинг движения товара по всей цепочке поставок, и проанализирована эффективность данного канала распределения в целом.

Применения Internet-технологий требует обеспечение информационной безопасности. Для предотвращения несанкционированного доступа к документам встроенных средств недостаточно. Поэтому в состав КИС обязательно должны войти специальные программно-аппаратные средства защиты.

Они, в частности, позволяют шифровать данные, поддерживают электронную цифровую подпись и могут проводить на ее основе аутентификацию пользователей. Все это обеспечивает достоверность и целостность информации внутри КИС. Эффективность программных средств защиты может быть существенно повышена за счет применения аппаратных и биометрических средств: аппаратных ключей, смарт-карт, устройств распознавания отпечатков пальцев, сетчатки глаза, голоса, лица, оцифрованной подписи.

В дополнение к ним на стыке сегментов локальных сетей и Internet желательна установка брандмауэров - средств контроля за внешними (входящими и исходящими) соединениями. Они позволяют отслеживать передачу информации практически всех известных на сегодняшний день протоколов Internet.

Введение………………………………………………………………………3

1. Характеристика глобальных информационных сетей…………….4

2. История INTERNET ………………………………………………....7

3. Поиск информации Internet…………………………………………..9

4. Назначение Internet Explorer………………………………………....9

5. World Wide Web……………………………………………………….12

Заключение…………………………………………………………….16

Список использованной литературы…………………………………17

Введение

На сегодняшний день в мире существует более 130 миллионов компьютеров и более 80 % из них объединены в различные информационно-вычислительные сети от малых локальных сетей в офисах до глобальных сетей типа Internet, FidoNet, FREEnet и т.д. Всемирная тенденция к объединению компьютеров в сети обусловлена рядом важных причин, таких как ускорение передачи информационных сообщений, возможность быстрого обмена информацией между пользователями, получение и передача сообщений (факсов, E-Mail писем, электронных конференций и т.д.) не отходя от рабочего места, возможность мгновенного получения любой информации из любой точки земного шара, а так же обмен информацией между компьютерами разных фирм производителей работающих под разным программным обеспечением.

Такие огромные потенциальные возможности, которые несет в себе вычислительная сеть и тот новый потенциальный подъем, который при этом испытывает информационный комплекс, а так же значительное ускорение производственного процесса не дают нам право игнорировать и не применять их на практике.

Зачастую возникает необходимость в разработке принципиального решения вопроса по организации ИВС (информационно-вычислительной сети) на базе уже существующего компьютерного парка и программного комплекса, отвечающей современным научно-техническим требованиям с учетом возрастающих потребностей и возможностью дальнейшего постепенного развития сети в связи с появлением новых технических и программных решений.

1. Характеристика глобальных информационных сетей

Глобальные информационные сети – одно из основных достижений человечества в области информационных технологий, главная примета вхождения в эпоху информационного общества. Делая возможным оперативное общение на огромных расстояниях (в разных странах и даже на континентах), глобальные сети уже изменили для многих людей характер и возможности образования и профессиональной деятельности. Потенциальные возможности глобальных сетей пока используются лишь в малой мере, но эта область прикладной информатики является самой динамичной.

В настоящее время на Западе действует много глобальных сетей. Назовём для примера BITNET – сеть, объединяющую более 800 коллективных участников, преимущественно из числа университетов, колледжей и научных центров, охватывающую 35 стран Америки, Европы и Азии.

Из российских телекоммуникационных сетей крупнейшей (фактически действующей во всех странах СНГ и Прибалтики) является сеть RELCOM, созданная в 1990 году. Уже в 1996 году она имела порядка 300 узлов и насчитывала десятки тысяч абонентов. Сеть является членом Европейского консорциума EUNET, объединяющего многие сети Восточной Европы и Северной Африки, которая, в свою очередь, является участником гигантского мирового сообщества INTERNET. Ещё в 1994 году пользователи RELCOM имели доступ к более чем миллиону компьютеров по всему миру. Шлюз, позволяющий RELCOM выходить в зарубежные сети, находится в Москве, оттуда информация, адресованная за рубеж, поступает в Хельсинки – Амстердам – и далее по всему миру с использованием всех существующих видов связи.

Сеть универсальна, она предоставляет все виды услуг – от простой электронной почты до выхода в INTERNET. Подключившись к сети RELCOM, пользователь получает возможность обмениваться любой информацией со всеми абонентами этой сети и десятков других сетей. Это может быть личная или служебная переписка, обмен научной и деловой информацией с группой пользователей или со всеми пользователями, интересующимися данным вопросом (с помощью, так называемых, телеконференций).

Кроме RELCOM в России действуют не менее трёх десятков независимых сетей. Большинство из них являются ведомственными и имеют относительно немного клиентов. Например, любительская компьютерная сеть – FidoNet. В качестве каналов связи в ней используются практически только коммутируемые телефонные каналы. Пользователь сети имеет возможность обмена почтовыми сообщениями и файлами. На большинстве серверов сети действуют электронные «доски объявлений». Работа в этой сети ведётся в режиме очень похожем на разговор по телефону только в определённые часы.

Глобальные информационные сети включают в себя огромное множество абонентских пунктов, в ней существуют специальные компьютерные узлы связи, функционирующие круглосуточно. Пользователь включается в обмен информацией в желаемое для него время. Для этого он соединяется с ближайшей к нему хост-машиной, которая, в свою очередь, соединяется с другими хост-машинами в соответствии с адресом, указываемым пользователем сети. Хост-машина хранит поступившие на неё сообщения до тех пор, пока пользователь их не заберёт (или ограничивается разумным сроком хранения). Хост-машины постоянно связаны между собой по выделенным каналам связи и обмениваются информацией в автоматическом режиме под управлением специальных программ.

В глобальных компьютерных сетях используется структура древовидной топологии. Разрыв кабеля в такой сети выводит из строя лишь её часть – это важное преимущество сети древовидной топологии.

Процесс передачи данных по сети древовидной топологии определяет шесть компонент:

Компьютер-источник;

Блок протоколов;

Передатчик;

Физическая кабельная сеть;

Приёмник;

Компьютер-адресат.

В глобальных сетях существуют два режима информационного обмена. Диалоговый режим (или режим реального времени), в котором пользователь, получив порцию информации, может немедленно на неё реагировать, подавать новую команду в сеть для получения новых порций информации, называется on-line. В пакетном режиме, называемом off-line, пользователь передаёт порцию информации (или принимает её) в коротком сеансе связи и на некоторое время отключается от сети. Это время может быть достаточно длительным – от нескольких часов до нескольких суток – пока его запрос не будет обработан. On-line похож на разговор по телефону, off-line – на обмен обычными письмами по почте.

Пользователю глобальной сети доступен, по существу, весь мир. Самой известной глобальной сетью является сеть Интернет (это слово с некоторых пор стало нарицательным, поэтому, можно его писать с маленькой буквы), представляющая собой объединение огромного числа сетей, – отраслевого, регионального и ещё более узкого – локального уровня. “Малые” сети имеют выходы (шлюзы) в сети более высокого ранга, в согласованную систему адресов и протоколов (правил) передачи данных, и так образуют INTERNET – сеть сетей.

2. История INTERNET

Как и большинство технологий Интернет в своем развитии прошёл 3 периода:

1. Исследовательский (1957 – 1969). В агентстве перспективных проектов и исследований министерства обороны США начались эксперименты по соединению компьютеров друг с другом с помощью телефонных линий. Возникла сеть ARPA , предназначавшаяся для управления военными операциями и страной в период войны: каждая пара ПК в сети взаимодействуют автономно, а канал связи между ними в любой момент может быть разрушен, например бомбежкой. Уцелевший ПК может подключиться к сети через уцелевшие каналы связи.

2. Период становления (1969 – 1995). Датой рождения Интернета, который в начале назывался ARPAnet, принято считать 29 октября 1969 года, когда удалось соединить 4 ПК. Первый выход в свет засекреченная ARPAnet совершила в 1972 году, когда ее представляли на Международной компьютерной конференции связи. Уже тогда сеть содержала электронную почту e-mail. К концу 70-х годов были разработаны средства связи между ARPAnet и ее контрагентами в других странах. Мир оказался сведен в одно целое паутиной компьютерных сетей.

3. Период развития. В 80-ые годы сообщество сетей стало называться INTERNET. Были разработаны протоколы передачи данных. Как это часто происходит в жизни, и в компьютерной в частности, сначала появляется некое устройство, а потом правила пользования ею. Часто сам изобретатель не догадывается обо всех возможностях, скрытых в его изобретении. Примерно это произошло с INTERNET. Задуманная с довольно нелепой целью – связать всего-то около двух тысяч программистов с ничтожным количеством суперкомпьютеров, сеть выросла в глобальную информационную систему, охватывающую огромное количество людей и миллионы компьютеров. В 1990 году число объединившихся сетей достигло 3-х тысяч, а число ПК 200 тысяч. В 1992 году – 1млн. ПК, в 1995 году – 20 млн. ПК.

А в России?

В Россию Интернет проник в начале 90-х. Ряд университетов и исследовательских институтов приступили к построению своих сетей, например, на базе института атомной энергии им. Курчатова были созданы 2 сети: Relcom и Демос. До 1993 года сети предоставляли только услуги электронной почты.

В 1993 году мощный импульс развитию Интернета в России придала “Телекоммуникационная программа Международного научного фонда”. Она финансировалась Джорджем Соросом – известным американским мультимиллионером.

В 1994 году появилась сеть RUNnet (университетская).

В 1996 – 1998г. – сеть для нужд науки и высшей школы RBnet (на волоконно-оптических каналах).

В 1998г. – сеть Ростелеком (самый крупный поставщик услуг Интернета в России), Голден Телеком и Глобал Один. Другие сети: PIDOnet, Telnet, Glasnet. Сейчас 10 млн. пользователей Интернета – россияне.

В настоящее время на десятках миллионов компьютеров, подключенных в Интернет, хранится громадный объём информации (миллионы файлов, документов и т. д.) и сотни миллионов людей пользуются услугами Интернет.

3. Поиск информации в Internet

Пользователь ищет информацию в INTERNET либо с какой-либо целью, либо просто осматривается вокруг, чтобы знать, что есть в наличии. Море информации представлено в INTERNET, так что можно потратить огромное количество времени, просто переходя c одного сайта на другой и определяя, какая информация имеется в наличии. Эффект взрыва произвело появление таких средств управления поиском информации как GOPHER и WWW. GOPHER использует систему меню, чтобы позволить пользователям осуществлять выбор информации. WWW использует метафору web - паутина, т.к. эта система позволяет свободно перемещаться внутри системы, построенной на основе гипертекста (НТТР).

Обработка информации в среде Internet существенно отличается от обработки информации в локальной сети и, тем более, на отдельном компьютере. Перечислим наиболее важные из них:

1. Большая протяженность коммуникационных линий, что сказывается на временных характеристиках обмена. Кроме того, большая удаленность лишает смысла загрузку программ с одного компьютера на другой и не позволяет выполнять пересылку больших объемов данных в реальном масштабе времени, как в сетевых СУБД локальных сетей.

2. Взаимодействие распределенных элементов ИС происходит с помощью обмена пакетами или сообщениями . Отдельные программные компоненты И С могут быть одного или различных производителей. В последнем случае особую роль приобретает решение проблемы поддержки стандартов на сетевые протоколы и на язык SQL.

3. Сеть Internet отличает от остальных глобальных сетей то, что по масштабам она больше всех других сетей (объединяет другие сети) и принципы ее организации оказывают существенное влияние на использование в сети баз данных.

Перед рассмотрением моделей и механизмов использования БД дадим краткую характеристику Internet.

Характеристика Internet

Основными видами услуг (сервиса), предоставляемых пользователям при подключении к Internet, являются:

электронная почта (E-mail);

телеконференции (UseNet);

система эмуляции удаленных терминалов (TelNet);

поиск и передача двоичных файлов (FTP);

поиск и передача текстовых файлов с помощью системы меню (Gopher);

поиск и передача документов с помощью гипертекстовых ссылок (WWW или "Всемирная паутина").

Создание и развитие этих способов связано с историей Internet. Каждый из них характеризуется своими возможностями и различием в организации протоколов обмена информацией. Под протоколом, в общем случае, понимается набор инструкций, регламентирующих работу взаимосвязанных систем или объектов в сети.

Электронная почта (E-mail) - наиболее простой и доступный способ доступа в сети Internet. Позволяет выполнять пересылку любых типов файлов (включая тексты, изображения, звуковые файлы) по адресам электронной почты в любую точку планеты за короткий промежуток времени в любое время суток. Для передачи сообщения необходимо знать электронный адрес получателя. Работа электронной почты основана на последовательной передаче информации по сети от одного почтового сервера к другому, пока сообщение не достигнет адресата. К достоинствам электронной почты относятся высокая оперативность и низкая стоимость. Недостаток электронной почты состоит в ограниченности объема пересылаемых файлов.

Система телеконференций UseNet разработана как система обмена текстовой информацией. Она позволяет всем пользователям Internet участвовать в групповых дискуссиях, называемых телеконференциями, в которых обсуждаются всевозможные проблемы. Сейчас в мире насчитывается более 10 тысяч телеконференций. Информация, посылаемая в телеконференции, становится доступной любому пользователю Internet, обратившемуся в данную телеконференцию. В настоящее время телеконференции позволяют передавать файлы любых типов. Для работы с телеконференциями наиболее часто используются средства программ просмотра и редактирования Web-документов.

TelNet - это протокол, позволяющий одному компьютеру использовать ресурсы другого (удаленного) компьютера. Другими словами - это протокол удаленного терминального доступа в сети.

FTP (File Transfer Protocol) - это протокол, позволяющий передавать файлы произвольного формата между двумя компьютерами сети. Программное обеспечение FTP разработано по архитектуре "клиент-сервер" и разделено на две части: серверную (FTP-сервер) и клиентскую. FTP-клиент, в общем случае, позволяет пользователям просматривать файловую систему FTP-сервера и производить с ней обмен файлами (выгружать файлы своего компьютера, загружать, переименовывать и удалять файлы удаленного компьютера). Достоинством данного протокола является возможность передачи файлов любого типа, в том числе исполняемых программ. К недостатку протокола FTP следует отнести необходимость априорного знания местоположения отыскиваемой информации (FTP-адреса).

Протокол Gopher реализующее его программное обеспечение предоставляют пользователям возможность работы с информационными ресурсами, не зная заранее их местонахождение. Для начала работы по этому протоколу достаточно знать адрес одного Gopher-сервера. В дальнейшем работа заключается в выборе команд, представленных в виде простых и понятных меню. При этом пункты меню одного сервера могут содержать ссылки на меню других серверов, что облегчает поиск требуемой информации в сети Internet. Во время работы с системой Gopher программа-клиент не поддерживает постоянного соединения с Gopher-сервером, что позволяет экономить сетевые ресурсы.

WWW (World Wide Web - всемирная паутина) представляет собой самое популярное и современное средство организации сетевых ресурсов. Она строится на основе гипертекстового представления информации.

Гипертекстовый документ {гипертекст) представляет собой текст, содержащий ссылки на другие фрагменты текстов произвольных документов, в том числе и этого документа. Гипертекстовый документ подготавливается на стандартизованном языке HTML (HyperText Markup Language - язык разметки гипертекста). Он состоит из страниц (web-страниц), доступ к которым основан на протоколе передачи гипертекста (HyperText Transfer Prococol, HTTP).

HTML-документ представляет собой ASCII-файл, доступный для просмотра и редактирования в любом редакторе текстов. В отличие от обычного текстового файла, в нем присутствуют специальные команды - тэги , которые указывают правила форматирования документа. С помощью тэгов описываются различные элементы документа: заголовки, абзацы (параграфы), списки, ссылки, формы и т. д.

Простейшим примером гипертекста является книга, оглавление которой содержит ссылки (внутренние) в виде номеров страниц на разделы, подразделы, пункты книги, кроме того, в книге имеются внешние ссылки на другие используемые источники информации.

Фрагмент документа может включать в себя информацию в виде обычного текста, графического изображения, звука и движущегося изображения (анимации). Гипертекст с нетекстовыми документами часто называют гипермедиа .

Важнейшим свойством гипертекста является наличие в нем ссылок на документы, размещаемые на территориально удаленных компьютерах. Документы могут создаваться и редактироваться различными людьми. Вся совокупность взаимосвязанных документов образует гигантскую "паутину". Эта модель подобна модели окружающего нас бесконечного информационного пространства, когда нет строгой иерархии связей, а есть множество связей без начала и конца.

Работа сети Internet основана на использовании протокола TCP/IP (Transmission Control Protocol/Internet Protocol - Протокол управления передачей данных/Протокол Internet), который используется для передачи данных в глобальной сети и во многих локальных сетях. TCP/IP в основном реализует функции транспортного и сетевого уровней модели OSI (подраздел 4.1). Он представляет собой семейство коммуникационных протоколов, которые по назначению можно разделить на следующие группы:

транспортные протоколы, служащие для управления передачей данных между двумя компьютерами;

протоколы маршрутизации, обрабатывающие адресацию данных и определяющие кратчайшие доступные пути к адресату;

протоколы поддержки сетевого адреса, предназначенные для идентификации компьютера по его уникальному номеру или имени;

прикладные протоколы, обеспечивающие получение доступа к всевозможным сетевым услугам;

шлюзовые протоколы, помогающие передавать по сети сообщения о маршрутизации и информацию о состоянии сети, а также обрабатывать данные для локальных сетей;

другие протоколы, не относящиеся к указанным категориям, но обеспечивающие клиенту удобство работы в сети.

Доступ пользователей к ресурсам Internet обычно производится с помощью программ-навигаторов, или броузеров (от англ. browser). В настоящее время к числу наиболее популярных программ этого класса относятся следующие: Netscape Navigator/ Communicator (Netscape) и MS Explorer (Microsoft). Хотя эти программы основаны на использовании протокола HTTP, они предоставляют простой доступ к другим сервисам Internet: электронной почте, новостям и т. д.

Броузер, обеспечивая доступ пользователя к ресурсам сети, по существу является программой-клиентом (или Web-клиентом). Программой, предоставляющей информационные ресурсы, является Web-сервер. Именно он осуществляет основную работу по сбору и получению информации из разных источников, после чего в стандартном виде предоставляет ее Web-клиенту. Рассмотрим организацию выбора информации для пользователя, если она находится в базах данных.