Семантическая паутина – принципы функционирования, тенденции развития. Семантический веб и микроформаты


Российский Государственный Социальный Университет

Реферат на тему: Семантическая паутина

                Выполнил: студент группы.
                Проверил: д.п.н., проф.
Москва 2011

Оглавление

Всемирная паутина

Определение

Всемирная паутина (англ. World Wide Web) - распределенная система, предоставляющая доступ к связанным между собой документам, расположенным на различных компьютерах, подключенных к Интернету. Всемирную паутину образуют миллионы web-серверов. Большинство ресурсов всемирной паутины представляет собой гипертекст. Гипертекстовые документы, размещаемые во всемирной паутине, называются web-страницами. Несколько web-страниц, объединенных общей темой, дизайном, а также связанных между собой ссылками и обычно находящихся на одном и том же web-сервере, называются web-сайтом. Для загрузки и просмотра web-страниц используются специальные программы - браузеры. Всемирная паутина вызвала настоящую революцию в информационных технологиях и бум в развитии Интернета. Часто, говоря об Интернете, имеют в виду именно Всемирную паутину, однако важно понимать, что это не одно и то же. Для обозначения Всемирной паутины также используют слово «веб» (англ. web) и аббревиатуру «WWW».

Структура и принципы всемирной паутины

Всемирную паутину образуют миллионы веб-серверов сети Интернет, расположенных по всему миру. Веб-сервер является программой, запускаемой на подключённом к сети компьютере и использующей протокол HTTP для передачи данных. В простейшем виде такая программа получает по сети HTTP-запрос на определённый ресурс, находит соответствующий файл на локальном жёстком диске и отправляет его по сети запросившему компьютеру. Для идентификации ресурсов (зачастую файлов или их частей) во Всемирной паутине используются единообразные идентификаторы ресурсов URI (англ. Uniform Resource Identifier). Для определения местонахождения ресурсов в сети используются единообразные локаторы ресурсов URL (англ. Uniform Resource Locator). Такие URL-локаторы сочетают в себе технологию идентификации URI и систему доменных имён DNS (англ. Domain Name System) - доменное имя (или непосредственно IP-адрес в числовой записи) входит в состав URL для обозначения компьютера (точнее - одного из его сетевых интерфейсов), который исполняет код нужного веб-сервера.
Для обзора информации, полученной от веб-сервера, на клиентском компьютере применяется специальная программа - веб- браузер. Основная функция веб-браузера - отображение гипертекста. Всемирная паутина неразрывно связана с понятиями гипертекста и гиперссылки. Большая часть информации в Вебе представляет собой именно гипертекст. Для облегчения создания, хранения и отображения гипертекста во Всемирной паутине традиционно используется язык HTML (англ. HyperText Markup Language), язык разметки гипертекста. В гипертекст веб-страниц добавляются гиперссылки. Гиперссылки помогают пользователям Всемирной паутины легко перемещаться между ресурсами (файлами) вне зависимости от того, находятся ресурсы на локальном компьютере или на удалённом сервере. Гиперссылки веба основаны на технологии URL.

Семантическая Паутина.

Определение

Популярная концепция развития Всемирной паутины - создание семантической паутины.
Термин «семантическая паутина» был впервые введён сэром Тимом Бернерсом-Ли, одим из основателейвсемирной паутины как таковой, в мае 2001 года в журнале «Scientific American», и называется им «следующим шагом в развитии Всемирной паутины». Эта концепция была принята и продвигается Консорциумом Всемирной паутины.
Так что же такое «Семантическая паутина»?
Представьте себе сценарий, что информацию, размещенную на веб-страницах, смогут обрабатывать компьютеры, смогут строить сложные пути поиска и делать выводы (с минимальным участием человека). Например, вы ввели в поисковую строку слово “молоко”, а вам в ответ вернули список магазинов, где его можно купить с учетом ваших личных предпочтений и маршрута домой. А еще неплохо, если ваш компьютер свяжется с сайтом магазина и зарезервирует для вас пару пакетов молока. Это конечно шутка и мечта, но она становится ближе. Никто не говорит, что с появлением семантического веб, появится тот самый многострадальный искусственный интеллект: компьютеры никогда не смогут выполнять анализ текста на странице, максимум, что мы можем сделать - это добавить к публикуемой информации помимо визуального оформления (нужного для восприятия страницы человеком) немножко той информации, которую будет понимать и компьютер.
Таким образом, Семантиическая паутиина (англ. Semantic Web) - это направление развития Всемирной паутины, целью которого является представление информации в виде, пригодном для машинной обработки.

Структура и основные принципы семантической паутины

Семантическая Паутина тесно связана с понятием семантической сети (способе представления информации об устройстве некоторой предметной области). С точки зрения математики он представляется в виде графа, вершинами которого являются некоторые понятия (люди, документы, события), а дуги указывают на отношения, существующие между этими понятиями. Основной упор в Семантическом Web делается на метаинформацию (информацию об информации). Она должна потеснить с трона используемый сейчас метод поиска информации в internet основанный на анализе текста веб-страниц. Для продвижения идей Semantic Web были сформированы новые стандарты, которые строятся на известных и опробованных в internet технологиях, таких как http, xml, xml schema. И что самое главное в последнее время произошел переход теории в практику, когда многие популярные веб-сайты начали при публикации информации выполнять ее разметку в соответствии с идеями Semantic Web. Поддержка появилась и в бесплатном web-инструментарии: движках сайтов, блогов, веб-служб. Это очень важный момент, так как тогда семантическую информацию будет публиковать не специалист в данной области, а обычный человек, вообще ничего и никогда не слышавший о Семантической Сети и лежащих в ее основе технологиях: все нужные теги будут сформированы автоматически. Пирамида семантической пирамиды строится на основе трех форматов: XML (extensible markup language), RDF (Resource Description Framework) и OWL (Web Ontology Language). Как вы знаете, язык XML позволяет создавать собственные теги несущие особое значение, например, вы могли бы внедрить в текст вашей веб-страницы такие теги как “”, “” или “
”. Для хранения информации об вашем адресе, друзьях или резюме. Вот только как машина сможет эти придуманные вами теги проанализировать и понять, что же в них хранится? Здесь поможет формат RDF.

Resource Description Framework

В основе RDF лежит идея использования специального вида утверждений, с помощью которых мы можем описать некоторый объект. Каждое из высказываний строится по схеме: “субъект - отношение - объект” и в терминологии RDF называется триплетом. Например, утверждение “Саша любит мандарины” будет представлено в стиле RDF как тройка: субъект - “Саша”, отношение - “любит”, объект - “мандарины”. В свою очередь объект “мандарины” может учувствовать еще в одном отношении, например “В Китае выращивают мандарины”. Остается только догадываться, что такое «мандарины» и кто такой Саша, а также какая связь между Китаем и Сашей. Для идентификации субъектов, предикатов и объектов в RDF используются URI (Uniform Resource Identifier). URI – это основа сегодняшнего internet, но пока используется только для представления адресов веб-страниц, в перспективе возможно указать с помощью URI на географический регион, улицу, человека. Надо только договориться об используемых форматах кодирования такой информации. Более того, и в качестве “отношения” также может выступать URI (указывая на какой-то адрес в сети) и, таким образом, мы можем определять новые и новые отношения. Надо сказать, что с помощью RDF мы можем записывать и более сложные отношения, например четверка: “Сашин друг Чингис не любит мандарины” будет записана как две тройки понятий: “Чингис Саши”, “Чингис не любит мандарины”.
RDF – это язык описания отношений, для которого существует несколько различных форматов представления. Наиболее известная Нотация Три (N3) и XML-подобная форма записи. Мы можем писать код “руками” или использовать специальные инструменты. Как стандарт RDF был принят в начале 2004 г.
Следующий документ содержит сведения о “Саше”, цвете его волос и дате рождения:


black
01.01.1990


RDF документ должен начинаться с корневого тега
Когда говорят что XML технология, где мы сами придумываем теги, то немного лукавят: пока вы лично используете этот документ и не обмениваетесь хранящейся в нем информацией с другими людьми, то вы можете использовать любые теги и атрибуты. Но как только информация становится общедоступной, необходимы правила, где указываются какие элементы, могут встречаться в документе, какие у них могут быть атрибуты и за это отвевает технологии XML Namespaces и XML Schema. С помощью префикса указываемого перед именем тега, например, “war:rocket” и “sport:rocket” мы можем отличить ракетку, которой играют в теннис, и ту которую запускают во врага/ Конкретные названия префиксов пространств имен не имеют никакого значения.
Итак, префиксы могут быть любыми, так что же является критерием отличия тегов? Самое главное указать при первом использовании тега из нового пространства имен его уникальный идентификатор: xmlns:rdf= http://www.w3.org/ 1999/02/22-rdf-syntax-ns# . Затем необходимо указать на ту сущность, которую мы хотим описать. За это отвечает тег “rdf:Description”. Таких тегов может быть несколько, и мы должны описать характеристики каждой из этих сущностей. Делается это с помощью вложенных тегов принадлежащих еще одному пространству имен (в примере это теги ns:hairColor и ns:birthDay). Можно записать сведения о человеке и с помощью атрибутов (следующий документ является идентичным приведенному ранее).


ns:hairColor="black"
ns:birthDay="01.01.1991"/>

Описание атрибутов hairColor и birthDay можно найти в другой XML схеме (ее идентификатор “ http://family.site.com/#” ). Но вот что такое “black” и что такое “01.01.1990”. Люди прекрасно понимают значение цвета “чёрный” и даты “01.01.1990” – машины нет. Но мы можем пойти дальше и для некоторых атрибутов указать в качестве значения не просто кусочек текста (такая информация является локальной для этого документа и не может быть полезной для других веб-приложений), мы можем указать URI, например, так:





Теперь добавим нашему человеку сведения о том, с кем он дружит.








Эти сведения будут представлены в виде таблицы следующего вида:
А результат графического представления подобного описаний информации показан на рисунке.

Более сложный пример:

















Примеры словарей

Далее приведен список наиболее известных и уже нашедших практическое применение словарей:
1. FOAF (Friend of a Friend). Эта онтология служит для описания информации о людях, их интересах, связях с другими людьми. Применяется на сайте Живого Журнала и некоторых социальных сетей.
2. Дублинское Ядро (Dublin Core). Это словарь, созданный специалистами в области хранения и каталогизации информации, служит для представления сведений о том, кто разработал некоторый документ, кто его опубликовал, когда и т.д.
3. SIOC (Semantically-Interlinked Online Communities). Цель этого словаря – описать сообщения в форумах, чатах, блогах и связать эти сообщений между собой и другими публикациями по сходной тематике.
4. DOAP (Description Of A Project). Этот словарь служит для описания open source программных проектов.
5. WSMO (Web Service Modeling Ontology). С помощь этого словаря веб-сервисы могут публиковать информацию о себе и о том, как вызвать некоторую функцию сервиса. Вспомните пример из прошлой статьи, когда Семантический Агент обращался к сайту магазина торгующего молоком и резервировал для вас товары.

Критика

Практическая нереализуемость

В 2006 году журнал «IEEE Intelligent Systems» опубликовал новую статью Тима Бернерса-Ли «Semantic Web Revisited» («Семантическая паутина: пересмотр»), в которой автор называет описанный подход к организации информации в вебе «простой идеей, до сих пор в большой степени нереализованной». Несмотря на все преимущества, предоставляемые семантической паутиной в случае её внедрения, другие авторы также высказывают сомнения в возможности её полной реализации.

Семантическая паутина

Семанти?ческая паути?на (англ. Semantic Web ) - часть глобальной концепции развития сети Интернет, целью которой является реализация возможности машинной обработки информации, доступной во Всемирной паутине. Основной акцент концепции делается на работе с метаданными , однозначно характеризующими свойства и содержание ресурсов Всемирной паутины, вместо используемого в настоящее время текстового анализа документов. Термин впервые введён сэром Тимом Бернерсом-Ли в мае 2001 года в журнале «Scientific American», и называется им «следующим шагом в развитии Всемирной паутины». В семантической паутине предполагается повсеместное использование, во-первых, универсальных идентификаторов ресурсов (URI), а во-вторых - онтологий и языков описания метаданных.

Эта концепция была принята и продвигается Консорциумом W3. Для её внедрения предполагается создание сети документов, содержащих метаданные о ресурсах Всемирной паутины и существующей параллельно с ними. Тогда как сами ресурсы предназначены для восприятия человеком, метаданные используются машинами (поисковыми роботами и другими интеллектуальными агентами) для проведения однозначных логических заключений о свойствах этих ресурсов.

Основная идея

Семантическая паутина - это надстройка над существующей Всемирной паутиной, которая призвана сделать размещённую в ней информацию более понятной для компьютеров. Машинная обработка возможна в семантической паутине благодаря двум её важнейшим характеристикам:

Граф визитной карточки основателя Википедии в формате RDF . Все элементы этого графа (как узлы, так и дуги) являются URI, включая литерал, изображённый в оранжевом прямоугольнике.

Повсеместное использование универсальных идентификаторов ресурсов (URI). Традиционная схема использования таких идентификаторов в современном Интернете сводится к установке ссылок, ведущих на объект, им адресуемый. Очевидным свойством такой ссылки является возможность «загрузки» объекта, на который она указывает. Таким объектом может быть веб-страница, файл произвольного содержания, фрагмент веб-страницы, а также неявное указание на обращение к реально существующему физическому ресурсу по протоколу, отличному от HTTP (например, ссылки mailto:). Концепция семантической паутины расширяет это понятие, включая в него ресурсы, недоступные для скачивания. Адресуемыми с помощью URI ресурсами могут быть, например, отдельные люди, города и другие географические сущности, художественные артефакты и т. д. К идентификатору предъявляются несколько простых требований: он должен быть строкой определённого формата, уникальной, а также адресующей реально существующий объект. Повсеместное использование онтологий и языков описания метаданных. Современные методы автоматической обработки данных, доступных в Интернете, как правило, основаны на частотном и лексическом анализе текстового содержимого (хотя есть и исключения: Swoogle или Intellidimension Semantic Web Search Engine, например), которое прежде всего предназначено для восприятия человеком. В семантической паутине предлагается использовать форматы описания, доступные для машинной обработки (например, семейство форматов, часто упоминаемое в литературе как «Semantic Web family»: RDF , RDF Schema или RDF-S, и OWL), в свою очередь, использующие URI для адресации описываемых и описывающих объектов, а также онтологии и дескриптивные логики в качестве базовых математических формализмов. Критика Практическая реализуемость

Несмотря на все преимущества, предоставляемые семантической паутиной в случае её внедрения, существуют сомнения в возможности её полной реализации.

Разные комментаторы высказывают различные причины, которые могут быть препятствием к этому, начиная с человеческого фактора (люди склонны избегать работы по поддержке документов с метаданными, открытыми остаются проблемы истинности метаданных, и т. д.), и заканчивая косвенным указанием Аристотеля на отсутствие очевидного способа деления мира на концепты, что ставит под сомнение возможность существования онтологии верхнего уровня , критической для семантической паутины (см. понятие differentia specifica в «Топике »).

Дублирование информации

Необходимость описания метаданных так или иначе приводит к дублированию информации. Каждый документ должен быть создан в двух экземплярах: размеченным для чтения людьми, а также в машинно-ориентированном формате. Этот недостаток семантической паутины был главным толчком к созданию так называемых микроформатов.

Реализация Языки описания

Стек понятий семантической паутины

Техническую часть семантической паутины составляет семейство стандартов на языки описания, включающее XML, XML Schema, RDF, RDF Schema , OWL, а также некоторые другие. Располагая их в порядке повышения уровня абстракции, реализуемого тем или иным языком, получаем:

XML предоставляет синтаксис для определения структуры документа, подлежащего машинной обработке. Синтаксис XML не несёт семантической нагрузки. XML Schema определяет ограничения на структуру XML-документа. Стандартный синтаксический анализатор языка XML в состоянии проверить произвольный XML-документ на соответствие его структуры так называемой схеме документа , описанной в XML Schema. RDF представляет собой простой способ описания экземплярных данных в формате субъект-отношение-объект , в котором в качестве любого элемента этой тройки используются только идентификаторы ресурсов. Существует стандартизованное отображение этих троек на XML-документы предопределённой структуры (т. е. консорциумом W3 определена схема XML-документов, содержащих RDF-описания), а также на другие форматы представления (например, в нотацию N3). RDF Schema опи сывает набор атрибутов (здесь их точнее назвать отношениями ), таких, как rdfs:Class, для определения новых типов RDF-данных. Языком поддерживается также отношение наследования типов rdfs:subClassOf. OWL расширяет возможности по описанию новых типов (в частности, добавлением перечислений), а также позволяет описывать новые типы данных RDF Schema в терминах уже существующих (например, определять тип, являющийся пересечением или объединением двух существующих). Логический вывод

Форматы описания метаданных в семантической паутине предполагают проведение логического вывода на этих метаданных, и разрабатывались с оглядкой на существующие математические формализмы в этой области. Математическое обоснование тех или иных конструкций языка описания необходимо для проведения заключений о свойствах программ, обрабатывающих данные в этом формате.

Особенно сильно это относится к языку OWL. Базовым формализмом для него являются дескриптивные логики, а сам язык разбит на три вложенных подмножества (в порядке вложенности): OWL Lite, OWL DL и OWL Full. Доказано, что логический вывод на метаданных с выразительностью OWL Lite выполняется за полиномиальное время (другими словами, задача вывода принадлежит к классу P). OWL DL описывает максимальное разрешимое в данный момент подмножество дескриптивных логик, но некоторые запросы по таким данным могут требовать экспоненциального времени выполнения. OWL Full реализует все существующие конструкторы дескриптивных логик, но не каждый запрос в этом подмножестве языка может быть разрешён (слово «разрешён» здесь употребляется в значении, основанном на корне «решать»).

Простая структура предикатов языка RDF, в свою очередь, позволяет использовать при его обработке опыт из теорий логических баз данных , логики предикатов, и т. д.

Проекты Дублинское ядро

Одним из первых серьёзных и популярных проектов, основанным на принципах семантической паутины, стал проект «Дублинское ядро» (англ. Dublin Core ), реализуемый инициативной организацией Dublin Core Metadata Initiative (DCMI). Это открытый проект, цель которого - разработать стандарты метаданных, которые были бы независимы от платформ и подходили бы для широкого спектра задач. Конкретнее, DCMI занимается разработкой словарей метаданных общего назначения, стандартизирующих описания ресурсов в формате RDF.

RSS (версий 0.90 и 1.0)

Версии 0.90 и 1.0 формата RSS основаны на RDF. Информация в нём представляется как и в RDF, тройками субъект-отношение-объект . Необходимо отметить, что несмотря на то, что ему присущи многие недостатки семантической паутины (дублирование информации, например), этот простейший формат быстро стал чрезвычайно популярным за счёт узкой категоризации подмножества используемых метаданных. Отличие RSS от RDF состоит в том, что субъектом тройки всегда является сайт-источник RSS-файла, а в качестве отношений используются самые очевидные свойства документов, имеющие отношение к часто обновляющимся источникам информации: дата написания, автор, постоянная ссылка, и т. д. Другими словами, RSS - узкоспециализированное подмножество RDF.

Помимо недостатков, RSS унаследовал и все достоинства форматов из семейства семантической паутины: гибкость RSS позволяет использовать его не только для проверки на наличие новой информации на регулярно обновляющихся сайтах, но и для подкастов, и торренткастов.

Заметим, что формат RSS версии 2.0, хотя и не является форматом, основанным на RDF, позволяет внедрение произвольного XML-содержимого, находящегося в собственных пространствах имён XML. Это позволяет использовать RDF-описания также и в нём (используя пространство имён rdf).

Проект «Friend of a Friend» («Друг друга») позволяет описывать отношение знакомства с помощью RDF. Любой его участник может идентифицировать себя уникальным образом с помощью URI (например, mailto-адресом электронной почты, адресом блога, и т. п.), создать свой профиль, используя предопределённые для FOAF отношения на языке RDF, и перечислить идентификаторы людей, которых этот участник знает. Это описание может обрабатываться автоматически; на его основе можно строить сети доверия, анализировать структуру социальных групп, и т. д.

Семантические веб-сервисы

В то время как совокупность ресурсов и их метаданных можно считать статической частью семантической паутины, её динамическую часть представляют т. н. семантические веб-сервисы - законченные элементы программной логики с однозначно описанной семантикой, доступные через Интернет и пригодные для поиска, композиции и выполнения.

Технически, семантический веб-сервис отличается от обычного веб-сервиса наличием не только описания интерфейса (обычно на языке WSDL) в терминах типов данных, передаваемых сервису, возвращаемых значений и генерируемых ошибок, но и семантического описания всех его характеристик. Заметим, что дублирования данных, упомянутого в числе недостатков семантической паутины, здесь не происходит: WSDL-описания изначально были предназначены для машинной обработки.

Потенциальная выгода от использования семантических веб-сервисов заключается в возможности автоматического поиска (а также композиции) программными агентами подходящих сервисов для решения поставленных задач. Тем не менее, сложность этой задачи в её общей формулировке пока позволяет добиваться некоторых положительных результатов только в узкоспециализированных отраслях, явным образом выигрывающих от внедрения сервисно-ориентированной архитектуры, например в интеграции корпоративных приложений.,

Метаданные

Метаданные , в общем случае

Метаданные это информация о данных.. информация об информации. Пример: Имя автора правки в тексте. Этот термин в широком смысле слова используется для любой информации о данных: именах таблиц, колонок в таблице в реляционных базах данных, номер версии в файле программы (т.е как информативная часть в бинарном файле) и т. п. структурированные данные, представляющие собой характеристики описываемых сущностей для целей их идентификации, поиска, оценки, управления ими. набор допустимых структурированных описаний, которые доступны в явном виде и предназначение которых помочь найти объект. термин используется в контексте поиска объектов, сущностей, ресурсов. данные из более общей формальной системы, описывающей заданную систему данных. // Иерархии метаданных

Структурированные в виде иерархии метаданные более правильно называть онтологией или схемой метаданных (например, XML-схема).

Различие между данными и метаданными

Обычно невозможно провести однозначное разделение на данные и метаданные в документе, поскольку:

Что-то может являться как данными, так и метаданными. Так, заголовок статьи можно одновременно отнести как к метаданным (как элемент метаданных - заголовок), так и к собственно данным (поскольку заголовок является частью самого текста). Данные и метаданные могут меняться ролями. На стихотворение, рассматриваемое как данные, может быть написана музыка, в этом случае всё стихотворение может быть «прикреплено» к музыкальному файлу и в этом случае рассматриваться как метаданные. Таким образом, отнесение к одной или другой категории зависит от точки зрения (или, пространства имен, системы отсчета). Возможно создание мета-мета-…-метаданных (см. аксиома выбора). Поскольку, в соответствии с обычным определением, метаданные являются данными, то можно создать метаданные на метаданные, метаданные на метаданные на метаданные и так далее. На первый взгляд это может показаться бесполезным, но на самом деле это является очень существенным и полезным свойством данных и метаданных.

Эти рассуждения применимы независимо от выбора определения метаданных (из приведённых выше и не только).

Использование

Метаданные используются для повышения качества поиска. Поисковые запросы, использующие метаданные могут спасти пользователя от лишней ручной работы по фильтрации. Информируя компьютер о том, какие элементы данных связаны и как эти связи учитывать, становится возможным осуществлять достаточно сложные операции по фильтрации и поиску. Например, если поисковая система «знает» о том, что «Ван Гог» является «голландским художником», то она может выдать в ответ на запрос о голландских художниках веб-страницу о Ван Гоге, даже если слова «голландский художник» не встречаются на этой странице. Такой подход, называемый представлением знаний, находится в сфере интересов Семантической паутины и искусственного интеллекта.

В частности, метаданные создаются для оптимизации алгоритмов сжатия с потерей качества. Например, если к видео прилагаются метаданные, позволяющие компьютеру разделить изображение на основную часть и фоновую, то последняя может быть сжата сильнее, что позволит достичь большего коэффициента сжатия.

Некоторые виды метаданных предназначены для обеспечения возможности различных видов представления некоторых данных. Например, если к изображению прилагаются метаданные, содержащие информацию о том, какая часть изображения наиболее важная (допустим, изображение человека), то программа для просмотра изображений на маленьком экране (таком, как на мобильном телефоне), может отобразить только эту наиболее важную часть изображения. Аналогично используются метаданные, позволяющие сделать доступными для слепых диаграммы и изображения, путём их преобразования для вывода на специальные устройства, либо чтения их описания с использованием программного обеспечения, преобразующего текст в речь.

Другие описательные метаданные могут использоваться автоматизированными рабочими потоками. Например, если некоторая «умная» программа «знает» содержимое и структуру данных, то данные могут быть автоматически преобразованы и переданы другой «умной» программе как входные данные. В результате, пользователи будут спасены от необходимости выполнения множества рутинных операций, если данные предоставлены для работы такими «немногословным» программам.

Метаданные становятся важны в World Wide Web по причине необходимости обеспечения поиска полезной информации среди огромного количества доступной. Метаданные, созданные вручную имеют большую ценность, поскольку это гарантирует осмысленность. Если веб-страница на какую-то определённую тему содержит слово или фразу, то все другие веб-страницы на эту тему могут содержать такое же слово или фразу. Метаданные также обладают разнообразием, поэтому если с какой-то темой связаны два значения, то каждое из них может быть использовано. Например, статья про Живой Журнал может быть обозначена с помощью нескольких значений: «Живой Журнал», «ЖЖ», «LiveJournal».

Метаданные используются для хранения информации о записях audio CD. Аналогично MP3 файлы хранят метаданные в формате ID3.

Классификация метаданных

Метаданные можно классифицировать по:

Содержанию. Метаданные могут либо описывать сам ресурс (например, название и размер файла), либо содержимое ресурса (например, «в этом видеофайле показано как парень играет в футбол»). По отношению к ресурсу в целом. Метаданные могут относиться к ресурсу в целом или к его частям. Например, «Title» (название фильма) относится к фильму в целом, а «Scene description» (описание эпизода фильма) отдельное для каждого эпизода фильма. По возможности логического вывода. Метаданные можно подразделить на три слоя: нижний слой - это «сырые» данные сами по себе; средний слой - метаданные, описывающие эти данные; и верхний слой - метаданные, которые позволяют делать логический вывод, используя второй слой. Формат метаданных

Метаданными на практике обычно называют данные, представленные в соответствии с одним из форматов метаданных.

Формат метаданных - представляет собой стандарт, предназначенный для формального описания некоторой категории ресурсов (объектов, сущностей и т. п.). Такой стандарт обычно включает в себя набор полей (атрибутов, свойств, элементов метаданных), позволяющих характеризовать рассматриваемый объект. Например, формат MARC позволяет описывать книги (и не только книги), содержит поля для описания названия, автора, тематики и огромного множества других характеристик (формат MARC позволяет описать сотни характеристик).

Форматы можно классифицировать, во-первых, по охвату и подробности типов описываемых ресурсов. Во-вторых, по ширине и подробности области описания ресурсов и мощности структуры элементов метаданных. Кроме этого, можно классифицировать по предметным областям, или целям разработки и использования формата метаданных.

Форматы метаданных часто разрабатываются международными организациями или консорциумами, включающими в себя заинтересованные в появлении стандарта государственные организации и частные компании. Разработанный формат часто закрепляется как стандарт в одной или нескольких организациях, занимающихся разработкой и принятием стандартов (например W3C, ISO, ANSI и т. п.)

Классификация форматов метаданных по описываемой предметной области:

DCMI является одним из наиболее распространённых в интернет форматов метаданных для описания ресурсов любого типа (как электронных документов, так и реальных физических объектов). Другие форматы метаданных, предназначенные для описания архивов и электронных ресурсов GILS, EAD. для описания персон и организаций vCard и FOAF для описания библиографических ресурсов предназначены форматы семейства MARC (MARC 21 иcпользуемый в США и Великобритании и UNIMARC используемый в Европе и Азии); UNIMARC в свою очередь подразделяется на национальные расширения этого формата, так в России используется RUSMARC; в силу большой сложности форматов семейства MARC для решения задач интеграции данных был разработан формат MODS. для описания музейных и исторических ценностей используется формат CDWA для описания издательской продукции используются PRISM и ONIX для кристаллографической информации CIF для хранения и обмена информацией о погоде в бинарной форме GRIB для работы с изображениями со спутников VICAR для описания новостей NewsXML

И называется им «следующим шагом в развитии Всемирной паутины ». В семантической паутине предполагается повсеместное использование, во-первых, унифицированных идентификаторов ресурсов (URI), а во-вторых - онтологий и языков описания метаданных.

Эта концепция была принята и продвигается Консорциумом W3 . Для её внедрения предполагается создание сети документов, содержащих метаданные о ресурсах Всемирной паутины и существующей параллельно с ними. Тогда как сами ресурсы предназначены для восприятия человеком, метаданные используются машинами (поисковыми роботами и другими интеллектуальными агентами) для проведения однозначных логических заключений о свойствах этих ресурсов.

Основная идея

Семантическая паутина - это надстройка над существующей Всемирной паутиной, которая призвана сделать размещённую в ней информацию более понятной для компьютеров . Машинная обработка возможна в семантической паутине благодаря двум её важнейшим характеристикам:

  • Повсеместное использование унифицированных идентификаторов ресурсов (URI). Традиционная схема использования таких идентификаторов в современном Интернете сводится к установке ссылок , ведущих на объект, им адресуемый. Очевидным свойством такой ссылки является возможность «загрузки» объекта, на который она указывает. Таким объектом может быть веб-страница, файл произвольного содержания, фрагмент веб-страницы, а также неявное указание на обращение к реально существующему физическому ресурсу по протоколу, отличному от HTTP (например, ссылки mailto:). Концепция семантической паутины расширяет это понятие, включая в него ресурсы, недоступные для скачивания. Адресуемыми с помощью URI ресурсами могут быть, например, отдельные люди, города и другие географические сущности, художественные артефакты и т. д. К идентификатору предъявляются несколько простых требований: он должен быть строкой определённого формата, уникальной, а также адресующей реально существующий объект.
  • Повсеместное использование онтологий и языков описания метаданных. Современные методы автоматической обработки данных, доступных в Интернете, как правило, основаны на частотном и лексическом анализе текстового содержимого (хотя есть и исключения: например, Swoogle или Intellidimension Semantic Web Search Engine), которое прежде всего предназначено для восприятия человеком. В семантической паутине предлагается использовать форматы описания, доступные для машинной обработки (например, семейство форматов, часто упоминаемое в литературе как «Semantic Web family»: RDF , RDF Schema или RDF-S, и OWL), в свою очередь, использующие URI для адресации описываемых и описывающих объектов, а также онтологии и дескрипционные логики в качестве базовых математических формализмов.

Критика

Практическая нереализуемость

Несмотря на все преимущества, предоставляемые семантической паутиной в случае её внедрения, существуют сомнения в возможности её полной реализации.

Разные комментаторы высказывают различные причины, которые могут быть препятствием к этому, начиная с человеческого фактора (люди склонны избегать работы по поддержке документов с метаданными, открытыми остаются проблемы истинности метаданных, и т. д.), и заканчивая косвенным указанием Аристотеля на отсутствие очевидного способа деления мира на концепты, что ставит под сомнение возможность существования онтологии верхнего уровня , критической для семантической паутины (см. понятие differentia specifica в «Топике »).

Дублирование информации

Необходимость описания метаданных так или иначе приводит к дублированию информации. Каждый документ должен быть создан в двух экземплярах: размеченным для чтения людьми, а также в машинно-ориентированном формате. Этот недостаток семантической паутины был главным толчком к созданию так называемых микроформатов и языка RDFa . Последний является вариантом языка RDF и отличается от него тем, что не определяет собственного синтаксиса, а предназначен для внедрения в XML-атрибуты XHTML-страниц.

Невозможность получения коммерческой выгоды

Известно, что основное финансирование современных интернет-ресурсов (за исключением строго некоммерческих проектов) обеспечивают рекламодатели . Главный критерий , от которого зависит стоимость рекламного места - посещаемость сайта. Однако в случае реализации семантических поисковых систем, которые будут сами отбирать и сразу предоставлять нужную пользователю информацию, отпадает необходимость посещать сайт - источник материала, а значит пользователь не увидит рекламу, и как следствие прекратится финансирование интернет-проектов.

Реализация

Языки описания

Техническую часть семантической паутины составляет семейство стандартов на языки описания, включающее XML , XML Schema , RDF , RDF Schema , OWL , а также некоторые другие. Располагая их в порядке повышения уровня абстракции, реализуемого тем или иным языком, получаем:

  • XML предоставляет синтаксис для определения структуры документа, подлежащего машинной обработке. Синтаксис XML не несёт семантической нагрузки.
  • XML Schema определяет ограничения на структуру XML-документа. Стандартный синтаксический анализатор языка XML в состоянии проверить произвольный XML-документ на соответствие его структуры так называемой схеме документа , описанной в XML Schema.
  • RDF представляет собой простой способ описания экземплярных данных в формате субъект-отношение-объект , в котором в качестве любого элемента этой тройки используются только идентификаторы ресурсов. Существует стандартизованное отображение этих троек на XML-документы предопределённой структуры (т. е. консорциумом W3 определена схема XML-документов, содержащих RDF-описания), а также на другие форматы представления (например, в нотацию ).
  • RDF Schema описывает набор атрибутов (здесь их точнее назвать отношениями ), таких, как rdfs:Class , для определения новых типов RDF-данных. Языком поддерживается также отношение наследования типов rdfs:subClassOf .
  • OWL расширяет возможности по описанию новых типов (в частности, добавлением перечислений), а также позволяет описывать новые типы данных RDF Schema в терминах уже существующих (например, определять тип, являющийся пересечением или объединением двух существующих).

Логический вывод

Форматы описания метаданных в семантической паутине предполагают проведение логического вывода на этих метаданных, и разрабатывались с оглядкой на существующие математические формализмы в этой области. Математическое обоснование тех или иных конструкций языка описания необходимо для проведения заключений о свойствах программ, обрабатывающих данные в этом формате.

Особенно сильно это относится к языку OWL . Базовым формализмом для него являются дескрипционные логики , а сам язык разбит на три вложенных подмножества (в порядке вложенности): OWL Lite, OWL DL и OWL Full. Доказано , что логический вывод на метаданных с выразительностью OWL Lite выполняется за полиномиальное время (другими словами, задача вывода принадлежит к классу P). OWL DL описывает максимальное разрешимое в данный момент подмножество дескрипционных логик, но некоторые запросы по таким данным могут требовать экспоненциального времени выполнения . OWL Full реализует все существующие конструкторы дескрипционных логик, но не каждый запрос в этом подмножестве языка может быть разрешён (слово «разрешён» здесь употребляется в значении, основанном на корне «решать»).

Простая структура предикатов языка RDF , в свою очередь, позволяет использовать при его обработке опыт из теорий логических баз данных , логики предикатов , и т. д.

Проекты

Дублинское ядро

Одним из первых серьёзных и популярных проектов, основанным на принципах семантической паутины, стал проект «Дублинское ядро » (англ. Dublin Core ), реализуемый инициативной организацией Dublin Core Metadata Initiative (DCMI). Это открытый проект, цель которого - разработать стандарты метаданных, которые были бы независимы от платформ и подходили бы для широкого спектра задач. Конкретнее, DCMI занимается разработкой словарей метаданных общего назначения, стандартизирующих описания ресурсов в формате RDF.

RSS (версий 0.90 и 1.0)

Заметим, что формат RSS версии 2.0, хотя и не является форматом, основанным на RDF, позволяет внедрение произвольного XML-содержимого, находящегося в собственных пространствах имён XML. Это позволяет использовать RDF-описания также и в нём (используя пространство имён rdf).

FOAF

См. также

Примечания

Литература

  • Dieter Fensel, Wolfgang Wahlster, Henry Lieberman, James Hendler, «Spinning the Semantic Web: Bringing the World Wide Web to Its Full Potential», MIT Press,
  • John Davies, Dieter Fensel, Frank van Harmelen, «Towards the Semantic Web: Ontology-Driven Knowledge Management», John Wiley & Sons,

Ссылки

  • Официальный портал (англ.)
  • Общественный портал (англ.)

Семантическая паутина - это концепция сети, в которой каждый ресурс на человеческом языке был бы снабжён описанием, понятным компьютеру.

Семантическая паутина открывает доступ к чётко структурированной информации для любых приложений, независимо от платформы и независимо от языков программирования.

Программы смогут сами находить нужные ресурсы, обрабатывать информацию, классифицировать данные, выявлять логические связи, делать выводы и даже принимать решения на основе этих выводов.

При широком распространении и грамотном внедрении семантическая паутина может вызвать революцию в Интернете. Для создания понятного

компьютеру описания ресурса, в семантической паутине используется формат RDF (англ. Resource Description Framework ), который основан на синтаксисе XML и использует идентификаторы URI для обозначения ресурсов.

Новинки в этой области - это RDFS (англ. RDF Schema ) и SPARQL (англ.Protocol And RDF Query Language ) (произносится как «спааркл»), новый язык запросов для быстрого доступа к данным RDF.

4.5. Web-технологии: HTML, DHTML,

JavaScript, PHP, MySQL, XML+XLST, Ajax

Web-страницы (Web-pages) всемирной паутины создаются при помощи языка разметки гипертекста (HyperТext Markup Language, HTML).

HTML - это язык разметки. HTML используется для разметки текстового документа, точно так же, как это делает редактор при помощи жирного красного карандаша. Эти пометки служат для определения формата (или стиля), который будет использован при выводе текста на экран монитора.

Общий вид HTML-файла, теги

M в аббревиатуре HTML означает "mark-up" -- разметка.

Текст размечается тегами, которые являют собой ключевые слова языка, заключенные в угловые скобки "<" и ">" (большеменьше).

Чаще их употребляют парами, чтобы отметить начало и конец некоторого куска текста. Отмечают же его для того, чтобы браузер показывал текст на экране в заданном тегами виде.

В приведенном примере три пары тегов:

--

Пара, которая показывает, что содержимое файла -- документ в формате HTML.

--

Пара обрамляющая текст, не выводимый на экран, и предназначенный для машин.

--

Пара обрамляющая текст, выводимый на экран.

DHTML

DHTML (динамический HTML) - это набор средств, которые позволяют создавать интерактивные Webстраницы без увеличения загрузки сервера.

DHTML построен на объектной модели документа (Document Object Model, DOM ), которая расширяет традиционный статический HTML-документ.

DOM обеспечивает динамический доступ к содержимому документа, его структуре и стилям. В DOM каждый элемент Web-страницы является объектом, который можно изменять.

DOM не определяет новых тэгов и атрибутов, а просто обеспечивает возможность программного управления всеми тэгами, атрибутами и каскадными листами стилей (CSS).

JavaScript

JavaScript предназначен для написания сценариев для активных HTML-страниц. JavaScript не предназначен для создания автономных приложений.

Программа на JavaScript встраивается непосредственно в исходный текст HTML-документа и интерпретируется брaузером по мере загрузки документа.

С помощью JavaScript можно динамически изменять текст загружаемого HTML-документа и реагировать на события, связанные с действиями посетителя или изменениями состояния документа или окна.

Важная особенность JavaScript - объектная ориентированность. Программисту доступны многочисленные объекты, такие, как документы, гиперссылки, формы, фреймы и т.д.

PHP

PHP (Personal Home Page) - серверный язык создания сценариев. Первая версия PHP была создана Расмусом Лердорфом в 1994 г. и представляла собой набор инструментов для отслеживания посетителей Web-страницы.

Сегодня это полноценный мощный язык программирования, его название было изменено как рекурсивное образование PHP HyperText Preprocessor (препроцессор гипертекста PHP).

Конструкции PHP, вставленные в HTML-текст, выполняются сервером при каждом посещении страницы. Результат их обработки вместе с обычным HTML-текстом передается браузеру.

XML (eXtensible Markup Language) - расширяемый язык разметки. Основное внимание в XML сосредоточено на данных. В XML структурная разметка данных и представление данных строго разделены.

XSLT

XSLT (eXtensible Stylesheet Language Transformations) - расширяемый язык преобразования листов стилей.

Язык XSLT служит транслятором, с помощью которого можно свободно модифицировать исходный текст. XLST играет решающую роль в утверждении XML в качестве универсального языка хранения и передачи данных. Область применения XSLT широка - от электронной коммерции до беспроводного Web.

AJAX

Ajax расшифровывается как Asynchronous Javascript And XML (Асинхронные Javascript И XML) и технологией в строгом смысле слова не является.

Если в стандартном веб-приложении обработкой всей информации занимается сервер, тогда как браузер отвечает только за взаимодействие с пользователем, передачу запросов и вывод поступившего HTML, то в Ajax-приложении между пользователем и сервером появляется еще один посредник - движок Ajax. Он определяет, какие запросы можно обработать "на месте", а за какими необходимо обращаться на сервер.

Чем большую популярность завоевывает Web, тем сложнее становятся Web-узлы. Статические гипертекстовые страницы, подготовленные средствами HTML, встречаются все реже. Практически на каждой домашней странице можно встретить счетчик посещений или часы; большинство сайтов позволяют получить доступ к статистике посещения как отдельных страниц, так и всей их совокупности.

Многие организации включают в свои страницы формы регистрации пользователей или формы заказов на услуги. Все перечисленные функции не реализованы в Web-серверах. И счетчик посещений,

и работа с формой предполагают использование

внешней по отношению к серверу программы.

Семантическая паутина потенциально способна привести к революции в принципах получения и передачи информации, а также управления ею конечными пользователями, однако, как отмечают авторы доклада о «самодельных» базах данных , ситуация с инструментами достаточно мрачная. Выяснилось, в частности, что, не имея специальных приложений, в компаниях и организациях в большинстве случаев вынуждены пользоваться таблицами Excel, списками заданий из Outlook, а также бумажными листками, индексными карточками и скоросшивателями. Использование этого «инструментария» приводит к неразберихе с версиями документов, огромным затратам времени на ввод и передачу данных и трудностям организации, опроса и наглядного представления информации. При этом речь вообще не идет о Больших Данных - обычный сценарий работы служащих заключался в ответах на элементарные вопросы вроде «Кто из сотрудников отвечает за ту или иную деятельность?» или «Каков общий объем работы, проделанной таким-то специалистом?». Для опытного администратора базы данных SQL это тривиальные операции, но далеко не у всех сотрудников компаний есть такие навыки. Для всех, кто занимается базами данных и Семантической паутиной, такая ситуация - это просто позор. Мы заняты решением великих задач, в то время как рядовые пользователи не могут справиться с подобными простыми проблемами.

В чем проблема?

Суть проблемы в том, что имеющиеся приложения «мешают» сохранять информацию, организовывать ее и извлекать. Традиционные приложения обычно разрабатываются с расчетом на использование фиксированной схемы данных, определяющей типы сохраняемой информации, способы ее отображения и принципы управления. Пользователям, чья информация отвечает другой схеме, не повезло - они не могут записывать ее в нужной форме. К примеру, врачу-специалисту, не имеющему возможности занести определенные сведения о своих пациентах в систему электронных медицинских карт, приходится пользоваться полем комментариев, вследствие чего ценность системы сводится на нет. Сегодня, когда данные отвечают нестандартным схемам, выбор инструментов скуден - чаще всего используются электронные таблицы, что создает массу сложностей, причем схемы нередко приходится менять вручную по мере изменения самой информации.

Кроме того, фиксированные схемы не позволяют соединять информацию из нескольких приложений - например, связать человека из адресной книги с написанной им музыкой в медиаплеере. Поскольку соответствующие приложения «не знают» схемы друг друга, они не могут работать с чужими данными и даже ссылаться на них .

Семантическая паутина

Семантическая паутина обещает возможность создания приложений, поддерживающих гибкие схемы данных. Приведем примеры.

Haystack

Одной из попыток реализовать принцип гибких схем стала система Haystack (рис. 1), позволяющая сохранять произвольные заданные пользователем сущности, которые имеют произвольные свойства и связи с другими сущностями, а также формирующая произвольные наглядные представления сущностей . Можно, к примеру, реализовать подобие традиционного приложения с любой удобной для пользователя схемой данных.

Первая версия Haystack была создана еще до появления концепции Семантической паутины, но позднее стало ясно, что это как раз приложение для нее, и когда была разработана стандартная модель представления данных RDF, то ее стали использовать в Haystack, которая реализует главное обещание Семантической паутины - поддержку «паутины» данных с многообразием схем. Разработчики баз данных посвятили немало усилий возможности их интеграции, классический пример - объединение крупных баз при слиянии двух компаний, однако ничего не было предложено для более «анархичной» ситуации с разнообразием схем данных, используемых на различных веб-сайтах.

Вместо традиционных приложений с жестко закодированными схемами и интерфейсами сегодня нужны приложения, позволяющие эффективно манипулировать информацией на основе любых схем, но это непросто - разработчики пользовательских интерфейсов и движков обработки данных привыкли полагаться на известность схемы.

Related Worksheets

Авторы Related Worksheets (рис. 2) - инструмента для управления информацией - решили, что раз уж пользователи «проголосовали» за электронные таблицы, то последние можно оптимизировать, обеспечив возможность управления данными с меняющейся схемой. В усовершенствованной электронной таблице лучше отображаются сущности и связи, а также проще навигация. Рассмотрим типичный документ: таблица с перечнем университетских курсов (по строке на каждый), которая ссылается на другую таблицу со списком литературы для каждого курса (по строке на каждое наименование) и на одну таблицу со списком преподавателей. В традиционной электронной таблице такая «ссылка» - это просто условное соответствие: в таблице курсов есть ячейка с названием публикации из таблицы со списком литературы.

Представив список литературы в виде сущности, можно каждую позицию списка литературы сделать «вложенной» в соответствующую ячейку таблицы курсов, чтобы сразу видеть дополнительные сведения, не делая отдельно поиск по таблице литературы. Кроме того, можно сразу «телепортироваться» из наименования публикации, отображаемого в таблице курсов, в соответствующую строку перечня литературы, где можно просматривать и менять дополнительные данные, а также «телепортироваться» дальше - к автору публикации. Тестирование показало, что эти функции позволяют пользователям гораздо быстрее получать нужную информацию. По сути, такие связки соответствуют операции соединения, которая есть в СУБД, но отсутствует в электронных таблицах.

Exhibit

Система Exhibit (рис. 3), как и Haystack, позволяет создавать интерактивные наглядные репрезентации данных с нефиксированной схемой для сайтов. Профессионалы могут строить очень сложные сайты с эффектными схемами визуализации, но у рядовых разработчиков нет необходимых для этого навыков программирования и администрирования баз данных, поэтому они ограничиваются текстом и статичными изображениями. Авторы Exhibit обратили внимание на то, что профессионально сделанные сайты часто имеют много общего и что можно было бы создать расширение HTML для описания типовых элементов таких сайтов. В таком расширении определены отображения (списки, таблицы, карты и оси времени), фильтры и «линзы» для данных (HTML-шаблоны для вывода единиц информации разного типа). Такой элемент можно буксировкой разместить на веб-странице и мгновенно опубликовать интерактивную наглядную визуализацию, перенеся на него файл данных (CSV, электронную таблицу или документ JSON). Для платформы Wordpress на базе Exhibit разработали расширение Datapress, которое позволяет публиковать визуализации в блоге.


На сегодня существует уже 1800 сайтов на Exhibit, среди которых дела Европейского суда по правам человека, мониторинг загрязнения воздуха в Испании, картографические материалы, композиторы классической музыки, расписания спортивных состязаний и т. п., причем, судя по отзывам, Exhibit полностью удовлетворяет потребности пользователей в создании интерактивных визуализаций данных без специальных знаний.

Atomate

Приложение Atomate (рис. 4) позволяет составлять правила для автоматической обработки входящих информационных потоков, например из социальных СМИ. Руководствуясь идеями Семантической паутины, такие потоки можно было бы направлять в единую личную базу данных пользователя, где они автоматически обрабатывались бы с помощью постоянных запросов. Можно, к примеру, сделать так, чтобы пользователь получал предупреждение, когда одновременно в календаре появляется уведомление, что скоро выступает его любимая группа, а социальная сеть сообщает, что в город приехал его друг и можно вместе сходить на концерт. А еще можно обеспечить автоматическую отправку уведомления вашему секретарю, когда приложение, следящее за вашим местонахождением, определяет, что вы опаздываете.

Одной из важных задач является разработка для подобных систем языка запросов, достаточно простого для рядовых пользователей. Специально для Automate был создан язык - подмножество английского, лишенное неоднозначностей и поддающееся машинной обработке. С его помощью для пользовательских данных можно назначать триггеры и действия. Триггеры - постоянные запросы, при выполнении условий которых запускается отправка сообщений либо модификация хранимых данных.

Достаточно популярным стал похожий инструмент - онлайн-сервис If This Then That (IFTTT), на котором доступны информационные потоки, поступающие с различных онлайн-сервисов. Пользователи могут составлять «рецепты», в которых триггерам, реагирующим на информацию из каналов, ставятся в соответствие действия. IFTTT, по сути, реализует возможности, которые могла бы дать Семантическая паутина, но сейчас операторам сервиса для каждого источника данных приходится писать специальный код, с использованием соответствующих API для переноса информации в канал. Концепция Семантической паутины между тем предусматривает создание единого API для доступа к данным на всех сайтах. Такой API избавил бы от необходимости разрабатывать специальный код для каждого канала - пользователи бы просто писали триггеры и действия для любых сайтов, которые сочтут полезными.

Что делать?

Как видно по приведенным примерам, методы Семантической паутины позволяют создавать полезные инструменты, работающие с нефиксированными схемами данных. Учитывая, насколько широкие возможности управления пользовательской информацией могли бы дать такие инструменты, разочаровывает, как мало разработчики концепции Семантической паутины вкладывают в ее развитие. Исследования, посвященные приложениям для конечных пользователей, сегодня практически не ведутся. Например, в программу Европейской конференции по семантической паутине (ESWC) в 2013 году вошли 36 докладов, большинство из которых были посвящены базовым технологиям Семантической паутины и лишь один был по пользовательскому приложению. Аналогичная ситуация с нехваткой приложений наблюдалась и на Международной конференции по Семантической паутине (ISWC) 2013 года. Чем можно объяснить этот «дефицит»?

Меньше семантики, больше паутины

Судя по докладам на ESWC и ISWC, мало кто занимается вопросами применения Семантической паутины, а такими темами, как представление знаний, логические заключения и онтологии, уже десятки лет озабочены исследователи, работающие в области искусственного интеллекта. Эти задачи важны для достижения долгосрочных целей - моделирования процесса познания и создания истинного искусственного разума, но почему те же исследования выполняются и в сообществе Семантической паутины? Разве то, что логические заключения выводятся по данным из WWW, а не из базы знаний экспертной системы, меняет суть задачи?

Главные новшества, которые обещает Семантическая паутина, касаются WWW, а не семантики - революция WWW заключалась в том, что абсолютно всем стало проще готовить информацию, управлять и делиться ею, причем дело было не в новизне каких-то систем (все нужные элементы были созданы раньше) - благодаря определенному сочетанию элементов пользователи получили совершенно новые возможности. Теперь эту революцию могли бы продолжить структурированные данные, но при условии, что акцент по-прежнему будет делаться на конечных пользователях.

Молотки и гвозди

Для академических исследований обычный риск - слишком увлечься «молотками» (методами решения) и забыть о «гвоздях» (самих проблемах, требующих решения), что и произошло в сообществе Семантической паутины. В свое время исследователи пришли к убеждению, что паутина структурированных данных будет полезной, а теперь посвящают всю свою энергию изобретению инфраструктуры для такой паутины. Но как именно она будет использоваться, так и не определились. Конечно, если создать искусственный интеллект, то можно заставить его выполнять всю работу по Семантической паутине, но тогда он сможет понимать текст на естественном языке и Семантическая паутина уже не понадобится.

Сегодня необходимо лучше демонстрировать очевидные преимущества Семантической паутины, что можно сделать, только показывая, как она позволяет решать задачи, стоящие перед пользователями прямо сейчас, и не излагать общий утопичный замысел, а четко продемонстрировать, как «забивать гвозди». Нужно описать конкретные пользовательские проблемы и реализовать приложения, решающие их. Если этого не сделать - изобрести молотки без гвоздей, то даже сомнительно, что это будут правильные молотки. Кто-то другой решит насущные задачи (пусть и менее хорошо) без Семантической паутины, а про нее вскоре просто забудут.

Нужно больше исследований начинать с обозначения конкретной пользовательской задачи, чтобы была реальная причина, требующая создания решения. Именно так поступили авторы перечисленных приложений, предложив средства управления личной информацией, усовершенствованную электронную таблицу, систему публикации интерактивных визуализаций без программирования и механизм автоматической обработки входящих потоков информации. Кстати, система Atomate похожа на агенты, предложенные в докладе Тима Бернерза-Ли о концепции Семантической паутины. И поскольку еще не известно, как создавать автономные агенты для такой паутины, то можно умерить амбиции, создать простой язык запросов и разработать что-то, что было бы полезным прямо сейчас. Если бы Семантическая паутина реально использовалась, то подобные решения нашлись бы для многих задач.

Справедливость опасений по поводу того, что Семантическую паутину забудут, подтверждается сервисом IFTTT, решающим те же задачи, что и Atomate, только без применения методов Семантической паутины. В определенном смысле это делает его менее удачным (добавить новый источник данных нельзя, если этого не пожелают операторы сервиса), но он явно лучше хотя бы в том, что активно используется для решения актуальных задач. Если тянуть слишком долго, не предлагая чего-то более совершенного на основе Семантической паутины, люди привыкнут к тому, что уже есть. Если не продемонстрировать превосходство ее методов, то другие выиграют за неимением конкуренции.

В качестве точечного решения можно было бы провести традиционный конкурс Semantic Web Challenge по созданию версии IFTTT, основанной на Семантической паутине. Можно было бы сравнить различные реализации по удобству использования и широте возможностей. Само существование IFTTT говорит о том, что, если бы создали аналогичный инструмент на основе Семантической паутины, на него бы явно был спрос.

Семантическая паутина потенциально улучшает возможности управления информацией, но полезных практических реализаций этих возможностей нет - слишком много сил уделяется исследованиям в областях представления знаний, логических выводов и извлечения информации, которые традиционно обсуждаются на конференциях по искусственному интеллекту и которым, возможно, только там и место. Приложения есть, но в основном демонстрационные, и многие из них даже не имеют отношения к Семантической паутине - это просто традиционные приложения, хранящие данные в RDF. Иначе говоря, сегодня упускаются колоссальные возможности, и стоит задуматься о том, как это предотвратить.

Литература

  1. A. Voida, Harmon, B. Al-Ani. Homebrew Databases: Complexities of Everyday Information Management in Nonprofit Organizations. Proc. 2011 Ann. Conf. Human Factors in Computing Systems, 2011, P. 915–924.
  2. D.A. Norman. The Design of Everyday Things, Basic Books, 2002.
  3. D.R. Karger. It’s All the Same to Me: Data Unification in Personal Information Management. Personal Information Management, W. Jones and J. Teevan, eds., Univ. of Washington Press, 2007, P. 127–152. URL: http://people.csail.mit.edu/karger/Papers/pimchapter.pdf
  4. D.R. Karger. Haystack: Per-User Information Environments. Beyond the Desktop Metaphor: Designing Integrated Digital Work Environments, V. Kaptelinin and M. Czerwinski, eds., MIT Press, 2007, P. 49–100. URL: http://people.csail.mit.edu/karger/Papers/desktopchapter.pdf (дата обращения: 15.12.2014).

Дэвид Каргер ([email protected]) - профессор, Массачусетский технологический институт.

David R. Karger, The Semantic Web and End Users: What’s Wrong and How to Fix It. IEEE Internet Computing, November/December 2014, IEEE Computer Society. All rights reserved. Reprinted with permission.