ТЕЗАУРУСЫ. ЛИНГВИСТИЧЕСКИЕ ПРИНЦИПЫ ПОСТРОЕНИЯ ТЕЗАУРУСА
3.1. Понятие тезауруса
Тезаурус (от греч. θήσαϋροξ - сокровище, запас) или идеографический словарь (от греч. idea - понятие, представление, идея и grapho - пишу, описываю) - в современной лингвистике: 1) особая разновидность словарей общей или специальной лексики, в которых указаны семантические отношения между лексическими единицами; 2) словарь для поиска какого-либо слова по его смысловой связи с другими словами; 3) определенный способ организации (расположения) слов в словаре; 4) способ организации лексического состава, который позволяет экономно «моделировать мир».
В первом, исконном, значении - хранилище, сокровище термин тезаурус использовал Л.В. Щерба в статье «Опыт общей лексикографии» (противоположение третье: thesaurus - обычный (толковый или переводной) словарь). Ученый пишет: «Когда говорят thesaurus, то нынче у нас чаще всего имеют при этом в виду «Thesaurus linguae latinae», предприятие пяти немецких академий, начатое еще в 1900 г. и до сих пор доведенное с пропусками лишь до буквы М. Характерная особенность этого типа словарей состоит в том, что в них приводятся все решительно слова, встретившиеся в данном языке хотя бы один раз, и что под каждым словом приводятся решительно все цитаты из имеющихся на данном языке текстов. В основе вышеуказанного противоположения - thesaurus -обычный (толковый или переводной) словарь - лежит противоположение «языкового материала» и «языковой системы» - понятия, которые я пытался обосновать в своей статье «О трояком аспекте языковых явлений и об эксперименте в языкознании» .
Второе значение этого термина связано с имеющим широкую известность словарем-тезаурусом «Тезаурус английских слов и выражений» П.М. Роже (Roget"s Thesaurus of English Words and Phrases, 1852) и его продолжением, словарем О.В. Баранова.
В этой трактовке термин тезаурус обозначает определенный способ организации, расположения лексического состава в словаре (см. третье значение термина).
Четвертое значение термина тезаурус связано с всеобщим признанием такого способа организации лексического состава, который позволяет экономно «моделировать мир». С этой точки зрения тезаурус-словарь представляет собой «систематическое упорядочение лексики какой-либо научной или технической области, а в наиболее общем виде - общелитературной лексики, и более того, всей лексики данного языка».
Согласно Ю.Н. Караулову, общеязыковой тезаурус, фиксируя в структуре и взаимоотношениях своих рубрик, разделов, зон, областей широкие возможности невербального соединения идей, обеспечивает учет человеческих ценностей .
А.Н. Баранов и Д.О. Добровольский в предисловии «От редакторов» к своему «Словарю-тезаурусу современной русской идиоматики» дают тезаурусу следующее определение - особый вид словаря, отличающийся от других (в частности, толкового, двуязычного и др.) способом организации языкового материала. В тезаурусе языковые единицы представлены не в алфавитном порядке, как в обычном словаре, а сгруппированы на основании их значения .
Л.П. Крысин называет тезаурус (идеографический словарь) толковым словарем особого рода, словарем «наоборот». «Если в толковом словаре, пишет ученый, «входом» в словарную статью является слово, а содержанием словарной статьи - толкование смысла этого слова, то в идеографическом словаре «входом» служит смысл, идея (отсюда и название этого вида словарей - идеографические), а содержанием словарной статьи - перечень слов, выражающий данный смысл. И если толковый словарь - незаменимый инструмент при понимании текста, то идеографический может быть использован при порождении текста: очень часто человек хочет выразить определенную мысль, но не может найти подходящих для этого слов; идеографический словарь облегчает эти поиски. Различают два основных вида тезаурусов:
лингвистический тезаурус - словарь, содержащий перечень слов естественного языка, отобранных в результате содержательного анализа текстов и систематизированных в соответствии с принятой классификационной системой;
статистический тезаурус - информационно-поисковый словарь, содержащий перечень слов, отобранных в результате статистического анализа текстов по какой-либо определенной тематике и сгруппированных в словарные статьи на основе частоты совместной встречаемости этих слов в одних и тех же текстах.
Информационно-поисковые тезаурусы (ИПТ) облегчают поиск информации при ее автоматической обработке. ИПТ максимально раскрывают семантические отношения между лексическими единицами. Как сказано в ГОСТе по ИПТ, «тезаурус информационно-поисковый одноязычный - контролируемый и изменяющийся словарь лексических единиц, основанный на лексике одного естественного языка, отображающий семантические отношения между лексическими единицами и предназначенный для обработки и поиска информации».
Основной единицей ИПТ являются термины-дескрипторы. Алфавитная, лексико-семантическая часть ИПТ представляет собой свод дескрипторных статей.
Дескриптивные словари предназначены для полного описания лексики определенной сферы и фиксации всех имеющихся там употреблений; в них фиксируются все имеющиеся релевантные случаи. Типичным примером дескриптивного словаря является «Толковый словарь живого великорусского языка» В.И. Даля (первое издание в четырех томах выходило в 1863- 1866 гг.). Цель его создателя заключалась не в нормировании языка, а в полном описании всего многообразия великорусской речи - в том числе ее диалектных форм просторечия.
Каждая дескрипторная словарная статья начинается дескриптором, при котором ниже в пределах статьи по ГОСТу приводятся синонимы этого дескриптора, а также другие лексические единицы, связанные с основным дескриптором родо-видовыми или ассоциативными отношениями.
Таким образом, тезаурусы, особенно в электронном формате, являются одним из действенных инструментов для описания отдельных предметных областей.
В чистом виде тезаурус встречается редко. В реальных тезаурусах происходит упрощение исходной идеи или добавление посторонней, но потенциально необходимой пользователю информации. Наиболее известными сегодня являются «Русский семантический словарь» Ю.Н. Караулова, «Словарь идентичного названия» Н.Ю. Шведовой, «Тематический словарь русского языка» Л.Г. Смеховой и др.
Резюме. Термин тезаурус Л.В. Щерба употребил применительно к словарю, который фиксировал по возможности все контексты, в которых встречается данное слово. Характерная особенность тезаурусов состоит в том, что в них приводятся все слова, встретившиеся в данном языке хотя бы один раз, и под каждым словом приводятся все цитаты из имеющихся на данном языке текстов. Содержание словаря-тезауруса составляет языковой материал, а обычного словаря - языковой материал и языковая система (термины Л.В. Щербы).
Данная характеристика дополняется перекрестными связями самого разного рода - чаще парадигматическими (синонимическими или антонимическими), которые указывают на общность или противопоставление значений. Кроме того, различного рода ассоц. связями (т.е. синтагм. связями).
Таким образом, задача тезауруса (идеографического словаря) - дать представление о смысловой организации некоторого среза языкового материала, показав основные семантические поля, их внутреннюю структуру и внешние связи. Тезаурус является наглядной демонстрацией системного характера языка, позволяя увидеть множество типов отношений, связывающих отдельные языковые единицы и группы единиц .
3.2. История представления концептуального знания о мире в виде тезауруса
Необходимость в расположении слов по сходству, смежности, аналогии их значений ощущалась на всем протяжении обозримой истории человеческой мысли.
Проследить путь зарождения идеи представления концептуального знания о мире в виде тезауруса нам поможет обращение к истории составления тезаурусов (идеографических словарей).
Так, на заре цивилизации, когда люди могли выразить свои мысли на письме лишь при помощи идеограмм и символов, единственно возможным словарем был, вероятно, такой, в котором слова располагались по тематическим группам. Лексикографу в то время просто трудно было найти иной критерий для классификации слов, кроме отношений, существующих в самой действительности.
К сожалению, у нас нет свидетельств того, действительно ли народы, пользовавшиеся идеографическим письмом, располагали подобными словарями. Среди наиболее древних из известных нам попыток идеографической классификации называют Attikai Lexeis греческого грамматика, директора Александрийской библиотеки Аристофана Византийского (умер в 180 году до н. э.).
Во II в. н. э. появляется капитальный труд «Ономастикон», составленный на материале греческого языка лексикографом и софистом Юлием Поллуксом (настоящее имя Полидевк), уроженцем египетского города Навкратис. Ю. Поллукс написал несколько сочинений, но до нас дошел лишь «Ономастикон» (Поллукс Ю. Ономастикон. М., 1956).
Ономастикон состоит из 10 книг. Книги по существу являются отдельными трактатами и содержат в себе наиболее важные слова, относящиеся к той или иной теме. Так, в первой книге говорится о богах и царях; во второй - о людях, их жизни и физиологическом строении; в третьей - о родстве и гражданских отношениях и т. д. Слова, помещенные в словаре, сопровождаются краткими толкованиями. В новое время словарь был впервые опубликован в 1502 г. в Венеции.
Между II и III вв. н. э. в свет выходит замечательный санскритский словарь «Амаракоша» (Амаракоша. Париж, 1839). Его автором является древнеиндийский поэт, грамматик и лексикограф Амара Сина, которого называли «одной из девяти жемчужин, украшающих трон Викрамадитье» . Амаракоша в переводе на русский язык означает сокровищница Амара. Словарь содержит 10 тыс. слов. Для лучшего запоминания толкования значений слов словарные статьи построены в форме стихов. Весь материал словаря разбит на 3 книги. Каждая книга включает в себя несколько глав, а глава в свою очередь при необходимости разбивается на ряд секций. Первая книга посвящена небу, богам и всему тому, что имеет к ним непосредственное отношение. Во второй книге приводятся слова, относящиеся к земле, поселениям, растениям, животным и человеку (сначала человек рассматривается как живое существо, а затем как существо общественное; перед нашими глазами предстает вся кастовая структура современного автору общества; жрецы как поверенные бога находятся на самом верху, а ниже идут военные и цари, еще ниже - землевладельцы, а в самом низу ремесленники, жонглеры, слуги и т.п.). Третья книга является собственно языковой, что явствует из названий шести ее глав.
Словарь стал известен европейским ученым лишь в конце XVIII в., когда в 1798 г. в Риме была опубликована его первая часть. Полностью он был издан с переводом на английский язык в 1808 г. английским санскритологом Г.Т. Коулбруком (Н.Т. Colebrooke). В 1839 г. появился и его французский перевод, выполненный А.Л. Делоншаном (A.L. Deslongchamps). Дальнейшее развитие идеи смысловой классификации лексики связано с проблемой так называемого всемирного языка.
Резюме. Таков в самых общих чертах первый этап развития традиции идеографической классификации лексики. Этот этап можно назвать предысторией идеографических словарей. Теперь целесообразно обратиться к современной классификации словарей-тезаурусов.
Нетрудно заметить, насколько непохожи описанные труды на алфавитные словари. Если в алфавитных словарях подача слов регулируется таким условным и в высокой степени нейтральным инструментом, как алфавит, то при построении идеографического словаря решающее значение приобретает мировоззрение самого лексикографа .
3.3. Принципы классификации словарей-тезаурусов
Как уже было показано выше, проблема составления классификации тезаурусов не нова и в течение нескольких десятков лет привлекала внимание ряда отечественных и зарубежных лингвистов (К. Марелло, В.В. Морковкин, Л.П. Ступин, В.В. Дубичинский и др.). Результатом исследований в этой области стало создание альтернативных классификаций указанных лексикографических произведений. В основу одной из последних классификаций положены следующие критерии: а) тип смысловых связей между единицами словника; 2) объем словника; 3) генерализованность словника; 4) разработка значения лексем; 5) грамматико-стилистическая квалификация лексем; 6) демонстрация функционирования лексем; 7) количество представленных языков; 8) тип семиотических средств, используемых для семантизации лексем. Названная классификация основывается на созданных ранее классификациях О.М. Карповой и И. Бурханова (Burchanov I. On the Ideographic Description of Stylistically and Pragmatically Relevant Aspects of Lexical Meanings. London, 1996); терминология, используемая в классификации, введена в лексикографический аппарат
В.В. Морковкиным , Ю.Н. Карауловым , К. Марелло . Критерии классификации сформулированы О.М. Карповой . В то же время К. Марелло выделяет три типа тезаурусов:
кумулятивные, представляющие собой группировки слов без определения их значений;
дефинитивные, толкующие каждую лексическую единицу группировки слов;
дву- и многоязычные тезаурусы для путешественников (Marello C. TheThesaurus//W.D.D. 1990. V. 2. P. 1083).
Кумулятивные тезаурусы не только представляют возможность найти более понятное, точное, стилистически верное слово в ситуации нахождения в определенном семантическом поле, но и становятся основой для формирования тематических компьютерных банков данных.
Дефинитивные тезаурусы могут включать, наряду с определением значения, этимологическую информацию и цитаты из литературных произведений, что показывает непосредственную энциклопедическую направленность этого вида тезаурусов. Кроме того, словари данного вида вводят пользователя в необходимую систему концептов, разъясняют сущность, сходства и различия понятий, их парадигматические и синтагматические связи, иногда дают информацию о произносительных, грамматических, словообразовательных и других возможностях лексических единиц, обозначающих эти понятия.
Дву- и многоязычные тезаурусы для путешественников создаются обычно по тематическим разделам: числа, еда, транспорт, гостиница и т.д. с приведением переводных эквивалентов двух и более языков.
Для максимально полного отображения типов существующих словарей-тезаурусов создается многоуровневая классификация. Во-первых, по типу смысловых связей между единицами словника тезаурусы подразделяются на три крупных класса:
1. Ассоциативный тезаурус (терминология Ю.Н. Караулова
2. Аналогический тезаурус (терминология В.В. Морковкина
3. Идеографический (идеологический) тезаурус (терминология Л.В. Щербы, В.В. Морковкина. Названные три типа тезаурусов отражают следующие виды смысловых связей лексем соответственно:
1. Семантико-синтаксические связи, на основании которых
слова объединяются в группы или пары, предопределенные в своем возникновении и существовании двойными связями: смысловыми и синтаксическими. Смысловые связи слов устанавливаются, главным образом, между глаголами и прилагательными, выполняющими предикативную функцию в предложении, и существительными, например:
а) между действием и органом (инструментом), при помощи которого оно совершается: хватать - рука, видеть - глаз, плыть - лодка и т.д.;
б) между глаголами действия, требующими одного субъекта, и субъектом: лаять - собака, ржать - лошадь и т.д.; в) между глаголами и определенным грамматическим дополнением, которого первые требуют: рубить - дерево, есть - еда и т.д.
Отсюда ассоциативный тезаурус - это словарь-тезаурус, организующий лексические единицы на основании существующих между ними смысловых и синтаксических связей и располагающий группы в соответствии с графической формой слов-центров.
2. Лексико-семантические связи. Объединение в группы с таким типом связи происходит по основному для слов признаку - лексическому значению. При этом также учитываются лексико- грамматические связи, в форме которых реализуются отдельные значения слов.
Таким образом, аналогический тезаурус - это лексикографический справочник, основной единицей макроструктуры которого является лексико-семантическая группа; группы систематизированы в порядке алфавитного следования смысловых доминант.
3. Предметные или тематические связи, где объединение слов в одну группу происходит в силу сходства или общности функций обозначаемых словами предметов и процессов: предметы
домашнего обихода, части тела, виды одежды, постройки и т.д.
Таким образом, идеографический тезаурус - это лексикографическое произведение, представляющее лексические единицы в составе предметных (тематических) групп и организующее их в иерархическую структуру, предназначенную для репрезентации концептуализированного знания о мире.
В рамках того же критерия проводим дальнейшее подразделение типов. Так, идеографический тезаурус представлен 4-мя следующими типами:
Собственно идеографический тезаурус.
Тематический словарь.
Систематический словарь.
Тематико-систематический словарь
Собственно идеографический тезаурус - это особый тип идеографического словаря, макроструктура которого организуется в соответствии с синоптической картой a priori, наложенной на лексический состав языка. В отличие от других типов идеографического словаря, собственно идеографический тезаурус характеризуется логичной и строго упорядоченной классификационной структурой, созданной на основе научной таксономии, даже если лексикографическому описанию подвергается общая лексика (New Webster" Thesaurus. Landoll, 1991).
Тематический словарь - это особый тип идеографического тезауруса, основной единицей макроструктуры которого является тематическая группа, включающая лексемы, объединенные на основе классификации их денотатов (референтов) и рассматриваемые с точки зрения соответствия определенной теме.
Систематический словарь - это особый тип идеографического тезауруса, классификационная структура которого предназначена для представления действительных семантических отношений, существующих между лексическими единицами языка. По своей сути классификационная структура представляет лексико-грамматическую классификацию вокабуляра, иными словами, его парадигматическую структуру, описанную с точки зрения подчинения и сочинения .
Тематико-систематический словарь - это особый тип идеографического словаря, представляющий собой сочетание тематического и систематического словаря .
Резюме. Рассмотренная классификация лингвистических тезаурусов включает в себя следующие виды словарей: аналогический тезаурус (терминология В.В. Морковкина); идеографический (идеологический) тезаурус (терминология Л.В. Щербы и В.В. Морковкина); ассоц. тезаурус (терминология Ю.Н. Караулова). Далее будут представлены поп. тезаурусы и раскрыты их особенности.
3.4. Популярные тезаурусы и их особенности
Наиболее известный из имеющихся словарей-тезаурусов, которому обязан своим существованием и сам этот термин, создан на материале английского языка; это постоянно переиздаваемый тезаурус П.М. Роже Roget"s Thesaurus of English Words and Phrases (1852).
Важно отметить, что автор «Тезауруса английских слов и выражений» в полной мере использовал имеющийся к этому времени опыт. «Принцип, которым я руководствовался, классифицируя слова, - пишет П.М. Роже, - является тем же самым, который используется при классификации особей в различных областях естественной истории. Поэтому разделы, выделенные мной, соответствуют естественным семьям ботаники и зоологии, а ряды слов сцементированы теми же отношениями, которые объединяют естественные ряды растений и животных»
П.М. Роже считал, что убедительная классификация слов по их смыслам невозможна до тех пор, пока должным образом не изучены и не организованы объекты действительности, называемые этими словами. Поэтому он начинает свою работу с расчленения понятийного поля английского языка на четыре больших класса: абстрактные отношения, пространство, материю и дух (разум, воля, чувства). Эти классы разбиваются в дальнейшем на ряд родов, которые в свою очередь распадаются на определенное число видов.
К числу недостатков идеографического словаря П.М. Роже ученые относят следующие: 1) не совсем убедительная номенклатура основных понятийных классов; 2) абстрактная логичность превалирует над естественными связями слов; 3) относительное неудобство пользования (в значительной мере данный недостаток исправлен в последующих изданиях).
В современной русской лексикографии имеется несколько словарей, которые должны быть отнесены к разряду словарей-тезаурусов (идеографических словарей). Это, например, созданный под руководством Ю.Н. Караулова «Русский семантический словарь» , «Русский семантический словарь» под редакцией Н.Ю. Шведовой , «Тематический словарь русского языка» Л.Г. Саяховой, Д.М. Хасановой и В.В. Морковкина , «Словарь лексико-семантических групп русских глаголов» под ред. Э.В. Кузнецовой , «Идеографический словарь русского языка» О.С. Баранова , «Концептосфера внутреннего мира человека в русском языке» В.И. Убийко , комплексный учебный словарь «Лексическая основа русского языка» под руководством В.В. Морковкина .
Познакомимся с некоторыми из них.
Словарь-тезаурус современной русской идиоматики» под редакцией А.Н. Баранова и Д.О. Добровольского включает четыре основные части: 1) синопсис; 2) легенду; 3) основной корпус Словаря-тезауруса; 4) указатели. Цель Синопсиса - дать общее представление о структуре Основного корпуса Тезауруса. В нем указаны все таксоны с подтаксонами и соответствующими парадигматическими отсылками. Основной корпус Словаря-тезауруса представляет собой совокупность словарных статей, объединенных в группы (таксоны) и подгруппы (подтаксоны) в соответствии со значением описываемых в них идиом. Каждая статья содержит идиому и примеры ее употребления в современном русском языке. Синопсис, Легенда, Указатели - служебные части вышеназванного Словаря-тезауруса, обеспечивающие пользователю возможность быстро и эффективно работать. Легенда используется в тех случаях, когда не нужны примеры употребления идиом, т.к. она воспроизводит всю информацию, кроме примеров. Фактически, это словник Словаря. Единицами словника являются леммы. Лемма в данном случае представляет собой идиому в исходной (словарной) форме и включает по возможности все ее существенные варианты. Например, идиома стоять на месте входит в состав леммы топтаться на месте, стоять на месте, буксовать на месте.
Словарь содержит два указателя. В конце книги помещена статья «Теоретическая концепция Словаря-тезауруса современной русской идеоматики», в которой подробно анализируются научные особенности данного проекта.
«Русский семантический словарь», созданный под руководством Ю.Н. Караулова включает 10 тыс. русских слов, которые разнесены по 1600 понятийным группам. В основе выделения групп - повторяющиеся элементы толкований слов в толковых словарях: например, «действие», «свойство», «инструмент» и т.п.
«Русский семантический словарь», созданный под руководством академика Н.Ю. Шведовой, основывается на несколько иных принципах, характерных для составления как идеографических, так и толковых словарей. Во-первых, все слова языка разделены здесь на четыре класса: 1) единицы указующие (местоимения), 2) именующие (знаменательные слова), 3) собственно связующие (союзы, предлоги, глаголы-связки), 4) классифицирующие (модальные слова, частицы, междометия). Во-вторых, внутри каждого класса все слова распределены по частям речи. В-третьих, внутри каждой части речи выделены множества и подмножества на основании тематической близости или, наоборот, противопоставленности значений слов.
DUDEN - это книга с картинками (чертежами) на левой стороне (по разным ПО) с пронумерованными деталями (до мельчайших). На правой стороне этот нумерованный список сопровождается названиями (даже на двух языках). Например, на целой странице нарисованы железнодорожная техника, станции, пути. Справа - названия стрелок, семафоров, костылей и т.п.
«Тематический словарь русского языка» Л.Г. Саяховой, Д.М. Хасановой и В.В. Морковкина содержит 25 тыс. лексических единиц, сгруппированных по трем крупным классам: «Человек», «Общество», «Природа», которые ступенчато ветвятся на более мелкие подклассы. Например, в классе «Человек» выделяются подклассы «Тело и организм человека», «Жизнь человека», «Внешний вид, наружность человека», «Эмоциональный вид человека» и др. Каждый из подклассов в свою очередь разбивается на еще более частные: «Эмоциональный мир человека» - «Психические свойства человека» - «Темперамент», «Характер» - «Общие черты характера» и т.д. Значение и употребление слов, относящихся к каждому классу, иллюстрируются наиболее употребительными словосочетаниями. Например, слово «смех», находящееся в подгруппе «выражение чувств, эмоций» класса «Человек», сопровождается указанием таких сочетаний с этим словом, как веселый смех, радостный смех, смех ребенка, заливаться смехом и др.
Резюме. Одним из действенных инструментов описания отдельных предметных областей, особенно в электронном формате, являются тезаурусы.
Термин тезаурус уже давно широко используется в лингвистике для обозначения специального типа словарей, в той или иной степени отражающих «картину мира», «языковую модель мира» (по Ю.Н. Караулову). Тезаурус как «сокровищница» вырос в своем смысловом объеме, получил новое значение. Им стали называть словарь, не просто вбирающий в себя все лексические богатства языка, а упорядочивающий их определенным логико-системным образом. В словаре-тезаурусе слова сводятся в группы, а объединение это происходит на основе способности того или иного слова передавать определенное понятие.
Тезаурус-словарь всегда рассматривался в лингвистике как некоторая универсальная система, обеспечивающая хранение коллективного (для того или иного социума) знания о мире в вербальной форме. В отличие от других словарей в тезаурусе-словаре это знание хранится в структурированной форме, отражающей наши представления о «структуре мира».
Наиболее известными и популярными тезаурусами в настоящее время являются английский Тезаурус Роже, Идеографический словарь русского языка О.В. Баранова, Русский семантический словарь Ю.Н. Караулова, Русский семантический словарь академика Н.Ю. Шведовой, DUDEN, Тематический словарь русского языка Л.Г. Саяховой, Д.М. Хасановой и В.В. Морковкина.
Понятийная система предметной области Основой любой предметной области служит система понятий этой области. Определение понятия: Понятие – мысль, отражающая в обобщенной форме предметы и явления действительности посредством фиксации их свойств и отношений; последние (свойства и отношения) выступают в понятии как общие и специфические признаки, соотнесенные с классами предметов и явлений (Лингвистический словарь)
Понятия и термины Для выражения понятия предметной области в текстах служат слова или словосочетания, называемые терминами. Совокупность терминов предметной области образуют ее терминологическую систему. Отношение конкретного термина с другими терминами терминосистемы предметной области задается посредством дефиниции
Определения термина? Слово (или сочетание слов), являющееся точным обозначением определенного понятия какой-либо специальной области науки, техники, искусства, общественной жизни и т.п. || Специальное слово или выражение, принятое для обозначения чего-л. в той или иной среде, профессии (Большой толковый словарь русского языка)
Термины – точные названия понятий Обычно каждому понятию области соответствует хотя бы один однозначно понимаемый термин, значением которого является это понятие. - термины, в смысле традиционной теории терминологии Свойства терминов – точных наименований понятий - термин должен относиться непосредственно к понятию, он должен выражать понятие ясно; - значение термина должно быть точным и не должно пересекаться по значению с другими терминами; - значение термина не должно зависеть от контекста. Термины, точно именующие понятие, - предмет исследования теории терминологии, терминологов
Текстовые термины В реальных текстах предметной области для ссылки на понятие помимо основных терминов может использоваться множество разнообразных языковых выражений, которые мы называем текстовыми терминами: - синтактико-словообразовательные варианты: получатель бюджетных средств – бюджетополучатель; - лексические варианты – безакцептное списание, бесспорное списание; - многозначные выражения, в зависимости от контекста служащие отсылкой к разным понятиям области, например, слово валюта в разных контекстах может означать национальная валюта или иностранная валюта.
Дескрипторы с пометами Помета - часть названия дескриптора cranes (lifting equipment) vs cranes (birds) shells (structures) – сопоставление разных тезаурусов Предпочтения словосочетаниям: –Phonograph records vs. records (phonograph) Пометы и множественное число: Wood (material) Woods (forested areas)
Включение дескрипторов на основе многословных выражений Расщепление термина увеличивает многозначность: plant food Смысл выражения зависит от порядка слов: информационная наука - научная информация Одно из слов-компонент находится вне сферы тезауруса или слишком общее: first aid Отношения дескриптора не следуют из его структуры: –Искусственные почки, статус беженца, traffic lights
Ассоциативные отношения Сфера деятельности – действующее лицо –Математика – математик Дисциплина – объект изучения –Неврология – нервная система Действие – агент или инструмент –Охота – охотник Действие – результат действия –Ткачество – ткань Действие – цель –Переплетные работы - книга Причина-следствие –Смерть – похороны Величина – единица измерения –Сила тока - ампер Действие - контрагент –Аллерген – антиаллергический препарат и т.п.
Информационно-поисковые тезаурусы: этапы разработки Первый этап: индексаторы описывают основную тему текста произвольными словами и словосочетаниями Полученные по многим текстам термины сводятся вместе Среди близких по смыслу терминов выбирается наиболее представительный Некоторые из оставшихся становятся условными синонимами, остальные удаляются Конкретные термины обычно не включаются
Информационно-поисковые тезаурусы: искусство разработки Дескрипторы – это термины, которые нужны для выражения основной темы документа Синонимы включаются только самые необходимые (например, начинаются с другой буквы), чтобы не затруднять работу индексатора Близкие термины должны быть сведены к одному термину, чтобы избежать субъективности индексирования Уровни иерархии, включение конкретных терминов ограничиваются
Информационно-поисковый тезаурус: искусство разработки - 2 В сложных случаях дескрипторы снабжаются пометами и комментариями –LIV: bombardment – bombing –Многозначные термины: одно значение в тезаурусе (capital), не помещаются в тезаурус, пометы!!! Традиционный информационно-поисковый Тезаурус – искусственный язык, построенный на базе реальных терминов
Традиционные ИПТ: применение в автоматической обработке Нехватка знаний о реальном языке ПОНехватка знаний о реальном языке ПО Legislative Indexing Vocabulary:Legislative Indexing Vocabulary: –в тексте TROOPS – в тезаурусе MILITARY FORCES –в тексте CAPITAL – столица, в тезаурусе только капитал Предлагается: каждый дескриптор дополнить списками слов и терминов Предлагается: каждый дескриптор дополнить списками слов и терминов Но: многозначность или относящийся к разным дескрипторам. Но: многозначность или относящийся к разным дескрипторам. Разрешение многозначности Разрешение многозначности
Традиционные ИПТ: автоматическое расширение запроса Проблема с ассоциациями Предлагается: вводить веса вводить веса вводить названия отношений: объект, свойство и т.п. вводить названия отношений: объект, свойство и т.п. ВЫВОД: нужно научиться строить лингвистические ресурсы специально для автоматической обработки текстовых коллекций
Тезаурус EUROVOC – многоязычный тезаурус Европейского Сообщества Тезаурус на 9 языках Русская версия EUROVOC –+5 тысяч понятий, отражающих российскую специфику Многоязычный тезаурус –Дескриптор – названия на разных языках –Аскрипторы – для некоторых языков
Автоматическое индексирование по тезаурусу EUROVOC, основанное на правилах (Hlava, Heinebach, 1996) Пример правила: IF (near "Technology" AND with "Development") USE Community programme USE development aid ENDIF 40 тысяч правил. Тестирование: 20 наиболее частотных по тексту дескрипторов, порожденных автоматически – 42% полноты, по сравнению с ручным рубрицированием
Автоматическое индексирование на основе установления весов соответствия между словами и дескрипторами (Steinberger и др., 2000) 1 этап – установление соответствия между словами текста и приписанными дескрипторами на основе статистических мер (chi-square или log-likelihood) дескриптор FISHERY MANAGEMENT - следующие слова (в порядке убывания веса): fishery, fish, stock, fishing, conservation, management, vessel, и т.д. 2этап собственно индексирование – суммирование логарифмов весов или как скалярное произведение векторов
Сочетание свободных запросов и запросов на основе информационно-поискового тезауруса Проиндексированная вручную коллекция – установление корреляций Пользователь задает запрос на естественном языке Запрос расширяется наиболее сильно коррелированными с запросом дескрипторами тезауруса (Petras 2004; Petras 2005). Например, по запросу Insolvent Companies (Неплатежеспособные компании) может быть получен список дескрипторов liquidity, indebtness, enterprise, firm., и выполнено расширение запроса Точность в эксперименте выросла на 13 %.
Значение слова ОБРАЗЕЦ в Тезаурусе русского языка
ОБРАЗЕЦ
Syn: модель, экземпляр, пример, проба, стандарт, норма, замер, образчик, эталон, типичный представитель, шаблон, трафарет, опытная модель, чертеж, конструкция, рисунок, паттерн, гештальт, фрейм
Тезаурус русского языка. 2012
Смотрите еще толкования, синонимы, значения слова и что такое ОБРАЗЕЦ в русском языке в словарях, энциклопедиях и справочниках:
- ОБРАЗЕЦ
ХАФДАСА 1927 г. — аргентинский автоматический пистолет 22 калибра. Являлся армейским … - ОБРАЗЕЦ в Иллюстрированной энциклопедии оружия:
ОПЫТНЫЙ — единичные экземпляры какой-либо конструкции огнестрельного оружия, не принятые к серийному … - ОБРАЗЕЦ в Иллюстрированной энциклопедии оружия:
МУШКЕТА — американская капсюльная винтовка 1849-1855 гг. 58 калибра со стволом. Длина 1016 … - ОБРАЗЕЦ в Иллюстрированной энциклопедии оружия:
ВИНТОВКИ — американская капсюльная винтовка 1849-1855 гг. 58 калибра. Длина 838 … - ОБРАЗЕЦ в Иллюстрированной энциклопедии оружия:
70 — чехословацкий автоматический пистолет калибра 7, 65 … - ОБРАЗЕЦ в Иллюстрированной энциклопедии оружия:
63 — польский пятнадцати- и двадцатипятизарядный пистолет-пулемет калибра 9 мм. Длина с прикладом 583 мм, без приклада 330 мм. Вес … - ОБРАЗЕЦ в Иллюстрированной энциклопедии оружия:
61 — чехословацкий десяти- и двадцатизарядный пистолет-пулемет калибра 7, 65 мм. Длина с прикладом 513 мм, без приклада 269 мм. … - ОБРАЗЕЦ в Иллюстрированной энциклопедии оружия:
58 П — чехословацкий тридцатизарядный автомат калибра 7, 62 мм. Длина 820 мм. Вес 3140 … - ОБРАЗЕЦ в Иллюстрированной энциклопедии оружия:
58 В — чехословацкий тридцатизарядный автомат калибра 7, 62 мм. Длина с прикладом 820 мм, без приклада 635 мм. Вес … - ОБРАЗЕЦ в Иллюстрированной энциклопедии оружия:
52 —1. См. ЧЗЕТ-513. 2. Чехословацкий десятизарядный автоматический самозарядный карабин калибра 7, 62 мм. Длина 1003 мм. Вес 4100 … - ОБРАЗЕЦ в Иллюстрированной энциклопедии оружия:
50 — чехословацкий автоматический пистолет калибра 7, 62 мм. Уменьшенная копия ЧЗЕТ-513. Был на вооружении … - ОБРАЗЕЦ в Иллюстрированной энциклопедии оружия:
25 — 1.Чехословацкий двадцатичетырех- и сороказарядный пистолет-пулемет калибра 9 мм. Длина с прикладом 686 мм, без приклада 445 мм. Вес … - ОБРАЗЕЦ в Иллюстрированной энциклопедии оружия:
23 — чехословацкий двадцатичетырех- и сороказарядный пистолет-пулемет калибра 9 мм. Длина 686 мм. Вес 3270 … - ОБРАЗЕЦ в Иллюстрированной энциклопедии оружия:
16/33 — чехословацкий пятизарядный магазинный карабин калибра 7, 92 мм. Длина без штыка 995 мм, со штыком 1305 мм. Вес … - ОБРАЗЕЦ
ПРОМЫШЛЕННЫЙ - см ПРОМЫШЛЕННЫЙ ОБРАЗЕЦ … - ОБРАЗЕЦ в Словаре экономических терминов:
- показательный единичный экземпляр товара, используемый для рекламы, на выставках, с целью ознакомления, показа потенциальным … - ОБРАЗЕЦ в Энциклопедическом словаре:
, -зца, м. 1. Показательное или пробное изделие; проба(во 2 знач.). 06-разцы почв. Образцы минералов. Образцы изделий. Промышленный о. (новое, … - ОБРАЗЕЦ в Большом российском энциклопедическом словаре:
ОБРАЗ́ЕЦ ПРОМЫШЛЕННЫЙ, см. Промышленный … - ОБРАЗЕЦ в Полной акцентуированной парадигме по Зализняку:
образе"ц, образцы", образца", образцо"в, образцу", образца"м, образе"ц, образцы", образцо"м, образца"ми, образце", … - ОБРАЗЕЦ в Популярном толково-энциклопедическом словаре русского языка:
-зц"а, м. 1) (обычно чего) Показательный или пробный экземпляр какого-л. изделия, материала; часть какого-л. вещества, продукта, дающая представление … - ОБРАЗЕЦ в Словаре для разгадывания и составления сканвордов:
… для … - ОБРАЗЕЦ в Тезаурусе русской деловой лексики:
- ОБРАЗЕЦ в Словаре синонимов Абрамова:
образчик, первообраз, прообраз, тип, прототип, идеал, модель, оригинал, пример; натурщик. Прот. . См. идеал, пример, … - ОБРАЗЕЦ в словаре Синонимов русского языка:
Syn: модель, экземпляр, пример, проба, стандарт, норма, замер, образчик, эталон, типичный представитель, шаблон, трафарет, опытная модель, чертеж, конструкция, рисунок, паттерн, … - ОБРАЗЕЦ в Новом толково-словообразовательном словаре русского языка Ефремовой:
м. 1) Примерный, показательный или пробный экземпляр какого-л. изделия, материала и т.п. 2) а) Показательный пример чего-л. (каких-л. качеств, поведения, …
Первым этапом создания тезауруса был поиск информации о строении тезаурусов, его типах и действующие программы. Вторым этапом был выбор языка программирования и схема построения своего будущего тезауруса. Третий этап - это поиск информации для его заполнения, для этого я использовал «Учебно-методический комплекс Компьютерные сети».
Вот пара примеров тезаурусов (смотрите рисунок 1.1 и рисунок 1.2):
Рисунок 1.1 - Информационно-поисковая система «Thesaurus.com»
Рисунок 1.2 - Словарь гендерных терминов
После собрания нужной информации, началось создание тезауруса. Для создания тезауруса был выбран язык программирования - HTML. Hyper Text Markup Language - «HTML» (язык разметки гипертекста) многие уже давно перестали его считать просто языком программирования. Так как само понятие HTML включает в себя различные методы оформления гипертекстовых документов, дизайн, гипертекстовые редакторы, браузеры и много всего другого. Пользователь, освоивший этот язык, приобретает возможность делать серьезные вещи простыми методами и, главное, быстро, что в современном мире считается очень хорошо!
На языке HTML можно создавать собственные мультимедийные продукты и распространять их на любых носителях информации, и все эти продукты, выполненные в виде наборов HTML-страниц, не требуют разработки специализированных программных средств, так как все необходимое для работы с данными (Web-браузеры) стали частью стандартного программного обеспечения большинства персональных компьютеров.
Код будущей Web-страницы обычно набирается в стандартном текстовом редакторе, но есть и другие программы, и языки программирования, например: Adobe Dreamweaver CS3, JavaScript, Паскаль, С, С++, Бейсик, Пролог.
Начнем с того, что тезаурус будет состоять из трех фреймов: фрейм с заголовком, фрейм со ссылками и фрейм для содержимого, как показано на рисунке 1.3.
Рисунок 1.3 - Схема тезауруса
Для создания эскиза тезауруса использовали следующие теги и атрибуты языка HTML: