Лингвистическая разметка

Разметка. Средства разметки корпусов

Понятие разметки

Среди особых программ для обработки естественного языка особенное место занимают программы автоматической разметки. В рамках сегодняшней лекции попытаемся выяснить, для чего же они необходимы и как они функционируют.

Итак, для ответа разных лингвистических задач не хватает иметь массив текстов. Требуется кроме этого, дабы тексты содержали в себе явным образом указанную разнообразные дополнительную лингвистическую и экстралингвистическую данные. Так, на материале корпуса, аналогичного Брауновскому, возможно легко распознать частотность слов – их регулярное потребление в определенных контекстах. Но это будет частотность токенов (словоформ). Для определения частоты лексем каждому слову должна быть приписана ее лемма. Для подсчета частот в разрезе грамматических категорий они кроме этого должны быть соответствующим образом маркированы. В случае если осуществлять маркировку в громадном корпусе вручную, это займет довольно много времени, исходя из этого исследователи создали методы автоматической разметки в корпусе.

Разметка корпусов (tagging, annotation) представляет собой трудоемкую операцию, в особенности учитывая размеры современных корпусов. В случае если для некоторых видов разметки, например, анафорической, просодической, создание автоматических совокупностей до тех пор пока представляется достаточно сложным и главная часть работы проводится вручную, то для морфологического и синтаксического анализа существуют разные программные средства, каковые принято именовать соответственно тэггеры (taggers) и парсеры (parsers).

В следствии работы программ автоматического морфологического анализа (тэггеров) каждой лексической единице приписываются грамматические характеристики, включая часть речи, набор и лемму граммем (к примеру, род, число, падеж, одушевленность/неодушевленность, переходность и т.д.). В следствии работы программ автоматического синтаксического анализа фиксируются синтаксические связи между словосочетаниями и словами, а синтаксическим единицам приписываются соответствующие характеристики (тип предложения, синтаксическая функция словосочетания и т.д.).

Но непроизвольный анализ естественного языка небезошибочен и многозначен – он, в большинстве случаев, дает пара вариантов анализа для одной лексической единицы (слова, словосочетания, предложения). В этом случае говорят о грамматической омонимии.

Один из несложных способов содержится в том, дабы компьютеризированный словарь, в котором указаны лексические категории для самых распространенных слов либо для громаднейшего количества слов, совместить с неразмеченным корпусом. После этого каждому слову в неразмеченном корпусе возможно машинально присвоен тэг от соответствующего ему слова в снабженном пометами словаре. Так, в случае если словоформы information и distribution показались и в корпусе, и в словаре, тэг ‘noun’, что сопровождал эти словоформы в словаре, машинально будет перенесен на них в корпусе. Подобно этому, такие формы как lexical и frequent будут помечены как прилагательные, потому, что они постоянно являются участниками данной категории, the и a будут помечены как артикли, identify и see – как глаголы и т.д. [42].

Данный процесс нахождения соответствующих форм в корпусе и в снабженном пометами словаре не может быть использован для определения категорий всех форм, по причине того, что кое-какие формы смогут быть участниками более чем одной категории. Эта неприятность носит название «неприятность морфологической неоднозначности (ambiguity)». К примеру, слова words, forms, can, use, present и process смогут быть как существительными, так и глаголами.

Заберём слово deal как пример. Как словоформа, оно возможно как существительным, так и глаголом. Предположим, что корпус содержал фразу a good deal of trouble, и предположим, что автоматическое совмещение со словарем уже разрешило пометить good как прилагательное. При выборе в это же время, предшествует ли прилагательное существительному либо глаголу, намного надежнее выбрать существительное, потому, что в английском прилагательные в большинстве случаев предшествуют существительным и в большинстве случаев не предшествуют глаголам. Так, deal в a good deal of trouble возможно помечено как существительное. Иначе говоря потому, что good конкретно есть прилагательным, оно будет помечено как adjective на начальном уровне снабжения пометами методом совмещения корпуса со словарем.

В случае если затевать разметку, размечая лишь слова, находящиеся в собствености только одной категории, а после этого применять эти сведенья чтобы прояснить неоднозначные случаи, многие непростые неприятности смогут быть решены. В простой практике случается так, что слова снабжаются пометами сперва для всех частей речи, к каким они смогут относиться, а после этого категории примыкающих слов употребляются для определения категории слов, у которых имеется пара помет.

Потому, что в английском так много форм в собственности более чем одной категории, совершенно верно разметить слова возможно благодаря более сложным процедурам, чем автоматическое совмещение со словарем. Само собой разумеется, в контексте словоформа в собственности лишь одной категории. Следовательно, достигнуть правильной разметки британского корпуса возможно методом анализа контекста либо анализа более большого уровня: синтаксического анализа для морфологической разметки, семантического – для синтаксической.

Снятие неоднозначности (морфологической, синтаксической) в целом есть одной из наиболее значимых и непростых задач компьютерной лингвистики. При создании корпусов для снятия неоднозначности употребляются автоматические и ручные методы.

Корпусы нового поколения включают много миллионов слов, исходя из этого выдвигаются правила разработки совокупностей, каковые бы минимизировали вмешательство человека. Автоматическое разрешение морфологической либо синтаксической неоднозначности, в большинстве случаев, основывается на применении информации более большого уровня (синтаксического, семантического) с применением статистических способов.

Лингвистическая разметка

Итак, разметка содержится в приписывании их компонентам и текстам особых тэгов: фактически лингвистических, обрисовывающих лексические, грамматические и другие характеристики элементов текста, и внешних, экстралингвистических (сведения об авторе и сведения о тексте: создатель, наименование, место и год издания, жанр, тематика).

Среди лингвистических типов разметки выделяются:морфологическая, синтаксическая, семантическая, анафорическая, просодическая, дискурсная и др. Все они осуществляются в соответствии со следующими правилами:

1) описание (обоснование) схемы разметки;

2) общепринятая совокупность лингвистических понятий;

3) узнаваемая для пользователя схема анализа;

4) мотивированность введения параметров;

5) теоретически нейтральная (классическая) схема разметки;

6) следование западным стандартам.

Diff between Programming Language #128161; Scripting Language #128161; Markup language


Также читать:

Понравилась статья? Поделиться с друзьями: