Морфологическая разметка

В зарубежной терминологии употребляется термин part-of-speech tagging (POS-tagging), дословно –частеречная разметка. В конечном итоге морфологические метки включаютне лишь показатель части речи, но и лемму, и показатели грамматических категорий, характерных данной части речи.

Непроизвольный морфологический анализ — особый модуль автоматического анализа языка, снабжающий анализ словоформ на морфологическом уровне.

Это главный тип разметки: во-первых, большая часть больших корпусов являются именно морфологически размеченными корпусами, во-вторых, морфологический анализ рассматривается как база для предстоящих форм анализа – синтаксического и семантического, и, в-третьих, удачи в компьютерной морфологии разрешают машинально с громадной степенью правильности размечать корпусы громадных размеров.

Одной из основных составляющих корректного разбора слов являются базы морфем. При запуске программы происходит оптимизация поиска и загрузка словарей по ним.

Любой разбор слова производится от его начала к концу. Программа «пробует» подобрать последовательность морфем, которыми владел определенной части речи. Так, к примеру, исходя из базы морфем, по окончании глагольного суффикса
«-л-» (изъявительное наклонение, прошедшее время) смогут направляться такие окончания, как: «-а-», «-о-», «-и-», либо нулевое окончание. Разбор считается завершенным удачно, в случае если всё слово было разобрано на морфемы, в соответствии с правилами русского, и не осталось не разобранных букв.

Программа накапливает все вероятные варианты разбора и выбирает из них оптимальный. Для этого употребляется совокупность весов морфем: каждой морфеме либо группе морфем присваивается некий вес. Вариант разбора, собравший громаднейший вес, считается оптимальным.

Так, междометия имеют более большой вес, нежели существительные, это делается чтобы не было выбора оптимальным заведомо фальшивого варианта разбора междометия как существительного («охрана» имеет корень хран, а не ох). Вес варианта разбора может уменьшиться , если в нем видится большое количество корней (т.к. удельный вес многокоренных слов в рус яз ниже, чем однокоренных). В случае если же морфема складывается из громадного количества знаков, то её вес увеличится (достопримечательность: дабы совокупность дальше не стала выделять приставку до, корни сто, клинок).

По окончании разбора программа формирует файл отчета, в который заносятся все слова с вариантами их разбора, где наглядно демонстрируются морфемы слова. Кроме этого производится подсчет статистики по введенному тексту. Так, к примеру, программа выдаёт как довольно часто и какие конкретно корни виделись в тексте.

Анализ, осуществяемый морфологическим модулем автоматической обработки естественного языка, может заключаться в следующем:

1. нормализация словоформ (лемматизация), т.е. сведение разных словоформ к некоему единому представлению — к исходной форме, либо лемме);

2. стемминг- второй вид нормализации, в то время, когда различные словоформы приводятся к одной базе, правильнее пседвооснове (для некоторых задач, включая поиск в сети, хватает приведения к одной базе разных дериватов; к примеру, прилагательного фотографический и существительного фотография, поскольку пользовательскому запросу будут удовлетворять и документы со словосочетанием фотографический портрет и со словосочетанием портретная фотография)

3. частеречный тэгинг (pos-tagging), т.е. указание части речи для каждой словоформы в тексте)

4. полный морфологический анализ — приписывание грамматических черт словоформе

В первой половине 80-ых годов двадцатого века показалась размеченная версия Брауновского корпуса, в которой была совершена лемматизация словоформ, маркировка их поверхностно-синтаксических функций и т.д.

Морфологическая разметка Брауновского корпуса выглядит следующим образом:

the_AT jury_NN further_RB said_VBD in_IN term-end_NN presentments_NNS that_CS the_AT *city_NP *executive_NP *committee_NP ,_, which_WDT had_HVD over-all_JJ charge_NN of_IN the_AT election_NN ,_, deserves_VBZ the_AT praise_NN and_CC thanks_NNS of_IN the_AT *city_NP of_NP *atlanta_NP for_IN the_AT manner_NN in_IN which_WDT the_AT election_NN was_BEDZ conducted_VBN |

Приведем пример морфологической разметки фрагмента текста на русском «Звонили к вечерне. Праздничный шум колоколов» в XML-формате на базе разметчика АОТ (рис. 1).

В представленной записи использованы тэги – текст,

– абзац, – предложение, – словоупотребление, – символ пунктуации. Тэг содержит положенный тэг с атрибутами – лемма, – часть речи, – комплект граммем. Значения граммем приводятся в Приложении 3.

Синтаксическая разметка

Синтаксическая разметка результат парсинга, делаемого на базе данных морфологического анализа. Данный вид разметки обрисовывает синтаксические связи между лексическими единицами и разные синтаксические конструкции (к примеру, придаточное предложение, глагольное словосочетание и т.д.).

Звонили к вечерне . Праздничный шум колоколов ………………………

Рис. 1. Пример морфологической разметки текста на русском

(перечень граммем см. Приложение 3)

В отличие от морфологии, методы представления синтаксической синтаксических отношений и структуры не столь унифицированы. Отмечается разнообразие синтаксических формализмов и теорий:

  • грамматика зависимостей;
  • грамматика конкретно составляющих;
  • грамматика структурных схем;
  • классические синтаксические учения о участниках предложения;
  • функциональная грамматика;
  • семантический синтаксис и др.

Синтаксический анализ для русского значительно чаще представлен структурами зависимостей. На рисунке 2 представлен пример визуализации дерева зависимостей.

Long ago, in the city of Babylon, the people began to build a huge tower which seemed to reach the heavens soon.

Рис. 2. Пример синтаксического разбора

(грамматика зависимостей, совокупность ЭТАП-3)

Семантическая разметка

Семантические тэги значительно чаще обозначают семантические категории, к каким относится данное слово либо словосочетание, и более узкие подкатегории, специфицирующие его значение. Семантическая разметка корпусов предусматривает спецификацию значения слов, синонимии и разрешение омонимии, категоризацию слов (разряды), выделение тематических классов, показателей каузативности, оценочных и деривационных черт и т.д.

Собственный вариант семантической разметки предлагает НКРЯ. В этом корпусе каждой словоформе приписываются пометы трех типов.

1) разряд (имя собственное, возвратное местоимение и т.д.);

2) лексико-семантические характеристики (тематический класс лексемы, показатели каузативности, оценки и т.д.);

3) деривационные характеристики («диминутив», «отадъективное наречие» и т.д.).

Фактически лексико-семантические тэги сгруппированы по следующим полям:

• таксономия (тематический класс лексемы) – для имен существительных, прилагательных, наречий и глаголов;

• мереология (указание на отношения «часть – целое», «элемент – множество») – для предметных и непредметных имен;

• топология (топологический статус обозначаемого объекта) – для предметных имен;

• каузация – для глаголов;

• служебный статус – для глаголов;

• оценка – для предметных и непредметных имен, наречий и прилагательных.

Словообразовательные характеристики включают пара типов:

• морфо-семантические словообразовательные показатели (к примеру, «каритив», «семельфактив»);

• разряд создающего слова (к примеру, отглагольное существительное либо отадъективное наречие);

• лексико-семантический (таксономический) тип создающего слова (к примеру, наречие, образованное от прилагательного размера);

• морфологический тип словообразования (субстантивация, сложное слово) (более детально см. http://ruscorpora.ru, раздел «Семантика»).

Существуют и другие типы разметки, в частности:

  • анафорическая разметка. Она фиксирует референтные связи, к примеру, местоименные;
  • просодическая разметка. В просодических корпусах используются тэги, обозначающие ударение и интонацию. В корпусах устной разговорной речи просодическая разметка довольно часто сопровождается так называемой дискурсной разметкой, которая помогает для обозначения пауз, повторов, оговорок и т.д.

Изготовление корпуса усилителя из ДВП


Также читать:

Понравилась статья? Поделиться с друзьями: