Одноязычные — многоязычные

Классификация корпусов

Показатель Типы корпусов
Тип языковых данных Письменные Устные Смешанные
«Параллельность» Одноязычные Двуязычные Многоязычные
«Литературность» Литературные Диалектные Разговорные Терминологические Смешанные
Цель Многоцелевые Специальные
Жанр Литературные Фольклорные Драматургические Публицистические
Доступность Вольно дешёвые Коммерческие Закрытые
Назначение Исследовательские Иллюстративные
Динамичность Динамические (мониторные) Статические
Разметка Размеченные Неразмеченные
Темперамент разметки Морфологические Синтаксические Семантические Просодические и т.д.
Количество текстов Полнотекстовые «Фрагментнотекстовые»

По типу языковых данных корпусы делятся на письменные, устные и смешанные. В письменных корпусах устная обращение не представлена (Брауновский корпус, LOB), в устных корпусах представлена лишь устная обращение, смешанными в большинстве случаев бывают национальные корпусы, воображающие бытование языка в определенный период времени (НКРЯ, BNC и др.).

Устные – письменные

Большинство корпусов 1 поколения были только письменными. Письменные

тексты значительно легче собирать. Существуют три способа ввода письменных текстов в

компьютер:

? заново набирать тексты (это лучше, чем пробивать перфокарты, как было с Брауновским

корпусом);

? применять тексты, каковые уже существуют в электронной форме;

? сканировать напечатанные тексты (но наряду с этим необходимо исправлять большое количество неточностей).

Громадные современные корпусы в большинстве случаев комбинированные, с преобладанием

письменных текстов. Кроме того в BNCлишь 10% текстов устные. Выделяется ICE, в котором 60%

текстов устные. В это же время, язык по большей части существует как раз в устной форме, письменная его форма вторична. Исходя из этого так серьёзны устные корпусы, или смешанные.

Среди своеобразны устных корпусов необходимо назвать London Lund Corpus(LLC, 1975

г.) и Lancaster/IBM Spoken English Corpus(1992), сокращённо SEC. Данный последний состоит

из 52600 словоупотреблений. Он поставляется на CD-ROMе вместе с аудиозаписями,

всецело размечен на предмет ударений, интонации, пауз и т.п. Но, он не содержит

информации о образовании респондентов и социальном статусе, что ограничивает его

применение в социолингвистике.Corpus of Spoken American English(1991), миллион словоупотреблений, 80 часов звучания. Map Task Corpus(1991, университет Глазго, Шотландия), 147 тысяч словоупотреблений, 16 часов звучания.

Устные корпусы включают меньше словоупотреблений, чем письменные, не только из-

за трудоёмкости сбора данных, но и вследствие того что для просодических изучений в большинстве случаев

достаточно меньшего количества слов. Так, для изучения интонации хватает корпуса в сто

тысяч словоупотреблений.

Устные корпусы смогут включать как монологическую, так и диалогическую обращение. Для

сбора материала употребляются записи с радио и телевидения либо опрос по выборочным

методикам социолингвистики и социологии. Напомним, что скрытая запись на данный момент считается

неэтичной (в отличие от 70-х годов).

В большинстве случаев собирают достаточно подробную данные о респондентах:

? место записи

? что респондент делает

? время

? дата

? количество участников

? степень спонтанности беседы

? тема

? пол участников

? возраст участников

? этническая принадлежность участников

? главный язык участников

? профессия

? образование

? социальный статус

? отношение к записывающему

? диалект

Самая трудоёмкая стадия — transcription. Орфографическая транскрипция одного часа

записи с минимальной интонационной разметкой может занять около 10 часов. В случае если же

размечать текст по всем правилам TEI (Text Encoding Initiative), то на это может уйти 25 часов

и более. А без разметки корпус устных текстов не имеет смысла — как минимум, должна быть

указана длительность пауз, размечена одновременная обращение, ударение, интонация.

Время от времени включают контекстные комментарии типа «ест печенье». Как раз благодаря

подробной разметке корпус LLC стал стандартном для корпусов устной речи.

Одноязычные — многоязычные

По критерию параллельности корпусы делятся на одноязычные, двуязычные и многоязычные. В одноязычных корпусах противопоставляются диалекты, варианты языка. К примеру, такие разновидности английского, как британский как родной и британский как зарубежный оставались за пределами научного интереса до появления новых разработок, разрешивших вовлечь в контрастивный анализ значительно большее количество сопоставляемых произведений речи.

Корпусных лингвистов (особенно связанных с переводом) постоянно интересовала задача

составления корпусов на нескольких языках. Уже в первом поколении стали появляться

двуязычные корпусы для таких языков, как английский язык , финский, французский, немецкий,

греческий, норвежский, испанский, шведский, валлийский. Такие корпусы ещё именуются

bitexts.

Конечно, нет никаких технических препятствий к тому, дабы делать корпусы не

дву- а трёх-, четырёх- и более язычными. По большому счету говоря, само появление многоязычных

корпусов стало причиной всплеск научных изучений, потому, что для их анализа требуются другие инструменты а также другие концепции, нежели чем для анализа корпусов

одноязычных.

В полной мере конечно, что возможно представить себе два типа двуязычных корпусов:

• корпус, в котором тексты являются переводами друг друга

• корпус, в котором тексты на различных языках (быть может, одной и

той же тематики).

Корпусы первого типа именуют «параллельными» (parallel corpora) и употребляются для изучения разных качеств фактически перевода. К примеру, существует параллельный корпус текстов совещаний канадского парламента (британский/французский).

Youtube канал на нескольких языках


Также читать:

Понравилась статья? Поделиться с друзьями: