Выровненные и не выровненные параллельные корпусы

Параллельные корпусы также будут быть двух типов — выровненные (aligned) и не

выровненные (not aligned). «Выровненность» свидетельствует, что в корпусе существует чёткая сообщение

между единицами перевода, каковые соответствуют друг другу. Другими словами, мы можем скоро

отыскать, как то либо иное слово либо предложение переводилось на другой язык. В большинстве случаев такими

единицами перевода помогают всё-таки предложения, потому, что довольно часто сложно выровнять слова

(так как в большинстве случаев переводят не дословно). Таковой корпус самый нужен для переводчика,

потому, что представляет собой ту самую «память переводов» (translation memory) — бесценный

ресурс, разрешающий применять прошлые переводы.

Невыровненные корпусы ещё именуют «сравнительными».

«Выровнять текст с его переводом на другой язык свидетельствует продемонстрировать какие конкретно части

текста переведены какими частями второго текста» (Kay Rцscheisen 1993: 121)

Выравнивание (alignment) возможно делать машинально, а возможно вручную. Первый

метод стремительнее, но чреват неточностями. К примеру, в случае если при переводе случилось членение либо

объединение предложений, то не всегда возможно легко выяснить, какое из предложений

перевода соответствует какому предложению оригинала.

Одним из примеров выровненного многоязычного корпуса может послужить база

данных Acquis CommunautaireЕвропейского Альянса (DGT-TM). Это память переводов

европейского законодательства на 22 языках, которую выложили в открытый доступ в ноябре 2007 года. Всего в ней около миллиарда слов, она выровнена по предложениям (sentencealigned).

Вот пример предложения из данной базы данных:

EN: Articles 5 to 7 of this Directive do not apply to containers for gases which are compressed, liquefied or

dissolved under pressure.

BG: Членове 5 — 7 на настоящата директива не се отнасят за контейнери с газове, които са

сгъстени, втечнени либо разтворени под налягане.

CS: Clбnky 5 az 7 tйto smernice se nevztahujн na kontejnery pro plyny, kterй jsou stlacenй, zkapalnenй nebo

rozpustenй pod tlakem.

Сокровище параллельного корпуса, как и других корпусов, возрастает с его размером и

числом языков. В данной связи тяжело переоценить важность Acquis Communautaire,

что есть самым громадным параллельным корпусом в мире. Ещё два его преимущества — наличие и бесплатность редких пар языков, типа «мальтийский-эстонский», «словенский-греческий».

Данный и подобные корпусы возможно применять для многих целей. К примеру:

? обнаружение обычных переводческих трансформаций и приёмов

? обучение статистических совокупностей автоматического перевода

? создание одноязычных и многоязычных словарей

? тестирование и обучение программ извлечения информации

? автоматическая проверка правильности перевода

? подбор вероятных эквивалентов

Двуязычные корпусы — ещё одно благодатное поле для студентов-лингвистов, инструмент для получения языковых данных.

По критерию «литературности» выделяются литературные, диалектные, разговорные, терминологические и смешанные корпусы. Примером разговорного корпуса возможно корпус Один Речевой Сутки (ОРД), разрабатываемый в Петербурге [38], примером терминологического корпуса – корпус текстов по корпусной лингвистике, разрешающий разрабатывать терминологический словарь конкретно на живом текстовом материале [54]. В этом корпусе методика корпусной лингвистики применена к ней самой.

По цели создания корпусы делятся на многоцелевые и специальные. Многоцелевые корпусы в большинстве случаев содержат тексты разных жанров (ко мне относятся национальные корпусы), тогда как специальные корпусы смогут ограничиваться одним жанром либо группой жанров.

Корпусы текстов смогут быть классифицированы по жанрам и подразделяться на литературные, фольклорные, драматургические, публицистические и др. Примерами публицистического корпуса могут служить Компьютерный корпус текстов русских газет финиша ХХ-ого века (http://www.philol.msu.ru/~lex/corpus/) и корпус политических метафор [2].

Серьёзным критерием для пользователей корпуса есть его доступность. Вольно дешёвые корпусы разрешают в любое время в режиме on-line иметь доступ ко всем текстам корпуса полностью. Во многих случаях вольный доступ может предоставляться к части корпусных данных. В работе с коммерческими корпусами необходимо брать право его применения on-line либо копию на компакт-диске. Предварительно возможно ознакомиться с аннотацией к корпусу либо, быть может, кроме того поработать с корпусом в пробном режиме, но, в большинстве случаев, не со всеми текстами, а лишь с маленьким подкорпусом. Закрытые корпусы создаются для узко своеобразных целей и не предназначены для публичного применения.

Воплощения ВСЕХ корпусов фонарей: Ион, Параллакс, Мясник и другие. DC comics. Корпус Фонарей.


Также читать:

Понравилась статья? Поделиться с друзьями: