Готовые пакеты решений (элайнеры)
На начальных этапах работы мы предполагали использовать элайнеры – готовые программные решения для задач по выравниванию параллельных текстов. Мы проводили эксперименты в Lingtrain Aligner, а также работали с Hunalign и его графическим интерфейсом LF-aligner. Рассмотрим каждый из инструментов в отдельности.
LF-aligner
LF-aligner является графическим интерфейсом для непосредственного элайнера Hunalign. Этот инструмент требует предварительной лемматизации обрабатываемых текстов. Подробнее о лемматизации можно почитать в соответсвующем разделе.
Алгоритм Hunalign решает задачу выравнивания лемматизированных текстов по предложениям или параграфам – что соответствует элементам молитв в нашем случае.
При работе с Hunalign возникает проблема, связанная с отсутствием возможности настройки параметров окна сравнения единиц текста, из-за чего инструмент показывает крайне низкое качество сведения при работе со сложной перекрестной структурой Цветной Триоди.
Lingtrain-aligner
Среди преимуществ работы с Lingtrain Aligner стоит отметить нетребовательность инструмента к предварительной подготовке текстов, а также относительную простоту запуска алгоритмов выравнивания.
Пользователю не требуется осуществлять токенизацию и лемматизацию текста. Необходимо лишь определенным образом разметить текст и убедиться, что он соответствует следующим параметрам:
- в случае если проставлены метки для заголовков, их число должно быть одинаковым для обоих текстов
- в тексте отсутствуют строки, заканчивающиеся точкой и не являющиеся концом абзаца; в противном случае, абзацы будут сегментированы по точкам
Работать с подготовленными корпусами можно из python
при помощи библиотеки lingtrain-aligner
.
html-книга
Предварительная разметка текста оказывается полезной не только для выравнивания в элайнерах, но также помогает при создании визуализации результатов – html-книги с параллельными текстами.
Формат выдачи результатов в виде html-книги, предусмотренный в Lingtrain, не является оптимальным для целей проекта на данном этапе, поскольку мы заинтересованы в получении словаря переводных эквивалентов на уровне отдельных гимнов или предложений, а также в оценке качества выравнивания.
В репозитории доступен код Lingtrain для работы с текстами Цветной Триоди.
В основе алгоритма лежит принцип, согласно которому эквивалентные предложения должны примерно соответствовать по длине: более длинные предложения на одном языке - более длинным предложениям на другом языке. Подробнее см. в статье Gale W., Church K. A program for aligning sentences in bilingual corpora (ссылка на статью).↩︎