Предварительная обработка текстов

За весь период работы над проектом мы провели большое количество разнообразных экспериментов по обработке изначальных текстовых данных, варьируя объем текстов, сочетание структурных единиц, а также методы и инструменты обработки.

На данный момент мы выявили следующие этапы предобработки текстов, которые позволяют извлечь и структурировать необходимую для выравнивания информацию.

Выгрузка html и цветовая разметка

На веб-страницах, с которых были выгружены тексты для работы, фрагменты молитв и служебных указаний размечены при помощи параметров цвета внутри html-тегов.

Тексты молитв выделены черным цветом, указаний - красным. Предположив, что сохранение данной структуры1 поможет улучшить результаты выравнивания корпуса, мы решили выгрузить тексты с сохранением цветовой разметки.

  • Церковнославянский текст имел регулярную html-структуру, и сведения о цветовой маркировке удалось получить с помощью базовых инструментов для веб-скрейпинга и регулярных выражений

  • При работе с html-структурой греческого текста мы столкнулись с ошибками в организации страницы: многие текстовые фрагменты не попадали в теги цветовой разметки. Для корректной выгрузки греческого текста был написан код

Цветовая маркировка отображается в csv – текст поделен между колонками black_text (тексты служб) и red_text (комментарии к текстам), сведения о структуре отражены в столбце color (значения red и black соответственно).

Как это выглядит?

В таблице ниже приведен пример, иллюстрирующий структуру данных с информацией о цветовой маркировке текста

red_text black_text color
Воскре́сение Твое́ Христе́ Спа́се, А́нгели пою́т на небесе́х, и на́с на земли́ сподо́би чи́стым се́рдцем Тебе́ сла́вити. black
И велегла́сно возгласи́т: red
И на́м отвеща́ющым: red

Темпоральная разметка

Темпоральная разметка выполнена вручную, отдельно для греческого и церковнославянского текстов. Размечены два уровня временной структуры: недели (1 - 8) и дни (1_1 - 8_8).

Темпоральная разметка содержится в csv в столбце temp

Как это выглядит?

Ниже показан пример структуры данных с информацией о темпоральной разметке

red_text black_text color temp
ΤΗΣ ΔΙΑΚΑΙΝΗΣΙΜΟΥ red 1
Τῌ ΑΓΙᾼ ΚΑΙ ΜΕΓΑΛῌ ΚΥΡΙΑΚῌ ΤΟΥ ΠΑΣΧΑ red 1_1
ΕΩΘΙΝΟΝ Ζ’ Ἦχος βαρὺς red
Ἰδοὺ σκοτία καὶ πρωΐ, καὶ τί πρὸς τὸ μνημεῖον Μαρία ἕστηκας, πολὺ σκότος ἔχουσα ταῑς φρεσίν; ὑφ’ οὗ ποῦ τέθειται ζητεῖς ὁ Ἰησοῦς. Ἀλλ’ ὅρα τοὺς συντρέχοντας Μαθητάς, πῶς τοῖς ὀθονίοις καὶ τῷ σουδαρίῳ, τὴν Ἀνάστασιν ἐτεκμήραντο, καὶ ἀνεμνήσθησαν τῆς περὶ τούτου Γραφῆς. Μεθ’ ὧν, καὶ δι’ ὧν καὶ ἡμεῖς, πιστεύσαντες, ἀνυμνοῦμέν σε τὸν ζωοδότην Χριστόν. black

Различный порядок следования молитв и песнопений

Оптимальными решениями для работы с этой особенностью служебных текстов, на наш взгляд являются инструменты, которые позволяют сопоставлять единицы, находящиеся на большом расстоянии друг от друга в тексте (см. раздел text-similarity)

Различное оформление текстов молитв

Развернутая структура оформления текста молитв сохраняется в csv файлах. Однако мы предполагаем, что для оптимизации параметров длины исходных текстов, релевантна работа с уникальными единицами текста.


  1. Подробнее о цветовой структуре см. в разделе о специфике текстов Цветной Триоди↩︎