Предварительная обработка текстов
За весь период работы над проектом мы провели большое количество разнообразных экспериментов по обработке изначальных текстовых данных, варьируя объем текстов, сочетание структурных единиц, а также методы и инструменты обработки.
На данный момент мы выявили следующие этапы предобработки текстов, которые позволяют извлечь и структурировать необходимую для выравнивания информацию.
Выгрузка html и цветовая разметка
На веб-страницах, с которых были выгружены тексты для работы, фрагменты молитв и служебных указаний размечены при помощи параметров цвета внутри html-тегов.
Тексты молитв выделены черным цветом, указаний - красным. Предположив, что сохранение данной структуры1 поможет улучшить результаты выравнивания корпуса, мы решили выгрузить тексты с сохранением цветовой разметки.
Церковнославянский текст имел регулярную html-структуру, и сведения о цветовой маркировке удалось получить с помощью базовых инструментов для веб-скрейпинга и регулярных выражений
При работе с html-структурой греческого текста мы столкнулись с ошибками в организации страницы: многие текстовые фрагменты не попадали в теги цветовой разметки. Для корректной выгрузки греческого текста был написан код
Цветовая маркировка отображается в csv – текст поделен между колонками black_text
(тексты служб) и red_text
(комментарии к текстам), сведения о структуре отражены в столбце color
(значения red
и black
соответственно).
red_text | black_text | color |
---|---|---|
Воскре́сение Твое́ Христе́ Спа́се, А́нгели пою́т на небесе́х, и на́с на земли́ сподо́би чи́стым се́рдцем Тебе́ сла́вити. | black | |
И велегла́сно возгласи́т: | red | |
И на́м отвеща́ющым: | red |
Темпоральная разметка
Темпоральная разметка выполнена вручную, отдельно для греческого и церковнославянского текстов. Размечены два уровня временной структуры: недели (1
- 8
) и дни (1_1
- 8_8
).
Темпоральная разметка содержится в csv в столбце temp
red_text | black_text | color | temp |
---|---|---|---|
ΤΗΣ ΔΙΑΚΑΙΝΗΣΙΜΟΥ | red | 1 | |
Τῌ ΑΓΙᾼ ΚΑΙ ΜΕΓΑΛῌ ΚΥΡΙΑΚῌ ΤΟΥ ΠΑΣΧΑ | red | 1_1 | |
ΕΩΘΙΝΟΝ Ζ’ Ἦχος βαρὺς | red | ||
Ἰδοὺ σκοτία καὶ πρωΐ, καὶ τί πρὸς τὸ μνημεῖον Μαρία ἕστηκας, πολὺ σκότος ἔχουσα ταῑς φρεσίν; ὑφ’ οὗ ποῦ τέθειται ζητεῖς ὁ Ἰησοῦς. Ἀλλ’ ὅρα τοὺς συντρέχοντας Μαθητάς, πῶς τοῖς ὀθονίοις καὶ τῷ σουδαρίῳ, τὴν Ἀνάστασιν ἐτεκμήραντο, καὶ ἀνεμνήσθησαν τῆς περὶ τούτου Γραφῆς. Μεθ’ ὧν, καὶ δι’ ὧν καὶ ἡμεῖς, πιστεύσαντες, ἀνυμνοῦμέν σε τὸν ζωοδότην Χριστόν. | black |
Различный порядок следования молитв и песнопений
Оптимальными решениями для работы с этой особенностью служебных текстов, на наш взгляд являются инструменты, которые позволяют сопоставлять единицы, находящиеся на большом расстоянии друг от друга в тексте (см. раздел text-similarity)
Различное оформление текстов молитв
Развернутая структура оформления текста молитв сохраняется в csv файлах. Однако мы предполагаем, что для оптимизации параметров длины исходных текстов, релевантна работа с уникальными единицами текста.
Подробнее о цветовой структуре см. в разделе о специфике текстов Цветной Триоди↩︎