Оценка качества выравнивания текстов

На данном этапе мы выявили 3 основных метода для оценки качества результатов сведения потенциально эквивалентных единиц, каждый из которых, тем не менее требует оптимизации:

Данная идея обсуждалась во время работы над проектом, однако для ее имплементации необходимы дополнительные ресурсы (краудсорсинг?) и подготовка к организации работы большой команды

Создание так называемого “золотого датасета”, т.е. готового набора других выровненных текстов, который может быть использован для оценки качества выравнивания обрабатываемого корпуса, является многообещающей идеей, особенно учитывая отсутствие выровненных текстов Цветной Триоди.

В качестве потенциального источника создания такого датасета могут быть использованы выровненные тексты проекта DHonorare, который занимается очень близкими нам задачами

Дообучение отобранных мультиязычных моделей BERT и их оптимизация под конкретные исследовательские задачи (см. раздел о BERT и трансформерах). Мы считаем, что эта идея имеет большой потенциал, особенно в сочетании с подготовленным “золотым датасетом”