На данном этапе мы выявили 3 основных метода для оценки качества результатов сведения потенциально эквивалентных единиц, каждый из которых, тем не менее требует оптимизации:
Качественный отсмотр результатов работы моделей и элайнеров специалистами
Данная идея обсуждалась во время работы над проектом, однако для ее имплементации необходимы дополнительные ресурсы (краудсорсинг?) и подготовка к организации работы большой команды
Создание золотого датасета
Создание так называемого “золотого датасета”, т.е. готового набора других выровненных текстов, который может быть использован для оценки качества выравнивания обрабатываемого корпуса, является многообещающей идеей, особенно учитывая отсутствие выровненных текстов Цветной Триоди.
В качестве потенциального источника создания такого датасета могут быть использованы выровненные тексты проекта DHonorare, который занимается очень близкими нам задачами
Дообучение моделей
Дообучение отобранных мультиязычных моделей BERT и их оптимизация под конкретные исследовательские задачи (см. раздел о BERT и трансформерах). Мы считаем, что эта идея имеет большой потенциал, особенно в сочетании с подготовленным “золотым датасетом”