Text-similarity
Задача оценки семантического сходства – text-similarity – заключается в определении степени схожести двух предложений с точки зрения транслируемого смысла.
BERT и трансформеры
Наиболее эффективным способом построения моделей естественного языка является обучение нейронных сетей на основе архитектуры «трансформер». В качестве примера можно привести BERT – модель, используемая для определения сходства слов и предложений.
Более качественные результаты можно получить, оптимизируя BERT под конкретные задачи. К примеру, модель SBERT обучена непосредственно для работы с задачами по определению схожести предложений на основе косинусной меры.
Как отмечают разработчики модели:
Архитектура [модели] представляет собой сиамскую нейронную сеть с тремя входами для триплета «anchor — positive — negative». К каждому из входов применяется модуль BERT, который и будет выполнять роль NLU в этом эксперименте. Модуль содержит в себе wordpiece-токенизатор для преобразования входных строк в BERT-совместимый формат (
input_ids
,input_mask
,token_type_ids
), а также саму обучаемую модель BERT для векторизации текста.
В результате дообучения модели SBERT для задачи поиска переводных эквивалентов было получено множество вариантов мультиязычных моделей.
В контексте проекта
Эксперименты с транфсормерами и языковыми моделями проводились на заключительных проектных спринтах и показали наилучший – хотя и далекий от приемлемого – результат выравнивания текстов за весь период работы.
В репозитории представлен код для работы с нашим текстом, а также результаты работы с моделью sentence-transformers/all-MiniLM-L6-v2, которая на наш взгляд демонстрирует более высокое качество сведения текстов Триоди.