Dialogue Evaluation 2024
RuTermEval
Описание и постановка задачи
Участникам предлагается три трека:
- Идентификация терминов на материале аннотаций и полных текстов статей;
- Идентификация и классификации терминов по 3 классам (specific_term, common_term, nomen) на материале аннотаций и полных текстов статей;
- Трансферные эксперименты по другим доменам – идентификация и классификация терминов по 3 классам (specific_term, common_term, nomen) на материале аннотаций разных доменов. (Важно! Полнотекстовые статьи и аннотации других доменов в тренировочном наборе отсутствуют, на них происходит только оценка качества моделей)
Под выявлением терминов подразумевается идентификация фрагментов текста, являющихся терминами в широком понимании, и их классификация по трём классам (specific_term, common_term, nomen).
Специально для соревнования подготовлен вручную размеченный набор данных CL-RuTerm3 на материале русскоязычных аннотаций статей конференции «Диалог» за период 2000-2023 гг.
Классы терминов:
- specific term – термины, специфичные и доменно, и лексически;
- common term – термины, специфичные только доменно (могут быть известны и употребляться неспециалистами);
- nomen – номенклатурные наименования доменно специфичных объектов; уникальные наименования материальных объектов, принадлежащих конкретному домену (названия программ и программных комплексов, баз и наборов данных, языков программирования, корпусов, словарей и т.д.)
График проведения
1 июня 2024 года — публикация тренировочного набора, начало первой стадии соревнования;
15 июля 2024 года — публикация валидационного набора, старт финальной фазы тестирования;
1 сентября 2024 года — подведение итогов.