Dialogue Evaluation 2024

RuTermEval

Описание и постановка задачи

Участникам предлагается три трека:

  • Идентификация терминов на материале аннотаций и полных текстов статей;
  • Идентификация и классификации терминов по 3 классам (specific_term, common_term, nomen) на материале аннотаций и полных текстов статей;
  • Трансферные эксперименты по другим доменам – идентификация и классификация терминов по 3 классам (specific_term, common_term, nomen) на материале аннотаций разных доменов. (Важно! Полнотекстовые статьи и аннотации других доменов в тренировочном наборе отсутствуют, на них происходит только оценка качества моделей)

Под выявлением терминов подразумевается идентификация фрагментов текста, являющихся терминами в широком понимании, и их классификация по трём классам (specific_term, common_term, nomen).

Специально для соревнования подготовлен вручную размеченный набор данных CL-RuTerm3 на материале русскоязычных аннотаций статей конференции «Диалог» за период 2000-2023 гг.

 Классы терминов:

  • specific term – термины, специфичные и доменно, и лексически;
  • common term – термины, специфичные только доменно (могут быть известны и употребляться неспециалистами);
  • nomen – номенклатурные наименования доменно специфичных объектов; уникальные наименования материальных объектов, принадлежащих конкретному домену (названия программ и программных комплексов, баз и наборов данных, языков программирования, корпусов, словарей и т.д.)

График проведения

1 июня 2024 года — публикация тренировочного набора, начало первой стадии соревнования;

15 июля 2024 года — публикация валидационного набора, старт финальной фазы тестирования;

1 сентября 2024 года — подведение итогов.