1. Evaluación#

La evaluación de las predicciones automáticas para esta tarea tenía dos escenarios o subvías diferentes:

1.1. NER offset y clasificación de tipos de entidades#

Subtrack1

La primera tarea se centró en la identificación y clasificación de información sensible (por ejemplo, nombres de pacientes, teléfonos, direcciones, etc.). Se trata de la misma tarea que realizamos al anonimizar documentos legales.

1.2. Detección de span sensibles#

Subtrack2 [Strict]

La segunda tarea se centró en la detección de texto sensible más específico para el escenario práctico necesario para la publicación de documentos clínicos desidentificados, donde el objetivo es identificar y enmascarar los datos confidenciales, independientemente del tipo real de entidad o de la identificación correcta del tipo de PHI. En este caso solo nos interesa conocer la ubicación del texto a enmascarar.

Subtrack2 [Merged]

También calculamos adicionalmente otra evaluación en la que fusionamos los tramos de PHI conectados por caracteres no alfanuméricos.

Se puede consultar la figura 1.1 para entender visualmente qué distingue a cada una de las tareas entre sí.

START END TEXT TAG
Track Num
SPAN MERGED 1 3576 3635 'Carretera de Toledo km 12,500 28905 Getafe - Madrid (España' None
NER 1 3576 3605 'Carretera de Toledo km 12,500' CALLE
2 3606 3611 '28905' TERRITORIO
3 3612 3618 'Getafe' TERRITORIO
4 3621 3627 'Madrid' TERRITORIO
5 3629 3635 'España' PAIS

Fig. 1.1 Comparación entre lo que se debe detectar en la tarea Subtrack2 [Merged] (index SPAN MERGED) y las 2 otras tareas, tanto la Subtrack1 y la Subtrack2 [Strict] en la líneas siguientes (index NER).#