Evaluación
Contents
1. Evaluación#
La evaluación de las predicciones automáticas para esta tarea tenía dos escenarios o subvías diferentes:
1.1. NER offset y clasificación de tipos de entidades#
- Subtrack1
La primera tarea se centró en la identificación y clasificación de información sensible (por ejemplo, nombres de pacientes, teléfonos, direcciones, etc.). Se trata de la misma tarea que realizamos al anonimizar documentos legales.
1.2. Detección de span sensibles#
- Subtrack2 [Strict]
La segunda tarea se centró en la detección de texto sensible más específico para el escenario práctico necesario para la publicación de documentos clínicos desidentificados, donde el objetivo es identificar y enmascarar los datos confidenciales, independientemente del tipo real de entidad o de la identificación correcta del tipo de PHI. En este caso solo nos interesa conocer la ubicación del texto a enmascarar.
- Subtrack2 [Merged]
También calculamos adicionalmente otra evaluación en la que fusionamos los tramos de PHI conectados por caracteres no alfanuméricos.
Se puede consultar la figura 1.1 para entender visualmente qué distingue a cada una de las tareas entre sí.
START | END | TEXT | TAG | ||
---|---|---|---|---|---|
Track | Num | ||||
SPAN MERGED | 1 | 3576 | 3635 | 'Carretera de Toledo km 12,500 28905 Getafe - Madrid (España' | None |
NER | 1 | 3576 | 3605 | 'Carretera de Toledo km 12,500' | CALLE |
2 | 3606 | 3611 | '28905' | TERRITORIO | |
3 | 3612 | 3618 | 'Getafe' | TERRITORIO | |
4 | 3621 | 3627 | 'Madrid' | TERRITORIO | |
5 | 3629 | 3635 | 'España' | PAIS |
Fig. 1.1 Comparación entre lo que se debe detectar en la tarea Subtrack2 [Merged] (index SPAN MERGED) y las 2 otras tareas, tanto la Subtrack1 y la Subtrack2 [Strict] en la líneas siguientes (index NER).#