Clinical Corpus
Contents
2. Clinical Corpus#
2.1. Anotación#
El corpus MEDDOCAN es un corpus sintético de casos clínicos enriquecido con expresiones PHI (Información Sanitaria Protegida). El corpus MEDDOCAN, de 1.000 casos clínicos, fue seleccionado manualmente por un médico en ejercicio y enriquecido con frases de PHI por documentalistas sanitarios, añadiendo información de PHI procedente de resúmenes de alta y de historias clínicas de genética médica. Para llevar a cabo la anotación manual, el equipo construyó las primeras pautas públicas de PHI en español [16], siguiendo las especificaciones derivadas del Reglamento General de Protección de Datos (GDPR) de la UE, así como las pautas y tipos de anotación definidos por las vías de desidentificación de i2b2, basadas en la Ley de Portabilidad y Responsabilidad del Seguro Médico (HIPAA) de Estados Unidos. La elaboración de estas directrices de anotación supuso una retroalimentación activa a lo largo de seis meses por parte de un equipo híbrido de nueve personas con experiencia tanto en sanidad como en PNL, lo que dio como resultado un documento de 28 páginas 1 que se ha distribuido junto con el corpus. Junto con las reglas de anotación, se proporcionaron ejemplos ilustrativos para facilitar al máximo la interpretación y el uso de las directrices. El corpus de MEDDOCAN se muestreó aleatoriamente en tres subconjuntos: el conjunto de entrenamiento, que contenía 500 casos clínicos, y los conjuntos de desarrollo y de prueba de 250 casos clínicos cada uno. Estos casos clínicos se anotaron manualmente utilizando una versión personalizada de AnnotateIt 2. A continuación, se utilizó el kit de herramientas de anotación BRAT para corregir los errores y añadir las anotaciones que faltaban, logrando un acuerdo entre anotadores (IAA) del 98% (calculado con 50 documentos). Junto con el conjunto de pruebas, publicaron una colección adicional de 3.501 documentos (conjunto de fondo3 ) para asegurarse de que los equipos participantes no pudieran hacer correcciones manuales y también para promover que estos sistemas fueran potencialmente capaces de escalar a colecciones de datos más grandes. Las directrices de anotación de MEDDOCAN definieron un total de 29 tipos de entidades. Table 2.1 resume la lista de tipos de entidad sensibles definidos para la pista de MEDDOCAN y el número de ocurrencias entre los conjuntos de entrenamiento, desarrollo y prueba.
Tipo |
Train |
Dev |
Test |
Total |
---|---|---|---|---|
TERRITORIO |
1875 |
987 |
956 |
3818 |
FECHAS |
1231 |
724 |
611 |
2566 |
EDAD SUJETO ASISTENCIA |
1035 |
521 |
518 |
2074 |
NOMBRE SUJETO ASISTENCIA |
1009 |
503 |
502 |
2014 |
NOMBRE PERSONAL SANITARIO |
1000 |
497 |
501 |
1998 |
SEXO SUJETO ASISTENCIA |
925 |
455 |
461 |
1841 |
CALLE |
862 |
434 |
413 |
1709 |
PAIS |
713 |
347 |
363 |
1423 |
ID SUJETO ASISTENCIA |
567 |
292 |
283 |
1142 |
CORREO ELECTRONICO |
469 |
241 |
249 |
959 |
ID TITULACION PERSONAL SANITARIO |
471 |
226 |
234 |
931 |
ID ASEGURAMIENTO |
391 |
194 |
198 |
783 |
HOSPITAL |
255 |
140 |
130 |
525 |
FAMILIARES SUJETO ASISTENCIA |
243 |
92 |
81 |
416 |
INSTITUCION |
98 |
72 |
67 |
237 |
ID CONTACTO ASISTENCIAL |
77 |
32 |
39 |
148 |
NUMERO TELEFONO |
58 |
25 |
26 |
109 |
PROFESION |
24 |
4 |
9 |
37 |
NUMERO FAX |
15 |
6 |
7 |
28 |
OTROS SUJETO ASISTENCIA |
9 |
6 |
7 |
22 |
CENTRO SALUD |
6 |
2 |
6 |
14 |
ID EMPLEO PERSONAL SANITARIO |
0 |
1 |
0 |
1 |
IDENTIF VEHICULOS NRSERIE PLACAS |
0 |
0 |
0 |
0 |
IDENTIF DISPOSITIVOS NRSERIE |
0 |
0 |
0 |
0 |
NUMERO BENEF PLAN SALUD |
0 |
0 |
0 |
0 |
URL WEB |
0 |
0 |
0 |
0 |
DIREC PROT INTERNET |
0 |
0 |
0 |
0 |
IDENTF BIOMETRICOS |
0 |
0 |
0 |
0 |
OTRO NUMERO IDENTIF |
0 |
0 |
0 |
0 |
El corpus de MEDDOCAN se distribuyó en texto plano en codificación UTF-8, donde cada caso clínico se almacenó como un único archivo, mientras que las anotaciones de PHI se publicaron en el formato BRAT, lo que hace que la visualización de los resultados sea sencilla, como se puede ver en la Figura 2.1. Para este tema, también facilitaron un script de conversión4 entre el formato de anotación BRAT y el formato de anotación utilizado por el esfuerzo anterior de i2b2, para facilitar la comparación y adaptación de los sistemas anteriores utilizados para los textos en inglés.

Fig. 2.1 Un ejemplo de anotación de MEDDOCAN visualizada mediante la interfaz de anotación BRAT#
2.2. Preparación de los datos#
Tras retomar la descripción del corpus por parte de sus autores, veamos con más detalle en qué consiste la preparación de los datos. El corpus MEDDOCAN consiste en casos clínicos escritos en español y enriquecidos manualmente con expresiones PHI. Se considera un número total de 22
categorías PHI que muestran una alta variabilidad de frecuencia 5.
El número calculado de categorías PHI se puede encontrar en la Figura 2.2.
TRAIN | TEST | DEV | |
---|---|---|---|
TERRITORIO | 1875 | 956 | 987 |
FECHAS | 1231 | 611 | 724 |
EDAD_SUJETO_ASISTENCIA | 1035 | 518 | 521 |
NOMBRE_SUJETO_ASISTENCIA | 1009 | 502 | 503 |
NOMBRE_PERSONAL_SANITARIO | 1000 | 501 | 497 |
SEXO_SUJETO_ASISTENCIA | 925 | 461 | 455 |
CALLE | 862 | 413 | 434 |
PAIS | 713 | 363 | 347 |
ID_SUJETO_ASISTENCIA | 567 | 283 | 292 |
ID_TITULACION_PERSONAL_SANITARIO | 471 | 234 | 226 |
CORREO_ELECTRONICO | 469 | 249 | 241 |
ID_ASEGURAMIENTO | 391 | 198 | 194 |
HOSPITAL | 255 | 130 | 140 |
FAMILIARES_SUJETO_ASISTENCIA | 243 | 81 | 92 |
INSTITUCION | 98 | 67 | 72 |
ID_CONTACTO_ASISTENCIAL | 77 | 39 | 32 |
NUMERO_TELEFONO | 58 | 26 | 25 |
PROFESION | 24 | 9 | 4 |
NUMERO_FAX | 15 | 7 | 6 |
OTROS_SUJETO_ASISTENCIA | 9 | 7 | 6 |
CENTRO_SALUD | 6 | 6 | 2 |
ID_EMPLEO_PERSONAL_SANITARIO | 0 | 0 | 1 |
TOTAL | 11333 | 5661 | 5801 |
Fig. 2.2 Las categorías de PHI calculadas a partir de los conjuntos de datos#
El preprocesamiento y el formateo aplicados al corpus consistieron en los siguientes pasos (véase Section 5.3.1):
- 1. División en párrafos
Los documentos se dividieron en párrafos utilizando los saltos de línea de los textos originales. Decidimos trabajar con párrafos en lugar de frases porque las frases reales son difíciles de detectar.
- 2. Tokenization
Cada párrafo fue tokenizado utilizando un tokenizador personalizado creado con la biblioteca
spaCy
6 y algunas reglas de tokenización personalizadas adicionales, principalmente para dividir los símbolos de puntuación si no están dentro de una URL, una dirección de correo electrónico o una fecha. Para dividir ciertas palabras con el fin de tener en cuenta los errores de espaciado en el texto original. Por ejemplo, (p. ej. "'DominguezCorreo' -> ['Dominguez', 'Correo']").- 3. Formato de las etiquetas
Las anotaciones con formato Brat de los juegos de datos de entrenamiento y desarrollo se convirtieron en etiquetas a nivel de token siguiendo el esquema BIO (Beginning, Inner, Outside). Combinando este esquema de etiquetas con las 22 clases granulares originales de PHI (por ejemplo, para la clase granular FECHA tendríamos las etiquetas B-FECHA, I-FECHA, más la clase genérica O) se obtiene un conjunto final de etiquetas de 45 posibles etiquetas únicas.
Estos 3 pasos se ilustran en Figure 2.3.
Sentence | Tokens | Labels | |
---|---|---|---|
Idx | |||
0 | NHC: 368503.\n | ['NHC', ':', '368503', '.', '\n'] | ['O', 'O', 'B_ID_SUJETO_ASISTENCIA', 'O', 'O'] |
1 | NASS: 26 63514095.\n | ['NASS', ':', '26', '63514095', '.', '\n'] | ['O', 'O', 'B_ID_ASEGURAMIENTO', 'I_ID_ASEGURAMIENTO', 'O', 'O'] |
2 | Domicilio: Calle Miguel Benitez 90.\n | ['Domicilio', ':', ' ', 'Calle', 'Miguel', 'Benitez', '90', '.', '\n'] | ['O', 'O', 'O', 'B_CALLE', 'I_CALLE', 'I_CALLE', 'I_CALLE', 'O', 'O'] |
3 | Localidad/ Provincia: Madrid.\n | ['Localidad', '/', 'Provincia', ':', 'Madrid', '.', '\n'] | ['O', 'O', 'O', 'O', 'B_TERRITORIO', 'O', 'O'] |
Fig. 2.3 Una ilustración de los pasos de preparación de datos#
Las estadísticas finales, incluyendo el número de documentos, párrafos, tokens, tamaño del vocabulario y entidades PHI para cada uno de los conjuntos de datos del corpus preprocesado, pueden consultarse en la Figura 2.4.
num docs | num sentences | num tokens | vocabulary | Min token per sentence | Max token per sentence | Avg token per sentence | num PHI | |
---|---|---|---|---|---|---|---|---|
TRAIN | 500 | 10811 | 263963 | 22695 | 1 | 712 | 24 | 11333 |
DEV | 250 | 5518 | 139400 | 15466 | 1 | 571 | 25 | 5801 |
TEST | 250 | 5405 | 132698 | 14933 | 1 | 477 | 24 | 5661 |
Fig. 2.4 Estadísticas finales de los conjuntos de datos pre-procesados#
- 1
- 2
- 3
El conjunto de datos de referencia incluía los conjuntos de entrenamiento, desarrollo y prueba, y una colección adicional de 2.751 casos clínicos (en total, 3.751 casos clínicos).
- 4
https://github.com/PlanTL-SANIDAD/MEDDOCAN-Format-Converter-Script
- 5
El esquema de anotación de MEDDOCAN define 29 tipos de entidad PHI como se muestra en Table 2.1, pero sólo 22 de ellos aparecen realmente en los conjuntos anotados.
- 6