2. Clinical Corpus#

2.1. Anotación #

El corpus MEDDOCAN es un corpus sintético de casos clínicos enriquecido con expresiones PHI (Información Sanitaria Protegida). El corpus MEDDOCAN, de 1.000 casos clínicos, fue seleccionado manualmente por un médico en ejercicio y enriquecido con frases de PHI por documentalistas sanitarios, añadiendo información de PHI procedente de resúmenes de alta y de historias clínicas de genética médica. Para llevar a cabo la anotación manual, el equipo construyó las primeras pautas públicas de PHI en español [16], siguiendo las especificaciones derivadas del Reglamento General de Protección de Datos (GDPR) de la UE, así como las pautas y tipos de anotación definidos por las vías de desidentificación de i2b2, basadas en la Ley de Portabilidad y Responsabilidad del Seguro Médico (HIPAA) de Estados Unidos. La elaboración de estas directrices de anotación supuso una retroalimentación activa a lo largo de seis meses por parte de un equipo híbrido de nueve personas con experiencia tanto en sanidad como en PNL, lo que dio como resultado un documento de 28 páginas 1 que se ha distribuido junto con el corpus. Junto con las reglas de anotación, se proporcionaron ejemplos ilustrativos para facilitar al máximo la interpretación y el uso de las directrices. El corpus de MEDDOCAN se muestreó aleatoriamente en tres subconjuntos: el conjunto de entrenamiento, que contenía 500 casos clínicos, y los conjuntos de desarrollo y de prueba de 250 casos clínicos cada uno. Estos casos clínicos se anotaron manualmente utilizando una versión personalizada de AnnotateIt 2. A continuación, se utilizó el kit de herramientas de anotación BRAT para corregir los errores y añadir las anotaciones que faltaban, logrando un acuerdo entre anotadores (IAA) del 98% (calculado con 50 documentos). Junto con el conjunto de pruebas, publicaron una colección adicional de 3.501 documentos (conjunto de fondo3 ) para asegurarse de que los equipos participantes no pudieran hacer correcciones manuales y también para promover que estos sistemas fueran potencialmente capaces de escalar a colecciones de datos más grandes. Las directrices de anotación de MEDDOCAN definieron un total de 29 tipos de entidades. Table 2.1 resume la lista de tipos de entidad sensibles definidos para la pista de MEDDOCAN y el número de ocurrencias entre los conjuntos de entrenamiento, desarrollo y prueba.

Table 2.1 Distribución del tipo de entidad entre los juegos de datos#
Tipo	Train	Dev	Test	Total
TERRITORIO	1875	987	956	3818
FECHAS	1231	724	611	2566
EDAD SUJETO ASISTENCIA	1035	521	518	2074
NOMBRE SUJETO ASISTENCIA	1009	503	502	2014
NOMBRE PERSONAL SANITARIO	1000	497	501	1998
SEXO SUJETO ASISTENCIA	925	455	461	1841
CALLE	862	434	413	1709
PAIS	713	347	363	1423
ID SUJETO ASISTENCIA	567	292	283	1142
CORREO ELECTRONICO	469	241	249	959
ID TITULACION PERSONAL SANITARIO	471	226	234	931
ID ASEGURAMIENTO	391	194	198	783
HOSPITAL	255	140	130	525
FAMILIARES SUJETO ASISTENCIA	243	92	81	416
INSTITUCION	98	72	67	237
ID CONTACTO ASISTENCIAL	77	32	39	148
NUMERO TELEFONO	58	25	26	109
PROFESION	24	4	9	37
NUMERO FAX	15	6	7	28
OTROS SUJETO ASISTENCIA	9	6	7	22
CENTRO SALUD	6	2	6	14
ID EMPLEO PERSONAL SANITARIO	0	1	0	1
IDENTIF VEHICULOS NRSERIE PLACAS	0	0	0	0
IDENTIF DISPOSITIVOS NRSERIE	0	0	0	0
NUMERO BENEF PLAN SALUD	0	0	0	0
URL WEB	0	0	0	0
DIREC PROT INTERNET	0	0	0	0
IDENTF BIOMETRICOS	0	0	0	0
OTRO NUMERO IDENTIF	0	0	0	0

El corpus de MEDDOCAN se distribuyó en texto plano en codificación UTF-8, donde cada caso clínico se almacenó como un único archivo, mientras que las anotaciones de PHI se publicaron en el formato BRAT, lo que hace que la visualización de los resultados sea sencilla, como se puede ver en la Figura 2.1. Para este tema, también facilitaron un script de conversión4 entre el formato de anotación BRAT y el formato de anotación utilizado por el esfuerzo anterior de i2b2, para facilitar la comparación y adaptación de los sistemas anteriores utilizados para los textos en inglés.

../_images/meddocan-brat-visualization.png — Fig. 2.1 Un ejemplo de anotación de MEDDOCAN visualizada mediante la interfaz de anotación BRAT#

2.2. Preparación de los datos#

Tras retomar la descripción del corpus por parte de sus autores, veamos con más detalle en qué consiste la preparación de los datos. El corpus MEDDOCAN consiste en casos clínicos escritos en español y enriquecidos manualmente con expresiones PHI. Se considera un número total de 22 categorías PHI que muestran una alta variabilidad de frecuencia 5. El número calculado de categorías PHI se puede encontrar en la Figura 2.2.

	TRAIN	TEST	DEV
TERRITORIO	1875	956	987
FECHAS	1231	611	724
EDAD_SUJETO_ASISTENCIA	1035	518	521
NOMBRE_SUJETO_ASISTENCIA	1009	502	503
NOMBRE_PERSONAL_SANITARIO	1000	501	497
SEXO_SUJETO_ASISTENCIA	925	461	455
CALLE	862	413	434
PAIS	713	363	347
ID_SUJETO_ASISTENCIA	567	283	292
ID_TITULACION_PERSONAL_SANITARIO	471	234	226
CORREO_ELECTRONICO	469	249	241
ID_ASEGURAMIENTO	391	198	194
HOSPITAL	255	130	140
FAMILIARES_SUJETO_ASISTENCIA	243	81	92
INSTITUCION	98	67	72
ID_CONTACTO_ASISTENCIAL	77	39	32
NUMERO_TELEFONO	58	26	25
PROFESION	24	9	4
NUMERO_FAX	15	7	6
OTROS_SUJETO_ASISTENCIA	9	7	6
CENTRO_SALUD	6	6	2
ID_EMPLEO_PERSONAL_SANITARIO	0	0	1
TOTAL	11333	5661	5801

Fig. 2.2 Las categorías de PHI calculadas a partir de los conjuntos de datos#

El preprocesamiento y el formateo aplicados al corpus consistieron en los siguientes pasos (véase Section 5.3.1):

1. División en párrafos: Los documentos se dividieron en párrafos utilizando los saltos de línea de los textos originales. Decidimos trabajar con párrafos en lugar de frases porque las frases reales son difíciles de detectar.
2. Tokenization: Cada párrafo fue tokenizado utilizando un tokenizador personalizado creado con la biblioteca spaCy 6 y algunas reglas de tokenización personalizadas adicionales, principalmente para dividir los símbolos de puntuación si no están dentro de una URL, una dirección de correo electrónico o una fecha. Para dividir ciertas palabras con el fin de tener en cuenta los errores de espaciado en el texto original. Por ejemplo, (p. ej. "'DominguezCorreo' -> ['Dominguez', 'Correo']").
3. Formato de las etiquetas: Las anotaciones con formato Brat de los juegos de datos de entrenamiento y desarrollo se convirtieron en etiquetas a nivel de token siguiendo el esquema BIO (Beginning, Inner, Outside). Combinando este esquema de etiquetas con las 22 clases granulares originales de PHI (por ejemplo, para la clase granular FECHA tendríamos las etiquetas B-FECHA, I-FECHA, más la clase genérica O) se obtiene un conjunto final de etiquetas de 45 posibles etiquetas únicas.

Estos 3 pasos se ilustran en Figure 2.3.

	Sentence	Tokens	Labels
Idx
0	NHC: 368503.\n	['NHC', ':', '368503', '.', '\n']	['O', 'O', 'B_ID_SUJETO_ASISTENCIA', 'O', 'O']
1	NASS: 26 63514095.\n	['NASS', ':', '26', '63514095', '.', '\n']	['O', 'O', 'B_ID_ASEGURAMIENTO', 'I_ID_ASEGURAMIENTO', 'O', 'O']
2	Domicilio: Calle Miguel Benitez 90.\n	['Domicilio', ':', ' ', 'Calle', 'Miguel', 'Benitez', '90', '.', '\n']	['O', 'O', 'O', 'B_CALLE', 'I_CALLE', 'I_CALLE', 'I_CALLE', 'O', 'O']
3	Localidad/ Provincia: Madrid.\n	['Localidad', '/', 'Provincia', ':', 'Madrid', '.', '\n']	['O', 'O', 'O', 'O', 'B_TERRITORIO', 'O', 'O']

Fig. 2.3 Una ilustración de los pasos de preparación de datos#

Las estadísticas finales, incluyendo el número de documentos, párrafos, tokens, tamaño del vocabulario y entidades PHI para cada uno de los conjuntos de datos del corpus preprocesado, pueden consultarse en la Figura 2.4.

	num docs	num sentences	num tokens	vocabulary	Min token per sentence	Max token per sentence	Avg token per sentence	num PHI
TRAIN	500	10811	263963	22695	1	712	24	11333
DEV	250	5518	139400	15466	1	571	25	5801
TEST	250	5405	132698	14933	1	477	24	5661

Fig. 2.4 Estadísticas finales de los conjuntos de datos pre-procesados#

1: https://github.com/PlanTL-GOB-ES/SPACCC_MEDDOCAN/blob/master/guidelines/guías-de-anotación-de-información-de-salud-protegida.pdf
2: https://annotateit.org/
3: El conjunto de datos de referencia incluía los conjuntos de entrenamiento, desarrollo y prueba, y una colección adicional de 2.751 casos clínicos (en total, 3.751 casos clínicos).
4: https://github.com/PlanTL-SANIDAD/MEDDOCAN-Format-Converter-Script
5: El esquema de anotación de MEDDOCAN define 29 tipos de entidad PHI como se muestra en Table 2.1, pero sólo 22 de ellos aparecen realmente en los conjuntos anotados.
6: https://spacy.io/

Anonimización aplicada al ámbito médico

Clinical Corpus

Contents

2. Clinical Corpus#

2.1. Anotación #

2.2. Preparación de los datos#

Anonimización aplicada al ámbito médico

Clinical Corpus

Contents

2. Clinical Corpus#

2.1. Anotación#

2.2. Preparación de los datos#

2.1. Anotación #