Colección SciELO Chile

Departamento Gestión de Conocimiento, Monitoreo y Prospección
Consultas o comentarios: productividad@anid.cl
Búsqueda Publicación
Búsqueda por Tema Título, Abstract y Keywords



NLP modeling recommendations for restricted data availability in clinical settings
Indexado
WoS WOS:001461570300003
Scopus SCOPUS_ID:86000335819
DOI 10.1186/S12911-025-02948-2
Año 2025
Tipo artículo de investigación

Citas Totales

Autores Afiliación Chile

Instituciones Chile

% Participación
Internacional

Autores
Afiliación Extranjera

Instituciones
Extranjeras


Abstract



Background: Clinical decision-making in healthcare often relies on unstructured text data, which can be challenging to analyze using traditional methods. Natural Language Processing (NLP) has emerged as a promising solution, but its application in clinical settings is hindered by restricted data availability and the need for domain-specific knowledge. Methods: We conducted an experimental analysis to evaluate the performance of various NLP modeling paradigms on multiple clinical NLP tasks in Spanish. These tasks included referral prioritization and referral specialty classification. We simulated three clinical settings with varying levels of data availability and evaluated the performance of four foundation models. Results: Clinical-specific pre-trained language models (PLMs) achieved the highest performance across tasks. For referral prioritization, Clinical PLMs attained an 88.85 % macro F1 score when fine-tuned. In referral specialty classification, the same models achieved a 53.79 % macro F1 score, surpassing domain-agnostic models. Continuing pre-training with environment-specific data improved model performance, but the gains were marginal compared to the computational resources required. Few-shot learning with large language models (LLMs) demonstrated lower performance but showed potential in data-scarce scenarios. Conclusions: Our study provides evidence-based recommendations for clinical NLP practitioners on selecting modeling paradigms based on data availability. We highlight the importance of considering data availability, task complexity, and institutional maturity when designing and training clinical NLP models. Our findings can inform the development of effective clinical NLP solutions in real-world settings.

Métricas Externas



PlumX Altmetric Dimensions

Muestra métricas de impacto externas asociadas a la publicación. Para mayor detalle:

Disciplinas de Investigación



WOS
Medical Informatics
Scopus
Sin Disciplinas
SciELO
Sin Disciplinas

Muestra la distribución de disciplinas para esta publicación.

Publicaciones WoS (Ediciones: ISSHP, ISTP, AHCI, SSCI, SCI), Scopus, SciELO Chile.

Colaboración Institucional



Muestra la distribución de colaboración, tanto nacional como extranjera, generada en esta publicación.


Autores - Afiliación



Ord. Autor Género Institución - País
1 Villena, Fabian Hombre Universidad de Chile - Chile
Instituto Milenio Fundamentos de los Datos - Chile
Universidad San Sebastián - Chile
2 Bravo-Marquez, Felipe - Universidad de Chile - Chile
Instituto Milenio Fundamentos de los Datos - Chile
National Center for Artificial Intelligence - Chile
Natl Ctr Artificial Intelligence - Chile
3 Dunstan, Jocelyn Mujer Instituto Milenio Fundamentos de los Datos - Chile
Pontificia Universidad Católica de Chile - Chile

Muestra la afiliación y género (detectado) para los co-autores de la publicación.

Financiamiento



Fuente
FONDECYT
Fondo Nacional de Desarrollo Científico y Tecnológico
Basal Funds
National Doctoral Scholarship
IMFD
Agencia Nacional de Investigación y Desarrollo
CENIA
ANID Chile: Millennium Science Initiative Program

Muestra la fuente de financiamiento declarada en la publicación.

Agradecimientos



Agradecimiento
This work was funded by ANID Chile: Millennium Science Initiative Program ICN17_002 - IMFD, Basal Funds FB210017 - CENIA and FB0008 - AC3E, National Doctoral Scholarship 21220200 (FV), and Fondecyt grant 1241825 (JD).
This work was funded by ANID Chile: Millennium Science Initiative Program ICN17_002 - IMFD, Basal Funds FB210017 - CENIA and FB0008 - AC3E, National Doctoral Scholarship 21220200 (FV), and Fondecyt grant 1241825 (JD).

Muestra la fuente de financiamiento declarada en la publicación.