Colección SciELO Chile

Departamento Gestión de Conocimiento, Monitoreo y Prospección
Consultas o comentarios: productividad@anid.cl
Búsqueda Publicación
Búsqueda por Tema Título, Abstract y Keywords



Fake News Classification: A Linguistic Feature Selection Approach to Handle Imbalanced Data in Spanish
Indexado
Scopus SCOPUS_ID:85213499431
DOI 10.1109/SCCC63879.2024.10767646
Año 2024
Tipo

Citas Totales

Autores Afiliación Chile

Instituciones Chile

% Participación
Internacional

Autores
Afiliación Extranjera

Instituciones
Extranjeras


Abstract



The detrimental effects of misinformation are diverse and severe. Despite substantial advances in automatic misinformation detection, several challenges persist, and new ones emerge with technological progress. Our hybrid approach, which combines natural language processing and machine learning models, yields promising results. We focus on detecting misinformation in Spanish using multi-level labeling and addressing class imbalance - an issue scarcely explored in the literature. Our methodology incorporates feature selection in the initial stages, simplifying model structure, reducing computational demands, and enhancing interpretability. Following feature selection, we apply traditional class balancing techniques during training. A series of experiments on the CLNews dataset allowed us to identify linguistic features corresponding to Surface variables and the Emotions and feelings lexicon through ANOVA analysis. This selection demonstrated an improvement in the Random Forest model's performance from 0.35 on the imbalanced dataset to 0.917 after applying random undersampling (RUS). Additionally, mutual information analysis helped identify linguistic features associated with both Surface variables and Readability, with the accuracy of the XGBoost model improving from 0.3 to 0.9 after applying random oversampling (ROS). These results validate the effectiveness of our methodology. To date, no studies have surpassed our results on the CLNews dataset or addressed the multi-level classification problem using this dataset. Moreover, we have made the code for our experiments publicly available to ensure transparency and reproducibility.

Métricas Externas



PlumX Altmetric Dimensions

Muestra métricas de impacto externas asociadas a la publicación. Para mayor detalle:

Disciplinas de Investigación



WOS
Sin Disciplinas
Scopus
Sin Disciplinas
SciELO
Sin Disciplinas

Muestra la distribución de disciplinas para esta publicación.

Publicaciones WoS (Ediciones: ISSHP, ISTP, AHCI, SSCI, SCI), Scopus, SciELO Chile.

Colaboración Institucional



Muestra la distribución de colaboración, tanto nacional como extranjera, generada en esta publicación.


Autores - Afiliación



Ord. Autor Género Institución - País
1 Puraivan, Eduardo - Universidad de Viña del Mar - Chile
Universidad de Valparaíso - Chile
2 Ormeno, Pablo - Universidad de Viña del Mar - Chile
3 Kloss, Steffanie - Universidad de Viña del Mar - Chile
4 Cofre-Morales, Connie - Universidad de Viña del Mar - Chile

Muestra la afiliación y género (detectado) para los co-autores de la publicación.

Financiamiento



Fuente
Beca de Doctorado Nacional ANID
Universidad de Valpara iso

Muestra la fuente de financiamiento declarada en la publicación.

Agradecimientos



Agradecimiento
E. Puraivan has been partially funded by the Escuela de Ingenier ia Inform atica, Universidad de Valpara iso, Chile, through grant No. 01.016/2020 and Beca de Doctorado Nacional ANID 21232242.

Muestra la fuente de financiamiento declarada en la publicación.