Artículo Volumen 40, nº 51

Supervised classifier model to identify hate speech and perform sentiment analysis in texts. Use case: YouTube, Reddit, and Twitter networks

Autor(es)

Óscar Magna, Igor Bustos

Secciones

Sobre los autores

/* */
Leer el artículo

ABSTRACT

This study presents the development and evaluation of a supervised classification model for detecting hate speech on social media platforms, specifically YouTube and Reddit. The research addresses the growing proliferation of harmful content in digital environments, proposing an automated solution based on advanced Natural Language Processing (NLP) techniques and machine learning.
The model is based on a Transformer (BERT) architecture, designed to analyze and classify various manifestations of hate speech, including defamation, threats, and advocacy. The «HateGuard» database of 15215 comments was built using web scraping techniques from YouTube and Reddit, complemented with records from the HateVal dataset from X (Twitter), and implemented with a seven-category multilabel tagging scheme to differentiate various forms of hate speech. Data preprocessing included tokenization, lemmatization, and cleaning of non-textual elements.
To improve performance and address the class imbalance, data augmentation techniques were applied, including OCR (Optical Character Recognition) to simulate errors, grapheme spelling to generate spelling errors, and backtranslation.
In the initial training, the model achieved an accuracy of 82% and an F1-score of 0.83. In the comparative evaluation with models such as RoBERTa, it demonstrated a significant improvement, with an increase of 16 points in the F1-score compared to other models. The final F1-score for the hate speech classifier in HateGuard was 0.88, outperforming previous datasets such as HatEval and HaterNet. In contrast to HaterBERT, which achieved an F1-score of 0.99 in binary detection. The proposed model stands out for its multilabel classification capability, addressing more complex forms of hate speech.
The analysis of results revealed limitations, including a higher incidence of false positives in ambiguous comments and lower performance in identifying subtle threats, with a recall rate of 0.78 in this category.
This study significantly contributes to the automation of content moderation, offering a competitive and adaptable solution. Future research should focus on expanding the dataset to mitigate class imbalance and explore hybrid approaches that incorporate unsupervised learning to capture more subtle forms of hate speech. The proposed model shows considerable potential for real-time application on social platforms, contributing to improving safety and respect in digital environments.

RESUMEN

Este estudio presenta el desarrollo y evaluación de un modelo de clasificación supervisada para la detección de discurso de odio en plataformas de redes sociales, específicamente YouTube, Reddit y X (ex Twitter). La investigación aborda la creciente proliferación de contenido nocivo en entornos digitales, proponiendo una solución automatizada basada en técnicas avanzadas de Procesamiento del Lenguaje Natural (NLP) y aprendizaje automático.
El modelo se fundamenta en una arquitectura Transformer (BERT), diseñada para analizar y clasificar diversas manifestaciones de discurso de odio, incluyendo difamación, amenazas y apología. La base de datos «HateGuard» de 15215 comentarios se construyó mediante técnicas de web scraping desde YouTube y Reddit, complementados con registros del conjunto de datos HateVal de X (ex Twitter) e implementados con esquema de etiquetado multilabel de siete categorías para diferenciar las diversas formas de discurso de odio. El preprocesamiento de datos incluyó tokenización, lematización y limpieza de elementos no textuales.
Para mejorar el rendimiento y abordar el desequilibrio de clases, se aplicaron técnicas de aumento de datos, incluyendo OCR (Reconocimiento Óptico de Caracteres) para simular errores, grapheme spelling para generar errores ortográficos, y backtranslation.
En el entrenamiento inicial el modelo alcanzó una precisión del 82% y un F1-score de 0.83. En la evaluación comparativa con modelos como RoBERTa demostró una mejora significativa, con un aumento de 16 puntos en el F1-score respecto a otros modelos. El F1-score final para el clasificador de discurso de odio en HateGuard fue de 0.88, superando el rendimiento de conjuntos de datos anteriores como HatEval y HaterNet. En contraste con HaterBERT, que logró un F1-score de 0.99 en detección binaria, el modelo propuesto destaca por su capacidad de clasificación multilabel, abordando formas más complejas de discurso de odio.
El análisis de resultados reveló limitaciones, incluyendo una mayor incidencia de falsos positivos en comentarios ambiguos y un rendimiento inferior en la identificación de amenazas sutiles, con una tasa de recall de 0.78 en esta categoría.
Este estudio contribuye significativamente a la automatización de la moderación de contenidos, ofreciendo una solución competitiva y adaptable. Investigaciones futuras deberían enfocarse en ampliar el conjunto de datos para mitigar el desequilibrio de clases y explorar enfoques híbridos que incorporen aprendizaje no supervisado para capturar formas más sutiles de discurso de odio. El modelo propuesto presenta un potencial considerable para su aplicación en tiempo real en plataformas sociales, contribuyendo a mejorar la seguridad y el respeto en entornos digitales.