Publication: Sistema de detección de correos phishing basado en big data
Loading...
Date
2025
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Corporación Universitaria Remington
Abstract
Mediante técnicas de Big Data y el aprendizaje automático se desarrolló el siguiente proyecto, donde el objetivo principal es lograr hacer una eficiente identificación de correos electrónicos tipo Phising. El siguiente planteamiento tuvo como objetivo realizar una aplicación prototipo que permitió implementar una identificación manual de correos tipo Phishing, ya que esta sigue siendo una de las amenazas más frecuentes a los usuarios de internet. El identificador de correos tipo Phising se realizó utilizando Python y Term Frequency-Inverse Document Frequency (TF-IDF) para la captura de características del contenido dentro de los correos electrónicos, transformando este contenido en una representación numérica para su análisis. Después, se entrenó un modelo Multinomial Naive Bayes, que se caracteriza por su eficiencia en tareas de clasificación de texto, ya sea en datasets pequeños o medianos y por último se diseñó una interfaz gráfica inicial con Streamlit, para que cualquier persona pueda hacer uso de la aplicación. Este es un prototipo inicial, por lo que se plantea que pueda ser escalable en el tiempo utilizando técnicas de Big Data para capturar grandes cantidades de información, almacenarla y analizarla. Los resultados que se presentan en el siguiente documento son evidencia que incluso haciendo uso de modelos sencillos con el correcto uso de las herramientas, podemos identificar correos electrónicos tipo Phising y garantizar la seguridad de la información; ya sea personal o empresarial.
Description
Keywords
Big data, Ciberseguridad, Machine learning, Phishing, Clasificador de correos