Group Assignment base repository for the Data Driven Security subject of the CyberSecurity Management Msc.
¿Qué porcentaje de acierto en phising se puede conseguir al analizar una url?
Elaborar un método de data mining sobre una base de datos de página de phishing para saber si una página en concreto es de phishing o no. Crear un web crawler para tener una base de datos de páginas web aleatorias. Utilizar data mining para agrupar las páginas (si son phishing o no). Extraer los datos de las páginas detectadas como phishing y crear un análisis (por origen, media, etc).
Hacer un análisis funcional sobre el phishing (como detectarlo, origen de los servidores, etc).
Mediante el fichero que hemos obtenido de datasets sobre phising, hemos seleccionado los campos que utilizaremos para que haga la comparación de si una url es phising o no. Se ha realizado una limpieza del fichero de dataset y los campos en los que nos hemos centrado han sido:
index
Estos campos se han copiado en otro fichero para la comparación a la hora de aplicar el algoritmo.
Utilizando el algoritmo de "Naive Bayes" junto con el "Principal Component Analysis (PCA)" para reducir la dimensionalidad de los datos, al hacer una comparativa del dataset de phishing junto con el de webs legítimas extraído de "Alexa", hemos obtenido unos resultados del 75% de exactitud. Es un porcentaje bastante alto de exactitud, mejor del que habíamos pensado, pero si hubieramos obtenido herramientas más avanzadas ese porcentaje lo hubieramos podido aumentar.
Para un siguiente "aproach", podríamos mejorar ese porcentaje de exactitud y también aplicarlo para hacer un análisis de países, para de esta manera, poder determinar donde hay más enfoque de phising.
Add the following code to your website.
For more information on customizing the embed code, read Embedding Snippets.