README.md

Group Assignment - Data Driven Security

Group Assignment base repository for the Data Driven Security subject of the CyberSecurity Management Msc.

Project Title

¿Qué porcentaje de acierto en phising se puede conseguir al analizar una url?

Requirements

Project Description

Elaborar un método de data mining sobre una base de datos de página de phishing para saber si una página en concreto es de phishing o no. Crear un web crawler para tener una base de datos de páginas web aleatorias. Utilizar data mining para agrupar las páginas (si son phishing o no). Extraer los datos de las páginas detectadas como phishing y crear un análisis (por origen, media, etc).

Goals

Hacer un análisis funcional sobre el phishing (como detectarlo, origen de los servidores, etc).

Data acquisition

Cleansing and transformations

Estos campos se han copiado en otro fichero para la comparación a la hora de aplicar el algoritmo.

Data analysis

Results / Conclusions.

Utilizando el algoritmo de "Naive Bayes" junto con el "Principal Component Analysis (PCA)" para reducir la dimensionalidad de los datos, al hacer una comparativa del dataset de phishing junto con el de webs legítimas extraído de "Alexa", hemos obtenido unos resultados del 75% de exactitud. Es un porcentaje bastante alto de exactitud, mejor del que habíamos pensado, pero si hubieramos obtenido herramientas más avanzadas ese porcentaje lo hubieramos podido aumentar.

Para un siguiente "aproach", podríamos mejorar ese porcentaje de exactitud y también aplicarlo para hacer un análisis de países, para de esta manera, poder determinar donde hay más enfoque de phising.



DDS-MCSM/group-assignment-team-03 documentation built on June 1, 2019, 4 a.m.