Tipos de modelos de datos
Existen básicamente dos tipos de modelos de datos que pueden generar estas técnicas de Minería de Datos, estos dos tipos son:
Predictivos y/o Descriptivos
Predictivos
Un modelo predictivo, como su propio nombre indica, intenta predecir o responder a preguntas futuras en base a un estudio de su comportamiento pasado. Algunas de las preguntas que podríamos responder con este tipo de modelo de datos son:
o ¿Qué tal se venderá el próximo año un producto X? o ¿X tipo de persona, qué producto comprará? o ¿Dónde se producirá el siguiente atentado terrorista? o ¿Qué riesgo tiene cierta persona de contraer una enfermedad X en base a sus características? o ¿Qué clientes tienen más riesgos de darse de baja de nuestra empresa? o …
Ejemplo de Modelo Predictivo
Vamos a predecir si jugaremos a fútbol hoy o no. Hemos recogido los siguientes datos de experiencias pasadas:
Construimos el árbol de decisión asociado:
Con este modelo, podemos predecir si jugaremos o no.
Por ejemplo:
(Si Cielo = Soleado, Temperatura = Calor, Humedad = Alta y Viento = Fuerte)
Resultado = No
Descriptivos
Este tipo de modelo, trata de proporcionar información entre las relaciones de los datos y sus características.
Algunas de las preguntas que se podrían tratar de responder con este tipo de modelo son:
o Los clientes que compran X también compran Y.
o Los niños que no tienen X son muy distintos del resto.
o X e Y son los factores más influyentes en contraer la enfermedad Z.
o …
Ejemplo de Modelo Descriptivo
En este ejemplo queremos hacer una categorización de los empleados que tenemos actualmente en plantilla. Tenemos los siguientes datos:
Para este ejemplo, utilizaremos un algoritmo de clustering K-means.
Aplicando este algoritmo, el resultado son 3 clusters:
Por tanto, nos da como resultado 3 grupos principales con sus características, estos son:
• Cluster 1: Sin hijos y de alquiler. Poco sindicados. Muchas bajas.
• Cluster 2: Sin hijos y con coche. Muy sindicados. Pocas bajas. Normalmente de alquiler y mujeres.
• Cluster 3: Con hijos, casados y con coche. Propietarios. Poco sindicados. Hombres.
Técnicas
La Minería de Datos utiliza una serie de técnicas de distintos campos, principalmente de Inteligencia Artificial, pero muchas veces también se ayuda de técnicas estadísticas para la obtención de unos resultados más óptimos.
Redes Neuronales
Las redes Neuronales Artificiales (RNA) se corresponden con un modelo matemática utilizado para desarrollar sistemas inteligentes inspirados en la anatomía y fisiología del cerebro humano. Se usan para el reconocimiento de patrones, control adaptativo, predicción de series de tiempo, memorias y aprendizaje asociativo, clasificación de señales, clustering… Una red neural se basa en el procesamiento distribuido a una red de nodos llamados neuronas. Las neuronas tienen la capacidad de poder trabajar en paralelo. Centrándonos en la minería de datos, tanto el paralelismo como el procesamiento distribuido son dos propiedades importantes ya que permiten que las redes neuronales puedan procesar cantidades de datos muy elevadas.
Centrándonos en algoritmos concretos de redes neuronales, el SOM (Self-Organizing Map. Fue introducido por T. Kohonen en 1982. Es un algoritmo bastante eficiente en este campo de estudio. Es no supervisado. Proyecta los datos de un espacio multidimensional en una red bidimensional llamada mapa, conservando la topología original. Es una algoritmo sobre el que se ha investigado mucho y sobre el que se han desarrollado numerosas aplicaciones Software de minería de datos.
Métodos basados en árboles de decisión
Uno de los métodos más usados es el método Chaid (Chi Squared Automatic Interaction Detector). Este método genera un árbol de decisión, que a partir de una o más variables predice otra, de forma que los conjuntos de una misma rama y nivel son disjuntos. Este algoritmo es muy útil cuando necesitamos dividir un conjunto de datos en distintos segmentos basándonos en algún criterio de decisión.
Para Construir el árbol de decisión, partimos el conjunto de datos en dos o más subconjuntos de observaciones en función de los valores que toman las variables predoctoras. Utilizando este algoritmo seguimos particionando cada conjunto. El proceso finaliza cuando hay diferencias importantes en la influencia de las variables de predicción en el valor de la variable de respuesta. La ráiz se corresponde con el conjunto de datos íntegro, las ramas la forman los subconjuntos de la raíz, y a su vez, los subconjuntos de los subconjuntos. Cuando se hace una partición en un subconjunto, a éste se le llama nodo.
El número de subconjuntos varia entre el rango de dos y el número de valores distintos que pueda tomar la variable usada para hacer la separación. La variable usada para la partición es la qué esté más relacionada con la variable de respuesta de acuerdo con el test de independencia del a Chi cuadrado sobre una tabla de contingencia.
Algoritmos genéticos
Al igual que las redes neuronales están inspiradas en la anatomía humana, los algoritmos genéticos están inspirados en la evolución de la especies, imitando las fases de mutación, reproducción y selección. Además también se pueden utilizar en la construcción y entrenamiento de otras estructuras, como pueden ser las redes neuronales. La base de los algoritmos genéticos es el principio de supervivencia. Mediante el cual, solo los más aptos sobreviven.
Clustering
El principio básico del Clustering es el agrupamiento. Se agrupan datos dentro de un número (puede ser preestablecido o no) de clases. La agrupación se puede realizar mediante criterios de distancia o similitud, de forma que si las clases son similares entre sí estén agrupadas. Es un método bastante útil en lo que respecta a los clasificadores o reconocedores de patrones y en el modelado de sistemas. Debido a su naturaleza flexible, también se puede combinar con otro tipo de técnica de minería de datos, obteniendo por tanto un sistema híbrido.
Ya que no todas las variables deben tener la misma importancia cuando agrupemos las clases, hay que tener cuidado con la selección de factores en tareas de clasificación. También hay que analizar cuidadosamente la fusión de conocimiento, ya que existen múltiples fuentes de información sobre un mismo tema, los cuales, no presentan una categorización homogénea de los objetos. Para solucionar esto, es importante y necesario fusionar la información cuando haga la recopilación, comparación y resumen de los datos.
Aprendizaje automático
También denominado aprendizaje de máquina, del inglés Maching Learning (ML), es una alternativa válida a los sistemas de aprendizaje tradicionales sobre todo en campos como los sistemas expertos o la minería de datos.
Herbert Simon definió aprendizaje como “Cualquier cambio en un sistema que le permite desempeñarse mejor la próxima vez”.
En está definición se habla implícitamente de un variedad de actividades, desde mejorar el rendimiento de un sistema ya existente, hasta la adquisición de nuevos conceptos. También se habla de cambios en el agente que aprende, y por tanto, de la manera de representarlos. Para esto último serán válidos todos los métodos que modelizan el aprendizaje, así como los métodos que aprenden modificando su estructura completa ya que el conocimiento está implícito.
También es importante el factor experiencia. Debido a que los dominios pueden ser muy grandes, el sistema aprenderá a partir de una experiencia limitada.
Técnicas estadísticas
Para extraer la información se pueden usar también modelos estadísticos. Un modelo estadístico no es más que una expresión simbólica en forma de igualdad o ecuación. Se usa en los diseños experimentales y en la regresión para obtener que factores modifiquen la variable de respuesta.
La minería de datos combinando inteligencia artificial combinada con técnicas estadísticas generar buenos modelos, aún cuando no disponemos de toda la información.
Para validar la calidad del modelo, se necesita realizar el test de Chi-cuadrado.
No hay comentarios:
Publicar un comentario