KDD vs minería de datos
KDD (Descubrimiento de conocimiento en bases de datos) es un campo de la informática, que incluye las herramientas y teorías para ayudar a los humanos a extraer información útil y previamente desconocida (i.mi. conocimiento) de grandes colecciones de datos digitalizados. KDD consta de varios pasos, y la minería de datos es uno de ellos. La minería de datos es la aplicación de un algoritmo específico para extraer patrones de los datos. No obstante, KDD y la minería de datos se usan indistintamente.
Que es kdd?
Como se mencionó anteriormente, KDD es un campo de la informática, que se ocupa de la extracción de información previamente desconocida e interesante de datos sin procesar. KDD es todo el proceso de tratar de dar sentido a los datos mediante el desarrollo de métodos o técnicas apropiadas. Este proceso trata con la asignación de datos de bajo nivel en otras formas que son más compactos, abstractos y útiles. Esto se logra creando informes breves, modelando el proceso de generar datos y desarrollar modelos predictivos que puedan predecir casos futuros. Debido al crecimiento exponencial de los datos, especialmente en áreas como los negocios, KDD se ha convertido en un proceso muy importante para convertir esta gran riqueza de datos en inteligencia empresarial, ya que la extracción manual de patrones se ha vuelto aparentemente imposible en las últimas décadas. Por ejemplo, actualmente se ha utilizado para diversas aplicaciones, como análisis de redes sociales, detección de fraude, ciencia, inversión, fabricación, telecomunicaciones, limpieza de datos, deportes, recuperación de información y en gran parte para marketing. KDD generalmente se usa para responder preguntas como cuáles son los principales productos que podrían ayudar a obtener altas ganancias el próximo año en Wal-Mart?. Este proceso tiene varios pasos. Comienza con el desarrollo de una comprensión del dominio de la aplicación y el objetivo y luego la creación de un conjunto de datos de destino. Esto es seguido por limpieza, preprocesamiento, reducción y proyección de datos. El siguiente paso es usar la minería de datos (explicada a continuación) para identificar el patrón. Finalmente, el conocimiento descubierto se consolida visualizando y/o interpretando.
¿Qué es la minería de datos??
Como se mencionó anteriormente, la minería de datos es solo un paso dentro del proceso general de KDD. Hay dos objetivos de minería de datos principales según lo definido por el objetivo de la aplicación, y son verificaciones o descubrimientos. La verificación es verificar la hipótesis del usuario sobre los datos, mientras que el descubrimiento encuentra automáticamente patrones interesantes. Hay cuatro tareas principales de minería de datos: agrupación, clasificación, regresión y asociación (resumen). La agrupación está identificando grupos similares a partir de datos no estructurados. La clasificación es reglas de aprendizaje que se pueden aplicar a nuevos datos. La regresión es encontrar funciones con un error mínimo para modelar datos. Y la asociación está buscando relaciones entre variables. Luego, el algoritmo de minería de datos específico debe seleccionarse. Dependiendo del objetivo, se pueden seleccionar diferentes algoritmos como regresión lineal, regresión logística, árboles de decisión y Bayes ingenuos. Entonces se buscan patrones de interés en una o más formularios de representación. Finalmente, los modelos se evalúan utilizando precisión predictiva o comprensión.
¿Cuál es la diferencia entre KDD y la minería de datos??
Aunque, los dos términos KDD y la minería de datos se usan en gran medida indistintamente, se refieren a dos conceptos relacionados pero ligeramente diferentes. KDD es el proceso general de extraer conocimiento de los datos, mientras que la minería de datos es un paso dentro del proceso KDD, que se ocupa de la identificación de patrones en los datos. En otras palabras, la minería de datos es solo la aplicación de un algoritmo específico basado en el objetivo general del proceso KDD.