Minería de Datos con R - PeruStat Analytics .

Background

MINERÍA DE DATOS
CON R

Modalidad: In-House
Duración: 24 Horas académicas

Solicítanos información

METODOLOGÍA

La metodología del curso se basa en la aplicación de los conceptos teóricos en casos prácticos basados en datos reales.

Cada sección del curso está motivada por un conjunto de datos en particular, de tal forma que el participante gane experiencia trabajando con una amplia variedad de fuentes de datos similares a los que usa en la realidad. Los contenidos del curso están estructurados en 6 sesiones con un total de 24 horas académicas*.

* Las horas académicas tienen una duración de 50 minutos.

PROFESIONALES EN LA ENSEÑANZA

Quienes forman parte de nuestro equipo de capacitadores destacan no sólo en su desempeño profesional en el campo, sino también por su labor académica en las principales universidades del país. Es decir, no sólo son expertos profesionales sino también, especialistas de la enseñanza.

REVISA EL CONTENIDO DEL CURSO

SESIÓN 1: Conceptos Básicos

  • Breve historia de la Estadística y Minería de Datos. Conceptos básicos. Definición. Relación con otras disciplinas.
  • Taxonomía de las técnicas de Minería de Datos: Tipos de modelos. Tipos de aprendizaje. Técnicas no supervisadas y supervisadas. Aplicaciones.
  • Fases de la Minería de Datos. Descubrimiento de Conocimiento en Bases de datos (KDD).
  • CRISP-DM: Estructura Básica. Fases.
  • Herramientas de Minería de Datos. Instalación de R y de la librería Rattle.
  • Primeros pasos con Rattle. Manejo de Datos.

SESIÓN 2: Visualización y Transformación de Datos

  • Resumen de datos.
  • Gráficas de distribuciones.
  • Gráficas Interactivas.
  • Transformación.
  • Imputación.
  • Reducción de la Dimensionalidad: Análisis de Componentes Principales.

SESIÓN 3:Técnicas de Segmentación.

  • Análisis de Conglomerados (Cluster): Definición. Requerimientos. Medición de la similaridad y distancias. Principales algoritmos.
  • Conglomerados Jerárquicos
  • Conglomerados no Jerárquicos: K-Medias. EWK (Entropy Weighted KMeans)

SESIÓN 4: Regresion Binaria

  • Modelamiento predictivo: Conceptos básicos. Predicción numérica vs.clasificación. Precisión del modelo e interpretación. Balance entre la varianza y sesgo de un modelo predictivo.
  • Modelos de Clasificación lineal y no lineal. Predicción y matrices de confusión.
  • Clasificación binaria: Estimación del modelo de regresión logística binaria: Interpretación de los coeficientes. Validación del modelo.
  • Modelo Probit.

SESIÓN 5: Árboles de Clasificación

  • Árboles de Decisión: Representación. Partes de un Árbol de Decisión.
  • Inducción y aprendizaje. Medidas de Selección de Atributos. Principales Algoritmos.
  • Árboles de Clasificación y Regresión (CART). Construcción y poda del árbol.
  • Árboles por inferencia condicional.

SESIÓN 6: Evaluación y Despliegue de un Modelo

  • Evaluación: Matriz de Confusión. Curvas de Riesgo. Curvas ROC.
  • Scoring.
  • Predictive Model Markup Language (PMML): Exportación de modelos para su implementación.

PREGUNTAS FRECUENTES

No necesitas conocer R para llevar el curso. La libreria Rattle (R Analytical Tool To Learn Easily) adiciona una interfaz gráfica de usuario específicamente diseñada para facilitar la aplicación de la principales técnicas de Minería de Datos a los usuarios que no están acostumbrados al entorno de trabajo de este programa.

Sólo se requiere que el alumnos posea conocimientos básicos en inferencia estadística y análisis de datos.

Existe una frase muy conocida en el mundo de R que fue mencionada por Norman Nie, quien es uno de los co fundadores de SPSS. Según él “R es el lenguaje de programación estadístico más potente y más flexible del planeta”. En realidad, R es más que un lenguaje de programación. Es un entorno de programación completo y código abierto con un enfoque radicalmente diferente para el tratamiento de bases de datos, pues ha sido diseñado desde el principio con la finalidad de facilitar el manejo de los conjuntos de datos complejos del mundo real. Y por sobre todo, es un proyecto de código abierto que depende de una gran comunidad de desarrolladores e investigadores en todo el mundo para crecer y evolucionar.

En la actualidad, la comunidad de usuarios de R es tan grande y amplia que genera nuevos paquetes de
R a un ritmo asombroso
. Hoy existen cerca de 5,000 paquetes. Algo que no sucede con los proveedores de software comercial quienes rara vez desarrollan nuevos programas a menos que haya un mercado lo suficientemente amplio como para justificar sus costos de desarrollo, y además este proceso puede tomar años. Por el contrario, la comunidad de investigación de R desarrolla y lanza nuevo software continuamente. Una de las principales características de R es que es especialmente útil para generar tablas y gráficos de forma rápida y sencilla.

En los últimos años, R ha sido aceptado como el “lenguaje universal” para el análisis de datos, esto debido principalmente a su capacidad para transformar y evolucionar. Es un hecho que a medida que se descubren nuevas técnicas estadísticas de análisis de datos, éstas surgen como paquetes desarrollados por la gran comunidad de investigadores de R mucho antes de que sean incorporadas en el software tradicional.

R, además, es la herramienta más popular para la minería de datos y la ciencia de datos según la encuesta anual (2015) realizada por KDnuggets que esta vez contó con alrededor de 3000 votantes sobre un registro récord de 93 herramientas diferentes.

Nuestros alumnos provienen de las principales organizaciones del país.
34
17
31
7
11
35
26
16
23
32
21
3
20
22
13
10
18
19
9
14
4
2
27
30
8
6
29
12
backus
bcp
×
¿En qué puedo ayudarte?