Minería de Datos con R - PeruStat Analytics

Background

MINERÍA DE DATOS
CON R

Modalidad: Presencial
Duración: 24 Horas académicas* (6 sesiones x 4 hrs.)
Fechas: 14, 21, 28 de Mayo; 4, 11 y 18 de Junio
Horario: Sábados de 9 a.m. a 12:30 p.m.
Lugar: Centro de Capacitación La Moneda
Dirección: Av. Arequipa 4545 – Miraflores [Al lado de la Alianza Francesa]
Importante: Llevar LAPTOP con conexión WiFi

Solicítanos información

METODOLOGÍA

La metodología del curso se basa en la aplicación de los conceptos teóricos en casos prácticos basados en datos reales.

Cada sección del curso está motivada por un conjunto de datos en particular, de tal forma que el participante gane experiencia trabajando con una amplia variedad de fuentes de datos similares a los que usa en la realidad. Los contenidos del curso están estructurados en 6 sesiones con un total de 24 horas académicas*.

* Las horas académicas tienen una duración de 50 minutos.

PROFESIONALES EN LA ENSEÑANZA

Quienes forman parte de nuestro equipo de capacitadores destacan no sólo en su desempeño profesional en el campo, sino también por su labor académica en las principales universidades del país. Es decir, no sólo son expertos profesionales sino también, especialistas de la enseñanza.

INVERSIÓN

PRECIO (S/.) PRECIO (US$)
Precio Regular S/. 1000 US$ 310
Inscripción Temprana (Hasta 18 Abril 2016) S/. 800 US$ 250
Estudiantes de Pre-Grado S/. 750 US$ 230
Estudiantes de Post-Grado y Académicos S/. 850 US$ 265

Todos los precios incluyen IGV y Certificado de Participación otorgado por PeruStat Analytics S.A.C.

Formas de Pago

Puedes hacernos un depósito o una transferencia bancaria a nuestra cuenta corriente:

PeruStat Analytics S.A.C.
Banco de Crédito del Perú
Cuenta Corriente Soles
194-2107756-0-63
CCI: 00219400210775606395

Y enviarnos el voucher de pago o número de operación respectivo a nuestro e-mail: info@perustat.com

Ponemos a su disposición el sistema de pagos en línea más fácil y seguro del mercado: PayPal. Con este sistema ud. podrá hacer uso de su tarjeta de crédito o débito para realizar el pago del curso al que se inscribirá de forma sencilla y rápida.

Para acceder a este método de pago sólo debe comunicarse con nosotros a la cuenta de e-mail: info@perustat.com y solicitar el enlace correspondiente para realizar el pago del curso o taller de su interés.

REVISA EL CONTENIDO DEL CURSO

SESIÓN 1: Conceptos Básicos

  • Breve historia de la Estadística y Minería de Datos. Conceptos básicos. Definición. Relación con otras disciplinas.
  • Taxonomía de las técnicas de Minería de Datos: Tipos de modelos. Tipos de aprendizaje. Técnicas no supervisadas y supervisadas. Aplicaciones.
  • Fases de la Minería de Datos. Descubrimiento de Conocimiento en Bases de datos (KDD).
  • CRISP-DM: Estructura Básica. Fases.
  • Herramientas de Minería de Datos. Instalación de R y de la librería Rattle.
  • Primeros pasos con Rattle. Manejo de Datos.

SESIÓN 2: Visualización y Transformación de Datos

  • Resumen de datos.
  • Gráficas de distribuciones.
  • Gráficas Interactivas.
  • Transformación.
  • Imputación.
  • Reducción de la Dimensionalidad: Análisis de Componentes Principales.

SESIÓN 3:Técnicas de Segmentación.

  • Análisis de Conglomerados (Cluster): Definición. Requerimientos. Medición de la similaridad y distancias. Principales algoritmos.
  • Conglomerados Jerárquicos
  • Conglomerados no Jerárquicos: K-Medias. EWK (Entropy Weighted KMeans)

SESIÓN 4: Regresion Binaria

  • Modelamiento predictivo: Conceptos básicos. Predicción numérica vs.clasificación. Precisión del modelo e interpretación. Balance entre la varianza y sesgo de un modelo predictivo.
  • Modelos de Clasificación lineal y no lineal. Predicción y matrices de confusión.
  • Clasificación binaria: Estimación del modelo de regresión logística binaria: Interpretación de los coeficientes. Validación del modelo.
  • Modelo Probit.

SESIÓN 5: Árboles de Clasificación

  • Árboles de Decisión: Representación. Partes de un Árbol de Decisión.
  • Inducción y aprendizaje. Medidas de Selección de Atributos. Principales Algoritmos.
  • Árboles de Clasificación y Regresión (CART). Construcción y poda del árbol.
  • Árboles por inferencia condicional.

SESIÓN 6: Evaluación y Despliegue de un Modelo

  • Evaluación: Matriz de Confusión. Curvas de Riesgo. Curvas ROC.
  • Scoring.
  • Predictive Model Markup Language (PMML): Exportación de modelos para su implementación.

CONOCE A NUESTROS INSTRUCTORES

Ellos no sólo cuentan con una destacada experiencia profesional en sus respectivas áreas, sino también en la enseñanza académica de las principales universidades del país.

jose

José Caycho trabaja como Analista Senior de Investigación de Marcados en la Dirección de Marketing de Supermercados Peruanos S.A. perteneciente al Grupo InRetail. Cuenta con más de 3 años de experiencia en el rubro de Retail, Conocimiento del Consumidor y de Investigación de Mercados. Es también docente en la División de Estudios Profesionales para Ejecutivos (EPE) de la Universidad Peruana de Ciencias Aplicadas (UPC)

José es Bachiller Estadístico e Informático de la Universidad Nacional Agraria La Molina (UNALM), Especialista en Gestión de la Calidad y Productividad Total y candidato a Magister en Estadística Aplicada por la UNALM.

enver
Enver G. Tarazona Vargas
Director Académico

Enver Tarazona es Director Académico y co-fundador de Perustat Analytics. Trabajó como experto de la Dirección de Calidad, Procesos y Lealtad de Telefónica Móviles S.A. Cuenta con más de 7 años de experiencia como docente en las principales universidades del país, desempeñándose actualmente como profesor en la Pontificia Universidad Católica del Perú (PUCP) y en la Universidad del Pacífico (UP). Es también profesor invitado del curso de Minería de Datos en la maestría de Estadística Aplicada de la Universidad Nacional Agraria La Molina (UNALM). Tiene además experiencia como capacitador en programas de análisis estadístico como R, SPSS, SAS y Stata para diversas empresas e instituciones entre las que figura Telefónica Móviles S.A., la Superintendencia Nacional de Administración Tributaria (SUNAT) y la Caja Municipal de Ahorro y Crédito Huancayo S.A.

Enver es Ingeniero Estadístico e Informático de la UNALM y Magister en Estadística por la PUCP. Tiene también estudios culminados de maestría en Educación en la Universidad Peruana Cayetano Heredia (UPCH) . Su área de investigación se centra en el ámbito de la Teoría de Respuesta al íItem (TRI) bajo inferencia Bayesiana aplicada al Marketing, comportamiento del consumidor y la medición educativa. Ha participado frecuentemente como expositor en diversos eventos académicos nacionales e internacionales.

david

David Allende es Experto en Modelamiento Predictivo de la División de “Customer Relationship and Management” (CRM) del Banco Internacional del Perú. Ha sido experto en Datamining en la División de Inteligencia de Negocios de Telefónica del Perú, Consultor Analítico y Capacitador de SPSS Andino. Es profesor a tiempo parcial en la División de Estudios Profesionales para Ejecutivos (EPE) de la Universidad Peruana de Ciencias Aplicadas (UPC) y el Centro de Tecnologías de Información de la Universidad César Vallejo.

David es Especialista en Inteligencia de Negocios de la Universidad ESAN, Ingeniero Estadístico e Informático de la Universidad Nacional Agraria La Molina. Experiencia en proyectos de Business Analytics, Business Intelligence, Big Data con importantes entidades locales e internacionales en los rubros de banca, telecomunicaciones, consumo masivo y gobierno.

PREGUNTAS FRECUENTES

No necesitas conocer R para llevar el curso. La libreria Rattle (R Analytical Tool To Learn Easily) adiciona una interfaz gráfica de usuario específicamente diseñada para facilitar la aplicación de la principales técnicas de Minería de Datos a los usuarios que no están acostumbrados al entorno de trabajo de este programa.

Sólo se requiere que el alumnos posea conocimientos básicos en inferencia estadística y análisis de datos.

Existe una frase muy conocida en el mundo de R que fue mencionada por Norman Nie, quien es uno de los co fundadores de SPSS. Según él “R es el lenguaje de programación estadístico más potente y más flexible del planeta”. En realidad, R es más que un lenguaje de programación. Es un entorno de programación completo y código abierto con un enfoque radicalmente diferente para el tratamiento de bases de datos, pues ha sido diseñado desde el principio con la finalidad de facilitar el manejo de los conjuntos de datos complejos del mundo real. Y por sobre todo, es un proyecto de código abierto que depende de una gran comunidad de desarrolladores e investigadores en todo el mundo para crecer y evolucionar.

En la actualidad, la comunidad de usuarios de R es tan grande y amplia que genera nuevos paquetes de
R a un ritmo asombroso
. Hoy existen cerca de 5,000 paquetes. Algo que no sucede con los proveedores de software comercial quienes rara vez desarrollan nuevos programas a menos que haya un mercado lo suficientemente amplio como para justificar sus costos de desarrollo, y además este proceso puede tomar años. Por el contrario, la comunidad de investigación de R desarrolla y lanza nuevo software continuamente. Una de las principales características de R es que es especialmente útil para generar tablas y gráficos de forma rápida y sencilla.

En los últimos años, R ha sido aceptado como el “lenguaje universal” para el análisis de datos, esto debido principalmente a su capacidad para transformar y evolucionar. Es un hecho que a medida que se descubren nuevas técnicas estadísticas de análisis de datos, éstas surgen como paquetes desarrollados por la gran comunidad de investigadores de R mucho antes de que sean incorporadas en el software tradicional.

R, además, es la herramienta más popular para la minería de datos y la ciencia de datos según la encuesta anual (2015) realizada por KDnuggets que esta vez contó con alrededor de 3000 votantes sobre un registro récord de 93 herramientas diferentes.

Política de Cancelación de Inscripción y Devolución: Si la cancelación de su inscripción se diese a 20 días o más de la fecha de inicio del curso, se devolverá el monto pagado menos el 10%. Si la cancelación se diese entre los 7 y 19 días antes de la fecha de inicio del curso, se devolverá el monto pagado menos el 50%. Si la cancelación se diese con 6 días o menos de la fecha de inicio del curso, no habrá devoluciones.

Limitación de Responsabilidad: La empresa se reserva el derecho de cancelar o postergar el curso de no haber registrado un número mínimo de participantes. Tampoco nos hacemos responsables por gastos de viaje incurridos para la participación al curso. Así mismo, nos reservamos el derecho de cambiar algún expositor por situaciones de emergencia.

Nuestros alumnos provienen de las principales organizaciones del país.
34
17
31
7
11
35
26
16
23
32
21
3
20
22
13
10
18
19
9
14
4
2
27
30
8
6
29
12
backus
bcp