Diplomatura en Ciencia de datos

Categoría:

Descripción

Unidad 1: Introducción

  • –  Introducción a la Ciencia de Datos
  • –  Niveles a los que opera la ciencia de datos
  • –  Introducción a Data Warehouse
  • –  Introducción a Data Mining
  • –  Introducción a Knowledge Discovery
  • –  Introducción a Herramientas OLAP y Tableros de comando
  • –  Repaso de herramientas disponibles
  • –  Taxonomía de las competencias de un científico de datos
  • –  Primeros pasos en R
  • –  Instalando y cargando paquetes en R

Unidad 2: Bases de datos relacionales

  • –  Introducción a las bases de datos relacionales
  • –  Objetos de las bases de datos relacionales
  • –  Estructura interna de las bases de datos relacionales
  • –  Instalación de SQL Server Express y SSMS
  • –  Operaciones básicas sobre SQL Server
  • –  Práctica sobre estructuras de control en R
  • –  Práctica de RODBC

Unidad 3: Tests básicos

  • –  Repaso de conceptos de probabilidad y estadística
  • –  Test de Hipótesis
  • –  Correlaciones
  • –  AB Test
  • –  Cálculo de correlaciones en R con cor
  • –  Funciones de distribución en R
  • –  Histogramas en R
  • –  Gráficos de líneas en R
  • –  Gráficos de áreas en R

Unidad 4: Regresiones

  • –  Regresión Lineal
  • –  Regresión polinómica
  • –  Regresión exponencial y logarítmica
  • –  Regresión de dos variables
  • –  Cálculo de regresiones en R con lm
  • –  Cálculo de regresiones logísticas en R con glm

Unidad 5: Arboles de decisión

  • –  Algoritmo básico en Excel
  • –  División en entrenamiento y prueba
  • –  Uso de Rpart y cp
  • –  Predicción y valoración de la solución
  • –  Uso de Party
  • –  Aplicación al problema del call center

Unidad 6: “Clusters”

  • –  Algoritmo básico en Excel
  • –  Uso de kmeans
  • –  Ejemplo de aplicación real
  • –  Otros algoritmos de agrupamiento en R
  • –  Ejercicio de aplicación de agrupamiento de mascotas

Unidad 7: Reglas de Asociación

  • –  Algoritmo básico en Access
  • –  División en entrenamiento y prueba
  • –  Uso de arules en R
  • –  Ejemplo de una aplicación real votación de reglas
  • –  Ejemplo de una aplicación real a datos de ventas en supermercados

Unidad 8: Redes Neuronales

  • –  Algoritmo básico en Excel
  • –  División en entrenamiento y prueba
  • –  Uso de neuralnet
  • –  Predicción y valoración de la solución
  • –  Discusión del problema de legibilidad de los resultados desde el negocio
  • –  Competencia entre árboles y redes en un caso concreto

Unidad 9: Algoritmos genéticos

  • –  Algoritmo básico en Excel
  • –  Discusión del tipo de problemas en los que se aplica
  • –  Discusión de otros mecanismos de optimización
  • –  Implementación en R del uso de algoritmos genéticos como
  • o Valores reales o Binarios
  • o Permutaciones

Unidad 10: Series temporales

  • –  Taxonomía
  • –  Separación de componentes
  • –  Predicciones
  • –  ARIMA implementado en R
  • –  Predicción en series con un único período
  • –  Predicción en series con múltiples períodos
  • –  Predicción en series con períodos variables: renormalización

Unidad 11: Método de Simulación de Montecarlo

  • –  Algoritmo básico en Excel
  • –  Discusión de la utilidad del método
  • –  Comparación con el análisis de escenarios
  • –  Ejemplo de una aplicación real
  • –  Ejemplo simple implementado en R

Unidad 12: Minería de textos

  • –  Clasificación supervisada de piezas de texto
  • –  Construcción de una red semántica
  • –  Discusión de las posibilidades de reconocimiento de voz
  • –  Ejemplos de aplicación real del algoritmo de clasificación
  • –  Aplicación a la detección de sentimientos

Unidad 13: Bayes Ingenuo

  • –  Implementación en Excel
  • –  Ejemplo de aplicación en R
  • –  Comparación de 4 algoritmos predictivos (Bayes ingenuo, árboles, redes neuronales y regression logística)

Unidad 14: Random Forest

  • –  Descripción conceptual del método
  • –  Paquete randomForest
  • –  Ejemplo de aplicación
  • –  Comparación con otras técnicas

Unidad 15: Métodos Bayesianos

  • – Descripción conceptual del método: o Regresión lineal bayesiana
    o Regresión logística bayesiana o Inferencia bayesiana
  • o Red bayesiana
  • – Ejemplos de aplicación o Paquete BAS
  • o Paquete brms
    o Paquete arm
    o Paquete bnlearnd
  • – Comparación con otras técnicas

Unidad 16: Máquina de soporte vectorial

  • –  Descripción conceptual del método
  • –  Paquete e1071
  • –  Ejemplo de aplicación
  • –  Comparación con otras técnicas

Unidad 17: Diseño y construcción de un DW

  • –  Diferencias entre los DW y los OLTP
  • –  Tipos de datos y soportes
  • –  Dimensiones y jerarquías
  • –  Estimación de recursos y tiempos según tipos de datos
  • –  Ejemplos de staging
  • –  Interacción entre equipos (DB-ETL-Soporte-FrontEnd-Usuarios)
  • –  Ejercicios de diseño de DW

 

Unidad 18: Diseño y construcción de ETL

  • –  Procesos ETL: generalidades, buenas prácticas, esquemas de ETL
  • –  Detalles de cada etapa: extracción, limpieza, normalización, transformación, carga
  • –  Estrategias de update
  • –  Ejercicios de diseño de ETL para la carga inicial
  • –  Ejercicios de diseño de ETL para la actualización
  • –  Licencias, descarga e instalación de Pentaho-Kettle
  • –  Pentaho Kettle: funciones, características, utilización
  • –  Auditoría y documentación
  • –  Ejemplos de uso

Unidad 19: “Big Data”

  • –  ¿Qué es Big Data?
  • –  ¿Cuándo usar Big Data?
  • –  ¿Cómo armar una infraestructura para Hadoop?
  • –  Licencia, descarga e instalación de Open Refine
  • –  Uso general como herramienta de limpieza de datos
  • –  Pre-procesado de los datos
  • –  Casos de interés y ejemplos
  • –  Ejemplo de una aplicación de Map Reduce: wordcount
  • –  Como evitar Hadoop
  • o Pig
    o Hive
    o Cassandra

Unidad 20: Introducción a Python

  • –  Descarga e instalación
  • –  Tipos de datos
  • –  Ejecución condicional
  • –  Ciclos
  • –  Funciones