Análisis de datos en la práctica con R

General

Descripción del programa

  • Período de enseñanza: 6 de julio a 17 de julio de 2020
  • Horas lectivas: 45
  • Coordinador académico: Sergio Martínez Puertas / Manuel Sánchez Pérez
  • Área de conocimiento: Estadística e Investigación Operativa / Mercadeo e Investigación de Mercado129478_photo-of-woman-using-laptop-3194518.jpg

Introducción

Las técnicas de análisis de datos multivariantes son esenciales en la actividad académica y de investigación. R es uno de los principales lenguajes de programación de código abierto en estadística y ciencia de datos. Su potencia, versatilidad y actualización continua atraen a más usuarios cada año. El número de usuarios de R aumenta en aproximadamente un 40%, y es ampliamente utilizado en la academia y la ciencia. Este curso combina la explicación de las principales herramientas estadísticas con el uso de R como software para desarrollar todos los procedimientos estadísticos.

Este curso es para todos, desde estudiantes universitarios interesados en usar R para un proyecto (de negocios, economía, estadística, ciencias de la vida, comunicaciones) o simplemente principiantes que desean mejorar sus habilidades de análisis de datos.

Objetivos

  • Proporcionar una visión general de la técnica principal de análisis de datos multivariados.
  • Aprenda lo que necesita saber para comenzar con R
  • Realizar análisis exploratorios en un conjunto de datos, visualizaciones e inferencias.
  • Realizar análisis estadísticos descriptivos, intervalos de confianza, pruebas de hipótesis y pruebas ANOVA con varias bases de datos.
  • Aplique R para estimar técnicas de datos multivariantes dependientes e interdependencia
  • Implementación de modelos de datos de panel con R
  • Aprenda a validar y comparar modelos de regresión utilizando el paquete base R y algunos otros paquetes, si es necesario
  • Realizar la estimación de un sistema de ecuaciones de regresión con R y la estimación de un modelo lineal con una variable dependiente limitada
  • Comprender las técnicas basadas en la informática como redes neuronales y clasificadores bayesianos, e implementarlas utilizando paquetes R

Contenido

Módulos

Módulo A: Introducción a R

  • Introduciremos los conceptos básicos para comenzar a trabajar con R. Este módulo incluye objetos R, aritmética en R, entrada y descripción de datos simples, marcos de datos y guardar y cargar objetos R.
  • Los estudiantes realizarán varios ejemplos para comprender los diversos fundamentos de la programación de R.

Módulo B: Estadística descriptiva, intervalos de confianza, prueba de hipótesis y ANOVA

  • Revisaremos las estadísticas descriptivas principales, los intervalos de confianza y las pruebas de hipótesis habituales e introduciremos ANOVA para comparar las medias.
  • Los estudiantes aprenderán a realizar análisis estadísticos descriptivos con R obteniendo tablas de frecuencia, estadísticas descriptivas y gráficos.
  • También incluye la obtención de intervalos de confianza y pruebas de hipótesis.
  • Los estudiantes realizarán análisis con varias bases de datos.

Módulo C: Cluster y Análisis Factorial

  • Presentamos las técnicas de clasificación y análisis de conglomerados. Técnicas de análisis de conglomerados. Los estudiantes aprenden cómo dividir una información dada en un conjunto de grupos de acuerdo con ciertos criterios.
  • El análisis factorial exploratorio permite identificar la estructura de rasgos latentes entre un conjunto de variables, obteniendo un número más reducido de variables que dan cuenta de los datos iniciales.

Módulo D: Regresión Lineal

  • Explicaremos el concepto de regresión de una manera simple e intuitiva enfocándonos en las diferentes aplicaciones. Le mostraremos a los estudiantes algunas aplicaciones de esta técnica en diferentes áreas, como por ejemplo marketing, negocios, medio ambiente o medicina. Se explicarán los conceptos básicos de la regresión multivariante, así como la inferencia en el modelo, la selección de variables y las comparaciones entre modelos.

Módulo E: Análisis de regresión: problemas avanzados

  • Extensiones de modelos de regresión lineal
  • Ecuaciones de regresión simultánea
  • Modelo de regresión con la variable dependiente limitada.
  • Aplicaciones basadas en varias bases de datos.

Módulo F: Modelado de ecuaciones estructurales

  • Introducción a los modelos de ecuaciones estructurales basados en el modelo de estructura de covarianza: aplicaciones, notación, supuestos clave y proceso de modelado.
  • Preparación de datos
  • Modelo de medición: análisis factorial confirmatorio, evaluación e interpretación de resultados. Ejemplos prácticos
  • Modelo estructural: procedimiento, evaluación e interpretación del producto. Ejemplos prácticos

Módulo G: Modelos de elección discreta

  • Características principales de los modelos de elección discreta (también conocidos como modelos de respuesta cualitativa
  • Especificación y uso de modelos para las probabilidades de eventos: modelos probit y logit
  • Estimación de diferentes modelos de elección discreta con R
  • Interpretación de modelos de elección discreta: efectos marginales
  • Modelos de utilidad aleatorios
  • Aplicaciones de modelos de elección discreta. Ejemplos prácticos

Módulo H: Análisis de datos del panel

  • Explicamos el concepto de datos de panel y las condiciones para estimar un modelo de datos de panel.
  • Se examinan diferentes modelos para datos de panel. En particular, modelos estáticos y dinámicos.
  • Tratamiento de endogeneidad
  • Procedimiento para estimar modelos de datos de panel con R. Recomendaciones en el análisis de datos de panel. Ejemplos prácticos

Módulo I: Introducción a las redes neuronales.

  • Las redes neuronales son un conjunto de algoritmos diseñados para reconocer patrones y pueden usarse para clasificación o análisis predictivo (regresión). Estudiaremos los elementos básicos de una red, diferentes tipos de funciones de activación y métodos de aprendizaje.
  • Usando paquetes R, como 'neuralnet', los estudiantes aprenderán cómo entrenar, trazar una red neuronal y predecir valores usando la red
  • Los estudiantes ajustarán algunas redes neuronales, las compararán y usarán la mejor opción para la predicción

Módulo J: clasificadores bayesianos

  • Introduciremos el concepto de clasificación como la tarea de predecir el valor de una variable objetivo dadas algunas características observadas. Un ejemplo es la clasificación de un cliente bancario como moroso o no moroso atendiendo al valor de algunas características observables del cliente. Mostraremos cómo el problema puede resolverse satisfactoriamente de una manera intuitiva e interpretable utilizando los llamados clasificadores bayesianos.
  • Los estudiantes aprenderán cómo construir, usar, validar y comparar clasificadores bayesianos usando algunos paquetes R relevantes, principalmente 'bnlearn' y 'naiveByes', y serán informados sobre repositorios públicos que contienen bases de datos relacionadas con una amplia variedad de dominios que pueden resolverse usando clasificadores
  • Los estudiantes deberán construir, validar y comparar dos clasificadores en varios conjuntos de datos.

Sesión de clausura

Metodología

Los estudiantes aprenderán cómo construir, usar, validar y comparar modelos de regresión usando el paquete base R para diferentes problemas propuestos. Si es necesario, se pueden usar otros paquetes de software relacionados. El enfoque se aplica de forma práctica. Cada módulo consta de una breve base teórica sobre la técnica, capacitación en procedimientos con R y ejercicios. Todas las clases se imparten en la computadora en una sala de informática de la universidad.

Visitas profesionales y actividades académicas complementarias.

Está prevista una visita profesional al Parque Científico y Tecnológico de Almería (http://pitalmeria.es/en/) en la que podremos conocer empresas ubicadas en un parque tecnológico, los desarrollos sobre análisis de datos de empresas de investigación de mercado y otros sectores, así como el desarrollo de la investigación en el campo agroalimentario.

Evaluación

El procedimiento de evaluación para aprobar el curso se basa en la asistencia a clase (30%) y la presentación de un ejercicio práctico en cada módulo (70%).

Última actualización Mar 2020

Beca Keystone

Descubre las opciones que nuestra beca puede darte

Acerca del centro educativo

La Universidad de Almería (UAL) se encuentra situada en el sureste de España, en la región de Andalucía. Fue fundada en 1993 y actualmente cuenta con más de 13.000 estudiantes de grado y posgrado. A p ... Leer más

La Universidad de Almería (UAL) se encuentra situada en el sureste de España, en la región de Andalucía. Fue fundada en 1993 y actualmente cuenta con más de 13.000 estudiantes de grado y posgrado. A pesar de su reciente creación, la UAL ha conseguido posicionarse en los niveles más altos de producción científica y académica en diferentes áreas de conocimiento y actualmente goza de un gran prestigio a nivel nacional e internacional. Leer menos