Category: Métodos



Descargar archivo completo

Análisis de correspondencia simple

 

El análisis de correspondencias es una técnica descriptiva para representar tablas de contingencia, es decir, tablas donde recogemos las frecuencias de aparición de dos o más variables cualitativas en un conjunto de elementos. Constituye el equivalente de componentes principales y coordenadas principales para variables cualitativas. La información de partida ahora es una matriz de dimensiones I × J, que representa las frecuencias absolutas observadas de dos variables cualitativas en n elementos. La primera variable se representa por filas, y suponemos que toma I valores posibles, y la segunda se representa por columnas, y toma J valores posibles.

 

Datos

El número de tipos de empresas creadas según las regiones del Ecuador

  O A B AB
Baja

28

9

7

31

Normal

543

211

90

476

Alta

44

22

8

31

 

Cálculos

 

Anuncios

Descargar archivo completo

Escalado multidimensional

Se dispone de una matriz, D, cuadrada n × n de distancias o disimilaridades entre los n elementos de un conjunto.

Para este estudio se ha tomado datos de las distancias existentes entre las principales ciudades del Ecuador.

Análisis de correspondencia simple

Datos

El número de tipos de empresas creadas según las regiones del Ecuador

Pequeña Mediana Grande
Sierra

20

80

100

Costa

10

50

300

Oriente

5

10

30

Galápagos

10

10

40

Cálculos

Equivalencia entre los puntos perfiles de fila y columna y la distancia Chi-2

Análisis de Componentes Principales


Descargue el documento completo para apreciar cálculos y gráficos:

http://es.scribd.com/doc/74949981/Informe-ACP

INTRODUCCIÓN

Cuando se requiere estudiar un fenómeno social o físico de forma estadística es necesario no sólo enfocar cada una de las variables a investigar de forma individual, ya que debido a las diferentes complejidades que puede presentar este fenómeno es necesario que el investigador realice un análisis que considere grupos de variables para interpretar su comportamiento de forma conjunta, esta metodología se denomina Análisis Multivariado.

Una de las técnicas es el Análisis de Componentes Principales (ACP), donde se asume las relaciones lineales entre las variables numéricas.

Una matriz de datos es un arreglo rectangular de números dispuestos en n filas y p columnas que representan n observaciones de las p variables aleatorias observadas. Cuando el tamaño de la población investigada y el número de variables es muy grande se obtiene como resultado una matriz de datos de gran dimensión, lo que constituye un inconveniente que puede ser resuelto utilizando la Técnica Multivariada Componentes Principales, cuyo objetivo es la reducción e interpretación de los datos.

Una Componente Principal es una combinación lineal de p variables aleatorias observadas que cumple con ciertas restricciones. Geométricamente esta combinación lineal constituye la elección de un nuevo sistema de coordenadas obtenido al rotar el sistema original, tal que los nuevos ejes representen la dirección de máxima variabilidad.

El método permite interpretar la estructura de varianzas-covarianzas de un conjunto de p variables, a través de unas pocas q componentes principales formadas a partir de esas p variables, y de esta manera se logra la reducción de datos, pasando de una matriz original de n observaciones de p variables aleatorias a otra de n observaciones de q componentes principales.

OBJETIVOS

Objetivo principal

Transformar un conjunto de n observaciones y p variables en un nuevo conjunto, con un número menor de variables dado por las componentes principales.

Objetivos secundarios

Conocer el porcentaje que representa las componentes principales más representativas.

Conseguir una representación simplificada de los datos.

ANÁLISIS DE LOS DATOS

Planteamiento del problema

Disponemos de una población de 100 individuos con la siguiente información (sólo variables cuantitativas):

Se requiere conocer la relación existente entre la talla, peso, presión diastólica inicial, presión diastólica final, presión sistólica inicial, presión sistólica final, índice de masa corporal, edad de cada uno de los individuos con la hipertensión, es decir, un estudio de los factores de riesgo en hipertensión arterial.

El diseño es de tipo caso-control.

Análisis Descriptivo

Se dispone de una base de datos, de la cual hemos sacado 8 variables cuantitativas y 3 variables cualitativas, de esta información se tomo 100 registros con las siguientes variables:(descargar documento completo)

Representación Gráfica

Mediante histogramas representamos las variables individualmente

Análisis Estadístico

Buscaremos un sub-espacio menor que p que contenga la mayor cantidad posible de información de la nube primitiva, y que se ajuste a la nube de puntos y la deforme lo menos posible.

Mediante el siguiente proceso obtenemos Matriz de datos centrados (Archivo Adjunto-Hoja BBDDCuantif) con la que se desarrollarán el resto de cálculos.

A continuación se detalla los siguientes estadísticos para las 8 variables cuantitativas: (descargar documento completo http://es.scribd.com/doc/74949981/Informe-ACP)

TÉCNICA UTILIZADA

El ACP consiste en la obtención de los componentes o ejes principales, no correlacionados entre sí. El cálculo del primer componente, como una combinación lineal de las p variables iniciales, se hace en base a la consecución de la máxima varianza de los datos; así, el primer eje representa una proporción de la varianza explicada de los individuos.

Luego, el cálculo del segundo eje, no correlacionado con el primero, es también una combinación lineal de las variables y representa otra parte de la variación explicada de los individuos. El proceso se desarrolla hasta conseguir el p-ésimo componente o eje.

Cada uno de los componentes recoge una parte de la variación de la nube original de los individuos.

La máxima información posible contenida en una tabla de datos (variables medidas en escala de intervalo o de razón), usualmente, se presentan en forma gráfica, en planos, formados con la combinación de los primeros componentes principales. En estos planos se proyectan las nubes de puntos-variables o nubes de puntos-individuos con el fin de describir las interrelaciones existentes entre esas variables o entre los individuos y las variables.

El primer plano del ACP está formado por los componentes, o ejes, 1 y 2. Cada componente debe ser interpretado de acuerdo a la importancia de las variables en cada uno de ellos.

Proceso

Obtenemos la matriz de Varianza-Covarianza: (descargar documento completo http://es.scribd.com/doc/74949981/Informe-ACP)

Representando las varianzas su diagonal principal para cada variable y los demás valores son las covarianzas.

La varianza total obtenida es: 1383,20

Calculamos los valores y vectores propios asociados a la matriz de Varianza-Covarianza

Cada uno de los vectores propios está normalizado.

Además existen 2 valores con mayor porcentaje respecto de la varianza total, anteriormente mencionada.

Luego de analizar los valores propios hallamos dos componentes principales Z1 y Z2

La primera componente principal está mayormente representada por las variables X4 (Presión diastólica final), X5(Presión sistólica inicial) y X6(Presión sistólica final), por lo tanto los pacientes con mayor valor en estas variables su hipertensión arterial no está siguiendo el control necesario para que pueda evitarse su deceso.

La segunda componente principal está mayormente relacionada con X2(Peso de los pacientes)

Estudio de los Individuos

Las proyecciones de los individuos en la nueva base con su respectiva posición

El gráfico nos indica que el porcentaje del peso influye en muchos de los pacientes al igual que el alto valor de cada una de las presiones tomadas, a priopi podemos ver quienes están mejor agrupados con relación a cada componente.

Contribución de cada individuo

Primera Componente  

La contribución más alta la tienen los individuos 88(7.2%) y 44(7.1%)

Segunda Componente  

La contribución más alta la tienen los individuos 19(6.1%), 39(6.6%), 70(6.1%)

Estudio de las variables

El gráfico muestra una estrecha relación entre las variables peso, índice de masa corporal, edad, estatura, con la segunda componente principal, mientras que las presiones (diastólica, sistólica) están estrechamente relacionadas con la primera componente.

CONCLUSIONES Y RECOMENDACIONES

Conclusiones

  • Las componentes principales son combinaciones lineales de las variables originales.
  • Los coeficientes de las combinaciones lineales son los elementos de los vectores característicos asociados a la matriz de covarianzas de las variables originales. Por tanto, la obtención de componentes principales es un caso típico de cálculo de raíces y vectores característicos de una matriz simétrica.
  • La primera componente se asocia al mayor valor propio asociada a la matriz de Varianza-Covarianza.
  • La segunda componente se asocia al siguiente valor propio mayor (descendente) asociado a la matriz de Varianza-Covarianza.
  • Si se representan las variables originales, su proporción de variabilidad total captada por una componente es igual a su valor propio dividido para el número de variables originales.

Recomendaciones

Se recomienda hacer una previa clasificación del tipo de variable a usar (cuantitavas, cualitativas).

Es necesario saber manejar software complementario para el análisis de datos y comparación de resultados, en este caso Complementos como: XLSTAT, Matrix.

ANEXOS

CD-ROM:

Cálculos, Tablas y gráficas están anexados en el que se adjunta al informe, desarrollados con la ayuda de Excel 2003, Matrix(componente para Excel) y XLSTAT

FUENTE DE CONSULTA

RESPONSABLE

Quituisaca Samaniego Lilia