Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

100 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE (IMPLEMENTADOS EN MATLAB)
Nội dung xem thử
Mô tả chi tiết
100 PROBLEMAS RESUELTOS DE
ESTADÍSTICA MULTIVARIANTE
(IMPLEMENTADOS EN MATLAB)
cerca de las autoras
Amparo Baíllo Moreno es licenciada y doctora en Matemáticas por la Universidad Autónoma de Madrid, donde trabaja actualmente como investigadora
postdoctoral del programa SIMUMAT financiado por la Comunidad de Madrid.
Posee un máster en Finanzas Cuantitativas por la Escuela de Finanzas Aplicadas y ha trabajado en el área de Riesgos del Grupo Santander. Cuenta con varias
publicaciones científicas en revistas internacionales de impacto y ha participado
en distintos proyectos de I+D financiados en convocatorias públicas nacionales.
Desde 1998 ha impartido docencia en las universidades Autónoma de Madrid y
Carlos III de Madrid.
Aurea Grané Chávez es licenciada y doctora en Matemáticas por la Universidad de Barcelona. Forma parte del Grupo de Análisis Multivariante y Clasificación, vinculado a la SEIO. Cuenta con varias publicaciones científicas en revistas internacionales de impacto y ha participado en distintos proyectos de I+D
financiados por la Generalitat de Catalunya y en convocatorias públicas nacionales. En 1994 empezó a impartir docencia en el Departamento de Estadística
de la Universidad de Barcelona y actualmente es profesora del Departamento de
Estadística de la Universidad Carlos III de Madrid, donde imparte la asignatura
Estadística Multivariante en la Diplomatura de Estadística.
A
100 PROBLEMAS RESUELTOS DE
ESTADÍSTICA
MULTIVARIANTE
(IMPLEMENTADOS EN MATLAB)
AMPARO BAILLO MORENO
Facultad de Ciencias
UNIVERSIDAD AUTÓNOMA DE MADRID
AUREA GRANÉ CHÁVEZ
Facultad de Ciencias Jurídicas y Sociales
UNIVERSIDAD CARLOS III DE MADRID
100 EJERCICIOS RESUELTOS DE
ESTADÍSTICA MULTIVARIANTE
(IMPLEMENTADOS EN MATLAB)
AMPARO BAILLO MORENO
AUREA GRANÉ CHÁVEZ
Editor gerente Fernando M. García Tomé
Diseño de cubierta Mizar Publicidad, S.L.
Preimpresión Delta Publicaciones
Impresión Jacaryan
Avda. Pedro Díez, 3. Madrid (España)
Copyright © 2008 Delta, Publicaciones Universitarias. Primera edición
C/Luarca, 11
28230 Las Rozas (Madrid)
Dirección Web: www.deltapublicaciones.com
© 2008 La autora
Reservados todos los derechos. De acuerdo con la legislación vigente
podrán ser castigados con penas de multa y privación de libertad
quienes reprodujeren o plagiaren, en todo o en parte, una obra literaria,
artística o científica fijada en cualquier tipo de soporte sin la preceptiva
autorización. Ninguna de las partes de esta publicación, incluido
el diseño de cubierta, puede ser reproducida, almacenada o transmitida
de ninguna forma, ni por ningún medio, sea electrónico, químico,
mecánico, magneto-óptico, grabación, fotocopia o cualquier otro,
sin la previa autorización escrita por parte de la editorial.
ISBN 84-96477-73-8
Depósito Legal
(0907-60)
A Manolo y Pep
Presentación
El análisis estadístico multivariante es una herramienta de investigación y generación
de conocimiento extraordinariamente valiosa, tanto en las ciencias naturales como en
las ciencias sociales. Este libro es una valiosa aportación a la literatura en español sobre este tema. Muchos de los interesantes problemas que contiene ayudan a comprender y apreciar el potencial de las técnicas clásicas de análisis multivariante, mientras
que otros guían al lector para profundizar en aspectos metodológicos de interés de las
técnicas estudiadas. Un atractivo especial de este libro es la inclusión de numerosas
rutinas de Matlab que permiten aplicar de forma fácil y flexible las técnicas consideradas a distintos conjuntos de datos reales. Las autoras, Amparo Baíllo y Aurea Grané,
tienen gran experiencia en la enseñanza de estas técnicas y el libro muestra claramente
su gran experiencia en el análisis de datos reales y en la presentación de los resultados
del análisis.
Recomiendo este libro a todos los interesados en las aplicaciones del análisis multivariante y, muy especialmente, a las personas que deseen disponer de un lenguaje potente
y flexible, como Matlab, que les permita escribir sus propias rutinas de programación,
liberándose del esquema rígido de los programas convencionales. Estoy seguro de que
encontrarán este libro muy útil para este objetivo.
Daniel Peña
Catedrático de Estadística
Universidad Carlos III de Madrid
Introducción
El objetivo de este libro es ayudar a comprender todo un conjunto de técnicas exploratorias y estadísticas que permiten sintetizar, representar e interpretar los datos
obtenidos de la observación simultánea de varias variables estadísticas. Así pues el
libro se centra en el análisis estadístico de matrices de datos, con el fin de extraer de
forma rápida la información más relevante contenida en ellas. Los datos de tipo multivariado aparecen actualmente en contextos muy diversos, como son el mundo de la
Economía y las Finanzas, las Ciencias Experimentales y la Ingeniería o también en las
Ciencias Humanas y Sociales.
Los temas que se tratan pueden clasificarse en tres apartados:
• Inferencia multivariante.
• Técnicas de representación y de reducción de la dimensión.
• Técnicas de clasificación: análisis de conglomerados y análisis discriminante.
Los problemas intentan recoger la diversidad de los campos de aplicación mencionados anteriormente y, en este sentido, se ha procurado buscar conjuntos de datos que
fueran interesantes para un público de procedencia muy diversa.
Este libro es fruto de las experiencias docentes de las autoras en la Diplomatura en
Estadística y la Licenciatura en Administración y Dirección de Empresas de la Universidad Carlos III de Madrid y en la Diplomatura en Estadística, la Licenciatura en
Matemáticas y la Licenciatura en Biología de la Universidad de Barcelona. En general, este libro está dirigido a estudiantes y docentes de cualquier disciplina en la que
sea necesario extraer información de un conjunto de datos multivariantes.
Para un seguimiento adecuado del libro se requieren conocimientos básicos de Cálculo
de Probabilidades y de Inferencia Estadística. Además son deseables buenos conocimientos de álgebra lineal, más allá de la resolución de sistemas de ecuaciones lineales
o de un leve contacto con formas cuadráticas en el contexto del cálculo de extremos de
una función real de varias variables. Es quizá demasiado suponer este conocimiento
previo y por ello se añade un tema adicional necesario para el desarrollo del libro.
X PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE
Este libro consta de nueve capítulos. Los tres primeros son introductorios y están dedicados, respectivamente, a una ampliación de conceptos de álgebra lineal, a familiarizarse con las matrices de datos y una introducción a la inferencia normal multivariante.
El resto de capítulos están dedicados al estudio de técnicas multivariantes clásicas,
como son: el análisis de componentes principales, el escalado multidimensional, el
análisis de conglomerados, el análisis factorial, el análisis canónico de poblaciones y
el análisis discriminante.
Soporte informático
El volumen de cálculo requerido para el análisis de datos multivariantes hace impracticable su realización manual, no sólo para los cálculos con datos reales, sino incluso si
se trata de ejemplos sencillos con datos simulados que ilustren y motiven los conceptos
teóricos.
Ya desde los años 70, coincidiendo con la evolución de los ordenadores y la aparición de los primeros paquetes comerciales de programas de Estadística (SPSS, BMDP,
SAS), algunos de los autores de libros dedicados al Análisis Multivariante, conscientes de esta situación, han incluido listados de programas para realizar los cálculos
correspondientes a las técnicas expuestas.
Por ello hemos creído conveniente disponer de un software que permita programar de
forma muy sencilla las técnicas que el usuario desea implementar. Esto es posible a través de programas comerciales como MATLAB1 y S-Plus, o bien sus clónicos gratuitos
como OCTAVE y R, por citar algunos. Todos ellos tienen incorporadas estructuras y
operaciones matriciales, fundamentales en el Análisis Multivariante, además de innumerables subrutinas para cálculos más específicos. Puede parecer que el uso de estos
programas añade complicaciones a la comprensión de las técnicas expuestas. Pero, en
base a la experiencia, hay que decir que ocurre justamente lo contrario: el lenguaje
de programación que utilizan se asemeja considerablemente a la notación matricial, lo
que contribuye a una mayor asimilación y aprendizaje de las mismas.
Amparo y Aurea
1Matlab es una marca registrada de The MathWorks, Inc., http://www.mathworks.com
Contenido
CAPÍTULO 1
Álgebra matricial básica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
CAPÍTULO 2
Estadísticos descriptivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
CAPÍTULO 3
Distribuciones multivariantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
CAPÍTULO 4
Análisis de componentes principales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
CAPÍTULO 5
Distancias estadísticas y escalado multidimensional (MDS) . . . . . . . . . . 93
CAPÍTULO 6
Análisis de conglomerados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
CAPÍTULO 7
Análisis factorial. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
CAPÍTULO 8
Análisis canónico de poblaciones (MANOVA) . . . . . . . . . . . . . . . . . . . . . . . 143
CAPÍTULO 9
Análisis discriminante y clasificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
Índice de funciones y código Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
Índice de conceptos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
CAPÍTULO 1
Álgebra matricial básica
En este primer capítulo se repasan algunos conceptos de álgebra matricial que serán
extremadamente útiles para el tratamiento de datos multivariantes. Las matrices ayudan a plantear los métodos de estadística multivariante de manera concisa y facilitan
su implementación en programas de ordenador.
Comenzaremos trabajando con normas de vectores, productos escalares y proyecciones ortogonales. A continuación recordaremos el cálculo de matrices inversas, determinantes, autovalores y autovectores y otros conceptos básicos del álgebra de matrices. El capítulo concluye determinando el signo de algunas formas cuadráticas.
PROBLEMA 1.1
Sean u = (1, 2)′
, v = (−2, 3)′
y w = (3, −5)′
tres vectores de R
2
. Evalúense las
siguientes expresiones, donde a · b denota el producto escalar entre los vectores a y
b y a =
√
a · a denota la norma o longitud del vector a.
(a) (u − 2v) · w
(b) u + v + w
(c) u + v + w
(d) (u − v) · (v − w)
✞
✝
☎
SOLUCIÓN ✆
Para introducir los vectores en Matlab escribimos
u = [1 ; 2]; v = [-2 ; 3]; w = [3 ; -5];
(a) (u − 2 v) · w = (u − 2 v)
′w = 35. Para calcularlo en Matlab escribimos
(u-2*v)’*w
2 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE
(b) u + v + w = 2. Para calcular la norma de un vector u podremos utilizar la orden
de Matlab norm(u). También podemos escribir el código nosotros mismos mediante una
función Matlab, que denominaremos, por ejemplo, norma. Para utilizar esta función dentro
de Matlab, la guardaremos en un fichero con el mismo nombre y extensión .m, en este caso
norma.m :
function nu = norma(u)
u = u(:) ;
nu = sqrt(u’*u) ;
Para resolver este apartado, en la ventana de comandos de Matlab escribiremos:
norma(u+v+w)
Compruébese que se llega al mismo resultado utilizando la función interna de Matlab norm.
(c) u + v + w = 2.2361. En Matlab
norm(u) + norm(v) + norm(w)
(d) (u − v) · (v − w)=(u − v)
′
(v − w) = −23. Con Matlab se calcularía así
(u-v)’*(v-w)
PROBLEMA 1.2
Dados dos vectores de R
p
, u y a, encuéntrese la proyección ortogonal del vector u
sobre el vector a, para:
(a) u = (8, 3)′
, a = (4, −5)′
,
(b) u = (2, 1, −4)′
, a = (−5, 3, 11)′
.
✞
✝
☎
SOLUCIÓN ✆
La proyección ortogonal de u sobre la dirección determinada por a viene dada por el vector
(Figura 1.1):
v =
u · a
a
2
a = (u · c) c,
donde c = a/a es el vector de longitud 1 en la dirección de a. Por tanto, u · c es la longitud
de la proyección v (esto lo utilizaremos en el Problema 2.9).
El siguiente código (que debe guardarse en el fichero ProyOrto.m) permite calcular la proyección ortogonal de un vector u sobre a:
function v = ProyOrto(u,a)
u = u(:); a = a(:);
v = (u’*a)*a /norm(a) ;