Sección 3 Caracterización de variabilidad espacial con múltiples capas de datos

3.1 Análisis de componentes principales

Diferentes objetivos pueden surgir cuando analizamos un conjunto de datos que además de ser espaciales o georreferenciados es multivariado (i.e. múltiples capas de información sobre el mismo dominio espacial o varias variables por sitio). Por un lado, se puede querer resumir la variabilidad de los sitios usando unas pocas variables sintéticas que representen bien la variabilidad en las variables originales. Por otro, se puede querer resumir patrones espaciales usando unas pocas variables sintéticas que combinan las múltiples capas de información considerando la correlación espacial subyacente. Una solución al primer problema es usar el Análisis de Componentes Principales (PCA (Pearson 1901)). Mientras que el segundo objetivo puede ser abordado mediante el Análisis de Componentes Principales Espaciales propuesto por (Dray, Saïd, and Débias 2008), también conocido como MULTISPATI-PCA. Éste se basa en el PCA, pero incorpora la restricción dada por los datos espaciales mediante el cálculo del índice de Moran antes de obtener las variables sintéticas o componentes principales (PC). Los datos multivariados son generalmente registrados en una matriz \(X\) con \(n\) filas (observaciones) y \(p\) columnas (variables). El PCA permite identificar las variables que explican la mayor parte de la variabilidad total contenida en los datos, explorar las correlaciones entre variables y reducir la dimensión del análisis al combinar las variables originales en nuevas variables sintéticas. El PCA opera sobre la matriz de covarianza de las variables originales o de las variables estandarizadas con el fin de encontrar una base ortogonal de tal manera que el primer eje del nuevo espacio considera la dirección de mayor variación de los datos originales. La descomposición espectral de la matriz de covarianzas proporciona un conjunto de autovectores y sus correspondientes autovalores. Los autovectores contienen los coeficientes de ponderación para construir variables sintéticas como combinaciones lineales de las variables originales. Los coeficientes de cada variable en estas combinaciones lineales indican la importancia relativa de las variables para explicar la variabilidad entre las observaciones. Las combinaciones lineales obtenidas con PCA se llaman componentes principales (PC), son ortogonales y en conjunto explican la variabilidad de los datos originales. Existen tantas PC posibles de formar como columnas en la matriz \(X\). La primera componente (PC1) explica la mayor parte de la variación en el conjunto de datos y la segunda (PC2), la mayor parte de la variabilidad remanente o no explicada por la PC1, y así sucesivamente.

Los resultados del PCA se pueden visualizar en un gráfico denominado Biplot (Gabriel 1971) el cual permite representar en un plano óptimo para el estudio de variabilidad, las diferencias entre sitios, la correlación entre variables y las variables que mejor explican las principales componentes de variabilidad. La incorporación de la información geográfica o la característica espacial de los datos suele realizarse a posteriori del PCA mediante la asignación de los valores de las componentes a cada uno de los sitios georreferenciados o ajustando semivariogramas a las PC.

El objetivo de MULTISPATI-PCA, otra forma de trabajar con datos espaciales, es encontrar variables sintéticas independientes que optimicen el producto de la varianza total y la autocorrelación espacial. Para delimitar los vecindarios, MULTISPATI-PCA utiliza una matriz de pesos espaciales determinando cuáles y cuántas observaciones cercanas a cada sitio deben ser consideradas para el cálculo del índice de autocorrelación espacial. Este análisis permite estudiar las relaciones entre las variables considerando su estructura espacial. Para la implementación del análisis es necesario primero definir cómo la información espacial será incorporada. En MULTISAPTI - PCA, la detección de la estructura espacial se realiza a través del índice de Moran. Es necesaria la construcción de una red de conexión (también llamada gráficos de vecinos) la cual usa un criterio objetivo para definir que entidades son vecinas y cuáles no. Existen diferentes opciones o alternativas metodológicas para definir los vecindarios que dependen de los diferentes tipos de arreglos espaciales presente en los datos. Para muestreos irregulares los vecindarios suelen definirse a partir de la red de conexión propuesta por Gabriel (Gabriel and Sokal 1969), mediante la triangulación de Delaunay (Lee and Schachter 1980). Otro método es el de los vecinos más cercanos (Cover and Hart 1967) o el basado en la especificación de una distancia como radio del vecindario de cada sitio.

Una vez que la red de conexión es definida, la información espacial es almacenada en una matriz de conexión binaria \(C\) (en la cual \(c_{ij}=1\) si las unidades espaciales \(i\) y \(j\) son vecinas o \(c_{ij}=0\) en caso contrario), la cual es simétrica y tiene tantas filas y columnas como sitios. Esta matriz de conectividad \(C\) en general es escalada para obtener la matriz de pesos espaciales (representación matemática de la disposición geográfica de los sitios en el dominio espacial). Los pesos espaciales reflejan a priori la ausencia \((w_{ij}=0)\), presencia \((w_{ij}=1)\) o intensidad \((w_{ij}>0)\) de la relación espacial entre los sitios. Una vez que los pesos espaciales han sido definidos, el índice de autocorrelación de Moran es computado.

El método MULTISPATI-PCA opera sobre la matriz \(\widetilde{X}=WX\) que está compuesta por los promedios ponderados de los valores de los vecinos de cada sitio según indique la matriz de conexión espacial, esta matriz es llamada matriz lagged. Las dos matrices \(X\) y \(\widetilde{X}\) tienen las mismas cantidades de columnas (variables) y de filas (sitios). El análisis MULTISPATI-PCA consiste en analizar la correlación entre este par de matrices (\(\widetilde{X}\) y \(X\)) mediante un análisis de co-inercia (Dray, Chessel, and Thioulouse 2003). MULTISPATI-PCA maximiza el producto escalar entre una combinación lineal de las variables originales y una combinación lineal de variables lagged. La ventaja de MULTISPATI-PCA respecto al PCA es que las componentes principales espaciales del MULTISPATI-PCA (sPC) contemplan la autocorrelación espacial entre los sitios, maximizándola en las primeras componentes. Por lo tanto, las primeras sPC del MULTISPATI-PCA muestran fuertes estructuras espaciales o altos índices de autocorrelación y no sólo mayores varianzas como en el PCA clásico. El método MULTISPATI-PCA constituye una herramienta multivariada útil no sólo para mapear la variabilidad conjunta de múltiples capas de datos dentro del dominio espacial estudiado sino también para la delimitación de zonas o áreas homogéneas en sentido multivariado cuando las componentes espaciales se usan como inputs de algoritmos de clasificación.

3.2 Análisis de conglomerados

Los métodos multivariados, utilizados para la clasificación de sitios de un dominio espacial, suelen basarse en algoritmos de agrupamiento no supervisados como los algoritmos de conglomerados jerárquicos o en algoritmos de conglomerados no jerárquico como k-means o fuzzy k means. Contrariamente al algoritmo k-means u otros métodos determinísticos de agrupamiento en los que cada observación sólo puede pertenecer a un único clúster, los métodos de clasificación basados en la teoría difusa (como fuzzy k-means), permiten que cada observación pueda asignarse a más de un clúster, con diferentes grados de pertenencia para cada clúster. Aplicado a datos espaciales puede generar alta fragmentación ya que el algoritmo de agrupación no tiene en cuenta la información espacial asociada a cada observación. Frogbrook and Oliver (2007) y Milne et al. (2012) propusieron introducir la restricción espacial mediante la incorporación de nuevas variables asociadas a parámetros del variograma co-regionalizado o del variograma de la componente principal de las variables originales. Córdoba et al. (2012) propusieron implementar fuzzy k means usando las componentes principales espaciales como variables de entrada para la clasificación con datos espaciales, logrando así disminuir la fragmentación e incrementar la contigüidad de los conglomerados espaciales. Otra alternativa, para delimitar conglomerados espaciales es aplicar filtros espaciales a la clasificación resultante de un método de clasificación estándar (Galarza et al. 2013; Ping and Dobermann 2003).

En el método fuzzy k-means además de la matriz de datos \(X\) se genera la matriz de pertenencia difusa \(U\), que contiene los valores o asignaciones parciales de cada una de las n observaciones en cada uno de los k clusters o conglomerados, con la restricción que se debe cumplir para cualquier \(i = 1,\ldots,n\) y para cualquier \(j = 1,\ldots,k\):

\[u_{ij}\in[0,1]\ \forall_i,_j\]

\[\sum_{j=1}^{k}{u_{ij}=1,\ \forall_j}\]

La partición difusa óptima de los datos es la que minimiza la función objetivo \(j_m\) igual a la suma ponderada de las distancias cuadráticas entre las observaciones y los centroides de cada clúster que conforman la matriz \(V\):

\[j_m(U,V)=\sum_{i=1}^{n}\sum_{j=1}^{k}(u_{ij})^m(d_{ij})^2\]

donde \(m\) es el coeficiente de ponderación difuso (\(1\le\ m\ < \infty)\) cuya función es controlar el grado de solapamiento que se establece entre los clusters y \({{(d}_{ij})}^2\) es el cuadrado de la distancia en el espacio de los atributos entre el punto \(i\) y la clase centroide \(j\). Distintas métricas de distancia pueden ser usadas. La distancia Euclídea se utiliza cuando las variables son independientes y de igual varianza. En caso contrario la distancia de Mahalanobis es usada. El algoritmo difuso fuzzy k-means utiliza un proceso iterativo que hace óptima la partición difusa de los datos \(X\). La estructura del algoritmo (Bezdek et al. 1981) es la misma para cualquier conjunto de variables de entrada. Cuando el algoritmo ha asignado pesos o probabilidades de pertenencia a cada grupo para cada observación, se computaban una serie de índices para validar los distintos arreglos de conglomerados.

Para evaluar la clasificación conseguida con un determinado número de grupos, existen diferentes índices como el coeficiente de partición (o fuzziness performance index-FPI, (Bezdek et al. 1981)), el índice de entropía de la clasificación o normalized classification entropy (NCE, (Bezdek et al. 1981)), el índice de Xie-Beni (Xie and Beni 1991) y el de Fukuyama-Sugeno (Fukuyama and Sugeno 1989), entre otros.

El coeficiente de partición (CP) mide el grado de solapamiento (grado de fuzziness) entre los grupos formados. Se considera que mientras menos difusa es la partición, mejor es la clasificación. Por tanto, se prefiere la estructura con un número de conglomerados para la cual el coeficiente de partición es mayor. El máximo equivale a una clasificación en la que cada observación pertenece a un único clúster. El mínimo se da cuando cada observación pertenece, con la misma probabilidad, a cada clúster (mayor incertidumbre).

Otro índice que se puede usar para decidir con cuantos conglomerados quedarse es el conocido como entropía de la partición (EP) que cuantifica el grado de desorganización de la clasificación. Para este índice los valores próximos a 0 son indicativos de una mejor clasificación, es decir, con mayor grado de organización o menos difusos. El índice de Xie-Beni (XB) evalúa el cociente entre las distancias intracluster e intercluster. Se prefieren particiones donde la distancia intra-cluster es mínima y la distancia inter-cluster máxima. El índice XB es considerado como una medida de compacidad. Un valor bajo de XB, representa una clasificación con grupos compactos y separables. Por consiguiente, la mejor partición se obtiene mediante la minimización de XB. El índice Fukuyama-Sugeno (FS) es función de la separación entre los centroides de los grupos y la media de todos los centroides. El mínimo de FS corresponde a una partición con clases compactas y separables. Es importante considerar que, para un conjunto de datos, los índices no son necesariamente consistentes entre sí sugiriendo diferentes números de clúster como partición óptima. Una propuesta es promediar el valor de estos índices normalizados por el máximo usando para CP su reciproco, \(CP^*=1/CP\) , para que el valor mínimo en todos los índices represente la estructura optima.

Referencias

Bezdek, James C, Chris Coray, Robert Gunderson, and James Watson. 1981. “Detection and Characterization of Cluster Substructure I. Linear Structure: Fuzzy c-Lines.” SIAM Journal on Applied Mathematics 40 (2). SIAM: 339–57.

Cover, Thomas, and Peter Hart. 1967. “Nearest Neighbor Pattern Classification.” IEEE Transactions on Information Theory 13 (1). IEEE: 21–27.

Córdoba, Mariano, Cecilia Bruno, José Luis J.L. Costa, and Mónica Balzarini. 2012. “Principal Component Analysis with Georeferenced Data. An Application in Precision Agriculture.” Rev. FCA UNCUYO 44 (1): 27–39.

Dray, Stéphane, Daniel Chessel, and Jean Thioulouse. 2003. “Co‐inertia Analysis and the Linking of Ecological Data Tables.” Ecology 84 (11). Wiley Online Library: 3078–89.

Dray, Stéphane, Sonia Saïd, and Françis Débias. 2008. “Spatial Ordination of Vegetation Data Using a Generalization of Wartenberg’s Multivariate Spatial Correlation.” Journal of Vegetation Science 19 (1). Wiley Online Library: 45–56.

Frogbrook, Z L, and M A Oliver. 2007. “Identifying Management Zones in Agricultural Fields Using Spatially Constrained Classification of Soil and Ancillary Data.” Soil Use and Management 23 (1): 40–51. https://doi.org/10.1111/j.1475-2743.2006.00065.x.

Fukuyama, Yoshiki, and M. Sugeno. 1989. “A New Method of Choosing the Number of Clusters for the Fuzzy c-Mean Method.” In Proc. 5th Fuzzy Syst. Symp., 1989, 247–50.

Gabriel, Karl Ruben. 1971. “The Biplot Graphic Display of Matrices with Application to Principal Component Analysis.” Biometrika 58 (3). Oxford University Press: 453–67.

Gabriel, K Ruben, and Robert R Sokal. 1969. “A New Statistical Approach to Geographic Variation Analysis.” Systematic Zoology 18 (3). Society of Systematic Zoology: 259–78.

Galarza, Romina, M Nicolás Mastaglia, Enrique M Albornoz, and César Martınez. 2013. “Identificación Automática de Zonas de Manejo En Lotes Productivos Agrıcolas.” In V Congreso Argentino de Agroinformática (Cai) E 42da. JAIIO.

Lee, Der-Tsai, and Bruce J Schachter. 1980. “Two Algorithms for Constructing a Delaunay Triangulation.” International Journal of Computer & Information Sciences 9 (3). Springer: 219–42.

Milne, A E, R Webster, D Ginsburg, and D Kindred. 2012. “Spatial Multivariate Classification of an Arable Field into Compact Management Zones Based on Past Crop Yields.” Computers and Electronics in Agriculture 80: 17–30. https://doi.org/10.1016/j.compag.2011.10.007.

Pearson, Karl. 1901. “LIII. On Lines and Planes of Closest Fit to Systems of Points in Space.” The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science 2 (11). Taylor & Francis: 559–72. https://doi.org/10.1080/14786440109462720.

Ping, J L, and A Dobermann. 2003. “Creating Spatially Contiguous Yield Classes for Site-Specific Management.” Agronomy Journal 95 (5): 1121. https://doi.org/10.2134/agronj2003.1121.

Xie, Xuanli Lisa, and Gerardo Beni. 1991. “A Validity Measure for Fuzzy Clustering.” IEEE Transactions on Pattern Analysis & Machine Intelligence 13 (8). IEEE Computer Society: 841–47. https://doi.org/10.1109/34.85677.