تعیین تعداد گروه در مجموعه داده های ژئوشیمیایی با استفاده از شاخص های بازشناسی الگوی مبتنی بر تفکیک و تراکم خوشه ها

نوع مقاله : مقاله پژوهشی

نویسندگان

دانشکده مهندسی معدن، دانشگاه صنعتی اصفهان

چکیده

تقسیم‌بندی مجموعه داده به زیرمجموعه‌های همگن، هدفی اساسی در تحلیل داده‌های ژئوشیمیایی است که اغلب از ابزار خوشه‌بندی برای نیل به آن استفاده می‌شود. مهم‌ترین چالش عملی موجود در این راستا، تخمین تعداد حقیقی گروه‌های نهان در مجموعه داده است که به طور سنتی از اطلاعات ژئوشیمیایی توصیفی، دانش کارشناسی یا به کارگیری یک شاخص آماری خاص برای حل آن استفاده می‌شود. خروجی این روش‌ها اغلب ناپایدار و همراه با عدم‌قطعیت است، لذا رویکردی که این مقاله برای حل مسئله تعیین تعداد خوشه در داده‌ها پیشنهاد می‌کند، اجرای گستره‌ای از شاخص­‌های موجود و تولید توزیعی از پاسخ‌های ممکن و نهایتاً استخراج جواب نهایی از آن است. شاخص‌های به کار رفته در این زمینه، مبتنی بر روابط بازشناسی الگو و بر مبنای بیشینه‌سازی پارامتر تفکیک بین گروهی و کمینه‌سازی پارامتر تراکم درون گروهی هستند. جهت آزمون رویکرد پیشنهادی، مجموعه داده شبیه‌سازی شده دوبعدی با چهار خوشه مصنوعی تولید گشته و با اجرای 30 شاخص پرکاربرد بر روی آن، بالاترین فرکانس موجود در توزیع پاسخ‌ها منطبق بر جواب حقیقی مسئله به دست آمده است. این راهکار عیناً بر روی یک مجموعه داده ژئوشیمیایی حقیقی و چندمتغیره، شامل داده‌های خاک کانسار مس- طلای دالی شمالی واقع در استان مرکزی اجرا شده است که نتایج به دست آمده نشان دهنده معنی‌دار بودن و انطباق پاسخ نهایی با فرآیندهای زمین‌شناسی و کانه‌زایی محدوده است.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

Determining the number of groups in geochemical data set using pattern recognition indices on the basis of separation and compactness of clusters

نویسندگان [English]

  • saeid esmaeiloghli
  • Seyed Hassan Tabatabaei
  • Hooshang Asadi Haroni
Dept. of Mining, Isfahan University of Technology, Iran
چکیده [English]

Summary
This paper presents an innovative approach for calculating the correct number of groups in the geochemical data sets. The proposed method reduces the uncertainty of traditional methods that is often based on expert knowledge or application of a unique index. On the basis of separation and compactness of clusters, several pattern recognition indices (thirty indices) are used to produce the response distribution. Then, the optimal solution is concluded from the possible answers which are selected on the basis of the maximum frequency of distribution. This process has been implemented on a simulated data set which ultimately has been managed to properly identify the true number of artificial clusters. It has also been applied to a real geochemical data set, and consequently, three clusters are estimated as the optimum group numbers in the data set. The three groups resulted from data clustering are fully correlated with the geological and geochemical evidences in the study area.
 
Introduction
Partitioning of the heterogeneous data set into homogeneous subsets is an important goal of geochemical data processing which clustering tools are usually used to achieve this goal. Nevertheless, the most important practical challenge in this regard is an estimation of the actual number of underlying groups in the data set. This is traditionally related to descriptive geochemical information, expert knowledge, and unique statistical index. Due to the instability and uncertainty of the mentioned approaches, we recommend solving the problem by implementing the whole range of indices, creating a distribution of possible responses and consequently extracting the best answer.
 
Methodology and Approaches
To evaluate the performance of the proposed approaches, we generated a two-dimensional simulated data set containing four artificial clusters. The real geochemical data set that is used in this research includes 149 soil samples collected from the North Dalli porphyry Cu-Au deposit, located in Markazi province. Thirty indices were used to determine the optimal number of groups in the data set. These indices were essentially achieved from pattern recognition and their performance is based on maximizing the within-group separation and minimizing the between-group compactness.
 
Results and Conclusions
All indices were implemented in the R programming environment. The mode of response distribution in the case of simulated data was in compliance with the true number of artificial clusters. In case of the geochemical data set of the Dalli Cu-Au deposit, three clusters were identified. Clustering of geochemical data into these three groups indicated a clear geochemical zonation, which corresponds to the geological and mineralogical evidences in the study area.

کلیدواژه‌ها [English]

  • Geochemical Data Set
  • Clustering
  • Separation
  • Compactness
  • North Dalli

در حین انجام مطالعات ژئوشیمی اکتشافی، مجموعه داده­های حجیمی گردآوری می­شود که حاوی مشاهدات جزئی از متغیرهای گوناگون است. بسته به ماهیت مطالعه، این داده­ها می­توانند از نمونه­های خاک و سنگ (اکتشافات سطحی) یا مغزه­های حفاری (اکتشافات زیرسطحی) حاصل شده باشند. همچنین ممکن است داده­ها دارای ماهیت عددی (عیار عنصر) یا اسمی (جنس سنگ یا زون آلتراسیون) باشند. تمامی انواع ذکر شده، نهایتاً منجر به تولید مجموعه داده­ای چندبعدی می­شوند که تجزیه و طبقه­بندی آن برای هوش انسانی کاری بسیار دشوار است[1، 2]. این در حالی است که ژئوشیمیست اکتشافی، نیازمند استخراج اطلاعات مفید و طبقه­بندی شده از مجموعه داده خام است. این نوع تخلیص داده­ها با اهداف گوناگونی چون کشف الگوی وابستگی متغیرها و نمونه­ها با یکدیگر، شناسایی ارتباط ژنتیکی عناصر ژئوشیمیایی، تفکیک فرآیندهای آلتراسیونی و فازهای کانه­زایی و..... صورت می­پذیرد. برای این هدف، الگوریتم­ها و ابزار ریاضیاتی متنوعی در حوزه یادگیری ماشین و داده­کاوی پیش­بینی شده است، که مفیدترین، سریع­ترین و کم‌هزینه­ترین آنها، روش­های خوشه­بندی هستند. فرآیند خوشه­بندی که با اسامی دیگری چون رده­بندی عددی و طبقه­بندی خودکار نیز شناخته می­شود، شامل تقسیم‌بندی مجموعه­ای از داده­ها به گروه­ها یا خوشه­هایی است، به نحوی که اعضای درون هر خوشه بیش­ترین تشابه را با یکدیگر داشته باشند و بین اعضای خوشه­های مختلف نیز بیش­ترین تباین وجود داشته باشد. این فرآیند از دیدگاه تحلیل سیستم، نگاشتی از فضای هتروژن داده­ها به فضای هموژن خوشه­ها است، که خروجی این سیستم می­تواند در جداسازی و تفسیر فرآیندهای ژئوشیمیایی نقش بسیار مهمی ایفا نماید.

[1]           Meng, H. D., Song, Y. C., Song, F. Y., and Shen, H. T. (2011). Research and application of cluster and association analysis in geochemical data processing. Comput. Geosci, 15(1), 87–98.
[2]           Gazley, M. F., Collins, K. S., Roberston, J., Hines, B. R., Fisher, L. A., & McFarlane, A. (2015). Application of principal component analysis and cluster analysis to mineral exploration and mine geology. In AusIMM New Zealand Branch Annual Conference.
[3]           Charrad, M., Ghazzali, N., Boiteau, V., and Niknafs, A. (2014). NbClust: An R Package for Determining the Relevant Number of Clusters in a Data Set. J. Stat. Softw, 61(i06), 1-36.
[4]           Dunn, J. C. (1974). Well-separated clusters and optimal fuzzy partitions. J. Cybern, 4(1), 95–104.
[5]           Milligan G. W., and Cooper, M. C. (1985). An examination of procedures for determining the number of clusters in a data set. Psychometrika, 50(2), 159–179.
[6]           Rousseeuw, P. J. (1987). Silhouettes: a graphical aid to the interpretation and validation of cluster analysis. J. Comput. Appl. Math, 20(1), 53–65.
[7]           Tibshirani, R., Walther, G., and Hastie, T. (2001). Estimating the number of clusters in a data set via the gap statistic. J. R. Stat. Soc. Ser. B (Statistical Methods), 63(2), 411–423.
[8]           Zaremotlagh, S., Hezarkhani, A., and Sadeghi, M. (2016). Detecting homogenous clusters using whole-rock chemical compositions and REE patterns: A graph-based geochemical approach. J. Geochemical Explor., 170(1), 94–106.
[9]           Golestan, F. D., Riabi, S. R. G., Majlesi, M. J., Memarzadeh, M., and Harooni, H. A. (2013). “Identification and Separation of Anomal Variable Using Correspondence and Discriminant Analyses Methods at Northern–Dalli Areae.” Journal of Analytical and Numerical Methods in Mining Engineering, 2(3): 35–43 (In Persian).
[10]         Golestan, F. D., Riabi, S. R. G., Hezarkhani, A., Khalookakaei, A. R., Sakaki, S. H., and Harooni, H. A. (2016). “The Structure of Exploration Project Management by Spatial Geometry Methods for Separation Anomaly Using GERT Networking - A Case Study of Cu-Au Northern-Dally Porphyry.” Journal of Analytical and Numerical Methods in Mining Engineering, 6(11): 1–10 (In Persian).
[11]         Caliński, T., and Harabasz, J. (1974). A dendrite method for cluster analysis. Commun. Stat. Methods, 3(1), 1–27.
[12]         Duda, R. O., and Hart, P. E. (1973). Pattern classification and scene analysis. vol. 3, Wiley New York.
[13]         Gordon, A. D. (1999). Classification. Monogr. Stat. Appl. Probab, vol. 82.
[14]         Hubert, L. J., and Levin, J. R. (1976). A general statistical framework for assessing categorical clustering in free recall. Psychol. Bull, 83(6), 1072-1080.
[15]         Baker, F. B., and Hubert, L. J. (1975). Measuring the power of hierarchical cluster analysis. J. Am. Stat. Assoc, 70(349), 31–38.
[16]         Beale, E. M. L. (1969). Euclidean cluster analysis. Scientific Control Systems Limited.
[17]         Sarle, W. S. (2003). SAS Technical report a-108, cubic clustering criterion. SAS Institute Inc.
[18]         Milligan, G. W. (1980). An examination of the effect of six types of error perturbation on fifteen clustering algorithms. Psychometrika, 45(3), 325–342.
[19]         Milligan, G. W. (1981). A monte carlo study of thirty internal criterion measures for cluster analysis. Psychometrika, 46(2), 187–199.
[20]         Rohlf, F. J. (1974). Methods of comparing classifications. Annu. Rev. Ecol. Syst, 101–113.
[21]         Davies D. L., and Bouldin, D. W. (1979). A cluster separation measure. IEEE Trans. Pattern Anal. Mach.Intell, 2(1), 224–227.
[22]         Frey, T., and Van Groenewoud, H. (1972). A cluster analysis of the D2 matrix of white spruce stands in Saskatchewan based on the maximum-minimum principle. J. Ecol, 873–886.
[23]         Hartigan, J. A. (1975). Clustering algorithms (probability & mathematical statistics). John Wiley & Sons Inc.
[24]         Ratkowsky, D. A., and Lance, G. N. (1978). A criterion for determining the number of groups in a classification. Aust. Comput. J, 10(3), 115–117.
[25]         Scott, A. J., and Symons, M. J. (1971). Clustering methods based on likelihood ratio criteria. Biometrics, 387–397.
[26]         Marriott, F H. C. (1971). Practical problems in a method of cluster analysis. Biometrics, 501–514.
[27]         Ball G. H., and Hall, D. J. (1965). ISODATA, a novel method of data analysis and pattern classification. DTIC Document.
[28]         Friedman, H. P., and Rubin, J. (1967). On some invariant criteria for grouping data. J. Am. Stat. Assoc, 62(320), 1159–1178.
[29]         McClain, J. O., and Rao, V. R. (1975). Clustisz: A program to test for the quality of clustering of a set of objects. Journal of Marketing Research. JSTOR, 456–460.
[30]         Krzanowski, W. J., and Lai, Y. T. (1988). A criterion for determining the number of groups in a data set using sum-of-squares clustering. Biometrics, 23–34.
[31]         Lebart, L., Piron, A., Labert, M., Morineau, A., and Piron, M. (2000). Statistique exploratoire multidimensionnelle. Dunod.
[32]         Hubert, L., and Arabie, P. (1985). Comparing partitions. J. Classif, 2(1), 193–218.
[33]         Halkidi, M., Vazirgiannis,M., & Batistakis, Y. (2000). Quality scheme assessment in the clustering process. In European Conference on Principles of Data Mining and Knowledge Discovery.
[34]         Halkidi, M., and Vazirgiannis, M. (2001). Clustering validity assessment: Finding the optimal partitioning of a data set. In Proceedings IEEE International Conference on Data Mining.
[35]         R Core Team. (2014). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria.
[36]         Aitchison, J. (1986). The statistical analysis of compositional data.