نوع مقاله : مقاله پژوهشی
نویسندگان
دانشکده مهندسی معدن، دانشگاه صنعتی اصفهان
چکیده
کلیدواژهها
موضوعات
عنوان مقاله [English]
نویسندگان [English]
Summary
This paper presents an innovative approach for calculating the correct number of groups in the geochemical data sets. The proposed method reduces the uncertainty of traditional methods that is often based on expert knowledge or application of a unique index. On the basis of separation and compactness of clusters, several pattern recognition indices (thirty indices) are used to produce the response distribution. Then, the optimal solution is concluded from the possible answers which are selected on the basis of the maximum frequency of distribution. This process has been implemented on a simulated data set which ultimately has been managed to properly identify the true number of artificial clusters. It has also been applied to a real geochemical data set, and consequently, three clusters are estimated as the optimum group numbers in the data set. The three groups resulted from data clustering are fully correlated with the geological and geochemical evidences in the study area.
Introduction
Partitioning of the heterogeneous data set into homogeneous subsets is an important goal of geochemical data processing which clustering tools are usually used to achieve this goal. Nevertheless, the most important practical challenge in this regard is an estimation of the actual number of underlying groups in the data set. This is traditionally related to descriptive geochemical information, expert knowledge, and unique statistical index. Due to the instability and uncertainty of the mentioned approaches, we recommend solving the problem by implementing the whole range of indices, creating a distribution of possible responses and consequently extracting the best answer.
Methodology and Approaches
To evaluate the performance of the proposed approaches, we generated a two-dimensional simulated data set containing four artificial clusters. The real geochemical data set that is used in this research includes 149 soil samples collected from the North Dalli porphyry Cu-Au deposit, located in Markazi province. Thirty indices were used to determine the optimal number of groups in the data set. These indices were essentially achieved from pattern recognition and their performance is based on maximizing the within-group separation and minimizing the between-group compactness.
Results and Conclusions
All indices were implemented in the R programming environment. The mode of response distribution in the case of simulated data was in compliance with the true number of artificial clusters. In case of the geochemical data set of the Dalli Cu-Au deposit, three clusters were identified. Clustering of geochemical data into these three groups indicated a clear geochemical zonation, which corresponds to the geological and mineralogical evidences in the study area.
کلیدواژهها [English]
در حین انجام مطالعات ژئوشیمی اکتشافی، مجموعه دادههای حجیمی گردآوری میشود که حاوی مشاهدات جزئی از متغیرهای گوناگون است. بسته به ماهیت مطالعه، این دادهها میتوانند از نمونههای خاک و سنگ (اکتشافات سطحی) یا مغزههای حفاری (اکتشافات زیرسطحی) حاصل شده باشند. همچنین ممکن است دادهها دارای ماهیت عددی (عیار عنصر) یا اسمی (جنس سنگ یا زون آلتراسیون) باشند. تمامی انواع ذکر شده، نهایتاً منجر به تولید مجموعه دادهای چندبعدی میشوند که تجزیه و طبقهبندی آن برای هوش انسانی کاری بسیار دشوار است[1، 2]. این در حالی است که ژئوشیمیست اکتشافی، نیازمند استخراج اطلاعات مفید و طبقهبندی شده از مجموعه داده خام است. این نوع تخلیص دادهها با اهداف گوناگونی چون کشف الگوی وابستگی متغیرها و نمونهها با یکدیگر، شناسایی ارتباط ژنتیکی عناصر ژئوشیمیایی، تفکیک فرآیندهای آلتراسیونی و فازهای کانهزایی و..... صورت میپذیرد. برای این هدف، الگوریتمها و ابزار ریاضیاتی متنوعی در حوزه یادگیری ماشین و دادهکاوی پیشبینی شده است، که مفیدترین، سریعترین و کمهزینهترین آنها، روشهای خوشهبندی هستند. فرآیند خوشهبندی که با اسامی دیگری چون ردهبندی عددی و طبقهبندی خودکار نیز شناخته میشود، شامل تقسیمبندی مجموعهای از دادهها به گروهها یا خوشههایی است، به نحوی که اعضای درون هر خوشه بیشترین تشابه را با یکدیگر داشته باشند و بین اعضای خوشههای مختلف نیز بیشترین تباین وجود داشته باشد. این فرآیند از دیدگاه تحلیل سیستم، نگاشتی از فضای هتروژن دادهها به فضای هموژن خوشهها است، که خروجی این سیستم میتواند در جداسازی و تفسیر فرآیندهای ژئوشیمیایی نقش بسیار مهمی ایفا نماید.