کاربرد الگوریتم‌های نمونه‌گیری در طبقه‌بندی داده‌های ژئوشیمیایی نامتوازن: مطالعه موردی؛ داده‌های ژئوشیمیایی برگه 1:100000 قاین

نوع مقاله : مقاله پژوهشی

نویسنده

گروه مهندسی معدن، دانشگاه صنعتی بیرجند

10.22034/anm.2025.22666.1661

چکیده

داده‌های ژئوشیمیایی ماهیت نامتوازن (یعنی تعداد نمونه‌ها با عیار کم یا کلاس زمینه زیاد و تعداد نمونه‌ها با عیار بالا یعنی کلاس آنومالی کم) دارند. طبقه‌بندی این داده‌ها، منجر به ایجاد مدلی اریب‌دار (کم شدن احتمال تعلق نمونه‌های جدید به کلاس‌هایی با نمونه‌های کمتر) همراه با کاهش دقت و صحت مدل خواهد شد. در این مقاله، سه دسته الگوریتم نمونه‌گیری افزایشی ، نمونه‌گیری کاهشی و نمونه‌گیری ترکیبی برای متوازن‌سازی داده‌ها معرفی شده است. همچنین عملکرد این الگوریتم‌ها بر روی داده‌های ژئوشیمیایی رسوبات آبراهه‌ای برگه قاین توسط دو روش طبقه‌بندی ماشین بردار پشتیبان و شبکه عصبی مصنوعی بررسی شده است. نتایج نشان می‌دهند که متوازن‌سازی داده‌ها می‌توان افزایش قابل توجه‌ای در کمیت سنجه‌های ماتریس درهم‌ریختگی مثل صحت، حساسیت، وضوح، دقت، امتیاز-F، مقدار-F، میانگین-G و سطح زیر منحنی ROC (به میزان 10 تا 50 درصد) و کاهش حدود 10 درصدی در سنجه خطا ایجاد نماید. به طوری که الگوریتم‌های نمونه‌گیری افزایشی، ترکیبی و کاهشی به ترتیب بالاترین عملکرد را دارند. همچنین نقشه‌های آنومالی‌های ژئوشیمیایی مدل‌سازی شده توسط الگوریتم‌های متوازن‌سازی در منطقه مورد مطالعه نشان می‌دهد که این مدل‌ها می‌توانند ضمن افزایش وسعت آنومالی‌های ژئوشیمیایی، همپوشانی خوبی بین این آنومالی‌ها با واحدهای سنگی حاوی کانی‌سازی برقرار نمایند. در این خصوص، الگوریتم‌های نمونه‌گیری افزایشی و سپس الگوریتم نمونه‌گیری ترکیبی از عملکرد بالاتری برخورداد هستند. بنابراین پیشنهاد این مقاله استفاده از الگوریتم‌های متوازن‌سازی داده‌های (به کارگیری الگوریتم‌های نمونه‌گیری افزایشی و سپس الگوریتم‌های نمونه‌گیری ترکیبی) قبل از طبقه‌بندی داده‌های اکتشافی است.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

Application of resampling algorithms in the imbalanced geochemical data classification Case study; Geochemical data of Qayen 1:100000 sheet

نویسنده [English]

  • Hamid Geranian
Department of Mining Engineering, Birjand University of Technology
چکیده [English]

Geochemical data are imbalanced in nature (i.e., the number of samples with low grade or background class are high and the number of samples with high grade or anomaly class are low). Classification of this dataset will lead to create a biased model, reducing the probability of new samples belonging to classes with fewer samples, along with a decrease in the accuracy and precision of the model. In this paper, oversampling (such as SMOTE and ADASYN), undersampling (such as RUS and OSS), and hybrid-sampling (such as SMOTE-Tomek and ADASYN-CNN) algorithms have been introduced for data balancing. Also, the performance of these algorithms on the stream sediments geochemical data of Qayen sheet has been investigated by the SVM and ANN classification methods. The results show that data balancing can significantly increase the quantity of the confusion matrix metrics such as accuracy, sensitivity, specificity, precision, F-score, F-value, G-mean and AUC, by 10 to 50 percent, and reduce the error metric by about 10 percent. So that the oversampling, hybrid-sampling and undersampling algorithms have the high performance, respectively. Geochemical anomalies maps, modeled by the balancing algorithms, show that these models can increase the extent of geochemical anomalies in the study area and establish a well overlap between these anomalies and mineralized rock units. In this respect, the oversampling algorithms (SMOTE and ADASYN) and then the hybrid-sampling algorithm (ADASYN-CNN) have higher performance. Therefore, this paper proposes the use of data balancing algorithms, using oversampling algorithms and then hybrid-sampling algorithms, before to classify the exploration data.

کلیدواژه‌ها [English]

  • SMOTE algorithm
  • ADASYN algorithm
  • RUS algorithm
  • OSS algorithm
  • SMOTE-Tomek algorithm
  • ADASYN-CNN algorithm
  • Qayen Sheet

مقالات آماده انتشار، پذیرفته شده
انتشار آنلاین از تاریخ 06 خرداد 1404
  • تاریخ دریافت: 30 دی 1403
  • تاریخ بازنگری: 28 فروردین 1404
  • تاریخ پذیرش: 06 خرداد 1404