تخمین مقادیر آنومال به کمک ترکیب مناسبی از روش جدایش فواصل ماهالانوبیس و سه روش‌ پرکاربرد داده‌کاوی؛ مطالعه موردی: پرکام

نوع مقاله : مقاله پژوهشی

نویسندگان

دانشکده مهندسی معدن و متالورژی، دانشگاه صنعتی امیرکبیر تهران

10.29252/anm.7.13.45

چکیده

در مطالعه پیش رو به منظور کاهش خطا و ریسک در راستای صرف هزینه، زمان، انرژی و نیز دستیابی به پیشگوئی‌هایی به مراتب ارزنده‌تر، به بررسی ترکیب روش‌های داده‌کاوی و جدایش آنومالی پرداخته می‌شود. اهمیت تشخیص مقادیر آنومال از زمینه بر هیچ یک پوشیده نیست، به این منظور روش‌های متعددی ابداع گشته است که از آن جمله می‌توان به روش جدایش فواصل ماهالانوبیس اشاره کرد که روشی مؤثر و چند متغیره در جدایش مقادیر آنومال از زمینه محسوب می‌شود. از طرفی، پیش‌بینی ابزاری قدرتمند در فرآیند برنامه‌ریزی در هر فعالیتی هست، پس به کارگیری روش‌های داده‌کاوی در جهت یافتن الگو و روابط نهفته در دل داده‌ها، نیاز ما را در این زمینه مرتفع می‌سازد. لذا در مطالعه حاضر، به بررسی عملکرد ترکیب روش جدایش فوق با سه روش داده‌کاوی K-نزدیک‌ترین همسایه، طبقه‌بند ساده بیز و درخت تصمیم‌گیری پرداخته می‌شود. به‌این‌ترتیب که پس از جدایش مقادیر آنومال مس و مولیبدن در مورد 377 نمونه حاصله از عملیات نمونه‌برداری سطحی در محدوده پرکام به کمک روش فواصل ماهالانوبیس، به منظور پیش‌بینی این مقادیر برای هر نمونه تصادفی، سه روش داده‌کاوی مذکور، مورد استفاده قرار می‌گیرند. در نهایت نیز جهت بررسی شبکه‌های طراحی شده، نمونه‌های آموزشی به عنوان داده‌های تست در اختیار شبکه‌های مذکور قرار گرفته‌اند. نتایج حاصله نشان می‌دهند که روش درخت تصمیم‌گیری به مراتب قوی‌تر ظاهر شده، زیرا در شبکه طراحی شده توسط این روش، تنها دو نمونه از بین 377 نمونه، اشتباهاً شناسایی شده‌اند که نشان دهنده دقت بالای شبکه طراحی شده است. یعنی مقدار خطای Resubstitution گزارش شده برای این شبکه برابر با 0053/0 هست. لازم به ذکر است که تعداد نمونه‌های به اشتباه پیش‌بینی شده برای دو روش KNN و بیز به ترتیب برابر با 9 و 23 و به تبع، مقدار خطای محاسبه شده برای آنها نیز به ترتیب برابر با 0239/0 و 061/0 گزارش شده‌اند. به این ترتیب با توجه به میزان خطای به مراتب قابل‌قبول‌تر برای شبکه طراحی شده توسط ترکیب روش درخت تصمیم‌گیری و فواصل ماهالانوبیس، ترکیب مذکور به عنوان روشی قابل اطمینان و سودمند جهت رسیدن به صحیح‌ترین پیشگوئی‌ها به تصمیم‏گیران این صنعت معرفی شده است.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

Estimation of Anomalous Values by Using an Appropriate Combination between Mahalanobis Distances and Three Widely Used Data Mining Methods; Case Study: Parkam

نویسندگان [English]

  • Seyyed Saeed Ghannadpour
  • Ardeshir Hezarkhani
  • Taraneh Roodpeyma
Dept. of Mining and Metallurgy, Amirkabir University of Technology, Iran
چکیده [English]

Summary
Importance of detecting anomalous values from background is undeniable; so many different methods have been developed. On the other hand, prediction is a powerful tool in the process of each task’s planning. Using data mining methods for finding patterns between data can answer this requirement. Due to the necessity of high processing accuracy, the performance of a separation method has been evaluated. This performance is combined with three data mining methods. Finally we introduced the best combination (Mahalanobis Distance and Decision Tree) with the most accurate predictions. In order to reduce error and risk to save costs, time, energy and access to the more valuable predictions, in following paper we have studied Mahalanobis Distances to separate anomalous values and combined the results with three methods: K–Nearest Neighbor (KNN), Naïve Bayes Classifier and Decision Tree (DT) then achieved to the best combination with the least error rate.
 
Introduction
Mahalanobis distances method was used to assess prospective areas of Parkam district based on the two variables (Cu and Mo grade) and anomalous values have been defined based on the grades of copper and molybdenum. Then the three mentioned algorithms were trained by 4 parameter data grades of copper and molybdenum, coordinates of each samples (X and Y) and the results of our separation method as well, finally predictive equations were achieved in order to inform about other random samples. The best combination could be useful to predict with high accuracy in each plan.
 
Methodology and Approaches
Mahalanobis distances method is an effective multivariate method on separation of anomalous values from background. Various data mining methods have been developed to classify data. Three most important and common methods are K–Nearest Neighbor, Naïve Bayes Classifier and Decision Tree; They can be used to find features that can distinguish different classes from each other.
 
Results and Conclusions
After separation of anomalous values by applying Mahalanobis distances, combined models have been produced. Then actual data have been seen as the test ones to evaluate the accuracy of predictions. At last, based on the resubstitution rate, that is 0.0053, for designed system via Decision Tree technique and anticipating only 2 out of 377 numbers of samples as the background samples instead of anomalous ones, this method was recognized as the more pragmatic approach than KNN and Naïve Bayes approaches producing 0.0239 and 0.061 error rate and predicting 9 and 23 numbers of anomalous values as the background samples respectively. According to the much more acceptable error rate for designed network by combination of Mahalanobis Distances and Decision Tree methods, we can introduce that as a much more reliable and useful method in order to achieve the most accurate predictions to the decision makers in the industry.

کلیدواژه‌ها [English]

  • Estimation
  • Anomalous Values
  • Separation
  • Mahalanobis Distances
  • Data mining
[1] Ghannadpour, S. S. and A. Hezarkhani (2012). “Lead Geochemical Behavior with respect to those of Zinc and Iron based on Clustering Method Applications in Parkam Porphyry Copper System, Shahr Babak, Kerman.” Journal of Researches in Earth Sciences 3(9): 64-77 (In Persian).
[2] Cheng, Q. (1999). Spatial and scaling modelling for geochemical anomaly separation. Journal of Geochemical Exploration, 65(3), 175-194.
[3] Ghannadpour, S. S., Hezarkhani, A., Maghsoudi, A., Farahbakhsh, E. (2015). Assessment of prospective areas for providing the geochemical anomaly maps of lead and zinc in Parkam district, Kerman, Iran. Geosciences Journal, 19(3), 431-440.
[4] Sinclair, A. J. (1991). A Fundamental Approach to Threshold Estimation in Exploration Geochemistry, probability plots revisited. journal of Geochemical Exploration, 41(1-2), 1–22.
[5] Mehrgini, B. and H. Memarian (2010). “ Evaluation of Mahalanobis Distance method’s performance in separating oil facies, in one of hydrocarbon fields in Iran.” 14th Iranian geophysics conference, Iran’s geopolitical forum.
[6] Zhao, X., Li, Y., Zhao, Q. (2015). Mahalanobis distance based on fuzzy clustering algorithm for image segmentation. Digital Signal Processing, 43, 8-16.
[7] Long, B., Xian, W., Li, M., Wang, H. (2014). Improved diagnostics for the incipient faults in analog circuits using LSSVM on PSO algorithm with Mahalanobis distance. Neurocomputing, 133(10), 237-248.
[8] Patil, N., Das, D., Pecht, M. (2015). Anomaly detection for IGBTs using Mahalanobis distance.Microelectronics Reliability, 55(7), 1054-1059.
[9] Hulten, G., Spencer, L., Domingos, P. (2001, August). Mining time-changing data streams. KDD, Processing of the seventh ACM SIGKDD international conference on knowledge discovery and data mining.
[10] Ghannadpour, S. S., Hezarkhani, A. (2012). A developed software to calculate the additive constant number of average in three-variable normal logarithm. Global Journal of Computer sciences, 3(1), 1-6.
[11] Ghannadpour, S. S., Hezarkhani, A., Eshqi, H. (2012). Average and variance estimation programming in normal logarithmic distribution. Global Journal of Computer sciences, 2(1), 7-13.
[12] Ghannadpour, S. S., Hezarkhani, A., Sabetmobarhan, E. (2015). Some statistical analyses of Cu and Mo variates and geological interpretations for Parkam Porphyry Copper system, Kerman, Iran. Arabian Journal of Geosciences, 8(1), 345–355.
[13] Ghorbani, M (2002). “The Economic Geology of Iran.” Arian Earth Press, Tehran (In Persian).
[14] Ghannadpour, S. S. and A. Hezarkhani (2015). “Assessment of prospective areas for providing the geochemical anomaly maps of Cu and Mo in Parkam district, Kerman, Iran.” Journal of Researches in Earth Sciences 6(21), 40-50 (In Persian).
[15] Berberian, M., and King, G. C. (1981). Towards a Paleogeography and Tectonic Evolution of Iran. Canadian Journal of Earth Sciences, 18(2), 210–265.
[16] Saric, A., Diordjevic, M., Dimitrijevic, M. N. (1971). Geological map of Shahre-e-Babak, 1:100,000 Seri. Geological Survey of Iran, Tehran, Iran.
[17] Filzmoser, P., Garrett, R. G., Reimann, C. (2005). Multivariate outlier detection in exploration geochemistry. Computers & Geosciences, 31(5), 579–587.
[18] Hassani Pak, A. A. and M. Sharafaddin (2011). “Exploration data analysis.” The second edit, Tehran University Press (In Persian).
[19] Yang, Y., Liu, X. (1999, August). A re-examination of text categorization methods. In proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR’99).
[20] Yang., Y. (1999). An evaluation of statistical approaches to text categorization. Journal of Information Retrieval, 1(1), 69-90.
[21] He, J., Tan, A., Tan, C. (2000, August). Comparative Study on Chinese Text Categorization Methods. On the PRICAI 2000 Workshop on Text and Web Mining, Melbourne.
[22] Verbiest, N., Cornelis, C., Jensen, R. (2012, June). Fuzzy rough Positive region based Nearest Neighbor Classification. WCCI 2012 IEEE World congress on Computational Intelligence.
[23] Tan, K. C., Yu, Q. (2006). A coevolutionary algorithm for rules discovery in data mining. International Journal of Systems Science, 37(12), 835-864.
[24] Chan, C., Lewis, B. (2002). A basic primer on data mining. Information Systems Management, 19(4), 56-60.