کاربرد برآوردگرهای مقاوم در تعیین داده‌های خارج از ردیف؛ مطالعه موردی: داده‌های ژئوشیمیایی منطقه شاه سلیمان علی در استان خراسان جنوبی

نوع مقاله: مقاله پژوهشی

نویسندگان

1 گروه معدن، دانشگاه صنعتی بیرجند

2 گروه زمین شناسی، دانشگاه شهید باهنر کرمان

10.29252/anm.7.14.73

چکیده

شناسایی و تعدیل نمونه‌های خارج از ردیف چند متغیره اولین مرحله برای تحلیل آماری داده‌های اکتشافی محسوب می‌شود. کاهش بُعد داده‌ها به یک بُعد توسط فاصله‌ی نمونه از مرکز داده‌ها و مقایسه آن با یک حد آستانه کلید این کار محسوب می‌شود. در برآوردگرهای مقاوم از ماتریس‌های موقعیت و پراکندگی به جای ماتریس‌های میانگین و واریانس- کواریانس برای محاسبه این فاصله استفاده می‌شود. بنابراین برای مقاوم بودن این فاصله زیر مجموعه‌ی بهینه به جای کل داده‌ها برای محاسبه‌ی این ماتریس‌ها به کار می­رود. چهار برآوردگر مقاوم MVE، MCD، S و SD در این مقاله معرفی گردیده‌اند. سپس از این برآوردگرها برای تعیین نمونه‌های خارج از ردیف 146 نمونه‌ی رسوبات آبراهه‌ای منطقه شاه سلیمان علی در استان خراسان حنوبی و برای نتایج آنالیز 18 عنصر استفاده شده است. نتایج محاسبات نشان داده است که روش کلاسیک فاصله ماهالانوبیتس 7 نمونه و برآوردگرهای مقاوم MVE، MCD، S و SD به ترتیب 23، 35، 20 و 34 نمونه را به عنوان داده‌ی پرت معرفی می‌کنند. همچنین آنالیز مولفه‌های اصلی در مد Q نشان داده است که نمونه‌های خارج از ردیف با بارهای منفی خود را در مولفه‌ی دوم و سایر نمونه‌ها تقریباً با بارهای مثبت بالا در مولفه‌ی اول خود را نشان می‌دهند. تفکیک جامعه‌ی نمونه‌های خارج از ردیف از سایر نمونه‌ها نیز در نمودار پراکندگی بارهای مولفه‌ی دوم نسبت به مولفه‌ی سوم امکانپذیر است. استفاده از ماتریس‌های موقعیت و پراکندگی به دست آمده از برآوردگرهای مقاوم در روش‌های آمارهای چند متغیره یکی دیگر از کاربردهای پیشنهادی مهم برآوردگرهای مقاوم در تجزیه و تحلیل داده‌های اکتشافی محسوب می‌شوند.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

Application of Robust Estimators in Determining the Outlier Data; a Case Study: Geochemical Data of Shah Soliman Ali, South Khorasan Province

نویسندگان [English]

  • Hamid Geranian 1
  • Zahra Khajeh Miri 2
1 Dept. of Mining, Birjand University of Technology
2 Dept. of Geology, Shahid Bahonar University of Kerman
چکیده [English]

Summary
Identification and modification of multivariate outlier data is the first step to analyze exploration data through multivariate statistics. A key to this problem is reducing the data dimension to one by the distance between the sample and central point of the data set and then by comparing it with a threshold. To calculate this distance, the location and scatter matrixes are used instead of the mean and variance-covariance matrixes in the robust estimators. Therefore, to maintain the robustness of distance, these estimators apply the optimal subset rather than the entire data matrix. This paper introduces four robust estimators namely the MVE, MCD, S and SD. Then these estimators are used to determine outlier data of 146 regional stream sediment samples of Shah Soliman Ali at South Khorasan province and also to analyze 18 elements. The results show that the Mahalanobis distance classical methods display 7 samples and robust estimators MVE, MCD, S and SD introduce 23, 35, 20 and 34 samples as outliers, respectively. The principal component analysis in Q mode also show that the outlier samples with negative loads and the other samples with approximately positive loads show themselves in the second and the third components, respectively. It is also possible to separate outlier data from the rest in the scatter plot of the loads of PC 2 vs the loads of PC 3. The use of the location and scatter matrixes done by robust estimators is another important application of these estimators in multivariate statistics methods of exploration data analysis.
 
Introduction
Human errors and changing nature of exploration data distribution are two main reasons in the creation of Outliers. The first step in the processing of the exploration data will be Identification and then modification of them. Existence of outliers is also caused the bias in the mean matrix and inflation in the variance-covariance matrix. So in this paper, we propose the use of robust estimators as one of the solutions and their performance is also evaluated.
 
Methodology and Approaches
Results of the analysis of 18 elements to 146 stream sediments samples is used at the exploration region of Shad Soliman Ali as a data set. Four robust estimators such as MVE, MCD, S and SD have been also used to identify outlier data. And finally the results of the four estimator has been evaluated and compared with each other by PCA in Q mode.
 
Results and Conclusions
From 146 samples, the MVE, MCD, S and SD robust estimators detected 23, 35, 20 and 34 as outlier data, respectively. Outlier samples also show up themselves with the negative loads on the PC2 and other samples with positive loads on the PC1. The population of the Outlier samples and the population of another samples are separated in the scatter plot of the PC2 loads vs the PC3 loads. So depending on the number of samples, one of these estimators can be used to identify outlier data.

کلیدواژه‌ها [English]

  • Robust Estimator
  • Outlier data
  • Multivariate Statistics
  • Geochemical Data
  • Shah Soliman Ali Region
[1] Hawkins, D.M. (1980). Identification of Outliers. Volume 13 of Monographs on statistics and applied probability, Chapman and Hall.

[2] Wellmer, F.W. (1998). Statistical Evaluations in Exploration for Mineral Deposit, Translated by D. Large, Springer-Verlag, Berlin Heidelberg.

[3] Filzmoser, P., Garrett, R.G., and C., Reimann (2005). Multivariate outlier detection in exploration geochemistry, Com. & Geosci. 31, 579–587.

[4] Zhang, R., Zhou, M., Gong, X., He, X., Qian, W., Qin, S., and A., Zhou (2015). Detecting anomaly in data streams by fractal model. World Wide Web 18(5), 1419-1441.

[5] Aggarwal, C.C. (2013). Outlier Analysis, Springer, New York.

[6] Santos-Pereira, C.M., and A.M., Pires (2002). Detection of outliers in multivariate data: A method based on clustering and robust estimation, In Härdle, W., Rőnz, B., (eds), Compstat, Physica-Verlag Heidelberg, 291-296.

[7] Maronna, R.A., Martin, R.D., and V.J., Yohai (2006). Robust Statistics: Theory and Methods, John Wiley & Sons.

[8] Maronna, R. A., and R., Zamar (2002). Robust estimation of location and dispersion for high- Dimensional datasets. Technom. 44, 307-317.

[9] Hubert, M., and M., Debruyne (2010). Minimum covariance determinant. WIREs Comp. Stat. 2, 36-43.

[10] Huber, P.J., and E.M., Ronchetti (2009). Robust Statistics 2nd Edition, Wiley & Sons.

[11] Davies, P.L., and U., Gather (2007). The breakdown point – Examples and counterexamples. Stat. Jour. 5(1), 1–17.

[12] Hubert, M., J. Rousseeuw, P.J., and T., Verdonck (2012). A deterministic algorithm for robust location and scatter. Jour. Comput. & Grap. Stat. 21(3), 618–637.

[13] Rousseeuw, P.J. (1984). Least median of squares regression. J. Am. Stat. Assoc. 79, 871–880.

[14] Aelst, S.V., and P.J., Rousseeuw (2009). Minimum volume ellipsoid. WIREs Comp. Stat. 1, 71-82.

[15] Rousseeuw, P.J., and A.M., Leroy (1987). Robust Regression and Outlier Detection. John Wiley and Sons, New York, NY, USA.

[16] Kumar, P., and E.A., Yildirim (2005). Minimum-Volume Enclosing Ellipsoids and Core Sets. Jour. Optim. Theo. & Appl. 126(1), 1-21.

[17] Sun, P., and R.M., Freund (2004). Computation of minimum volume covering ellipsoids, Opera. Rese. 52, 690–706.

[18] Ahipaşaoğlu, S.D. (2014). Fast Algorithms for the Minimum Volume Estimator. Jour.of Glob. Optim. 62(2), 351-370.

[19] Rousseeuw, P. J., and K., Van Driessen (1999). A Fast Algorithm for the Minimum Covariance Determinant Estimator. Techn. 41, 212-223.

[20] Zuo, Y., and S., Lai (2011). Exact computation of bivariate projection depth and the Stahel–Donoho estimator. Compu. Stat. & Data Analy. 55, 1173–1179.

[21] Van Aelst, S., and E.W., Vandervieren (2011). A Stahel–Donoho estimator based on huberized outlyingness. Compu. Stat. & Data Anal. 56, 531–542.

[22] Gervini, D. (2002). The influence function of the Stahel–Donoho estimator of multivariate location and scatter. Stat. & Prob. Letters 60, 425–435.

[23] Maronna, R.A., and V.J., Yohai (1995). The behavior of the Stahel–Donoho robust multivariate estimator. J. Amer. Statist. Assoc. 90, 329–341.

[24] Debruyne, M., and M., Hubert (2009). The influence function of the Stahel_Donoho covariance estimator of smallest outlyingness. Stat. & Prob. Letters 79, 275_282.

[25] Davies, L., (1987). Asymptotic behavior of S-estimators of multivariate location parameters and dispersion matrices. Annals of Stat. 15, 1269–1292.

[26] Hubert, M., Rousseeuw, P., Vanpaemel, D., and T., Verdonck (2015). The DetS and DetMM estimators for multivariate location and scatter. Comput. Stat. & Data Anal. 81, 64-75.

[27] Salibian-Barrera, M., and V., Yohai (2006). A fast algorithm for S-regression estimates. Jour. of Comput. & Graph. Stat. 15, 414–427.

[28] Aghanabati, A., (2004). "Geology of Iran." Geological Survey of Iran, (586 p.). (In Persian).

[29] Eftekharnejad, J., (1990). "1:250000 Geology Map of Birjand", Geological Survey of Iran. (In Persian).

[30] Abdi, M., Karimpour, M.H. and A. Najafi (2010). "Geology, alteration Geology, alteration and mineralization potential of Kuh-Shah Region, South Khorasan." The First Congress of Economic Geology of Iran. (In Persian).

[31] Abdi, M., and M.H. Karimpour (2012). "Geology, alteration, mineralization, petrogenesis, geochronology, geochemistry and airborne geophysics of Kuh Shah prospecting area, SW Birjand." Journal of Ecomonic Geology 4(1): 77-107. (In Persian).

[32] Roshani Rodsari, P., Mokhtari, A.R., and S.H. Tabatabaei (2012). Investigation on Geochemical Association of Elements in Open and Closed Data System (Case Study: kuh-e Panj Copper Deposit (Kerman)). Journal of Analytical and Numerical Methods in Mining Engineering 2(4), 46-51. (In Persian).