به هر دادهای که
در ETL (Exacting Transform Loading)، پاک سازی اطلاعات در مرحله Transforming قرار داردکه با دیدگاه دیتابیسی و یکپارچه سازی اطلاعات به آن نگاه میشود و در زمان ساخت دیتامارتهایی که برای دادهکاوی استفاده خواهند شد نیز فرآیند پاکسازی را داریم که با مفهوم داده کاوی به موضوع نگاه میشود که شباهتهایی با پاکسازی ETL دارد. بعضی از کارهای پاکسازی به علت اینکه در Transforming انجام شده است در این مرحله نیازی به انجام آنها نمی باشد.
دادههای پرت و نویزها بسیار شبیه به هم هستند و گاهی تفکیک این دو از هم بسیار کاری سخت و پیچیده هست. روشهای پیدا کردن دادههای پرت
روش های پیدا کردن دادههای پرت به دو دوسته تقسیم میشوند.
- روش عددی
در این روش خروجی الگوریتم یک مقدار عددی خواهد بود که رتبه بندی دادهها خروجی این الگوریتمها میباشد
- روش دودویی
خروجی این الگوریتمها داده پرت هست یا داده پرت نیست، میباشد.
شناسایی توزیع دادهها و انتخاب مناسب برای پیدا کردن دادههای پرت مرحله اول کار هستش. اگر دادهها دارای توزیع گوسی باشند و ما از روشهای رگرسیون برای پیدا کردن دادههای پرت استفاده کنیم مدلی که ساخته خواهد شد دارای خطای بسیار زیادی خواهد بود.
نرم افزار ELKI-PROJECT بیشتر روشهای روتین کشف دادههای پرت رو پیاده سازی کرده.