داده پرت

به هر داده‌ای که

در ETL (Exacting Transform Loading)، پاک سازی اطلاعات در مرحله Transforming قرار داردکه با دیدگاه دیتابیسی و یکپارچه سازی اطلاعات به آن نگاه می‌شود و در زمان ساخت دیتامارت‌هایی که برای داده‌کاوی استفاده خواهند شد نیز فرآیند پاکسازی را داریم که با مفهوم داده کاوی به موضوع نگاه میشود که شباهت‌هایی با پاک‌سازی ETL دارد. بعضی از کارهای پاک‌‎سازی به علت اینکه در Transforming انجام شده است در این مرحله نیازی به انجام آن‌ها نمی باشد.

داده‌های پرت و نویزها بسیار شبیه به هم هستند و گاهی تفکیک این دو از هم بسیار کاری سخت و پیچیده هست. روش‌های پیدا کردن داده‌های پرت

روش های پیدا کردن داده‌های پرت به دو دوسته تقسیم می‌شوند.

  • روش عددی
    در این روش خروجی الگوریتم یک مقدار عددی خواهد بود که رتبه بندی داده‌ها خروجی این الگوریتم‌ها می‌‎باشد
  • روش دودویی
    خروجی این الگوریتم‌ها داده پرت هست یا داده پرت نیست، می‌باشد.

شناسایی توزیع داده‌ها و انتخاب مناسب برای پیدا کردن داده‌های پرت مرحله اول کار هستش. اگر داده‌ها دارای توزیع گوسی باشند و ما از روش‌های رگرسیون برای پیدا کردن داده‌های پرت استفاده کنیم مدلی که ساخته خواهد شد دارای خطای بسیار زیادی خواهد بود.


نرم افزار ELKI-PROJECT بیشتر روش‌های روتین کشف داده‌های پرت رو پیاده سازی کرده.