روزنوشت

پش پردازش - داده های پرت (Outlier)

داده پرت

به هر داده‌ای که

در ETL (Exacting Transform Loading)، پاک سازی اطلاعات در مرحله Transforming قرار داردکه با دیدگاه دیتابیسی و یکپارچه سازی اطلاعات به آن نگاه می‌شود و در زمان ساخت دیتامارت‌هایی که برای داده‌کاوی استفاده خواهند شد نیز فرآیند پاکسازی را داریم که با مفهوم داده کاوی به موضوع نگاه میشود که شباهت‌هایی با پاک‌سازی ETL دارد. بعضی از کارهای پاک‌‎سازی به علت اینکه در Transforming انجام شده است در این مرحله نیازی به انجام آن‌ها نمی باشد.

داده‌های پرت و نویزها بسیار شبیه به هم هستند و گاهی تفکیک این دو از هم بسیار کاری سخت و پیچیده هست. روش‌های پیدا کردن داده‌های پرت

روش های پیدا کردن داده‌های پرت به دو دوسته تقسیم می‌شوند.

  • روش عددی
    در این روش خروجی الگوریتم یک مقدار عددی خواهد بود که رتبه بندی داده‌ها خروجی این الگوریتم‌ها می‌‎باشد
  • روش دودویی
    خروجی این الگوریتم‌ها داده پرت هست یا داده پرت نیست، می‌باشد.

شناسایی توزیع داده‌ها و انتخاب مناسب برای پیدا کردن داده‌های پرت مرحله اول کار هستش. اگر داده‌ها دارای توزیع گوسی باشند و ما از روش‌های رگرسیون برای پیدا کردن داده‌های پرت استفاده کنیم مدلی که ساخته خواهد شد دارای خطای بسیار زیادی خواهد بود.


نرم افزار ELKI-PROJECT بیشتر روش‌های روتین کشف داده‌های پرت رو پیاده سازی کرده.

۰۲ دی ۹۶ ، ۰۸:۲۶ ۰ نظر موافقین ۰ مخالفین ۰
محمد مهدی صاحبی

نصب lpSolve و lpSolveAPI در نرم افزار R

دیروز برای نصب ماژول lpSolve روی ویندوز به مشکل خوردم. تو لینوکس ماژول‌ها نرم افزار R به راحتی و بدون مشکل نصب میشن اما توی ویندوز متاسفانه خطای نصب و پیدا نشدن سرور رو میده. یکی از روش‌های جایگزین نصب ماژول به صورت دستی هست.

نصب معمولی پکیج:
برای نصب به صورت معمولی کافیه دستورهای زیر روی اجرا کنیم. ماژول به راحتی باید نصب بشه، اگر نصب ماژول به مشکل خورد برین روش بعدی رو اجرا کنین.


install.packages("lpSolve")
install.packages("lpSolveAPI")


نصب دستی پیکیج:
1- فایل زیپ (فشرده شده ZIP) ماژول lpSolve و lpSolveAPI یا هر ماژول دیگه ای که لازم دارین رو نسخه ویندوزش رو از سرور CARN دانلود کنید.
2- فایل رو کپی کنین داخل یکی از درایوهاتون مثلا D
3- مشابه دستور نصب معمولی پکیچ کافیه اسم درایو و فایل رو به دستور install.packages بدین.

install.packages("D:\\lpSolve.zip")
install.packages("D:\\lpSolveAPI.zip")

روز خوبی رو با R و حل معادلات بهینه سازی داشته باشین.

۲۰ مهر ۹۶ ، ۰۹:۵۳ ۰ نظر موافقین ۰ مخالفین ۰
محمد مهدی صاحبی

بنام حضرت دوست که هر چه داریم از اوست

۲۰ مهر ۹۶ ، ۰۹:۵۲ ۰ نظر موافقین ۰ مخالفین ۰
محمد مهدی صاحبی

عنوان دومین مطلب آزمایشی من

این متن دومین مطلب آزمایشی من است که به زودی آن را حذف خواهم کرد.

زکات علم، نشر آن است. هر وبلاگ می تواند پایگاهی برای نشر علم و دانش باشد. بهره برداری علمی از وبلاگ ها نقش بسزایی در تولید محتوای مفید فارسی در اینترنت خواهد داشت. انتشار جزوات و متون درسی، یافته های تحقیقی و مقالات علمی از جمله کاربردهای علمی قابل تصور برای ,بلاگ ها است.

همچنین وبلاگ نویسی یکی از موثرترین شیوه های نوین اطلاع رسانی است و در جهان کم نیستند وبلاگ هایی که با رسانه های رسمی خبری رقابت می کنند. در بعد کسب و کار نیز، روز به روز بر تعداد شرکت هایی که اطلاع رسانی محصولات، خدمات و رویدادهای خود را از طریق بلاگ انجام می دهند افزوده می شود.

۲۸ آذر ۹۵ ، ۱۱:۲۱ ۱ نظر موافقین ۰ مخالفین ۰
محمد مهدی صاحبی

عنوان اولین مطلب آزمایشی من

این متن اولین مطلب آزمایشی من است که به زودی آن را حذف خواهم کرد.

مرد خردمند هنر پیشه را، عمر دو بایست در این روزگار، تا به یکی تجربه اندوختن، با دگری تجربه بردن به کار!

اگر همه ما تجربیات مفید خود را در اختیار دیگران قرار دهیم همه خواهند توانست با انتخاب ها و تصمیم های درست تر، استفاده بهتری از وقت و عمر خود داشته باشند.

همچنین گاهی هدف از نوشتن ترویج نظرات و دیدگاه های شخصی نویسنده یا ابراز احساسات و عواطف اوست. برخی هم انتشار نظرات خود را فرصتی برای نقد و ارزیابی آن می دانند. البته بدیهی است کسانی که دیدگاه های خود را در قالب هنر بیان می کنند، تاثیر بیشتری بر محیط پیرامون خود می گذارند.

۲۸ آذر ۹۵ ، ۱۱:۲۱ ۰ نظر موافقین ۱ مخالفین ۰
محمد مهدی صاحبی