منابع مورد نیاز برای پایان نامه : پروژه های پژوهشی و تحقیقاتی دانشگاه ها با موضوع پیش پردازش داده های نا متوازن … – منابع مورد نیاز برای مقاله و پایان نامه : دانلود پژوهش های پیشین |
به کارگیری اصول فشرده سازی داده می تواند نقش مهمی در کاهش داده بازی کند.فشرده سازی داده ها روشی است برای کاهش افزونگی در باز نمایی داده ها به منظور کاهش حافظه مورد نیاز و در نتیجه کاهش هزینه های ارتباطی و انتقال در یک شبکه ارتباطی.
( اینجا فقط تکه ای از متن فایل پایان نامه درج شده است. برای خرید متن کامل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )
شکل(2-6)-تجمیع مکعبی داده]1[
2-5-1-4-2 انتخاب زیر مجموعه مشخصه ها
مجموعه داده های تحلیلی ممکن است شامل هزاران ویژگی باشد که بسیاری از آنها ممکن است به وظایف کاوش داده ارتباطی نداشته و یا افزونه باشند. برای مثال اگر کار ما دسته بندی مشتریان به منظور دانستن وجود یا عدم وجود علاقه آنها به خرید محصول جدیدی باشد، ویژگیهایی از قبیل شماره تلفن مشتری نسبتا بی ارتباطند.
در عمل، نرخ خطای زیر مجموعه ها در مقایسه با خطای فوق مجموعه ها ممکن است حتی گاهی بهتر باشد. این موضوع به دلیل محدودیت عملی روش های پیش بینی و عدم توانایی آنها برای پویش و یا کاوش در یک فضای جواب پیچیده است.حذف ویژگیهای نامربوط معمولا منجر به ساخت مدلی می شود که روی داده آزمون بهتر جواب میدهد، یعنی تعمیم بهتری دارد.
2-5-1-4-3 کاهش تعدد نقاط
روش های کاهش تعدد در حقیقت به منظور انتخاب جایگزینی کوچکتر در بازنمایی داده به کار می رود. ممکن است حجم داده ها برای برخی از برنامه های داده کاوی بیش از حد بزرگ باشند. در عصری که صحبت از داده های ترابایتی آن هم فقط برای یک کاربرد تنها می شود، به سادگی امکان تجاوز از ظرفیت یک برنامه داده کاوی وجود دارد.
این روش ها می تواند پارامتریک یا ناپارامتریک باشد.برای روش های پارامتریک، یک مدل برای تخمین داده به کار می رود و بنابراین برای داشتن تخمینی از داده ها نیاز داریم تا تنها پارامترهای مدل را ( نه همان داده های واقعی ) نگه داریم. نمونه روش های پارامتریک، رگرسیون و مدلهای خطی -لگاریتمی و نمونه مدلهای ناپارامتریک،هیستوگرام، خوشه بندی و نمونه آماری است. بسیاری از این روشها در هموارسازی مطرح شدند.
2-5-1-5 تصویر کردن برای کاهش بعد
در کاهش بعُد از طریق تصویر کردن، تبدیلات و کدگذاریهایی روی داده انجام می شود که در نهایت بازنمایی کاهش یافته یا فشرده ای از داده اصلی به دست می آید. تصویر کردن با انتخاب مشخصه متفاوت است. در انتخاب مشخصه، مشخصه هایی جدید زیر مجموعه ای از مشخصه های اصلی هستند در حالی که در تصویر کردن، مشخصه های جدید ترکیبی خطی یا غیر خطی از مشخصه های اولیه می باشند. روش های کاهش بعُد ، نمایش کوتاهتری از مجموعه داده های اولیه را محاسبه می کند. این نمایش معمولا یک نمایش تغییر یافته است، زیرا هنگام انتخاب نمایش کوتاهتر، بعضی از اطلاعات از بین رفته اند. روش های کاهش بعُد برای نگهداری ساختار اصلی تا حد امکان تلاش می کنند.
روش های مختلفی در این رابطه وجود دارد که برخی از آنها عبارتند از :تحلیل مولفه های اصلی[18]، تجزیه مقدار منفرد[19]، تبدیلات گسسته فوریه، تبدیل موجک گسسته، تصویرکردن تصادفی، نگاشت سریع و مقیاس گذاری چندبعدی]1[.
-
- بعد ذاتی
بعد ذاتی را توپولوژی در اصل تعیین می کند آیا می توان الگوهای d را با کفایت در زیر فضای کوچکتر از d تعریف کرد یا خیر.
برای مثال الگوهای d بعدی که روی یک سطح صاف قرار گرفته باشند.دارای بعد ذاتی دو هستند (با دو پارامتر قابل تعریف هستند). مفهوم بعد ذاتی با بعد خطی که تعداد مقادیر ویژه ی مهم ماتریس کوواریانس ( در PCA) می باشد کاملا متفاوت است.
2-6 روش های ارزیابی دسته بندی
روش های مختلفی برای دسته بندی استفاده میشوند و این روش ها در شرایط مختلف، رفتارهای متفاوتی از خود نشان می دهند.شاخص های زیر این روش ها را با یکدیگر مقایسه می کنند:
صحت مدل[20] : صحت روش دسته بندی، وابسته به تعداد پیش بینی های درستی است که آن مدل انجام داده است.
سرعت[21] : زمان لازم برای ساخت و استفاده از مدل در دسته بندی است.
پایداری[22] : چنین شاخصی توانایی برخورد مدل در مواجهه با داده های غیر معمول و یا مقادیر مفقوده را نشان میدهد.
تفسیر پذیری[23] : این شاخص نشان دهنده میزان قابل فهم بودن مدل توسط دیگران و ارائه دیدگاهی روشن نسبت به نحوه دسته بندی و نوع دسته ها است.
جمع و جور بودن مدل[24] : اندازه مدل در ایجاد انگیزه جهت استفاده از آن بسیار مهم است.اندازه مدل می تواند اندازه درخت و یا تعداد قواعد ایجاد شده توسط آن مدل باشد.
همچنین باید با دو مفهوم زیر یعنی بیش برازش و مسئله تعمیم آشنا شد.
-
- بیش برازش چیست ؟
در روش های دسته بندی ممکن است مسئله بیش برازش اتفاق افتد.مثلا یک درخت تصمیم باعث بیش برازش داده های آموزش مدل شود.در این حالت دقت روی داده های آموزش مدل بالا است اما دقت در مورد داده های بعدی آزمون پایین می آید.در این حالت به علت اینکه شاخه های بسیاری در درخت به وجود آمده، ممکن است درخت حتی داده های مغشوش را هم دسته بندی کرده باشد که موجب شاخه های زائد در درخت و اشکال در دسته بندی داده های جدید می شود.
-
- مسئله تعمیم[25]
در مسائل دسته بندی از مجموعه محدودی از نمونه ها برای بدست آوردن مدل دسته بندی استفاده می شود.اگر داده های آزمون شبیه داده هایی باشند که مدل با آنها بدست آمده است، مشکلی پیش نمی آید.ولی در عالم واقع با داده های آموزش مدل نمیتوان همه سناریوهای ممکن را مشخص نمود.این همان مشکلی است که از آن به عنوان مسئله تعمیم یاد می شود.تعمیم مشخص می کند که تا چه میزان مدل نسبت به ورودی های ناشناس، که با مقادیر داده های آموزش مدل متفاوتند، پایدار است.
شکل(2-7)-نمایی از ریسک در دسته بندی]1[
مدل ساخته شده در روش دسته بندی برای داده های استفاده شده در ساخت آن و یا داده های شبیه به آنها درست جواب میدهد، اما همه داده ها شبیه به داده های آموزش نیستند و حتی در برخی موارد فضای ناشناخته ای وجود دارد که در مورد داده های آن فضا، هیچگونه اطلاعاتی در دسترس نیست.در هر صورت ناچار هستیم مدل را بر اساس داده های موجود بسازیم ولی باید سعی شود تا خطا و یا ریسک مدل را کم کرد]1[.
2-6-1 ارزیابی صحت روش های دسته بندی
فرض کنید با بهره گرفتن از داده های گذشته، یک مدل دسته بندی یا پیش بینی را آموزش داده و میخواهیم رفتار آینده متغیر هدف را بررسی کنیم.سوال اساسی این است که صحت روش دسته بندی یا پیش بینی مورد استفاده چه اندازه است و اینکه چگونه میتوان صحت دو یا چند روش دسته بندی با پیش بینی را با هم مقایسه کرد؟در ادامه چگونگی محاسبه صحت روش های دسته بندی به اختصار بیان می شود.
میزان صحت یک روش دسته بندی بر روی مجموعه داده های آموزشی، درصد مشاهداتی از مجموعه آموزشی است که به درستی توسط روش مورد استفاده، دسته بندی شده اند.در ادبیات تشخیص الگو، به این شاخص خاص “نرخ تشخیص” گفته می شود که نشان دهنده کیفیت تشخیص نمونه های دسته های متفاوت است.
برای محاسبه این شاخص از داده های آزمون استفاده می شود.در اینجا میتوان نرخ خطا یا دسته بندی نادرست را بر اساس شاخص صحت محاسبه کرد.اگر میزان صحت یک روش دسته بندی را با ACC (m ) نشان دهیم، میزان خطای آن برابر با 1-ACC ( m ) خواهد بود.از طرف دیگر خطایی که بر اساس داده های آموزشی(به جای داده های آزمون) محاسبه می شود خطای ” بازجانشانی”[26] نامیده می شود.این خطا تخمین خوشبینانه ای از خطای حقیقی است.
ماتریس اغتشاش ابزاری مفید برای تحلیل چگونگی عملکرد روش دسته بندی در تشخیص داده ها یا مشاهدات دسته های مختلف است.اگر داده ها در m دسته قرار گرفته باشند، یک ماتریس دسته بندی، جدولی با حداقل اندازه m * m است. عنصر Cijدر i این سطر و j امین ستون، نشان دهنده تعداد مشاهداتی از دسته i است که توسط روش دسته بندی به عنوان دسته j تشخیص داده شده است.برای اینکه یک روش دسته بندی، صحت بالایی داشته باشد، حالت ایده ال آن است که اکثر داده های مرتبط به مشاهدات بر روی قطر اصلی ماتریس قرار گرفته باشند و بقیه مقادیر ماتریس صفر و یا نزدیک به صفر باشند.ماتریس ممکن است سطر یا ستون اضافی داشته باشد که نشان دهنده مجموع عناصر یا درصد شناخت است.
به عنوان مثال اگر مشتریان به دو دسته تقسیم شوند، مشتریانی که کامپیوتر میخرند و آنهایی که نمیخرند.از انجا که در این مثال دو دسته تعریف شده است، ماتریس 2*2 است.عنصر(1،2) این ماتریس تعداد عناصری که برچسب دسته آنها “Yes ” بوده ولی به نادرستی در کلاس “No” ها دسته بندی شده اند را نشان میدهد و همینطور عنصر(2،1) نیز تعداد عناصری که برچسب دسته آنها “No ” است ولی به نادرستی در دسته “Yes” ها دسته بندی شده را نشان میدهد.
در این مثال از مفاهیمی استفاده شده است که به توضیح آنها میپردازیم. عنصر “مثبت درست”[27] به مشاهداتی از دسته C1 دلالت دارد که توسط روش دسته بندی به درستی تشخیص داده شده است.عنصر “منفی درست” [28]به مشاهداتی از دسته C2 دلالت دارد که توسط روش دسته بندی به درستی تشخیص داده شده است.به طور مشابه “منفی غلط”[29] مشاهداتی از دسته C1 است که توسط روش دسته بندی به نادرستی در دسته C2 قرار گرفته و “مثبت غلط”[30]مشاهداتی از دسته C2 است که توسط روش دسته بندی به نادرستی در دسته C1قرار گرفته است.
جدول 2-1 متغیرهای ارزیابی دسته بندی
C2
فرم در حال بارگذاری ...
[سه شنبه 1401-04-14] [ 12:21:00 ق.ظ ]
|