راهنمای نگارش پایان نامه در مورد ارائه روشی … – منابع مورد نیاز برای مقاله و پایان نامه : دانلود پژوهش های پیشین |
- اتصال میانگین
از آنجا که هر دو روش خوشهبندی اتصال منفرد و اتصال کامل به شدت به نویز حساس میباشد، این روش که محاسبات بیشتری دارد، پیشنهاد شد. در این الگوریتم، فاصلهی بین دو خوشه به صورت میانگین فاصله بین همه جفتهایـــی است که یکی از آنها در خوشــهی نخست و دیگری در خوشهی دوم باشد (شکل ۲-۳، قسمت ب). به بیان دیگر:
که و دو خوشه هستند، و تعداد اشیای متعلق به دو خوشهی و هستند و فاصلهی بین دو عضو و است. خوشههایی که اتصال میانگین تولید میکند، فشردهتر از خوشههایی است که در اتصال منفرد تولید میشوند.
- اتصال کامل
به این روش خوشهبندی، تکنیک دورترین همسایه[۳۰] نیز گفته میشود. در این الگوریتم ، فاصلهی بین دو خوشه به صورت بیشینهی فاصله بین همه جفتهایی است که یکی از آنها در خوشـهی نخـست و دیگری در خوشهی دوم باشد (شکل ۲-۳، قسمت ج).
به بیان دیگر:
که و دو خوشه هستند و فاصلهی بین دو عضو و است.
این الگوریتم بیشتر مایل است که کلاسترهائی متراکم تولید کند، در حالی که کلاسترهای خروجی الگوریتم اتصال منفرد پراکنده و کشیده می باشد. نکته دیگر این که، تنها الگوریتم اتصال منفرد است که می تواند کلاسترهای هم مرکز استخراج کند، اما از نقطه نظر عملی، الگوریتمهای اتصال کامل محبوبیت بیشتری دارند .
۲-۲-۷- خوشهبندی افرازبندی یا پارتیشنی
آنچه که از یک الگوریتم خوشهبندی پارتیشنی بهدست می آید[۲۲]،[۲۳]، یک پارتیشن واحد از داده به جای یک ساختار کلاستری (چیزی شبیه دندوگرامی که در تکنیکهای سلسله مراتبی حاصل می شد) میباشد. متدهای پارتیشنی از این مزیت برخوردارند که میتوانند با مجموعه وسیعی از داده ها کار کنند و میدانیم که ساختن یک دندوگرام از نظر محاسباتی مقرون به صرفه نخواهد بود. اما مشکلی که الگوریتمهای پارتیشنی را دنبال می کند، این است که تعداد کلاسترهای خروجی چگونه انتخاب شود. روند تولید کلاسترها در تکنیکهای پارتیشنی بر این اساس است که یک تابع سنجش[۳۱] از قبل تعریف شده را بهینه کند. که این تابع ممکن است محلی باشد (بر روی زیرمجموعه ای از نمونه ها تعریف می شود) و یا سراسری (بر روی تمام نمونه ها) [۲۴]. محاسبهی مقدار بهینه واضح است که پر هزینه میباشد. بنابراین، در عمل معمولاً این الگوریتمها را چندین بار با حالات شروع مختلف بر روی نمونهها اجرا می کنند و بهترین ترکیب بهدست آمده برای خروجی کلاسترینگ استفاده میگردد .
( اینجا فقط تکه ای از متن فایل پایان نامه درج شده است. برای خرید متن کامل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )
معیار خطای مربعی[۳۲]، یکی از پرکاربردترین و مستقیمترین توابع سنجش در تکنیکهای خوشهبندی افرازبندی میباشد که بر روی خوشـههای متراکـم و ایزولــه بسیار خوب جواب میدهد. خطای مربعی روی یک عملیات خوشهبندی چون از یک مجموعه نمونههایی چون (شامل خوشه) به صورت زیر تعریف می شود :
(۲-۴)
در عبارت فوق امین نمونه متعلق به امین خوشه را با نشان داده است و مقدار عنصر مرکزی[۳۳] از امین خوشه میباشد. الگوریتم k-means، جز این دستهبندی قرار داردکه در ادامه بهتفصیل شرح داده خواهد شد.
۲-۲-۷-۱-الگوریتم k-means
این روش علیرغم سادگی به عنوان یک روش پایه برای بسیاری از روشهای خوشهبندی (مانند خوشهبندی فازی) محسوب میشود[۲۵]،[۲۶]. این روش، روشی انحصاری و مسطح است. برای این الگوریتم شکلهای مختلفی بیان شده است ولی همه آنها دارای روالی تکراری هستند که برای تعدادی ثابت از خوشهها سعی در تخمین موارد زیر دارند:
- به دست آوردن نقاطی به عنوان مراکز خوشهها: این نقاط در واقع همان میانگین نقاط متعلق به هر خوشه هستند.
- نسبت دادن هر نمونه داده به یک خوشه: آن داده باید کمترین فاصله تا مرکز آن خوشه را دارا باشد.
در نوع سادهای از این روش، ابتدا به تعداد خوشههای مورد نیاز، نقاطی به صورت تصادفی انتخاب میشود. سپس دادهها با توجه با میزان نزدیکی (شباهت) به یکی از این خوشهها نسبت داده میشوند و بدین ترتیب، خوشههای جدیدی حاصل میشود. با تکرار همین روال میتوان در هر تکرار با میانگینگیری از دادهها، مراکز جدیدی برای آنها محاسبه کرد و مجدادأ دادهها را به خوشههای جدید نسبت داد. این روند تا زمانی ادامه پیدا میکند که دیگر تغییری در دادهها حاصل نشود. به بیان دقیقتر:
قدم اول: در ابتدا K نقطه به صورت تصادفی به عنوان مراکز خوشه ها انتخاب می شوند. این مراکز بایستی با دقت زیاد انتخاب شوند، زیرا مراکز مختلف، نتایج مختلف را به وجود میآورند. بنابراین، بهترین انتخاب، قرار دادن مراکز در فاصله هر چه بیشتر از یکدیگر می باشد.
قدم دوم: هر نمونه داده به خوشهای که مرکز آن خوشه کمترین فاصله تا آن داده را داراست، نسبت داده می شود.
قدم سوم: پس از تعلق تمام داده ها به یکی از خوشه ها، برای هر خوشه یک نقطهی جدید به عنوان مرکز آن تعریف می شود که این نقطه میانگین نقاط متعلق به هر خوشه است. مراحل دو و سه تا زمانی که هیچ تغییری در مراکز خوشه ها ایجاد نشود، تکرار میگردد.
علیرغم اینکه خاتمهپذیری الگوریتم بالا تضمین شده است ولی جواب نهایی آن واحد نبوده و همواره جوابی بهینه نمیباشد. به طور کلی روش ساده بالا دارای مشکلات زیر است:
- جواب نهایی به انتخاب خوشههای اولیه وابستگی دارد.
- روالی مشخص برای محاسبهی اولیه مراکز خوشهها وجود ندارد.
- اگر در تکراری از الگوریتم تعداد دادههای متعلق به خوشهای صفر شد راهی برای تغییر و بهبود ادامه روش وجود ندارد.
- در این روش فرض شده است که تعداد خوشهها از ابتدا مشخص است اما معمولاً در کاربردهای زیادی تعداد خوشهها مشخص نمیباشد.
- علت محبوبیت این الگوریتم در این است که بهسادگی قابل پیادهسازی است. اما مشکل بزرگی که این روش را تهدید می کند این است که احتمال توقف در کمینه محلی وجود دارد.
انواع مختلفی از الگوریتم k-means در تحقیقات متعدد ذکر شده است[۲۷]، [۲۸]. بعضی از آنها تلاش کرده اند که یک تقسیم بندی اولیه خوب، انتخاب کنند تا الگوریتم بتواند به سوی پیدا کردن مقدار کمینه سراسری متمایل شود[۲۹].
مراحل پیاده سازی الگوریتم k-means به تفصیل عبارت است از:
گام اول:ایجاد مراکز اولیه خوشه ها ، با انتخاب تصادفی نقطه از بین کلیه نقاط داده.
گام دوم: محاسبهی ماتریس عضویت با بهره گرفتن از رابطه زیر:
(۲-۵)
گام سوم: محاسبهی تابع عضویت (عدم تشابه) با بهره گرفتن از معادله زیر:
(۲-۶)
توقف تکرار در صورتی که تغییرات آن نسبت به تکرار قبل، کمتر از حد آستانه تعریف شده باشد.
گام چهارم: محاسبهی مراکز جدید خوشه ها با بهره گرفتن از معادله ۲- ۷٫
فرم در حال بارگذاری ...
[سه شنبه 1401-04-14] [ 12:24:00 ق.ظ ]
|