فی دوو

مرجع دانلود فایل ,تحقیق , پروژه , پایان نامه , فایل فلش گوشی

فی دوو

مرجع دانلود فایل ,تحقیق , پروژه , پایان نامه , فایل فلش گوشی

پایان نامه انتخاب خوشه بندی ترکیبی با درنظرگرفتن کیفیت و تنوع

اختصاصی از فی دوو پایان نامه انتخاب خوشه بندی ترکیبی با درنظرگرفتن کیفیت و تنوع دانلود با لینک مستقیم و پر سرعت .

نوع فایل: word 2010

حجم فایل:685 کیلوبایت

تعداد صفحه:69
 
چکیده
انتخاب خوشه­بندی ترکیبی[1] با در نظر گرفتن کیفیت[2] و تنوع[3]به وسیله:
  این موضوع بسیار محتمل است که افرازی موجود باشد که آن افراز از طریق یک معیار پایداری[4] به عنوان یک معیار بد، داوری[5] شود در حالیکه آن افراز یک خوشه بسیار با ارزش[6] یا بیشتر را، شامل شود؛ و بعد آن خوشه کاملا نادیده گرفته می­شود. بنابراین، با الهام گرفتن از ارزیابی افرازها[7]، محققان به تعریف معیارهایی برای ارزیابی خوشه­ها پرداختند. معیارهای پایداری بسیاری مانند اطلاعات متقابل نرمال شده[8] برای اعتبارسنجی یک افراز[9]، پیشنهاد شده­اند. این معیارهای پیشنهاد شده، بر اطلاعات متقابل نرمال شده، بنا می­شوند. اشکال تکنیکی که بطور رایج استفاده می­شود در این مقاله بحث خواهد شد و یک معیار برای ارزیابی وابستگی[10] بین یک خوشه و یک افراز پیشنهاد می­شود که آن معیار، معیار اطلاعات متقابل نرمال و تصحیح شده، ENMI[11]، گفته می­شود. معیار ENMI اشکال معیار اطلاعات متقابل نرمال شده معمولی، NMI[12]، را تصحیح می­کند. همچنین، یک روش خوشه­بندی ترکیبی، که مبتنی بر تجمیع[13] زیرمجموعه­ای از خوشه­های اولیه[14] است، نیز پیشنهاد می­شود. روش پیشنهادی از میانگین ENMI[15] به عنوان معیار برازندگی[16] برای انتخاب تعدادی از خوشه­ها استفاده می­کند. خوشه­هایی که یک آستانه از پیش تعریف شده[17] مربوط به معیار ذکر شده را ارضا کنند، برای شرکت در ترکیب نهایی انتخاب می­شوند. برای ترکیب خوشه­های انتخاب شده مجموعه­ای از شیوه­های تابع توافق[18] بکار گرفته می­شود. یک کلاس از توابع توافق استفاده شده، توابع توافق مبتنی بر همبستگی[19] می­باشد. بخاطر اینکه روش خوشه­بندی انباشت مدرک، EAC[20]، نمی­تواند ماتریس همبستگی[21] را از مجموعه­ای از خوشه­ها بیرون بکشد، EAC توسعه یافته، EEAC[22]، برای ایجاد ماتریس همبستگی از مجموعه خوشه­های انتخاب شده بکار گرفته می­شود. دومین کلاس توابع توافق استفاده شده، بر الگوریتم­های افرازبندی ابر گراف[23] بنا می­شود. کلاس دیگری از توابع توافق استفاده شده، خوشه­های انتخاب شده را به عنوان یک فضای ویژگی[24] جدید در نظر می­گیرد و از یک الگوریتم خوشه­بندی ساده برای استخراج افرازبندی توافقی[25] استفاده می­کند. مطالعات تجربی نشان می­دهد که روش پیشنهادی از ترکیب­هایی که تاکنون شناخته شده­اند بهتر عمل می­کند و ترکیب مناسب­تری از خوشه­بندها را انتخاب می­کند.
واژه­های کلیدی: خوشه­بندی ترکیبی، معیار پایداری، پایداری بهبود یافته[26]، انباشت مدرک[27]، EAC بهبود یافته، ماتریس همبستگی، ارزیابی خوشه[28].


مقدمه
تشخیص الگو[1] تقریبا در تمام زمینه­های علمی استفاده شده است (N. Pattanasri, 2012). با این حال در دهه اخیر شیوه­های ترکیبی به عنوان یک شیوه قدرتمند، تقریبا در تمام زیر رشته­های تشخیص الگو در بین جوامع هوش مصنوعی[2] پدیدار شده­اند و آن اخیرا در رده­بندی نیز مورد توجه قرار گرفته است (R.R. Derakhshani, 2011؛ C.H. Wu, 2011؛ J. Wagner, 2011).
خوشه­بندی داده[3] یا یادگیری بدون نظارت[4] یک مساله پر چالش و مهم می­باشد. هدف خوشه­بندی افراز مجموعه­ای از اشیا بدون برچسب، به گروه­ها یا خوشه­های همگن[5] است (R.O. Duda, et al. 2001). کاربردهای زیادی وجود دارد که از تکنیک­های خوشه­بندی[6] برای کشف ساختارهای موجود در داده­ها استفاده می­کنند مانند داده­کاوی[7] (R.O. Duda, et al. 2001)، بازیابی اطلاعات[8]، قطعه­بندی تصویر[9]، و یادگیری ماشین[10] (A. Fred and A.K. Jain, 2005). در مسائل واقعی[11]، خوشه­ها می­توانند با شکل­­ها، اندازه­ها، درجات پراکندگی داده[12]، و درجات جدایی[13] متفاوت ظاهر شوند. تکنیک­های خوشه­بندی به تعریف یک معیار تشابه[14] بین هر جفت الگو نیاز دارد. به علت فقدان هیچ دانش قبلی درباره شکل­ها و ساختارهای خوشه، انتخاب یک روش خوشه­بندی تخصصی[15] آسان نیست (V. Roth, et al. 2002).
مانند همه زیر رشته­ها در تشخیص الگو و رده­بندی[16]مطالعات ترکیب خوشه[17] نیز در سال­های اخیر گرایش به شیوه­های ترکیبی[18] داشته­اند (K. Faceli, et al. 2006). شیوه­های ترکیب خوشه می­کوشند تا یک راه حل خوشه­بندی مستحکم­تر[19] و بهتر -از طریق آمیختن اطلاعات[20] از چندین افرازبندی داده­ای اولیه[21]- پیدا کنند (.G. Ayad, and M.S. Kamel, 2008). خوشه­بندی ensembles، (C. Domeniconi, and M. Al-Razgan, 2009؛ J. Ghosh, and A. Acharya, 2011؛ R. Ghaemi, et al. 2011)، ****[22]. افراز توافقی باید بهترین افراز نماینده[23]، برای همه خوشه­بندی­های اولیه[24] موجود در ترکیب باشد. افراز توافقی آن افرازی است که یک تابع هدف معین[25] را بهینه می­کند.
به طور عمومی، دو گام اصلی در خوشه­بندی ترکیبی وجود دارد: الف) ایجاد تعدادی افرازبندی ضعیف[26]، ب) تجمیع[27] افرازبندی اولیه بدست آمده. گام نخست ایجاد تعدادی افراز ضعیف می­باشد. بخاطر آنکه هر افرازبندی اولیه­ای یک جنبه پنهان داده[28] را آشکار می­کند، ترکیب­شان می­تواند اشکال­های انفرادیشان[29] را پوشش دهد. بنابراین، نتایج اولیه برای تا حد ممکن متنوع بودن نیاز می­شوند تا اطلاعات بیشتری درباره الگوهای پنهان موجود در داده[30] را ارائه دهد. روش­های بسیاری برای ایجاد تنوع لازم در نتایج اولیه پیشنهاد شده است. برای انجام این کار، ساده­ترین راه استفاده از الگوریتم­های خوشه­بندی مختلف می­باشد. بعضی روش­های دیگر از این راه­ها چنین کاری را انجام می­دهد: مقداردهی اولیه[31] متفاوت، پارامترهای الگوریتمی متفاوت، زیرمجموعه­ای از ویژگی­ها، نگاشت[32] داده به فضاهای ویژگی دیگر (.G. Ayad, and M.S. Kamel, 2008)، نمونه­برداری مجدد داده[33] (B. Minaei-Bidgoli, et al. 2004). در این مقاله نمونه­برداری مجدد، الگوریتم­های پایه متفاوت، مقداردهی اولیه متفاوت و پارامترهای متفاوت برای فراهم کردن تنوع لازم در نتایج اولیه، استفاده می­شوند. دومین گام اصلی در خوشه­بندی ترکیبی، ترکیب[34] افرازبندی­های اولیه حاصل از گام نخست است. جمع کننده مبتنی بر ماتریس همبستگی[35]، یکی از رایج­ترین شیوه­های ترکیب افراز اولیه است که در این مقاله نیز بکار برده می­شود. خوشه­بندی انباشت مدرک (EAC) [36] که نخست توسط فرد و جین[37] پیشنهاد می­شود، افرازهای داده­ای انفرادی[38] موجود در یک خوشه­بندی ترکیبی را، به یک معیار تشابه بین-الگویی جدید[39]، با خلاصه­سازی ساختارهای درون-الگویی[40] مشاهده شده از این خوشه­بندی­ها، نگاشت می­کند. افراز داده نهایی با اعمال روش تک-پیوند[41] با این ماتریس تشابه جدید بدست آورده می­شود(A. Fred and A.K. Jain, 2002).
برای ارزیابی یک خوشه، معیار NMI[42] (اطلاعات متقابل نرمال شده) (A. Fred and A.K. Jain, 2005) ضعف[43]­های زیادی دارد که در (H. Alizadeh, et al. 2011) تشریح شده است. علیزاده و همکاران نسخه دیگری از NMI که روش M
AX نامیده شده را پیشنهاد می­کنند. آنها همچنین نشان دادند که روش MAX نیز اشکال­هایی دارد، بنابراین آنها معیار دیگری که APMM نامیده شده را پیشنهاد می­کنند، که این اسم ابتدای اسامی نویسندگان آن است (H. Alizadeh, et al. 2011). کارهای پیشین از یک اثر نامناسب که در آن خوشه مکمل[44] از روی معیار خوشه ساخنه می­شود، رنج می­برند. بنابراین این مقاله یک معیار جدیدی برای ارزیابی یک خوشه معرفی می­کند که در آن ارزیابی تشابه میانگین مربوط به خوشه، از طریق حذف اثر خوشه مکملش، با خوشه­های دیگر خواسته می­شود.
در این مقاله یک روش خوشه­بندی ترکیبی نیز پیشنهاد می­شود که زیرمجموعه­ای از خوشه­های اولیه را استفاده می­کند. یک معیار اعتبار[45] جدید که stab نامیده می­شود برای ارزیابی خوبی خوشه[46] پیشنهاد می­شود. هر خوشه که یک آستانه[47] از stab را ارضا کند می­تواند برای شرکت در پیدا کردن افراز توافقی در نظر گرفته شود. برای ترکیب خوشه­های انتخابی، مجموعه­ای از روش­های تابع توافق بکار برده می­شوند. یک کلاس از توابع توافق استفاده شده، توابع توافق مبتنی بر همبستگی[48] می­باشد. از آنجا که روش EAC نمی­تواند ماتریس همبستگی را از زیرمجموعه­ای از خوشه­ها بیرون بکشد خوشه­بندی انباشت مدرک توسعه­یافته (EEAC) [49] برای تولید ماتریس همبستگی از زیرمجموعه انتخابی خوشه­ها بکار برده می­شود. دومین کلاس توابع توافق مورد استفاده، بر الگوریتم­های افرازبندی ابرگراف[50] بنا می­شود. کلاس دیگر توابع توافق مورد استفاده، خوشه­های انتخابی را به عنوان یک فضای ویژگی جدید در نظر می­گیرد و الگوریتم خوشه­بندی ساده­ای را برای استخراج افراز توافقی بکار می­برد.
 
پیش زمینه
  هنگامی که هر یک از خوشه­بندی­­های پایه روی زیرداده­ خاصی[51] خوب کار می­کند، خوشه­بندی ترکیبی تلاش می­کند تا به یک افراز توافقی مستحکم، و بطور همزمان بهینه برسد (.G. Ayad, and M.S. Kamel, 2008؛ A. Fred and A. Lourenco, 2008؛ A. Strehl and J. Ghosh, 2002؛ A.P. Topchy, et al. 2003). بطور کلی خوشه­بندی ترکیبی composes of two main parts: الف) استخراج افراز متفاوت زیادی خارج از داده که این قسمت ایجاد تنوع[52] نامیده می­شود و ب) تجمیع آنها در یک افراز توافقی از طریق روشی که تابع توافق نامیده می­شود (این دو قسمت با جزئیات بیشتر در ذیل توصیف می­شود).
استفاده از یک خوشه­بندی پایه با مقداردهی­های اولیه متفاوت منبعی از تولید تنوع مورد نیاز برای یک ترکیب بوده است. در این مسیر الگوریتم k-میانگین[53] بیشترین سهم را برای ایجاد تنوع مورد نیاز در یک ترکیب را دارد (B. Minaei-Bidgoli, et al. 2004؛ B. Minaei-Bidgoli, et al. 2011). بعد از ایجاد ترکیب متنوعی از افراز­های پایه نیاز به بکار گیری یک الگوریتم به منظور تجمیع آنها در یک افراز توافقی می­باشد. این الگوریتم همچنین معمولا بعنوان تابع توافق نیز خوانده می­شود. استفاده از یک ماتریس همبستگی که افراز­های پایه را نمایش می دهد و سپس استخراج یک افراز از آن ماتریس از طریق بکارگیری یک الگوریتم خوشه بندی سلسله مراتبی[54] مانند تک پیوند[55] یکی از رایج­ترین روش­ها می­باشد. روش EAC که بر ماتریس همبستگی بنا می­شود نخست توسط فرد و جین[56] معرفی شد (A. Fred and A.K. Jain, 2002) و خیلی زود یک روش محبوب شد.
توابع توافق دیگر بر الگوریتم­های افرازبندی ابرگراف[57] بنا می­شوند (A. Strehl and J. Ghosh, 2002). استرل و گوش[58] مفهوم افراز توافقی را معرفی کرده­اند. آنها سه تابع توافقی مبتنی بر مفهوم ابرگراف پیشنهاد کرده­اند. آنها ترکیب خوشه بندی­های پایه درون یک ابرگراف را طرح ریزی کرده­اند. رئوس[59] موجود در ابرگراف، نمونه­ها[60] هستند. لبه[61]­های ابرگراف خوشه­ها هستند یعنی لبه­ها ممکن است به بیش از دو راس متصل باشند، بنابراین یک لبه در ابرگراف ابرلبه[62] نامیده می­شود. با روش­های پیشنهاد شده توسط ریاضیدانان برای افراز ابرگره با کمترین برش[63] آنها رئوس یا نمونه­ها را خوشه­بندی کرده­اند. برای کاهش k-برش[64] از ابرگراف به k خوشه تاکنون تعدادی ابتکارات بطور خوب سازمان یافته[65]، برای حل k-روش مساله افرازبندی کمترین-برش[66] معرفی شده­اند. سه الگوریتم ابرگراف، CSPA، HGPA، و MCLA، توصیف خواهد شد.
در CSPA، فضای ویژگی اصلی درآغاز در یک فضای داده­ای همبسته طرح­ریزی می­شود. سپس با درنظر گرفتن این ماتریس بعنوان یک گراف یک الگوریتم مانند METIS بر داده طرح­ریزی شده برای خوشه کردن آنها اعمال می­شود. لازم است گفته شود که METIS الگوریتمی است که یک ابرگراف را به تعدادی جزء[67] افراز می­کند که کمترین برش را دارد. CSPA ساده­ترین روش ابتکاری میان سه روش می­باشد. این روش زمانبرترین[68] آنها نیز می­باشد. الگوریتم HGPA فرض می­کند که رئوس، *************.
الگوریتم METIS بر گراف تعریف شده برای خوشه کردن رئوس یا نمونه های دیتا اعمال می شود. MCLA تلاش می کند تا خوشه­های بدست آمده در افراز­های پایه ترکیب را خوشه­بندی کند. سپس یک مکانیزم مبتنی بر رای­گیری[69] را برای ایجاد افراز توافقی استفاده می­کند. نام دیگر این روش خوشه بندی خوشه[70] می­باشد. خوشه بندی خوشه با استفاده از METIS انجام می­شود. برای جزئیات بیشتر در مورد توابع توافقی مبتنی بر ابرگراف به (A. Strehl and J. Ghosh, 2002)رجوع کنید.
یک طبقه­بندی خوب از توابع توافقی مختلف در شکل (3-1) نشان داده شده است.

 

فهرست مطالب

  فصل 1: مقدمه  1

 1-1- مقدمه. 2

 فصل 2: پیش زمینه  6

 فصل 3: کار مرتبط   10

 فصل 4: خوشه بندی ترکیبی پیشنهادی   18

 4-1- گام اول: تولید خوشه های اولیه. 20

 4-2- گام دوم: محاسبه پایداری... 21

 4-3- گام سوم: انتخاب مبتنی بر پایداری... 26

 4-4- گام چهارم: تابع توافقی و بدست آوردن افراز نهایی... 27

 فصل 5: نتایج تجربی   32

 5-1- متریک ارزیابی... 33

 5-2- محکها 35

 5-3- تنظیمات آزمایش.... 36

 5-4- نتایج تجربی... 37

 فصل 6: نتایج   46

 مراجع  48

 

فهرست اشکال

  شکل (3-1) توابع توافقی مختلف.... 12

 شکل (3-2) طرح خوشهبندی ترکیبی پیشنهادی... 17

 شکل (4-1) محاسبه پایداری خوشه 1 افراز در شکل (4-1-الف). ملاحظه افراز در شکل (4-1-ب) از مجموعه مرجع استفاده کننده از روش NMI. 21

 شکل (4-2) محاسبه پایداری خوشه 1 افراز در شکل (4-2-الف). ملاحظه افراز در شکل (4-2-ب) از مجموعه مرجع استفاده کننده از روش Max. 24

 شکل (4-3) محاسبه پایداری خوشه 1 افراز در شکل (4-3-الف). ملاحظه افراز در شکل (4-3-ب) از مجموعه مرجع استفاده کننده از روش APMM. 24

 شکل (4-4) محاسبه پایداری خوشه 1 افراز در شکل (4-4-الف). ملاحظه افراز در شکل (4-4-ب) از مجموعه مرجع استفاده کننده از روش ENMI. 25

 شکل (4-5) محاسبه پایداری خوشه Ci 27

 شکل (4-6) چهار افراز π1 تا π4 از یک مجموعه داده ساده با 12 نقطه دادهای و دو خوشه واقعی از طریق خوشهبندی k-میانگین استخراج میشوند.k پارامتر در k-میانگین به ترتیب 3، 4، 2، و 2 گذاشته میشود. 27

 شکل (4-7) خوشههای استخراج شده از افرازهای شکل (4-6). 28

 شکل (4-8) روشهای مختلف برای انجام گام 4. 30

 شکل (4-9) روشهای مختلف برای خوشبندی ترکیبی... 31

 شکل (5-1) مجموعه داده halfring. 36

 شکل (5-2) محور افقی نشانگر نرخ خوشههای پایداری است که با استفاده از روش ENMI انتخاب میشوند. محور عمودی نشانگر مقدار NMI برای مجموعه داده Wine میباشد. 37

 شکل (5-3) محور افقی نشانگر نرخ خوشههای پایداری است که با استفاده از روش ENMI انتخاب میشوند. محور عمودی نشانگر مقدار NMI میانگینگیری شده روی هر ده مجموعه داده جدول (5-1) میباشد. 38

 شکل (5-4) محور افقی نشانگر نرخ خوشههای پایداری است که با استفاده از روش ENMI انتخاب میشوند. محور عمودی نشانگر مقدار دقت میانگین گیری شده روی هر ده مجموعه داده جدول (5-1) میباشد. 38

 شکل (5-5) محور افقی نشانگر نرخ خوشه های پایداری است که با استفاده از روش ENMI انتخاب میشوند. محور عمودی نشانگر معیار-F میانگین گیری شده روی هر ده مجموعه داده جدول (5-1) میباشد. 39

 شکل (5-6) محور افقی نشانگر نرخ خوشه های پایداری است که با استفاده از روش ENMI انتخاب میشوند. محور عمودی نشانگر میانگین محورهای عمودی در شکل (5-3)، شکل (5-4) و شکل (5-5) میباشد. 40

 شکل (5-7) محور افقی نشانگر نرخ خوشه های پایداری است که انتخاب میشوند. محور عمودی مشابه شکل (5-6) میباشد با این تفاوت که معیار MAX به عنوان معیار پایداری یک خوشه به کار میرود. 41

 شکل (5-8) محور افقی نشانگر نرخ خوشههای پایداری است که انتخاب میشوند. محور عمودی مشابه شکل (5-6) میباشد با این تفاوت که معیار APMM به عنوان معیار پایداری یک خوشه به کار میرود. 42

 شکل (5-9) محور افقی نشانگر نرخ خوشههای پایداری است که انتخاب میشوند. محور عمودی مشابه شکل (5-6) میباشد با این تفاوت که معیار NMI اصلی به عنوان معیار پایداری خوشه به کار میرود. 42

 

 فهرست جداول

  جدول (5-1) اطلاعات مختصر درباره مجموعه دادههای استفاده شده. 35

 جدول (5-2) دقت افراز توافقی تولید شده با انتخاب خوشه معیارهای NMI و MAX و APMM. 41

 جدول (5-3) نتایج تجربی... 44

 


دانلود با لینک مستقیم


پایان نامه انتخاب خوشه بندی ترکیبی با درنظرگرفتن کیفیت و تنوع
نظرات 0 + ارسال نظر
امکان ثبت نظر جدید برای این مطلب وجود ندارد.