این مقاله در قالب ورد ارائه می شود و قابل ویرایش می باشد
چکیده
بازی های غیر قطعی(تصادفی) به عنوان توسعه ای از فرآیندهای تصادفی مارکوف با چندین عامل در سیستمهای چند عامله و مدل سازی آنها حائز اهمیت بوده و به عنوان چارچوبی مناسب در تحقیقات یادگیریتقویتی چندعامله بهکاررفتهاند. در حال حاضراتوماتاهاییادگیر به عنوان ابزاری ارزشمند در طراحی الگوریتمهای یادگیری چند عامله به کار رفته اند. در این مقاله مدلی مبتنی براتوماتای یادگیر و مفهوم آنتروپی برای حل بازی های غیر قطعی و پیدا کردن سیاست بهینه در این بازیها ارائه شده است. در مدل پیشنهادی به ازای هر عامل در هر حالت از محیط بازی یک اتوماتای یادگیربا ساختار متغیر از نوع S قرارداده شده است که اعمال بهینه را در هر حالت یاد می گیرند. تعداد اعمال هر اتوماتا با توجه به همسایگان مجاور هر حالت تعیین شده و ترکیب اعمال اتوماتاها حالت بعدی محیط را انتخاب میکند. در مدل پیشنهادی از آنتروپی بردار احتمالات اتوماتای یادگیر حالت جدید برای کمک به پاداش دهی اتوماتاها و بهبود یادگیری استفاده شده است. برای بررسی و تحلیل رفتار الگوریتم یادگیری پارامتری به نام آنتروپیکلی تعریف گردیده که میزان همگرایی را در الگوریتم یادگیری بیان می کند. در نهایت الگوریتمی اصلاح یافته با ایجاد تعادل بین جستجوو استناد بر تجربیات پیشنهاد شده است. نتایج آزمایش ها نشان می دهد الگوریتم ارائه شده از کارایی مناسبی از هر دو جنبه هزینه و سرعت رسیدن به راهحل بهینه برخوردار است.
مقاله مدلیمبتنی بر آنتروپیو اتوماتاهای یادگیر برای حل بازی های تصادفی