دانلود با لینک مستقیم و پر سرعت .
نوع فایل: word
قابل ویرایش 81 صفحه
مقدمه:
برای پیداکردن اطلاعات در وب، دو مسئله اساسی حرکت و جستجو مطرح می باشد[25] . بیشتر کاربران وب معمولاً از مرورگر وب برای حرکت در بین سایتهای وب استفاده می کنند و معمولا ً از صفحه اصلی سایت شروع کرده و روی لینکهای ارتباطی متناسب با علایقی که در ذهن خود دارند، کلیک کرده و به جستجوی نیازهای اطلاعاتی خود می پردازند. از طرف دیگر تعداد اطلاعات قابل دسترسی که در وب وجود دارد، بسیار زیاد است و هر ساله به حجم این اطلاعات افزوده می شود . بنابراین یکی از مسائل مهم در چنین مجموعه های بزرگ از اسناد (سایتها یا صفحات وب ) سازمان دهی اسناد به نحوی است که بتوان آنها را بصورت کارا بازیابی کرد. مسئله مهم دیگر این است که باید بتوان از اطلاعات کاربران قبلی که در وب به حرکت و جستجو می پردازند، استفاده کرد تا بتوان کاربران جدید را در امر حرکت و جستجو یاری کرد[27].
زمانی که کاربران چندین بار با توالی های مشخص به صفحات وب مراجعه می کنند، نشان دهنده یک نوع ارتباط بین آنها صفحات است. این نوع توالی ها را الگوهای حرکتی کاربران می گویند. این کاوش منجر به کشف ساختار ارتباطی اسناد وب می شود. کشف ساختار ارتباطی اسناد وب، باعث پیدا کردن اسناد مشابه بهم شده و می توان به وسیله آن به خوشه بندی و رتبه بندی اسناد وب پرداخت که درنتیجه سرعت جستجو و حرکت برای کاربران بعدی برای ادامه حرکت، به صورت آسان تری انجام می شود، هدف ازکاوش وب، استخراج اطلاعات از اسناد وب، به وسیله تکنیکهای داده کاوی است. داده کاوی عبارت است از فرآیند خودکار کشف دانش واطلاعات از پایگاههای داده ای برخی از ابزارهای داده کاوی عبارت اند از: هپیوندی، طبقه بندی الگوهای ترکیبی و خوشه بندی. به سبب علاقه افراد به جستجوی اطلاعات مختلف، کاوش وب امروزه در ابعاد وسیعی انجام می شود و منابع اطلاعاتی قابل دسترس روی وب رشد چشمگیری کرده است.
فهرست مطالب:
فصل اول: مقدمه
مقدمه انواع کاوش وب
ساختار پروژه
فصل دوم: کاوش استفاده از وب در موتور های جستجو
مقدمه
مقدمات کاوش استفاده از وب
قانون zipfs
فایلهای وارونه
کاربرد موتور جستجو
شاخص های مبتنی بر توزیع جستجو
طرح اولیه
بهبود زمان پاسخ دهی به پرس و جو
رتبه بندی براساس پرس و جوی کاربران و انتخاب ها
الگوریتم Masel
فصل سوم: بهره گیری از کاوش وب برای پیمایش الگو های مسیر
مقدمه
فرموله کردن مساله
تشریح پیمایش الگوهای مسیر
کارهای انجام شده
پیدا کردن حداکثر ارجاعات به جلو
جلسات
ساختلر های داده
یافتن حداکثر ارجاع به جلو از طریق فاصله زمانی بین جلسات
یافتن حداکثرارجاع به جلو از طریق شکاف جلساتی
تجزیه وتحلیل عملکرد
ویژگیهای حداکثر ارجاعات به جلو
الگوریتمی برای پیدا کردن حداکثر ارجاع به جلو
الگوریتم MF
پیدا کردن ارجاع متوالی تکرار شونده
الگوریتم FS
Shllow درخت پسوندی تعمیم یافته
کاوش پیمایش الگو های مسیر تکرار شونده
الگوریتم کاوش SbSfX
الگوریتم کاوش HbSfx
تجزیه وتحلیل عملکرد
فصل چهارم: کاوش استفاده از وب الگوریتم ها و نتایج
مقدمه
مراحل کاوش استفاده از وب
مرحله: پیش پردازش
مرحله: کاوش
مرحله: اجرای نتایج کاوش
کارهای انجام شده
الگوریتم TRANSACTIONIZATION
الگوریتم های کاوش
فصل پنجم: خوشه بندی گراف وب برای جستجو وحرکت
مقدمه
خوشه بندی
راهکارهای خوشه بندی گراف وب
الگوریتم
اجزای تشکیل دهنده فرآیند خوشه بندی
تکنیکهای خوشه بندی
الگوریتم های افراز
الگوریتم خوشه بندی به روش KMeans
الگوریتم های سلسله مراتبی
فهرست اشکال:
شکل2-1 : کلمات درون یک فرهنگ لغت
شکل 2-2 : فراوانی کلمات جستجو شده در یک گراف loglog
شکل 2-3 : کلمات جستجو شده تکراری
شکل 2-4 : دیاگرام حالت حرکت کاربران در موتور جستجوی
شکل2-5 : تفاوت بین ترتیباکتشافی و اتفاقی
شکل3-1 : پیمایش الگوهای مسیر
شکل 3-2 : الگوریتم ISMFR
شکل3-3 : مراحل و الگوریتم GSMFR
شکل 3-4 : مقایسه کارایی الگوریتم های ISMFR وGSMFR
شکل 3-5 : توزیع متراکم در الگوریتمMFR
شکل 3-6 : الگوریتمSbSfXMiner
شکل 3-7 : الگوریتم HbSfXMiner
شکل 3-8 : مقایسه کارایی الگوریتم های SbSfXMiner و HbSfXMinerبا Ukknonenو electivScan
شکل 4-1 : الگوریتم Transactionization
شکل 4-2: الگوریتم WTBD
شکل 5-1 : الگوریتم پیدا کردن گره های تصادفی
شکل 5-2: الگوریتم گروه بندی گره ها به وسیله جستجوی محلی
شکل 5-3 : شبه کد الگوریتم K_Means
شکل 5-4 : نمودار دندوگرام
فهرست جداول
جدول 1-1 : انواع کاوش وب
جدول 2-1: مقایسه بینموتور جستجوی متفاوت
جدول 2-2: پرس و جوی های رایج درونموتور جستجو
جدول 4-1: نونه ای از یک لاگ فایل
جدول 4-2 : تراکنش های استخراج شده از جدول
واژگان
مراجع
منابع و مأخذ:
[1]: Zipf, G. (1932). Selective studies and the principle of relative frequency in language. Cambridge, MA: Harvard University Press.
[2]: Baeza-Yates, R., and Saint-Jean, F. (2003a). Query analysis in a search engine and its application to rank Web page (in Spanish), BID 10, Barcelona, Spain
[3]: Spink, A., Jansen, B.J., Wolfram, D., and Saracevic, T. (2002). From e- sex to e-commerce: Web search changes. IEEE Computer, 35(3), 107-109.
[4]: Wolfram, D. (2002). A query-level examination of end user searching behavior on the Excite search engine. Proceedings of the 28 Annual Conference Canadian Association for Information Science.
[5]: Baeza-Yates, R., and Saint-Jean, F. (2003b). A three level search engine index based in query log distribution. SPIRE 2003, Manaus, Brazil.
[6]: Zhang, D., and Dong, Y. (2002). A novel Web usage mining approach for search engine. Computer Network, 39(3), 303-310.
[7]: Cooley, R., Mobasher, B., and Srivastava, J. (1997b).Web mining : information
and pattern discovery on the World Ward Web. Proceedings of the IEEE International Conference Tools with AI, (pp. 558-567).
[8]: Chen, M.S., Park, J.S., and Yu, P.S. (1998). Efficient data mining for path traversal patterns. IEEE Transactions on Knowledge and Data Engineering, 10(2), 209-221.
[9]: Ukkonen, E. (1995). On-line construction of suffix trees. Algorithmica, 14(3), 249-260. Data preparation for mining.
[10]: Cooley, R., Mobasher, B., and Srivastava, J. (1999).World Wide Web browsing patterns. Journal of Knowledge and information Systems, 5-33
[11]: Chen, Z., Flowler, RH., and Fu, A. (2003). Linear time algorithms for finding maximal forward references. Proceedings of the IEEE International Conference on Information Technology: Coding and Computing, (pp. 160-164).
[12]: Berendt, B., Mobasher, B., Spiliopoulou, M., and Wiltshire, J. (2001). Measuring the accuracy of sessionizers for Web usage analysis. Proceeding of the Workshop on Web Mining at the First SIAM International Conference on Data Mining, (pp. 7-14).
[13]: Weiner, P. (1973). Linear pattern matching algorithms. Proceedings of the 14th IEEE Annual Symposium on Switching and Automata Theory, (pp. 1-11).
[14]: Gusfield, D. (1997). Algorithms on strings, trees, and sequences. Cambridge University Press.
[15]: Chen, Z., Fowler, R.H., Fu, A., and Wang, C. (2003). Fast construction of generalized suffix trees over a very large alphabet. Proceedings of the Ninth International Computing and Combinatorics Conference, Lecture Notes in computer Science LNCS 2697, (pp. 284-293).
[16]: Pitkow, J. (1997). In search of reliable usage data on the WWW. Proceedings of the International World Wide Web Conference, Santa Clara, California, 451-463.
[17]: Cooley, R., Mobasher, B., and Srivastava, J.
(1997a). Grouping Web page references in to transaction for mining World Wide Web browsing patterns. Proceedings of the IEEE International Kawledge and Data Engineering Workshop, Netport Beach, CA, 2-9.
[18]: Byrne, M.D., John, B.E., Wehrle, N.S., and Crow, D.C. (1999). The tangled Web we wove: A taskonomy of WWW use. Proceedings of the International Conference on Human Factors in Computing Systems, Pittsburgh, Pennsylvania, 544-551.
[19]: Cockburn, A., and Mckenzie, B. (2001). What do Web user do ? An empirical analysis of Web use. International Journal of Human-Computer Studies, 54(6), 903-922.
[20]: Woon, Y.K., Ng, W.K., and Lim, E.P. (2002). Online and incremental mining of separately grouped Web access logs. Proceedings of the 3rd International Conference on Web Information Systems Engineering, Singapore.
[21]: Hartigan, J. (1975). Clustering algorithms. John Wiley.
[22]: McQueen, J. (1967). Some methods for classification and analysis of multivariate observation. Preceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, (pp. 281-297).
[23]: Jain, A.K, Murty, M.N, and FLYNN,P.J. (1999). "DataClustering:AReview," ,ACM Computing Surveys,Vol.31, No.3.
[24]: Minh, D.L.(2000). "Applied probability models," Duxbury, Thomson Learning, ISBN 0-534-38157-x.
[25]: Jianhan, zhu. (2003). "Mining Web Site Link Structures for Adaptive Web Site Navigation and Search," Ph.D Thesis, university of ulster at jordanstown.
[26]: O, Etzioni. (1996). The world wide web: Quagmire or goldmine.
Communication of the ACM, 39(11): 65-68
[27]: اناری، ب.، "الگوریتمهایی مبتنی بر اتوماتاهای یادگیر برای تعیین ساختار اسناد وب و کاربردهای آنها" پایان نامه کارشناسی ارشد،دانشکده مهندسی کامپیوتر، دانشگاه آزاد اسلامی واحد اراک.