پردازش زبان طبیعی
مقاله ای مفید و کامل
لینک پرداخت و دانلود *پایین مطلب*
فرمت فایل:Word (قابل ویرایش و آماده پرینت)
تعداد صفحه:32
چکیده:
رشد سریع اطلاعات الکترونیکی در عصر حاضر، زمینهساز ایجاد انواع متعدد شبکههای کتابشناختی گردیده است. دستیابی به اطلاعات الکترونیکی مستلزم استفاده از روش موثر در نمایهسازی و تشخیص کلیدواژههای مهم بیانگر محتوای یک مدرک است. در همین راستا، (او.سی.ال.سی)1 که بزرگترین شبکه کتابشناختی جهان محسوب میشود به منظور فراهم آوردن تسهیلات لازم برای دستیابی سریع وموثر به اطلاعات، اقدام به ساخت سیستمنمایهسازی خودتحت عنوان "وورد اسمیت" نموده است. مبنای کار این سیستم، تشخیص خودکار مفاهیم، کلمات و عبارات کلیدی در متن ماشینخوان، براساس »پردازش زبان طبیعی« است. به این ترتیب شبکه (او.سی.ال.سی) با استفاده از تئوریهای زبانشناسی محاسباتی و معنائی-که مورد تأکید پردازش زبان طبیعی است-و نیز با بکارگیری تئوریهای اطلاعرسانی و مدلهای آماری، سعی در ساخت نمایهای داشته است که علاوه بر همخوانی با حجم عظیم دادههای این شبکه، از کارآئی و توانائی کافی و لازم در بازیابی سریع و موثر اطلاعات از محیط شبکه نیز برخوردار باشد.
کلیدواژهها: شبکه کتابشناختی (او.سی.ال.سی)، نمایهسازی (دبلیو.اس)، نمایهسازی خودکار، پردازش زبان طبیعی
مقدمه
نمایه مهمترین ابزار در نظامهای بازیابی اطلاعات و کلید اساسی برای دستیابی به اطلاعات مندرج در منابع اطلاعاتی است. ارزش هر نمایه در گرو تهیه بهترین نقاط دستیابی و تأمین رضایت استفادهکنندگان در بازیابی اطلاعات است.
سالهاست که کتابداران مسائل مربوط به ذخیره و بازیابی اطلاعات را مدنظر قرار داده و برای کنترل موثر مواد سنتی، ابزاری را توسعه دادهاند. توجه به روند تکاملی فرآیند نمایهسازی مبیّن این نکته است که افزایش حجم انتشارات و تغییر در شکل ارائه خدمات اطلاعرسانی، نظامهای نمایهسازی را نیز دستخوش تحولات قابل توجهی نموده است. ابداع انواع نمایههای پیشهمارا، پس همارا، نمایههای خودکار و استفاده از انواع زبانهای طبیعی، آزاد و ساخت یافته یا کنترل شده همه تلاشهایی بودهاند در جهت بهبود و تکمیل فرآیند نمایهسازی در انجام رسالت خاص خود.
ایجاد شبکههای متعدد کتابشناختی و نیز رشد سریع آنها، فرصتهای متعدد و چالشهای بیسابقهای را فراروی حرفه کتابداری و اطلاعرسانی برای دستیابی به حجم عظیمی از اطلاعات گذارده است. چنین شرایطی نیاز به مجتمع و یکپارچهسازی منابع موجود در محیط وب و اینترنت همراه با انواع مواد سنتی کتابخانهای، ضرورت بررسی مجدد ابزارهای موجود در بازیابی اطلاعات و کنترل کتابشناختی را ایجاب مینماید.
بزرگترین شبکهء کتابشناختی پیوستهء موجود، شبکه (او.سی.ال.سی) میباشد (هسی-یی، 1996) که در سال 1967 ایجاد شده است و حاوی بیش از 31 میلیون رکورد در فرمتهای مختلف است. این شبکه یک سازمان تحقیقاتی غیرانتفاعی واقع در اوهایو میباشد که با ارائه خدمات کتابخانهای امکان دستیابی 41 هزار کتابخانهء مختلف را به اطلاعات فراهم میآورد. هدف کلی (او.سی.ال.سی) افزایش دسترسپذیری منابع کتابخانهای از طریق اشتراک در منابع و کاهش نرخ رشد هزینههای کتابخانهای است. شبکه (او.سی.ال.سی) در راستای تحقق بخشیدن به این هدف اقدام به تهیه پروژههائی نموده است که یکی از مهمترین این پروژهها، پروژه نمایهسازی دبلیو.اس میباشد.
هدف نمایهسازی دبلیو.اس اصلاح و بهبود دستیابی به اطلاعات الکترونیکی با استفاده از روشهای موءثر برای تشخیص کلیدواژههای مربوط به محتوای یک مدرک میباشد. تشخیص کلمات و عبارات باید به گونهای باشد که به بهترین نحوی مبیّن موضوع مدرک باشند و در نتیجه نمایههای مفید و کارآمدی برای مدارک موجود در وب ایجاد گردد. به همین منظور مبنای این نمایهسازی، تشخیص خودکار مفاهیم در متن ماشینخوان براساس پردازش زبان طبیعی، مدلهای آماری، زبانشناسی محاسباتی و تئوری ردهبندی میباشد.
مقالهء حاضر ضمن معرفی شبکهء کتابشناختی (او.سی.ال.سی) و اشاره به خدمات، پایگاههای اطلاعاتی و پروژههای این شبکه، بطور اجمالی به مرور نظامهای نمایهسازی و زبانهای بازیابی اطلاعات میپردازد و سپس طراحی و ساختار نظام نمایهسازی دبلیو.اس را تشریح مینماید.
پایگاه کتابشناختی (او.سی.ال.سی)
انواع پایگاههای کتابشناختی با هدف تسهیل و تسریع در ارائه خدمات کتابشناختی و کمک به پیشرفت دانش ایجاد شدهاند و از بدو پیدایش خود تاکنون با ارائه سرویسها و خدمات متعدد، افراد و کتابخانههای مختلف را در تحقق اهداف خود یاری بخشیدهاند. این پایگاهها دامنه وسیعی از خدمات را ارائه میدهند از جمله خدمات تهیه مواد، فهرستنویسی و خدمات مرجع. بسیاری از کتابخانهها به دلیل فشارهای اقتصادی، رشد روزافزون حجم انتشارات و در نتیجه لزوم وجود شبکهای برای اشتراک منابع و تعاون بین کتابخانهها و همچنین لزوم تغییر فاز از مالکیت به سمت دستیابی به اطلاعات، بر استفاده از این شبکهها تأکید دارند. بطور کلی از طریق این پایگاهها میتوان به سه پرسش اساسی پاسخ داد: 1) سئوالات کتابشناختی یعنی امکان بدست آوردن اطلاعات کامل دربارهء یک کتاب، مجله یا انواع خاص دیگر مواد کتابخانهای. سیستمهای شبکهای معمولاً دادههای فهرستنویسی کاملی بر روی صفحه (سی.آر.تی) پایانه میآورند. 2) سئوالات تحقیقی (تعیین صحت و سقم چیزی) مربوط به تشخیص هجی صحیح نام یک نویسنده، نام ناشر، تاریخ و غیره. 3) سئوال در مورد تعیین محل مدرک. از طریق این قبیل سیستمها میتوان فهمید که کدام کتابخانهها مواد اطلاعاتی مورد نیاز را دارند.
سیستمهای کتابشناختی مثل (آر.ال.آی.ان)، (او.سی.ال.سی) و غیره شبکههائی غیرانتفاعی و بینالمللی هستند که با روشهای متنوعی اداره میشوند و به شکلهای بسیار متفاوت اقدام به ارائه خدمات مینمایند. عملکردهای خاص این شبکهها عبارتند از: تعیین محل سریع کتاب، مقاله و غیره؛ فراهمآوری و تهیه مواد از طریق مستقیم یا غیرمستقیم؛ کنترل گردش و دستیابی فهرست راه دور و فهرستنویسی مشترک. هر سیستم شامل مدخلهای فهرستگان ملی مثلاً رکوردهای مارک است. این رکوردها شامل همه فرمتها از جمله کتاب، نشریهء ادواری و نسخ دستی میباشند.
بزرگترین شبکهء کتابشناختی موجود، شبکهء (او.سی.ال.سی) میباشد (هسییی، 1996) که به منظور دستیابی بیشتر به اطلاعات جهانی بوجود آمده است. موءسسات و کتابخانههای دانشگاهی و تحقیقاتی (هر کدام با توجه به نوع نیاز خود) در سطح وسیعی از این شبکه استفاده میکنند. این شبکه، یک سازمان تحقیقاتی غیرانتفاعی است که به ارائه خدمات کتابخانهای میپردازد و در اوهایو واقع شده است
و...
دانلود مقاله پردازش زبان طبیعی