بازیابی اطلاعات
چنانکه رکوردهای به ثبت رسیده در LISA نیز نشان میدهد، کاربرد عمده مجموعههای فازی در کتابداری و اطلاعرسانی، در حوزه بازیابی اطلاعات است. اساساً مفهوم ربط به دلیل نامشخص و نسبی بودنش، یک مفهوم فازی است (Hood & Wilson, 2002). در جریان جستجو و یافتن اطلاعات به رکوردهایی میرسیم که نمیتوان به طور قطع آنها را مرتبط یا کاملا بیربط با موضوع مورد جستجو تلقی کرد. بنابراین دو مفهوم ربط و فازی را می توان قرین و همزاد یکدیگر دانست.
عمدهترین ابزار ریاضی در بازیابی اطلاعات به شکل سنتی، جبر بولی است. تقریباً هر کسی که با یکی از پایگاههای اطلاعاتی، فهرستهای رایانهای، یا شبکه جهانی وب کار کرده باشد، از عملگرهای بولی بویژه برای انجام جستجوهای پیچیده استفاده کرده است. جبر بولی بر مبنای نظریه مجموعههاست. هر اصطلاحی که در مجموعهای از مدارک قابل بازیابی برای جستجو یا نمایه به کار میرود، میتواند با عملگرهای بولی (و، یا، نه) ترکیب شود. این اصطلاحات با یک سلسله مدارک موجود در نظام اطلاعاتی تطبیق داده میشود.
مفهوم ربط به دلیل نامعیّن بودنش، میتواند به راحتی به وسیله مدلهای مجموعة فازی مدلسازی شود. بنابراین، نظامهای بازیابی فازی به این صورت عمل میکنند: وقتی مدارک به سیستم اضافه میشوند، یک سلسله اصطلاحات به مدرک اختصاص یافته و به هر اصطلاحی وزنی داده میشود که درجه وابستگی آن اصطلاح به مدرک را نشان میدهد. نمایهساز آزاد است تعیین کند یک اصطلاح فقط تا حدودی به یک مدرک مرتبط است بدون اینکه ناگزیر باشد در خصوص مرتبط بودن یا نبودن آن اصطلاح، تصمیم قطعی بگیرد. در یک نظام بازیابی اطلاعات فازی، بازیابی بیشتر بر مبنای منطق مجموعههای فازی است تا مجموعههای جبری بولی. در نظام فازی، همان عملگرهای بولی (و، یا، نه) مورد استفاده قرار میگیرند، اما متکی بر «اجتماعِ» فازی، «اشتراکِ» فازی، و «به جز» فازی.
این رویکرد به بازیابی اطلاعات جنبههای نظری بسیاری دارد، زیرا به عنوان مدلی که در فرایند انتخاب منابع مرتبط توسط کاربران به مراتب مفیدتر است، ظاهر میشود. این مدل همچنین به نوعی جرح و تعدیل در نظام سنتی مکانیزمهای بازیابی بولی است، در حالی که قسمت عمدهای از مکانیزمها و زیرساختهای موجود در بازیابی اطلاعات، همچنان مفید هستند. به علاوه، بازیابی اطلاعات فازی در تخصیص اصطلاحات نمایه با استفاده از اصطلاحات مرتبط به قدر اصطلاحات کاملاً مرتبط، انعطافپذیر است.
سیستمهای بازیابی اطلاعات فازی با وجود تمام محاسنی که دارند، چندان در مقیاس وسیع به کار گرفته نشدهاند. دلیل این امر نیز هزینههای بالای نمایه کردن با روش فازی است. با وجود این، تحقیقات در نظام بازیابی فازی همچنان ادامه دارد و روز به روز نیز وسعت بیشتری مییابد(Hood & Wilson, 2002) .
اکنون به به اختصار[11]، به ارائه توضیحاتی درخصوص چگونگی کاربرد منطق یا تئوری مجموعههای فازی در بازیابی اطلاعات میپردازیم:
چنانکه قبلاً گفته شد، به جای این فرض که یک عنصر عضوی از یک مجموعه است، از تابع عضویت برای شناسایی درجه عضویت عنصر در یک مجموعه استفاده میشود. مجموعههای فازی برای بازیابی اطلاعات مفیدند، زیرا این مجموعهها میتوانند «موضوع» مدرک را توصیف کنند. به علاوه، از آنجا کهدر منطق فازی «زبان طبیعی» به جای متغیرهای عددی برای تشریح رفتار و عملکرد سیستم به کار میرود، میتوان برای بازیابی اطلاعات در بانکهای اطلاعاتی، به نحو مؤثری از آن بهره جست.
مجموعهای از عناصر که در آن هر عنصری محدوده مدرک را توصیف کند، ذاتاً مجموعهای فازی است. مدرکی که درباره «کتابهای کودکان و نوجوانان» است، ممکن است راجع به «روانشناسی کودک و نوجوان» نیز گفتگو کند. از این رو، ممکن است موضوع این مدرک تا حدودی درباره «روانشناسی کودک و نوجوان» باشد. قرار دادن روانشناسی کودک و نوجوان به عنوان عنصری از مجموعه، صحیح نیست، اما نادیده گرفتن آن نیز ما را از دقت لازم دور میکند.
یک مجموعه فازی دارای عضویتی است که در آن قوّت عضویت هر عنصر به شکل ذاتی دقیق نیست. در مثال بالا مجموعهای از مفاهیم که مدرک را توصیف میکند، به قرار زیر است:
C= {(children"s books, 1.0),(children"s psychology, 0.5)}
مجموعه C یک مجموعه فازی است، زیرا این مجموعه دارای درجات عضویت مربوط به هر عضو است. به طور قراردادی، یک مجموعه فازی که شامل مفاهیم موجود در C={c1,c2,….cn}باشد، به صورت زیر نمایش داده میشود:
در اینجا ،تابع عضویتی است که درجه عضویت عنصری را در مجموعه نشان میدهد (گراسمن و فریدر، 1384، ص 112-113).
از نظریة مجموعههای فازی به شکلهای گوناگون در بازیابی اطلاعات استفاده میشود. یکی از رایجترین این شکلها که در متون زیادی به آن پرداخت شده، بازیابی بولی مجموعههای فازی است.
بسط مجموعه فازی به منظور بازیابی بولی، در اواخر دهه 70 میلادی انجام گرفت (گراسمن و فریدر، 1384، ص113). ضریب تشابه بولی میتواند به وسیلة بررسی اصطلاحات موجود در مدرک به صورت فازی محاسبه گردد، زیرا عضویت اصطلاحات بر اساس تعداد رویداد آنها در مدرک صورت میپذیرد.
برای مثال، مجموعهD را که شامل همه مدارک مجموعه است، در نظر بگیرید. مجموعه فازیDt میتواند به صورت مجموعه D که تمام مدارک دارای اصطلاح t را توصیف می کند، محاسبه شود. این مجموعه به صورت:
نمایش داده می شود. دراینجا d1 شامل عنصرt با قوّت 0.8 و d2 شامل عنصرt با قوّت 0.5 است.
همینطور، مجموعه Ds به صورت مجموعهای از تمام مدارک که شامل اصطلاح S است، تعریف میشود. این مجموعه می تواند به صورت:
تعریف شود.
عملیات اصلی اشتراک، اجتماع، و متمم که اساس منطق بولی را تشکیل میدهد، در مجموعههای فازی به این صورت بیان شده است: اشتراک از حداقل دو تابع عضویت و اجتماع از حداکثر دو تابع عضویت که برای یک عنصر تعریف شده است، استفاده میکند. از تعاریف زیر برای به دست آوردن این مفاهیم استفاده میشود:
محاسبه به محاسبه و محاسبه به محاسبه نیاز دارد. این محاسبات می تواند با استفاده از مقدار حداکثر برای اجتماع، و مقدار حداقل برای اشتراک انجام شود. از این رو داریم :
درخصوص این روش، نکتهای که حتماً باید در نظر گرفته شود این است که این مدل، حاوی وزن اصطلاحات پرس و جو نیست (گراسمن ...، ص114).
روش دیگری که با استفاده از منطق فازی در بازیابی اطلاعات به کار گرفته میشود، روش استفاده از سلسله مراتب مفهومی و مجموعههای فازی است. این روش که برای اولین بار در سال 1991 معرفی شد، از شبکه مفهومی برای نشان دادن مفاهیم موجود در مدارک و پرس و جوها و نشان دادن ارتباط این مفاهیم، استفاده میکند (گراسمن ...، ص114). بعدها محققان ایرانی توانستند با بسط این روش، شیوهای مؤثر برای بازیابی اطلاعات در زبان فارسی ابداع کنند.به منظور برطرف کردن نقایص موجود در روشهای کلاسیک بازیابی و عملگرهای اولیه، یک درجه «کمیّت نمای فازی»[12] برای هر عبارت در یک پرس و جو محاسبه میشود. مثال زیر این روش را روشنتر میکند. فرض کنید یک کاربر علاقهمند است مدارکی به شرح زیر دریافت کند:
حداقل سه مورد از چهار اصطلاحی که در اختیار اوست، همراه با یک اصطلاح پنجم که حتماً باید در نتیجه جستجو باشد. چنین درخواستی بدین صورت نوشته میشود:
At least 3 (t1, t2, t3, t4) and t5
حال فرض کنید سند d با درجه عضویتی به شرح زیر انتخاب میشود:
نخست، برای محاسبه بخش اول عبارت یعنی حداقل سه مورد از (t1, t2, t3, t4) مجموعة فازی را که حاصل انطباق با سند d است، حساب میکنیم. (محاسبات این قسمت نظیر فرمولهایی است که در ابتدای همین فصل گفته شده است) این محاسبات به محاسبه کمّی «نماهای نیمه فازی»[13] منجر خواهد شد که به صورت زیر نمایش داده میشود:
otherwise
بنابراین، تمامی مقادیر کمّی نماهای فازی فوق، میتواند به صورت زیر محاسبه شود:
at least 3 (t1, t2, t3, t4) = 0 × 0.3 + 0 × 0.25 + 0 × 0.15 + 1 × 0.1 + 1 × 0 = 0.1
اکنون عضویت سند d نسبت به کل عبارت جبری، به قرار زیر خواهد بود:
0.1 and 0.4 = min (o.1, 0.4) = 0.1
شایان ذکر است، این روش به صورت عملی در یک مجموعه 65000 رکوردی از مقالههای روزنامه همشهری آزمایش شد. نتایج حاصل از این بررسی نشان داد روش یاد شده در زبان فارسی بهتر از زبان انگلیسی نتیجه داده و ضمناً نتایج آن در قیاس با روشهای حاصل از مدل «فضای برداری»[14] رضایتبخشتر بوده است (Nayyeri & Oroumchian, 2006, p.5).ادامه مطلب...