پروژه متلب الگوریتم ریشه یابی(stemming algorithm)
نمونه کاربردها:
طراحي يك ريشه ياب خودكار براي واژگان
چكيده: در پردازش زبانهاي طبيعي و بازيابي اطلاعات متني، استخراج خودكار ريشه واژگان از اهميت زيادي برخوردار است. در اين مقاله سعي شده است تا با بررسي انواع روشهاي مطرح براي ريشهيابي خودكار، و با استفاده از قوانيني كه براي صرف واژگان در دستور زبان فارسي وجود دارد، يك ريشهياب خودكار براي واژگان فارسي طراحي گردد. همچنين استثنائات موجود در قوانين صرف مورد بررسي قرار گرفته، و پيشنهادهايي نيز براي حل مشكل مرز بين واژهها ارائه گرديده است. ريشهياب پيشنهادي مورد آزمايش قرار گرفته و نتايج بسيار خوبي را توليد نموده است. تا آنجا كه نگارندگان مقاله مطلع هستند، ريشهياب پيشنهادي اولين ريشهياب خودكار براي واژگان فارسي به شمار ميرود.
كليد واژه: ريشهياب خودكار، صرف واژگان فارسي، پردازش خودكار متن
معرفی یک روش ترکیبی به منظور بازیابی موثر تصاویر
چکیده
در این تحقیق، روشی کارا برای بازیابی تصاویر ارائه شده که در آن، بر اساس آموزش، نتایج طی فرآیندی ترکیبی، بصورت مرتب شده به کاربر ارائه میشود. در روش پیشنهادی، از اطلاعات متنی موجود در کنار تصاویر برای استخراج ویژگیهای معنایی و از محتوای تصاویر به منظور استخراج ویژگیهای بصری و آموزش مدل مرتب سازی استفاده میشود. مدل مرتب سازی تابعی است که تصاویر پرسوجو و مجموعهداده را بعنوان ورودی دریافت کرده و نتایج را بصورت مرتب بر روی خروجی میفرستد. در این مقاله، ماژول بصری، ورودیاش را از ماژول متنی دریافت نموده و خروجی آن، به منظور تولید و بهبود نتایج نهایی، با نتایج ماژول متنی ترکیب میشود. از آنجا که معیار کارایی مورد استفاده، به ازای هر پرسوجو محاسبه میشود، در روش پیشنهادی از فرآیندِ آموزشیِ تکراری استفاده شده که در آن، معیار کارایی هر پرسوجو، در تمامی مراحل فرآیند تأثیر گذار است. نتایج بدست آمده از اعمال روش ارائه شده بر روی مجموعه داده ImageCLEF، نشان دهنده کارایی بالای این روش در مقایسه با سایر تحقیقات قبلی انجام شده است.
کلمات کلیدی
بازیابی تصاویر، ترکیب نتایج، استخراج ویژگی، مدل مرتب سازی، یادگیری مرتب سازی، بهبود نتایج
با توسعه اینترنت و بکارگیری وسیعتر دوربینهای دیجیتال، حجم مجموعههای تصویری به سرعت در حال افزایش است. لذا ابزارهایی برای جستجو و بازیابی بهینه تصاویر مورد نیاز است. بطور کلی دو چارچوب مبتنی بر متن[۱] و مبتنی بر محتوا[۲] برای بازیابی تصاویر وجود دارد. در سیستمهای مبتنی بر متن، تصاویر ابتدا بصورت دستی حاشیه نویسی[۳] شده و سپس حاشیههای نوشته شده، جهت انجام بازیابی مورد استفاده قرار میگیرند. این روش اگر به تنهایی اجرا شود معایبی دارد؛ از جمله اینکه نیازمند تصاویر حاشیه نویسی شده است. عیب دیگر این روش، ناشی از نگاههای مختلف افراد به یک تصویر خاص است که باعث میشود تصاویر به اشکال مختلف حاشیه نویسی شوند. در سیستمهای مبتنی بر محتوا، تعدادی ویژگی بصری – شامل رنگ، بافت و … – از تصاویر استخراج شده و تصاویر با توجه به ویژگیهای بصریشان با یکدیگر مقایسه میشوند. از آنجا که در این روش به اطلاعات متنی کنار تصاویر دسترسی وجود ندارد، امکان استخراج ویژگیهای معنایی که از متنهای کنار تصاویر قابل استخراج بود وجود نداشته و شکاف معنایی[۴] بین آنچه کاربر به دنبال آن است و چیزی که ویژگیهای بصری بیان میدارند بوجود میآید. بنابراین، از آنجا که نقطه قوت هر یک از روشها با روش دیگر قابل پوشش است، این دو روش میتوانند مکمل یکدیگر باشند و ترکیب آنها با یکدیگر نتایج بازیابی را بهبود میبخشد.
به عنوان نمونه در مرجع [۱] روشی ترکیبی ارائه شده که در بخش بازیابی مبتنی بر محتوا، تصاویر را به اشکال مختلفی بلاکبندی نموده و سپس هیستوگرام تصویر با ۴۳۳۷۶ تا bin را محاسبه کرده و از آن برای مقایسه تصاویر استفاده مینماید. در [۲] روشی معرفی شده که در آن هر تصویر به چند ناحیه تقسیم شده و هر ناحیه با یک مفهوم (مانند آب، صخره و …) معادلسازی و جایگزین میشود و سپس از این مفاهیم برای مقایسه تصاویر استفاده میگردد. در [۳] روشی بر مبنای خوشهبندی ارائه گردیده که بر طبق آن، تصاویر بر اساس بردار ویژگیهایشان خوشهبندی شده و از نتیجه حاصل برای هدایت بازیابی، به سمتی که تصاویر مرتبط با احتمال بیشتری در آنجا قرار دارند استفاده میشود.
در این مقاله روشی کارا ارائه شده که سعی در بهبود نتایج نهایی با استفاده از ترکیب نتایج و بکارگیری الگوریتمهای مرتب سازی دارد. در روش پیشنهادی، با استفاده از Boosting [4] تابع زیان دقیقاً بر اساس معیار کارایی مورد نظر کمینه میشود.
۲-۱ مفاهیم اولیه
چهار مفهوم در یادگیری ماشین و شناسایی الگو وجود دارد که مرتبط با روش ارائه شده در این مقاله هستند: ۱- Boosting 2- یادگیری مرتب سازی[۵] ۳- بهبود مستقیم معیار کارایی ۴- ترکیب نتایج.
روش Boosting فرآیندی به منظور افزایش دقت الگوریتمهای یادگیری ماشین است. ایده اصلی Boosting این است که بصورت تکراری، یادگیرندههای ضعیف، با استفاده از وزندهی مجدد دادههای آموزشی ساخته شده و نهایتاً یک سیستم ترکیبی[۶] از یادگیرندههای ضعیف تشکیل شود، بطوریکه کارایی کلی این سیستم، نسبت به هر یک از یادگیرندههای ضعیف، بهتر باشد.
مدل مرتب سازی تابعی است که تصاویر پرسوجو[۷] و مجموعهداده را بعنوان ورودی دریافت کرده و نتایج را بصورت مرتب بر روی خروجی میفرستد. یادگیری مرتب سازی فرآیندی است که در آن مدل مرتب سازی یاد میگیرد تصاویر را بر اساس امتیازهایشان مرتب نماید [۵]. برای نمونه میتوان به روش RankBoost [6] اشاره کرد. در این روش، ممکن است معیار محاسبه میزان مشابهت، به گونهای باشد که تأثیر منفی بر روی معیار کارایی مورد نظر بگزارد. لذا نیاز به روشی هست که مستقیماً و در تمام مراحل، معیار کارایی را در نظر گرفته و سعی در بهبود آن داشته باشد. در این زمینه میتوان به روش AdaBoost [7] اشاره کرد که برای کلاسبندی دودویی طراحی شده است. در AdaBoost و در هر تکرار، وزنهایی به همه نمونهها نسبت داده میشود که احتمال انتخاب شدن نمونهها برای مجموعه آموزشی را مشخص مینماید. در این روش و در ابتدا همه نمونهها یک وزن اولیه برابر میگیرند. در مرحله بعد، با توجه به نتایج مرحله قبل، وزنهای جدید اعمال شده و انتخاب نمونهها و کلاسبندی، با توجه به وزنهای جدید انجام میگیرد. این چرخه ادامه مییابد تا خطای مورد نظر از میزان معینی کمتر گردد.
ترکیب نتایج، زمانی که چندین ماژول بر روی مجموعه داده اعمال شوند میتواند باعث بهبود نتایج نهایی شود. در روش اول، عمل ترکیب میتواند در پایان و بر روی نتایج نهایی ماژولهای مختلف صورت گیرد. در روش دوم، میتوان از نتایج یکی از ماژولها، بعنوان ورودی ماژول دیگر استفاده نمود. در اینصورت، حجم محاسبات تا حد قابل قبولی کاهش مییابد، اما این خطر نیز وجود دارد که برخی از مواردی که جزء جوابهای اصلی مسأله هستند، در مرحله میانی حذف گردند. لذا باید پارامترهای خروجی ماژول اول طوری تنظیم شوند که خطای مذکور حداقل شود.
روش ارائه شده دارای سه ماژول اصلی است: ۱- ماژول متنی،
۲- ماژول بصری و ۳- ماژول ترکیب.
۲-۲ ماژول متنی
از LEMUR [8] به عنوان موتور بازیابی متنی استفاده شده است که از طریق آن تصاویر مرتبط، با توجه به بخش متنی پرسوجو و بخش متنی تصاویر مجموعه داده، بازیابی میشوند. برروی بخش متنی تمام تصاویر – هم پرسوجو و هم مجموعه داده – پیش پردازش زبانی صورت گرفته است. در این پیش پردازش، Stop-word ها مانند about و with حذف شدند و Stemming اعمال شد. در Stemming اشکال مختلف یک کلمه، به بخش مشترک آن کلمات کاهش داده میشوند. برای مثال، کلمات computer، computing و compute حذف شده و comput جایگزین آنها میشود. تصاویر حاصل از بازیابی متنی با ترتیبی نزولی و بر اساس میزان مشابهت با تصویر پرسوجو مرتب میگردند. در ادامه، یک نسخه از نتایج ماژول متنی که شامل لیستهای مرتبی از تصاویر مجموعه داده به ازای تمامی پرسوجو هاست، به ماژول بصری فرستاده شده و یک نسخه از آن نتایج، حفظ میگردد تا در پایان با نتایج حاصل از بازیابی بصری ترکیب و نتیجه نهایی تولید گردد.
لطفاً براي ارسال دیدگاه، ابتدا وارد حساب كاربري خود بشويد