50000 تومان
افزودن به سبد خرید
0 فروش 693 بازدید
جزئیات محصول
تاریخ انتشار: 08 فوریه 2021
دسته بندی: ,,

تبلیغات

پروژه متلب الگوریتم ریشه یابی(stemming algorithm)

نمونه کاربردها:

طراحي يك ريشه‏ ياب خودكار براي واژگان

چكيده: در پردازش زبانهاي طبيعي و بازيابي اطلاعات متني، استخراج خودكار ريشه واژگان از اهميت زيادي برخوردار است. در اين مقاله سعي شده است تا با بررسي انواع روشهاي مطرح براي ريشه‏يابي خودكار، و با استفاده از قوانيني كه براي صرف واژگان در دستور زبان فارسي وجود دارد، يك ريشه‏ياب خودكار براي واژگان فارسي طراحي گردد. همچنين استثنائات موجود در قوانين صرف مورد بررسي قرار گرفته، و پيشنهادهايي نيز براي حل مشكل مرز بين واژه‏ها ارائه گرديده است. ريشه‏ياب پيشنهادي مورد آزمايش قرار گرفته و نتايج بسيار خوبي را توليد نموده است. تا آنجا كه نگارندگان مقاله مطلع هستند، ريشه‏ياب پيشنهادي اولين ريشه‏ياب خودكار براي واژگان فارسي به شمار مي‏رود.

كليد واژه: ريشه‏ياب خودكار، صرف واژگان فارسي، پردازش خودكار متن

 

معرفی یک روش ترکیبی به منظور بازیابی موثر تصاویر

چکیده

در این تحقیق، روشی کارا برای بازیابی تصاویر ارائه شده که در آن، بر اساس آموزش، نتایج طی فرآیندی ترکیبی، بصورت مرتب شده به کاربر ارائه می‌شود. در روش پیشنهادی، از اطلاعات متنی موجود در کنار تصاویر برای استخراج ویژگی‌های معنایی و از محتوای تصاویر به منظور استخراج ویژگی‌های بصری و‌ آموزش مدل مرتب ‌سازی استفاده می‌شود. مدل مرتب ‌سازی تابعی است که تصاویر پرس‌وجو و مجموعه‌داده را بعنوان ورودی دریافت کرده و نتایج را بصورت مرتب بر روی خروجی می‌فرستد. در این مقاله، ماژول بصری، ورودی‌اش را از ماژول متنی دریافت نموده و خروجی آن، به منظور تولید و بهبود نتایج نهایی، با نتایج ماژول متنی ترکیب می‌شود. از آنجا که معیار کارایی مورد استفاده، به ازای هر پرس‌وجو محاسبه می‌شود، در روش پیشنهادی از فرآیندِ آموزشیِ تکراری استفاده شده که در آن، معیار کارایی هر پرس‌وجو، در تمامی مراحل فرآیند تأثیر گذار است. نتایج بدست آمده از اعمال روش ارائه شده بر روی مجموعه داده ImageCLEF، نشان دهنده کارایی بالای این روش در مقایسه با سایر تحقیقات قبلی انجام شده است.

کلمات کلیدی

بازیابی تصاویر، ترکیب نتایج، استخراج ویژگی، مدل مرتب ‌سازی، یادگیری مرتب سازی، بهبود نتایج

 

با توسعه اینترنت و بکارگیری وسیع‌تر دوربین‌های دیجیتال، حجم مجموعه‌های تصویری به سرعت در حال افزایش است. لذا ابزارهایی برای جستجو و بازیابی بهینه تصاویر مورد نیاز است. بطور کلی دو چارچوب مبتنی بر متن[۱] و مبتنی بر محتوا[۲] برای بازیابی تصاویر وجود دارد. در سیستم‌های مبتنی بر متن، تصاویر ابتدا بصورت دستی حاشیه نویسی[۳] شده و سپس حاشیه‌های نوشته شده، جهت انجام بازیابی مورد استفاده قرار می‌گیرند. این روش اگر به تنهایی اجرا شود معایبی دارد؛ از جمله اینکه نیازمند تصاویر حاشیه نویسی شده است. عیب دیگر این روش، ناشی از نگاه‌های مختلف افراد به یک تصویر خاص است که باعث می‌شود تصاویر به اشکال مختلف حاشیه نویسی شوند. در سیستم‌های مبتنی بر محتوا، تعدادی ویژگی بصری – شامل رنگ، بافت و … – از تصاویر استخراج شده و تصاویر با توجه به ویژگی‌های بصری‌شان با یکدیگر مقایسه می‌شوند. از آنجا که در این روش به اطلاعات متنی کنار تصاویر دسترسی وجود ندارد، امکان استخراج ویژگی‌های معنایی که از متن‌های کنار تصاویر قابل استخراج بود وجود نداشته و شکاف معنایی[۴] بین آنچه کاربر به دنبال آن است و چیزی که ویژگی‌های بصری بیان می‌دارند بوجود می‌آید. بنابراین، از آنجا که نقطه قوت هر یک از روش‌ها با روش دیگر قابل پوشش است، این دو روش می‌توانند مکمل یکدیگر باشند و ترکیب آنها با یکدیگر نتایج بازیابی را بهبود می‌بخشد.

به عنوان نمونه در مرجع [۱] روشی ترکیبی ارائه شده که در بخش بازیابی مبتنی بر محتوا، تصاویر را به اشکال مختلفی بلاک‌بندی نموده و سپس هیستوگرام تصویر با ۴۳۳۷۶ تا bin را محاسبه کرده و از آن برای مقایسه تصاویر استفاده می‌نماید. در [۲] روشی معرفی شده که در آن هر تصویر به چند ناحیه تقسیم شده و هر ناحیه با یک مفهوم (مانند آب، صخره و …) معادل‌سازی و جایگزین می‌شود و سپس از این مفاهیم برای مقایسه تصاویر استفاده می‌گردد. در [۳] روشی بر مبنای خوشه‌بندی ارائه گردیده که بر طبق آن، تصاویر بر اساس بردار ویژگی‌هایشان خوشه‌بندی شده و از نتیجه حاصل برای هدایت بازیابی، به سمتی که تصاویر مرتبط با احتمال بیشتری در آنجا قرار دارند استفاده می‌شود.

در این مقاله روشی کارا ارائه شده که سعی در بهبود نتایج نهایی با استفاده از ترکیب نتایج و بکارگیری الگوریتم‌های مرتب‌ سازی دارد. در روش پیشنهادی، با استفاده از Boosting [4] تابع زیان دقیقاً بر اساس معیار کارایی مورد نظر کمینه می‌شود.

 

۲-۱ مفاهیم اولیه

چهار مفهوم در یادگیری ماشین و شناسایی الگو وجود دارد که مرتبط با روش ارائه شده در این مقاله هستند: ۱- Boosting 2- یادگیری مرتب سازی[۵] ۳- بهبود مستقیم معیار کارایی ۴- ترکیب نتایج.

روش Boosting فرآیندی به منظور افزایش دقت الگوریتم‌های یادگیری ماشین است. ایده اصلی Boosting این است که بصورت تکراری، یادگیرنده‌های ضعیف، با استفاده از وزن‌دهی مجدد داده‌های آموزشی ساخته شده و نهایتاً یک سیستم ترکیبی[۶] از یادگیرنده‌های ضعیف تشکیل شود، بطوریکه کارایی کلی این سیستم، نسبت به هر یک از یادگیرنده‌های ضعیف، بهتر باشد.

مدل مرتب‌ سازی تابعی است که تصاویر پرس‌وجو[۷] و مجموعه‌داده را بعنوان ورودی دریافت کرده و نتایج را بصورت مرتب بر روی خروجی می‌فرستد. یادگیری مرتب ‌سازی فرآیندی است که در آن مدل مرتب ‌سازی یاد می‌گیرد تصاویر را بر اساس امتیازهایشان مرتب نماید [۵]. برای نمونه می‌توان به روش RankBoost [6] اشاره کرد. در این روش، ممکن است معیار محاسبه میزان مشابهت، به گونه‌ای باشد که تأثیر منفی بر روی معیار کارایی مورد نظر بگزارد. لذا نیاز به روشی هست که مستقیماً و در تمام مراحل، معیار کارایی را در نظر گرفته و سعی در بهبود آن داشته باشد. در این زمینه می‌توان به روش AdaBoost [7] اشاره کرد که برای کلاس‌بندی دودویی طراحی شده است. در AdaBoost و در هر تکرار، وزن‌هایی به همه نمونه‌ها نسبت داده می‌شود که احتمال انتخاب شدن نمونه‌ها برای مجموعه آموزشی را مشخص می‌نماید. در این روش و در ابتدا همه نمونه‌ها یک وزن اولیه برابر می‌گیرند. در مرحله بعد، با توجه به نتایج مرحله قبل، وزن‌های جدید اعمال شده و انتخاب نمونه‌ها و کلاس‌بندی، با توجه به وزن‌های جدید انجام‌ می‌گیرد. این چرخه ادامه می‌یابد تا خطای مورد نظر از میزان معینی کمتر گردد.

ترکیب نتایج، زمانی که چندین ماژول بر روی مجموعه داده اعمال شوند می‌تواند باعث بهبود نتایج نهایی شود. در روش اول، عمل ترکیب می‌تواند در پایان و بر روی نتایج نهایی ماژول‌های مختلف صورت گیرد. در روش دوم، می‌توان از نتایج یکی از ماژول‌ها، بعنوان ورودی ماژول دیگر استفاده نمود. در اینصورت، حجم محاسبات تا حد قابل قبولی کاهش می‌یابد، اما این خطر نیز وجود دارد که برخی از مواردی که جزء جواب‌های اصلی مسأله هستند، در مرحله میانی حذف گردند. لذا باید پارامتر‌های خروجی ماژول اول طوری تنظیم شوند که خطای مذکور حداقل شود.

روش ارائه شده دارای سه ماژول اصلی است: ۱- ماژول متنی،
۲- ماژول بصری و ۳- ماژول ترکیب.

۲-۲ ماژول متنی

از LEMUR [8] به عنوان موتور بازیابی متنی استفاده شده است که از طریق آن تصاویر مرتبط، با توجه به بخش متنی پرس‌وجو و بخش متنی تصاویر مجموعه‌ داده، بازیابی می‌شوند. برروی بخش متنی تمام تصاویر – هم پرس‌وجو و هم مجموعه داده – پیش پردازش زبانی صورت گرفته است. در این پیش پردازش، Stop-word ها مانند about و with حذف شدند و Stemming اعمال شد. در Stemming اشکال مختلف یک کلمه، به بخش مشترک آن کلمات کاهش داده می‌شوند. برای مثال، کلمات computer، computing و compute  حذف شده و comput جایگزین آنها می‌شود. تصاویر حاصل از بازیابی متنی با ترتیبی نزولی و بر اساس میزان مشابهت با تصویر پرس‌وجو مرتب می‌گردند. در ادامه، یک نسخه از نتایج ماژول متنی که شامل لیست‌های مرتبی از تصاویر مجموعه داده به ازای تمامی پرس‌وجو هاست، به ماژول بصری فرستاده شده و یک نسخه از آن نتایج، حفظ می‌گردد تا در پایان با نتایج حاصل از بازیابی بصری ترکیب و نتیجه نهایی تولید گردد.

 

افزودن به سبد خرید

لطفاً براي ارسال دیدگاه، ابتدا وارد حساب كاربري خود بشويد

محصولات پر فروش

پر فروش ترین محصولات فروشگاه روکساوب