یک روش هوشمند برای دادهکاوی وب
چکیده
با رشد ناگهانی وب جهانی، وبسایتها نقش مهمی را در فراهم کردن اطلاعات و دانش به کاربران ایفا میکنند. الگوهای استفاده از وب، ویژگی مهمی برای کشف اطلاعات معنیدار و مخفی هستند. یک چالش بزرگ در وبکاوی، زمانی است که حجم ترافیک زیاد است و حجم دادههای وب همچنان درحال افزایش میباشد. برای رویارویی با این چالش، یک روش هوشمند آنالیز ترافیک در وب، در این مقاله نشان داده شده است.
پیشگفتار
وبکاوی، به فرایند کشف اطلاعات بالقوه سودمند و ناشناخته، از متون و سرویسهای وب گفته میشود. وبکاوی را میتوان به عنوان توسعه دادهکاوی استاندارد به دادههای وب نگاه کرد.
آنالیز وب به سه مجموعه از اطلاعات تکیه دارد: الگوهای استفاده گذشته، درجه حجم اطلاعات به اشتراک گذاشته شده و ساختارهای لینک انجمنی حافظه داخلی متناظر با سه زیرمجموعه در وبکاوی یعنی: ۱- کاوش استفاده از وب ۲- کاوش محتوای وب و ۳- کاوش ساختار وب. در کاوش استفاده از وب، کشف الگو از چند مرحله شامل آنالیز آماری، خوشهبندی، طبقهبندی و غیره تشکیل میشود. برای نمونه در تجارت الکترونیک، آنالیز دادههای استفاده از وب میتواند به سازمانها در دانستن الگوهای جستجوی وب که درواقع به تسهیل ویژگیهای تجارت الکترونیک همانند مدیریت ساختار وب برای طراحی وبسایت بهتر و ارتقای عملیات برای بنای تبلیغات خاص و برای اتخاذ تصمیم های بازاریابی استراتژیک بهتر، کمک کند. بیشتر پژوهشهای کنونی روی یافتن الگوها اما با کوشش کم در زمینه آنالیز جزئی الگوها- روندها که در محیطهای وب گوناگون تغییر میکنند و همچنین الگوهای هوشمند درنظرگرفته شده، متمرکز شدهاند.
مقاله ارائه شده توسط L.J. Haravu و A. Neelameghan اطلاعاتی را درمورد پیشرفتهایی در زمینه دادهکاوی و متنکاوی ارائه میدهد. پس از پژوهش و تجربه با استفاده از این فناوریها، Haravu و Neelameghan دو روش ضروری را برای این خط مشیها پیشنهاد میکنند. اول، استفاده از یک نرمافزار پردازش زبان عادی برای متنکاوی و دوم، طرحریزی، طراحی و توسعه یک محصول رسانهای چندمنظوره جامع که نیاز شنوندگان موردنظر را براورده میکند. آنها عقیده دارند که این محصولات دادهکاوی و متنکاوی، فقط درصورتی مفید واقع میشوند که ویژگی های سیستم طبقهبندی موضوعی، با تکنیکها و فراوردههای متنکاوی ترکیب شوند. به عبارت دیگر، نقش ویژه فناوریهای زبان انسانی در علم کتابخانه و اطلاعات، پتانسیل لازم برای استاندارد شدن و درنتیجه قابل پیشبینی شدن را دارا میباشند.
مقاله نوشته شده بهوسیله مهندسهای کامپیوتر، از طریق کاوش استفاده از وب، پروفایل کاربران، آنالیز وب و جریان دادهها،کاملاً مرتبط با اهداف نرمافزار متنکاوی نوشته شده بهوسیله Conde Nast میباشد. به عبارت دیگر، اخیراً سازمانهای نشر حال حاضر، برای فهمیدن و براورده کردن بهتر نیازهای کاربران، شروع به ارائه مدارک برای رفتار کاربران مختلف، در پایگاه دادههای آنلاینشان کردهاند. به عنوان یک نتیجه مستقیم، ابزارهای کاوش استفاده از وب توسعه پیدا کردند تا به آنها کمک کنند که با استفاده از لیستهای وب، الگوها و پروفایلهای استفاده را کشف کنند. بسیاری از شرکتهای ناشر، به این اطلاعات، به عنوان گواه با ارزش یا مطالعه موردی برای قابل استفاده بودن، اشاره میکنند. علاوه بر این، با استفاده از این دادهها، شرکتهایی مانند Conde nast، بهتر قادر به تولید زبانهای متنکاوی که مخاطبانشان را ارضا میکنند، میباشند.
این مقاله، به لغتنامهها و ارتباط آنها با متنکاوی اشاره میکند. در علم زبانشناسی، لغتنامه یک زبان، شامل عبارتها، کلمات و لغتهای آن میباشد. به عبارت دیگر، لغتنامهها مشابه با متنکاوی، لیست لغتهای زبان یا الگوهای مرکب میباشند. محاسبه موثر بطور سازگار بهصورت یک زمینه کاری گسترش مییابد و علاوه بر استفاده از زبان عادی استاندارد، اجازه شکلهای جدید از اندرکنشهای انسان- کامپیوتر را میدهد. یک درک عمومی وجود دارد که اندرکنشهای آینده انسان- کامپیوتر، در مواردی مانند سرگرمی، زیباشناسی و ناشران قرار میگیرد. این مقاله با مطالعه ارتباط بین زبان عادی و اطلاعات مؤثر و بررسی رفتار محاسباتی آن، به شما کمک میکند درحالیکه این تمرین را برای توسعه آینده، تعیین کننده ارزیابی میکند. در این مقاله، نویسندگان منبع زبانشناختی دیگری را برای نمایش لغوی دانش موثر، با نام Wordnet-Affect ارائه میدهند که با نرمافزار متنکاوی Conde Nast رقابت میکند.
بقیه مقاله بصورت زیر سازماندهی شده است: در بخش II معماری کاوش استفاده از وب توضیح داده شده است. در بخش III آنالیز ترافیک وب برای یادگیری و پیشگویی الگوهای استفاده کوتاه مدت و بلند مدت ارائه شده است. در پایان، برخی نتیجه گیریها و کارهای آینده در بخش IV داده میشود.
لطفاً براي ارسال دیدگاه، ابتدا وارد حساب كاربري خود بشويد