3-3-شخصي‌سازي وب28
3-3-1-دلايل نياز به شخصي‌سازي وب28
3-3-2-مراحل شخصي سازي وب29
3-3-2-1-جمع‌آوري داده30
3-3-2-2-پردازش داده31
3-3-2-3-کشف الگو31
3-3-2-4-تحليل دانش31
3-3-3-تکنيک هاي مدلسازي کاربر در شخصي‌سازي وب31
3-3-3-1-تکنيک tf-idf32
3-3-3-2-تکنيک متا مدل و ابزار OLAP32
3-3-3-3-تکنيک براساس محتواي وب33
3-3-3-4-تکنيک براساس فراهم کردن داده‌هاي موثر (ODP)34
3-3-3-5-شخصيسازي وب با استفاده از روشهاي ترکيبي34
3-3-3-6-شخصيسازي وب براساس الگوريتم استقرايي و تکنولوژي tf-idf35
3-3-3-7-شخصيسازي وب با استفاده از کندوکاو الگوي ترتيبي و درخت الگو35
3-4-خوشه‌بندي براي شخصي‌سازي وب35
3-4-1-خوشهبندي فازي36
3-4-1-1-الگوريتم پايه‌اي خوشه‌بندي فازي36
3-4-1-2-الگوريتم فازي کا-مينز36
3-4-1-3-خوشهبندي صفحات وب با استفاده از خوشهبندي فازي k-means37
3-4-2-الگوريتم ژنتيک39
3-4-2-1-بهينه‌سازي خوشه‌بندي فازي با استفاده از الگوريتم ژنتيک40
3-4-3-روش پيشنهادي در اين تحقيق42
3-4-4-شماي کلي سيستم پيشنهادي42
3-4-5-مثالي از سيستم پيشنهادي43
3-4-6-شبه کد روش پيشنهادي50
3-5-جمعبندي51
مراجع53
فصل چهارم:55
4-1-مقدمه56
4-2-مجموعه دادهها56
4-2-1-ديتاست YANDEX57
4-2-1-1-پيش پردازش انجام شده با مجموعه دادههاي خام قبل از انتشار57
4-3-پارامترهاي ارزيابي60
4-4-آزمايشات انجام شده61
4-4-1-سخت افزار مورد استفاده62
4-4-2-نتايج آزمايشات62
4-5-جمعبندي64
مراجع:65
فصل پنجم:66
5-1-مقدمه67
5-2-نتايج و دستاوردهاي پروژه68
5-3-پيشنهادات68
مراجع70

فهرست اشکال
شکل 3- 1: فرآيند شخصي‌سازي وب29
شکل 3-2: مجموعه داده پروانه‌اي.38
شکل 3-3:خوشه بندي فازي داده.39
شکل 3-4: مراحل اصلي الگوريتم ژنتيک.40
شکل 3-5: شماي کلي سيستم پيشنهادي42
شکل 3-6: خوشهبندي دادههاي آموزشي47
شکل 3-7: خوشهبندي دادههاي تست49
شکل 4-8: مقايسه روش‌هاي پيشنهادي با روش ارائه شده در (Varghese, & John, 2012).64
فهرست جداول
جدول4-1: نتايج آزمايشات انجام شده بر روي 100 جلسه‌ي تصادفي62
جدول4-2: مقايسه نتايج سيستم پيشنهادي با ساير روش‌ها62
جدول 4-3: مقايسه نتايج سيستم پيشنهادي با روش ارائه شده در (Varghese, & John, 2012).63
چکيده
گرانبار شدن اطلاعات يک مشکل عمده در وب کنوني به شمار ميرود. براي مقابله با اين مشکل، سيستم‌هاي شخصيسازي وب ارائه شدهاند که محتوا و سرويسهاي يک وبسايت را با افراد براساس علايق و رفتار گردشي آنها سازگار ميکنند. يک مؤلفهي اساسي در هر سيستم شخصيسازي وب، مدل کاربر آن است. هدف از شخصي سازي وب، مهيا ساختن محتوا و سرويسهاي مورد نياز کاربران به وسيله دانش به دست آمده از تعاملات قبلي کاربران در صفحات وب است. در حال حاضر، براي شخصيسازي وب چندين متد خوشهبندي در دسترس است. روشهايي که تاکنون ارائه شدهاند، در مواردي داراي اشکالاتي بودند. البته تکنيکهاي جديدي در رفع اين مشکلات و بهبود آنها ارائه شده است. اما در بيشتر اين تکنيکها، مسائل افزونگي داده و مقياسبندي بالا وجود دارد. با توجه به اينکه افزايش کاربران وب منجر به افزايش اندازه‌ي خوشه مي‌گرد، نياز به بهينه‌سازي خوشه‌ها اجتناب‌ناپذير خواهد بود. در تحقيق، يک متدولوژي بهينهسازي خوشه بر اساس سيستم فازي ارائه شده است. به منظور افزايش دقت نهايي خوشهبندي، براي تنظيم پارامترهاي توابع عضويت از الگوريتم ژنتيک استفاده شده است. نتايج حاصل از شبيه‌سازي نشان مي‌دهد که روش پيشنهادي دقت خوشهبندي صفحات وب را تا حد قابل توجهي افزايش ميدهد.
کليد واژهها: شخصيسازي صفحات وب- خوشهبندي- کاربرد وبکاوي- الگوريتم فازي سي مينز- پايگاه داده ياندکس.
فصل اول
کليات تحقيق:
1-1- مقدمه
با توسعه سيستم‌هاي اطلاعاتي، داده به يکي از منابع پراهميت سازمان‌ها مبدل گشته است. بنابراين روش‌ها و تکنيک‌هايي براي دستيابي کارا به داده، اشتراک داده، استخراج اطلاعات از داده و استفاده از اين اطلاعات، مورد نياز مي‌باشد. با ايجاد و گسترش وب و افزايش چشمگير حجم اطلاعات، نياز به اين روش‌ها و تکنيک‌ها بيش از پيش احساس مي‌شود. وب، محيطي وسيع، متنوع و پويا است که کاربران متعدد اسناد خود را در آن منتشر مي‌کنند. در حال حاضر بيش از دو بيليون صفحه در وب موجود است و اين تعداد با نرخ 7.3 ميليون صفحه در روز افزايش مي‌يابد. با توجه به حجم وسيع اطلاعات در وب، مديريت آن با ابزارهاي سنتي تقريباً غير ممکن است و ابزارها و روشهايي نو براي مديريت آن مورد نياز است. به طور کلي کاربران وب در استفاده از آن با مشکلات زير روبرو هستند:
1. يافتن اطلاعات مرتبط: يافتن اطلاعات مورد نياز در وب دشوار مي‌باشد. روش‌هاي سنتي بازيابي اطلاعات که براي جستجوي اطلاعات در پايگاه داده‌ها به کار مي‌روند، قابل استفاده در وب نمي‌باشند و کاربران معمولاً از موتورهاي جستجو که مهمترين و رايج ترين ابزار براي يافتن اطلاعات در وب مي باشند، استفاده مي‌کنند. اين موتورها، يک پرس و جوي مبتني بر کلمات کليدي از کاربر دريافت کرده و در پاسخ ليستي از اسناد مرتبط با پرس و جوي وي را که بر اساس ميزان ارتباط با اين پرس و جو مرتب شده اند، به وي ارائه ميکنند. اما موتورهاي جستجو داراي دو مشکل اصلي هستند (Baeza-Yates, 2004). اولاً دقت موتورهاي جستجو پايين است، چراکه اين موتورها در پاسخ به يک پرس و جوي کاربر صدها يا هزاران سند را بازيابي مي‌کنند، در حالي که بسياري از اسناد بازيابي شده توسط آنها با نياز اطلاعاتي کاربر مرتبط نمي‌باشند (Bharat, and et. al., 2001). ثانياً ميزان فراخوان اين موتورها کم مي‌باشد، به آن معني که قادر به بازيابي کليه اسناد مرتبط با نياز اطلاعاتي کاربر نيستند. چرا که حجم اسناد در وب بسيار زياد است و موتورهاي جستجو قادر به نگهداري اطلاعات کليه اسناد وب، در پايگاه داده‌هاي خود نمي‌باشند (Chakrabarti, and et. al., 1999).
2. ايجاد دانش جديد با استفاده از اطلاعات موجود در وب: در حال حاضر اين سوال مطرح است که چگونه مي‌توان داده‌هاي فراوان موجود در وب را به دانشي قابل استفاده تبديل کرد، به طوري که يافتن اطلاعات مورد نياز در آن به سادگي صورت بگيرد. همچنين چگونه مي‌توان با استفاده از داده‌هاي وب به اطلاعات و دانشي جديد دست يافت.
3. خصوصي سازي اطلاعات: از آن جا که کاربران متفاوت هر يک درباره نوع و نحوهي بازنمايي اطلاعات سليقه خاصي دارند، اين مسئله بايد توسط تأمينکنندگان اطلاعات در وب مورد توجه قرار بگيرد. براي اين منظور با توجه به خواسته‌ها و تمايلات کاربران متفاوت، نحوه ارائه اطلاعات به آنها بايد سفارشي گردد.
تکنيک‌هاي وب کاوي قادر به حل اين مشکلات مي‌باشند (Chakrabarti, 2000).
1-2- تعريف مسئله
وب به يک بخش تسليم نشدني جهان تبديل شده است و گشت و گذار وب، يک فعاليت مهم براي مشترياني که خريد آنلاين دارند، به شمار ميآيد (Varghese, 2012). همانطور که گفته شد، با توجه به حجم وسيع اطلاعات در وب، مديريت آن با ابزارهاي سنتي تقريباً غير ممکن است و ابزارها و روشهايي نو براي مديريت آن مورد نياز است. يکي از اين روشها وبکاوي است. به طور کلي وبکاوي را ميتوان داده کاوي بر روي دادههاي محتوا، ساختار و کاربرد وب به حساب آورد. هدف وبکاوي کشف مدلها و الگوهاي نهفته در منابع وب ميباشد. هدف وب کاوي کاربرد وب به طور خاص کشف الگوهاي رفتاري کاربران وب ميباشد. کشف چنين الگوهايي از حجم عظيمي از دادههاي توليد شده توسط وب سرورها کاربردهاي مهمي دارد (Anand, and Mobasher, 2005). از جملهي آنها ميتوان به سيستمهايي که ميزان مؤثر بودن يک سايت را در برآوردن انتظارات کاربر ارزيابي ميکنند، تکنيکهايي براي متعادل کردن پوياي بار و بهينهسازي وب سرورها براي دستيابي مؤثرتر کاربران و کاربردهاي مربوط به ساختاردهي مجدد و تطبيق يک سايت براساس نيازهاي پيش بيني شدهي کاربر اشاره کرد.

کشف استخراج اطلاعات مفيد از دادهي وب يا فايلهاي وبلاگ، بهبود کارايي اطلاعات وب و فراهم کردن تکنولوژي براي کاربردهاي وب به عنوان مثال، شخصيسازي و غيره از جمله اهداف ديگر وبکاوي ميباشد. براي مديريت تصميمگيري، نتيجه کاوش کاربرد وب ميتواند براي تبليغات، بهبود طراحي وب، بهبود رضايت مشتري، هدايت استراتژي تصميم آناليز بازار و سازمان مورد استفاده قرار گيرد (Naveena Devi et al., 2012).
در سال هاي اخير تکنيک‌هاي وبکاوي کاربرد وب به عنوان رويکردي ديگر که مبتني بر کاربر است در شخصيسازي وب ارائه شده است که برخي از مشکلات مربوط به فيلترکردن جمعي را کاهش ميدهد. به طور خاص وب کاوي کاربرد وب براي افزايش گسترش‌پذيري سيستمهاي شخصيسازي شدهي سنتي که برمبناي تکنيکهاي فيلترکردن جمعي ميباشند استفاده شده است.
شخصيسازي صفحه وب شامل خوشهبندي صفحات مختلف وبي است که الگوي مشابهي دارند. شخصيسازي وب از تکنيک کاربرد وبکاوي براي سفارشي کردن صفحات وب براي يک کاربر خاص استفاده ميکند. اين مسئله شامل استخراج جلسات کاربر از فايلهاي ورود به سيستم ميشود. يک جلسه کاربر، دنبالهي صفحات وبي که توسط کاربر در يک دوره زماني خاص مورد دسترسي قرار گرفته، ميباشد.
1-3- اهميت و ضرورت تحقيق
با رشد ناگهاني اندازه وب و استفاده از وب گسترده جهاني، براي کاربران بسيار مشکل شد که بتوانند به طور مؤثر به اطلاعات مرتبط و مورد علاقه خود دسترسي پيدا کنند. نياز به پيشبيني نيازهاي کاربر به منظور بهبود قابليت استفاده و حفظ کاربر سايت، آشکار است و ميتواند با استفاده از شخصيسازي آدرسدهي شود. شخصي‌سازي وب، پردازشي از يک سايت براي بر طرف کردن نياز يک کاربر خاص يا مجموعهاي از کاربران با استفاده از دانش به دست آمده از طريق تحليل رفتار گشت و گذار کاربر است. هدف از سيستم شخصي سازي وب، مهيا ساختن اطلاعات و نيازهاي کاربران، بدون اين که صريحاً از آنها سوالي پرسيده شود.
هر اقدامي که اطلاعات يا سرويسهاي فراهم شده توسط يک وبسايت با نيازهاي يک کاربر يا گروه خاصي از کاربران با به کارگيري دانش بدست آمده از رفتار گردشي کاربر و علايق خاص او به صورت ترکيب با محتوا و ساختار وبسايت سازگار ميکند شخصيسازي وب ناميده ميشود (Eirinaki, 2003).

در این سایت فقط تکه هایی از این مطلب با شماره بندی انتهای صفحه درج می شود که ممکن است هنگام انتقال از فایل ورد به داخل سایت کلمات به هم بریزد یا شکل ها درج نشود

شما می توانید تکه های دیگری از این مطلب را با جستجو در همین سایت بخوانید

ولی برای دانلود فایل اصلی با فرمت ورد حاوی تمامی قسمت ها با منابع کامل

اینجا کلیک کنید

بطور کلي اهداف شخصيسازي وب عبارتند از:
* شخصيسازي سرويسهاي ارائه شده توسط يک وبسايت نقش مهمي در کاهش گرانبار شدن اطلاعات ايفا ميکند و وبسايت را به يک محيط کاربر پسندتر براي افراد تبديل ميکند.
* با فراهم کردن اطلاعات دلخواه کاربر به روش مناسب و در زمان مناسب، باعث بهبود گردش کاربر در وب سايت ميشود.
* در تجارت الکترونيکي مکانيزيمي براي درک بهتر نيازهاي مشتري، شناسايي تمايلات آيندهي او و در نهايت افزايش پابرجايي مشتري به سرويس ارائه شده فراهم ميکند.
در سال هاي اخير تکنيک‌هاي وبکاوي کاربرد وب به عنوان رويکردي ديگر که مبتني بر کاربر است در شخصيسازي وب ارائه شده است که برخي از مشکلات مربوط به فيلترکردن جمعي را کاهش ميدهند. به طور خاص وب کاوي کاربرد وب براي افزايش گسترش پذيري سيستمهاي شخصيسازي شدهي سنتي که برمبناي تکنيکهاي فيلترکردن جمعي ميباشند استفاده شده است.
به طور نمونه شخصي سازي برروي پردازش شناسايي کاربر وب، جمع آوري اطلاعات از طريق اولويت يا علاقهمندي هاي کاربر، تمرکز دارد. به طور مختصر شخصيسازي وب ميتواند براي مهيا ساختن سرويس با کيفيتتر استفاده شود و برنامه کاربردي از وب را براي کاربران در طول گشت و گذار آنها در وب مهيا سازد. اين فعاليتها ميتواند با مشخص کردن لينکها و لينکهاي جديد مورد علاقه کاربر به صورت اتوماتيک و ايجاد صفحات ايندکس جديد، ساخته شود.
رويکرد تنها مبتني بر کاربرد در شخصيسازي وب يک عيب مهم دارد و آن اين است که فرآيند توصيه به کاربر تنها براساس دادههاي تراکنشي موجود او صورت ميگيرد و از اين رو اقلام يا صفحاتي که اخيراً به سايت اضافه شدهاند نميتوانند به او توصيه شوند. اين مشکل عموماً مشکل قلم جديد ناميده ميشود. از سوي ديگر اگرچه الگوهاي کشف شدهي مربوط به کاربرد منابع وب از طريق وبکاوي کاربرد وب در کشف ارتباطات اقلام با يکديگر يا کاربران با يکديگر و نيز تعيين شباهت در جلسات کاربر مفيدند اما بدون استفاده از دانش عميقتري از دامنهي وب سايت مورد نظر چنين الگوهايي درک اندکي از دلايل آن که چرا اقلام يا کاربران در گروههايي با هم قرار ميگيرند در اختيار ما قرار ميدهند. يک رويکرد معمول براي حل اين مشکل در فيلتر کردن جمعي آن است که مشخصات محتواي صفحات را با رتبهبنديها و قضاوتهاي کاربر ادغام کنيم. به طور کلي در اين رويکردها کلمات کليدي از محتواي وبسايت استخراج ميشوند و براي انديسگذاري صفحات براساس محتوا يا طبقهبندي آنها به دستههاي مختلف مورد استفاده قرار مي‌گيرند. در حوزهي شخصيسازي وب اين رويکرد به سيستم اجازه ميدهد تا صفحات را نه تنها براساس افراد مشابه بلکه براساس شباهت محتوايي آنها به صفحاتي که کاربر اخيراً بازديد کرده است به او توصيه کند.
يک ضعف عمده در بيشتر رويکردهاي موجود که از محتواي وب براي بهبود مدل کاربر استفاده مي‌کنند اين است که اين روشها معمولاً از بردار عبارات براي نمايش علايق کاربر استفاده ميکنند و ارتباطات معنايي بين اين عبارات را ناديده ميگيرند. در صورتي که ميتوان با استفاده از معنا اين روش نمايش را بهبود داد.
روشهايي که تاکنون ارائه شدهاند، در مواردي داراي اشکالاتي بودند. البته تکنيک‌هاي جديدي در رفع اين مشکلات و بهبود آنها ارائه شده است. اما در بيشتر اين تکنيک‌ها، مسائل افزونگي داده و مقياس‌بندي بالا وجود دارد. الگوريتمهاي خوشهبندي متعددي براساس تکنيکهاي مختلف وجود دارد. بيشتر اين الگوريتمها، اشکالات متعددي دارند. همانطور که اندازه خوشه در طي افزايش کاربران وب افزايش مي‌يابد، نياز به بهينه‌سازي خوشهها اجتناب ناپذير خواهد بود. در اين پايان‌نامه قصد بر آنست تا يک متدولوژي بهينه‌سازي خوشه بر اساس سيستم فازي و الگوريتم ژنتيک ارائه شود.
1-4- شيوه پژوهش
در اين پايان‌نامه پس از گردآوري مراجع منتشر شده در پايگاههاي اطلاعاتي معتبر در زمينه وب‌کاوي و بهينه‌سازي خوشه و کليه زمينههاي مرتبط با آن، اين منابع مطالعه و مورد تحليل و بررسي قرار گرفته است. با شناسايي دقيق چالشها و مشکلات موجود، بررسي شد که هر يک از فنآوريهاي شناخته شدهي حوزه علوم کامپيوتر چه نقشي در مرتفع کردن اين موانع و چالش‌ها داشتهاند که حاصل آن، در قالب چارچوبهايي تحليلي ارائه شده است. اين چارچوبهاي تحليلي بستر را براي ارائه رويکردي سودمند در جهت رفع چالشهاي موجود فراهم ميکنند.
در ادامه‏ي پژوهش، با ارائه رويکرد پيشنهادي مبتني بر بهينه سازي خوشه با استفاده از منطق فازي و الگوريتمهاي تکاملي براي شخصيسازي وب، سعي در برطرف کردن چالشهاي موجود در اين حوزه شده است.
1-5- چارچوب پايان‏نامه
در فصل اول، مقدمهاي بر وبکاوي و کاربردهاي آن و حوزه شخصيسازي وب ارائه مي‌شود. در ادامه اهداف انجام تحقيق و روش انجام آن بيان مي‌شود.
در فصل دوم به مروري بر تحقيقات انجام شده در حوزه بهينه‌سازي خوشه و شخصي‌سازي وب پرداخته شده است.
در فصل سوم، فرضيه هاي مربوط به شيوه هاي تحقيق ارائه ميشود. ابتدا به توضيح سيستم استنتاج فازي پرداخته ميشود. همچنين نحوه استفاده از اين سيستم در الگوريتم پيشنهادي شرح داده مي‌شود و پس از شرح سيستم استنتاج فازي، به الگوريتم ژنتيک پرداخته خواهد شد.
فصل چهارم اين پايان‌نامه مربوط به رويکرد پيشنهادي بهينه‌سازي خوشه با استفاده از منطق فازي و الگوريتم‌هاي تکاملي براي شخصي سازي وب است. در اين فصل، ابتدا شماي کلي سيستم را بيان مي‏شود و سپس به جزئيات رويکرد پيشنهادي پرداخته شده و يک متدولوژي بهينه سازي خوشه براساس سيستم فازي ارائه مي‌شود. از آنجا که در سيستم استنتاج فازي تعيين پارامترهاي توابع عضويت، تاثير مهمي در دقت نهايي خوشه‌بندي دارد. بنابراين در اين سيستم براي تنظيم پارامترهاي توابع عضويت از الگوريتم ژنتيک استفاده مي‌شود. همچنين براي اين که در خوشهبندي تا حد امکان افزونگي نداشته باشد، قصد بر آنست تا در بخش قوانين فازي نيز از الگوريتم ژنتيک استفاده شود تا افزونگي صفحات وب خوشه‌بندي شده تا حد امکان کاهش يابد. با اين کار، دقت خوشه بندي صفحات وب نيز تا حد زيادي افزايش خواهد يافت.
در فصل پنجم، به جمع‌بندي تحقيق و نتايج حاصل از انجام آن پرداخته شده و در نهايت پيشنهاداتي براي کارهاي آتي ارائه خواهد شد.
مراجع
[1].Anand, S. S., & Mobasher, B. (2003, August). Intelligent techniques for web personalization. In Proceedings of the 2003 international conference on Intelligent Techniques for Web Personalization (pp. 1-36). Springer-Verlag.
[2].Baeza-Yates, R. (2004, January). Web mining in search engines. In Proceedings of the 27th Australasian conference on Computer science-Volume 26 (pp. 3-4). Australian Computer Society, Inc..
[3].Bharat, K., Chang, B. W., Henzinger, M., & Ruhl, M. (2001). Who links to whom: Mining linkage between web sites. In Data Mining, 2001. ICDM 2001, Proceedings IEEE International Conference on (pp. 51-58). IEEE.
[4].Chakrabarti, S. (2000). Data mining for hypertext: A tutorial survey. ACM SIGKDD Explorations Newsletter, 1(2), 1-11.
[5].Chakrabarti, S., Dom, B. E., Kumar, S. R., Raghavan, P., Rajagopalan, S., Tomkins, A., & Kleinberg, J. (1999). Mining the Web’s link structure. Computer, 32(8), 60-67.
[6].Devi, B. N., Devi, Y. R., Rani, B. P., & Rao, R. R. (2012). Design and Implementation of Web Usage Mining Intelligent System in the Field of e-commerce. Procedia Engineering, 30, 20-27.
[7].Eirinaki, M., & Vazirgiannis, M. (2003). Web mining for web personalization. ACM Transactions on Internet Technology (TOIT), 3(1), 1-27.
[8].Varghese, N. M., & John, J. (2012, October). Cluster optimization for enhanced web usage mining using fuzzy logic. In Information and Communication Technologies (WICT), 2012 World Congress on (pp. 948-952). IEEE.
فصل دوم:
پيشينه تحقيق

فصل 2-
2-1- مقدمه
در اين فصل، به بررسي اجمالي منابع منتشر شده در پايگاههاي اطلاعاتي دنيا پرداخته شده است. تأکيد بيشتر اين تحقيق بر روي شخصيسازي وب مي‌باشد.
2-2- مروي بر کارهاي انجام شده
در پانزده سال گذشته، رشد تعداد وب سايتها و مراجعهکنندگان به اين سايتها به صورت نمايي افزايش يافته است. تعداد کل کاربران تا 30 ژوئن سال 2010، 816/514/966/1 نفر بوده است که حدود 7/28% تعداد کل جمعيت جهان است1. تعداد کل وبسايتهاي فعال تا 13 دسامبر سال 2010، 259/522/125 بوده است2. به دليل اين رشد فزاينده، تعداد عظيمي از دادههاي وب توليد شده است. به منظور استخراج دادههاي مورد نظر از اين درياي وسيع، ميتوان از تکنيک دادهکاوي بهره گرفت. اما از آنجايي که دادههاي وب بدون ساختار يا نيمه ساختاري هستند، نميتوان به طور مستقيم تکنيک دادهکاوي را به کار گرفت. بنابراين از يک روش ديگر بنام وبکاوي بايد بهره جست. وبکاوي به منظور اکتشاف الگوهاي جالب که ميتواند براي بسياري از مسائل دنياي واقعي همچون وبسايتهاي ارتقاء يافته، رفتارشناسي بهتر کاربران، توصيه محصول و غيره به کار گرفته شود، مورد استفاده قرار ميگيرد (Pani, & et. al., 2011).
تحقيق در مورد وبکاوي قسمتي از چندين تحقيق را شامل ميشود، مانند پايگاه داده، اطلاعات، زبان ماشين و فرآيند زبان طبيعي. اگرچه وبکاوي ارتباط قوي با دادهکاوي دارد ولي با دادهکاوي يکسان نيست. فرآيندهاي کاوش داده در وب، در طبقات و فرمتهاي گوناگون رخ ميدهد. وبکاوي استفاده از تکنيکهاي دادهکاوي براي کشف اتوماتيک و استخراج اطلاعات از سرويسها و اسناد وب مي‌باشد. مطابق با دادهي وب استفاده شده به عنوان ورودي در فرآينده دادهکاوي، سه شاخه اصلي در وبکاوي شامل ساختار کاوي وب، محتوا کاوي وب و وب‌کاوي کاربرد وب ميباشد (Kosala, & Blockeel, 2000; Markov, & Larosee, 2007).
پيشبيني رفتار کاربر يکي از بحث‌هاي مهم در کندوکاو کاربرد وب است. به منظور دستيابي به اين هدف لازم است تا رفتار مروري کاربر را از طريق تحليل داده‌هاي وب يا لاگ‌هاي وب، تحليل شود. پيش‌بيني نيازهاي بعدي کاربر، به رفتار مشابه قبلي کاربر بستگي دارد. پيش‌بيني رفتار کاربر مزيت‌هاي زيادي دارد، براي مثال، شخصي‌سازي، ساخت يک وب سايت مناسب، بهبود استراتژي بازاريابي و غيره. لي و همکارش (Leacock, & Chodorow, 1998) دو سطح از مدل پيش‌بيني را ارائه کردند. روش آنها دو سطح از چارچوب کلي براي پيش‌بيني را کاهش مي‌دهد. دو سطح از مدل پيش‌بيني با ترکيب مدل مارکوف و قضيه بيزي، طراحي مي‌شود. در دو سطح از چارچوب مدل پيش‌بيني، ماتريس انتقال، با استفاده از تحليل رفتار گشت و گذار کاربر و قضيه بيزي ايجاد مي‌شود. نتايج آزمايشات از اين مدل، براي پيش‌بيني دسته‌بندي صفحات قابل توجه است. کندوکاو وب براي صفحات وب اجرا مي‌شود و سرويس‌هاي اينترنت به منظور پيدا کردن و استخراج کردن دانش‌هاي قابل دسترس اجرا مي‌شود.
آقاي Nina و همکارانش (Nina, & et. al., 2009) يک ايده کامل براي کشف الگوي وبکاوي کاربرد وب معرفي کرده‌اند. سازندگان سايتهاي وب بايد دانش واضح و روشني از مشخصات کاربر و نياز سايت داشته و همچنين اطلاعات مؤکدي از رويکرد کاربران براي جستجو در وب سايت داشته باشند. سازندگان وب ميتوانند رفتار بازديد کنندگان را با استفاده از تحليل وب و تشخيص الگوهاي رفتاري کاربران، تجزيه و تحليل کنند. تحليل وب شامل تحول و تفسير سوابق ورود به وب براي شناسايي اطلاعات پنهان يا الگوي تخمين با استفاده از دادهکاوي و فرآيند کشف دانش است. همچنين به منظور پيشبيني مؤثر آنلاين، شينده و همکارش (Shinde, & Kulkarni, 2008) يک معماري براي توصيه آنلاين براي پيشبيني در سيستم وبکاوي کاربرد فراهم ساخته است. اين روش به منظور افزايش صحت دستهبندي از طريق تعامل بين دستهبندي، ارزيابي و فعاليتهاي کاربر حاضر و مشخصات کاربر در فاز آنلاين اين معماري معرفي شده است.
از رويکردهايي که مي‌توان در وب‌کاوي از آنها بهره جست مي‌توان به رويکرد بر مبناي کلمات کليدي، رويکرد معنايي اشاره کرد. بسياري از منابع علايق کاربر را به صورت مدل‌هايي در ميآورند که از ويژگي‌هاي کلمات مانند تعداد تکرار آن‌ها يا همپوشاني آنها با کلمات ديگر در مستندات وب ديدهشده توسط کاربر بهره ميبرند. از جملهي آنها ميتوان به کارهاي صورت گرفته در (Minio, & Tasso, 1996)، (Lieberman, & et. al., 1999)، (Miranda, & et. al., 1999) و (Mobasher, & et. al., 2000a) اشاره کرد. در اين روشها معمولاً به کلمات موجود در وبسايت، براساس tf-idf وزن داده ميشود و پس از حذف کلمات با وزن کمتر از يک حد آستانه، هر سند وب به صورت برداري از عبارات باقيمانده (يا کلمات کليدي) در نظر گرفته ميشود.
در سال هاي اخير کوشش شده است که تکنيک‌هاي معنايي را که در ذخيره و بازيابي اطلاعات به کار مي‌روند، جهت بهبود رويکرد بردار عبارات به کار ببرند. دو روش آماري و مبتني بر سلسله مراتب براي اين منظور ايجاد شدهاند. تکنيکهاي آماري به دنبال ارتباطات نهفته بين اشياي همرخداد ميگردند. معروف‌ترين آنها روش LSA است. از جمله کارهاي صورت گرفته بر اساس اين روش در زمينهي مدلسازي کاربر ميتوان به (Zhang, & et. al., 2005) اشاره کرد. در اين کار در سه مرحله‌ي تشخيص دادههاي کاربردي، خوشه‌بندي جلسات کاربران و ساخت پروفايل، پروفايل کاربران ساخته ميشود. لازم به ذکر است که در مرحلهي دوم با استفاده از الگوريتم جديدي به نام Latent Usage Information (LUI) که بر مبناي الگوريتم k-means ميباشد، جلسات کاربران خوشهبندي ميشوند. براي اين کار، پس از SVD بر روي ماتريس SP، براي هر جلسهي si برداري در فضاي با بعد کمتر يعني si` بدست ميآيد. معيار شباهت الگوريتم خوشهبندي با استفاده از شباهت کسينوسي بين دو بردار با ابعاد کمتر حاصل از si و sj محاسبه ميشود. سپس الگوريتم بر روي آن اعمال ميشود. همچنين در مرحله سوم، مرکز هر خوشه از طريق بردار ميانگين آن محاسبه ميشود و در نهايت پروفايل کاربر به صورت برداري از مشاهده صفحات و وزن آنها نشان داده مي‌شود.
بهرنگ مسعوديفر (مسعوديفر، 1385) در پايان‌نامه خود سعي در حل مشكل مربوط به كاربر جديد در سيستمهاي توصيه كننده تحت وب با استفاده از روشهاي آماري نموده است، كاربر جديد يعني كاربري كه از او داده‌ها و سوابق تعاملات كاري كمي در دسترس است. با اين حال، در اين کار تلاشي براي بهبود مدل کاربر جهت بهبود فرآيند شخصيسازي وب انجام نشده است.
روشهاي مبتني بر سلسله مراتب معمولاً با استفاده از يک واژگان شناختي يا رده بندي مانند WordNet سعي در بهبود مدل فضاي برداري دارند. در بيشتر اين روشها، جهت نگاشت داده‌هاي کاربرد به اشياء، از معيارهاي ارتباط معنايي استفاده ميشود. در (Nasraoui, & et. al., 2000) ادعا شده است که روش‌هاي يادگيري بدون ناظر مانند خوشه‌بندي، براي تحليل دادههاي کاربران ايدهآل ميباشند و بر اين اساس يک روش جديد براي خوشهبندي فازي به نام 3CARD جلسات کاربران ارائه شده است. در اين مقاله به هر URL يک عدد يکتا نسبت داده ميشود و جلسهي کاربر نيز به صورت يک بردار دودويي نسبت داده ميشود که حضور يا عدم حضور يک URL را در يک جلسه نشان ميدهد. اين مقاله بيان ميکند که در غياب هر گونه دانشي در مورد داده‌هاي کاربران، دو نوع خوشهبندي ميتوان به کار برد. نوع اول روشهايي هستند که با دادههاي شيئي (يا بردار ويژگيها) کار ميکنند و نوع دوم روشهايي که با دادههاي رابطهاي کار ميکنند. در اين مقاله ادعا شده که روشهاي نوع دوم براي دادههاي کاربرد وب مناسبتر هستند و از اين رو براي تبديل دادههاي جلسات کاربران به شکل رابطهاي نيازمند محاسبهي شباهت بين هر دو جلسه ميباشد. در نتيجه معيار شباهت جديدي در اين مقاله ارائه ميشود که هم URL صفحات و هم ساختار وبسايت در آن لحاظ مي‌شود. از آنجا که مهمترين دستاورد اين کار، الگوريتم خوشهبندي و معيار شباهت آن است، لذا از فاصلهي بين خوشهها و فاصلهي درون خوشه‌ها براي ارزيابي استفاده شده است. در اين مقاله از محتواي صفحات، تنها در حد URL آنها استفاده ميشود و نميتوان آن را به صورت دقيق، يک روش محتوايي به شمار آورد.
در سيستم SiteIF ارائه شده در (Magnini, & Strapparava, 2004) از WordNetDomains به عنوان ردهبندي استفاده شده است. WordNetDomains يک نسخهي گسترش يافته و چند زباني از WordNet است و در آن هر synset با حداقل يک برچسب دامنه حاشيهنويسي شده است. اين مقاله سعي در نمايش مستندات وب براساس synset ها مي‌کند و براي اين کار از رفع ابهام دامنهي کلمه (WDD) استفاده مي‌کند. استدلال اين مقاله براي استفاده از دامنه اين است که باعث کاهش پيچيدگي در رفع ابهام معناي کلمه ميشود. WDD يک فرآيند دو مرحلهاي براي رفع ابهام معناي کلمه است که در مرحلهي اول، دامنهي کلمه در متن را با استفاده از WordNetDomains مشخص ميکند و در مرحله دوم با استفاده از آن مناسبترين معناي آن کلمه در آن مستند را پيدا ميکند.
همچنين در سيستم SEWeP ارائه شده در (Eirinaki, & et. al., 2003) از يک ردهبندي دستساخته براي وب‌سايت و نيز از WordNet به عنوان فرهنگ جامع استفاده شده است. در اين کار، براي مدل کردن کاربر از ثبت‌هاي انتزاعي معروف به C-log استفاده شده است.
براي دانش استخراج کردن، قابل فهم کردن و استفاده کردن، نياز به تکنيکهاي دادهکاوي خبره ميباشد. تاکنون تحقيقات زيادي در حوزه‌هاي مختلفي مانند مدلسازي کاربر و وبکاوي کاربرد وب به منظور استفاده از رفتار کاربر در وب به منظور ايجاد مدلي از علايق وي به صورت ضمني انجام گرفته است. در زمينه‌ي شخصيسازي وب، مدل کاربر را هم ميتوان فقط بر مبناي دادههاي کاربرد وب ساخت، مانند کار (Mobasher, & et. al., 2000b) که درکي سطحي از الگوها ميدهد و هم ميتوان از محتواي صفحات براي ايجاد مدل بهتر استفاده کرد. در (Dai, & Mobasher, 2002) يک چارچوب شخصيسازي وب معرفي شده است که پروفايل‌هاي کاربرد يک سيستم فيلترکردن جمعي را با استفاده از واژگانشناختي مي‌سازد. اين پروفايلها از طريق نمايش هر صفحه با يک مجموعه از اشياي واژگان شناختي به پروفايل هاي تجمعي سطح دامنه تبديل مي‌شوند. در اين کار فرض شده است که نگاشت هر ويژگي محتوايي به اشياي واژگان شناختي، يا به صورت دستي و يا با استفاده از روشهاي يادگيري با ناظر انجام ميشود. واژگان شناختي تعريف شده، شامل کلاس‌ها و نمونههاي آنها مي‌باشد، از اين رو تجمع از طريق گروهبندي نمونههاي مختلفي که به يک کلاس تعلق دارند انجام ميشود. در (Acharyya, & Ghosh 2003) يک چارچوب شخصيسازي وب برمبناي مدلسازي مفهومي از رفتار گردشي کاربر ارائه شده است. متدولوژي ارائه شده شامل نگاشت هر صفحهي ملاقات شده به يک عنوان يا مفهوم، اعمال يک سلسلهمراتب درختي (ردهبندي) بر روي اين عنوانها و سپس تخمين پارامترهاي يک فرآيند نيمهمارکف بر روي اين درخت بر مبناي مسيرهاي مشاهده شدهي کاربر ميباشد. در اين کار مبتني بر مدل مارکف، تعيين مشخصات معنايي وب‌سايت به صورت دستي انجام ميشود. علاوه بر اين، از هيچ معيار شباهت معنايي براي بهبود فرآيند پيش‌بيني استفاده نميشود و اين امر فقط در تعميم يا تخصيص عبارات واژگان شناختي استفاده ميشود.
معمولاً لازم است تا رفتار دسترسي کاربر مدل شود تا سرويسهاي آنلاين شخصيسازي شده هوشمند، مانند پيشنهادات وب مهيا شود. يکي از اين روشها، کندوکاو استفاده از وب است که لاگهاي وب را براي پيشنهاد به کاربر کندوکاو ميکند. برخلاف اکثر سيستمهاي پيشنهادي وب که بيشتر براساس خوشهبندي است، گانگ و همکارانش، يک سيستم شخصيسازي وب پيشنهاد کردند که از کندکاو الگوي دسترسي ترتيبي استفاده مي‌کند. در سيستم پيشنهادي آنها الگوريتم کندوکاو الگوي ترتيبي مؤثر، براي تشخيص الگوهاي دسترسي وب پيشنهاد شده است. الگوهاي دسترسي در يک ساختار درخت فشرده ذخيره ميشود که به آن درخت الگو گفته ميشود، و سپس براي تطبيق و توليد لينکهاي وب براي پيشنهادات استفاده ميشود (Gang, & Yue, 2009).
پينگ و همکارانش يک مدل پيشنهادي شخصيسازي براي منابع مورد نظر کاربر، براساس لاگ دسترسي وب کاربر ارائه کردند. اين مدل براساس الگوريتم اولويت و تکنولوژي tf-idf ساخته شده است که شامل سه قسمت است: توصيف منابع، استخراج اولويت کاربر و پيشنهادات شخصيسازي. سپس مدل آنها بردار فضاي متني منابع را با استفاده از تحليل اطلاعات منابع دستيابي شده به وسيله لاگ دسترسي کاربر توليد ميکند. سپس مجموعهي مورد نظر کاربر را با استفاده از الگوريتم اولويت به دست ميآوردند. سرانجام منابع ذخيره شده و فيلتر شده براي کاربر را براساس مدل پيشنهادي، ارائه ميدهند (Peng, & et. al., 2008).
در (Banerjee, & Pedersen, 2003) يک روش وب‌کاوي جديد براي شخص‌سازي وب ارائه شده است. روش پيشنهادي ابتدا يک مدل رفتار کاربر را با استفاده از مفهوم فرمال فازي شکل ميدهد. براساس اين روش، اکثر منابعي که در طول يک دوره زماني مورد علاقه کاربر است، ميتواند بدست آورده شود.
شيري و همکارانش (Suryavanshi, & et. al., 2006) روشهاي خوشه‌بندي فازي را براي کشف پروفايلهاي مناسب که مدل رفتار دسترسي کاربر را روي وب سايت نشان مي‌دهد، به کار گرفتهاند. در اين تحقيق، تحليل آزمايشي از يک روش فازي براي کندوکاو کردن پروفايلها ارائه شده است. آنها در مورد استراتژي الگوريتم خود پارامترهاي ورودي مورد نياز، توانايي اداره کردن نويز، قابليت مقياس‌پذيري براي ديتاستهاي بزرگ و وجود تشابه در ناحيهها بحث کرده‌اند.
در Baraglia, & Palmerini, 2010)) يک سيستم وبکاوي کاربرد وب (WUM) تحت عنوان SUGGEST معرفي شده است که بطور مداوم اتصالات پيشنهادي به صفحات وب مهمِ احتمالي براي کاربر را ايجاد مي‌کند. سيستم SUGGEST به منظور ترکيب مؤثر فرآيند WUM با عملکردهاي سرور وب منظم پيشنهاد شده است. اين سيستم ميتواند دادههاي با ارزش را به منظور ايجاد هر چه سادهتر ناوبري وب کاربر و بهبود کارايي سرور وب حاصل نمايد. در (Baritos, & et. al., 2007) يک الگوريتم هوشمند پيش‌پردازش داده در وبکاوي کاربرد را ارائه کرده است. الگوريتمي بنام “USIA” پيشنهاد داده شده است و نقاط ضعف و قوت ان بررسي شده است. ارزيابي تجربي USIA نشان دهند? بهرهوري بهتر آن است. همچنين اين روش، کاربر و جلسه واقعي را تعيين ميکند.
در (Rahmani, & Chawman, 2010) سيستمي بنام WebPUM معرفي شده است، که به پيشگوي آنلاين با استفاده از WUM ميپردازد و روش جديدي را براي کلاسبندي الگوهاي حرکتي کاربر پيشنهاد مينمايد که از اين روش در پيشگويي رفتار آينده کاربر استفاده مينمايد. در اين روش الگوريتم جديد تقسيمبندي گراف براي مدلسازي الگوي حرکتي کاربر و الگوريتم بزرگترين زير دنباله مشترک براي کلاس‌بندي فعاليتهاي کاربر استفاده شده است. در (Zhao, & Bhowmick., 2003) روش ديگري مبتني بر خوشهبندي در Web-Canvas ارائه شده است. در اين روش کاربراني با الگوي حرکتي مشابه در يک خوشه قرار ميگيرد. به دليل تعيين خوشهها و انتساب صفحاتي به اين خوشهها به صورت ايستا و تعيين شده از قبل، سبب ايجاد محدوديت براي ارتقاي وب سايت در آينده ميشود.


پاسخ دهید