Present-absent
Unigram
Character based
Clustering
Semantic Orientation Calculator
Negation
Intensifier
توفيلوسكي، ول و استده، 2011). يكي از روش هـاي ديگـر نظركـاوي ، بـ ه كـاربردن عنـوان1 در نظركاوي است. براي اين منظور، روشي تركيبي و غيرنظارتي در سطح سند ارائه شده است (لـينو هي، 2009). در روش مطرح شدة ديگري براي نظركـاوي، ازSentiWordNet يـا تركيبـي از SentiWordNet و SVM استفاده شده است.
محققان براي نظركاوي از روشي بهره بردند كه با استفاده از SentiWordNet اجرا مي شـود (هانگ و لين، 2013). در اين روش كلمه هايي كه قطبيت آنها در SentiWordNet نيسـت ، بـراساس اينكه بيشتر در جمله هاي منفي يا مثبت حضور دارند، تعيين قطبيت مي شوند. در اين حالت درستي2 الگوريتم نسبت به زماني كه از اين كلم هها استفاده نمـي شـود، بهبـود مـي يابـد . رائـز وديگران روشي را با تركيب SentiWordNet و پيمايش تصادفي3 ارائه دادند (رائز، كمَرا، والديويا و لُوپز، 2014). در اين روش، الگوريتم پيمايش تصادفي، وزني را با اسـتفاده ازSentiWordNet به مجموعه هاي مترادف ميدهد. مارتينا و همكارش در روشي ديگر، از ويژگي Delta TFIDF4 براي SVM در نظركاوي استفاده كردند. ايـن ويژگـي، درواقـع تفـاوت TFIDF5 هـر كلمـه در داده هاي آموزشي منفي و مثبت را نشان مي دهد. به اين ترتيب، كلمه هايي كه به طور نامساوي در هر دو داده هاي آموزشي مثبت و منفي پراكنده شده باشند، متمايز مي شود و كلمه هايي كه بهطور مساوي وجود دارند، ناديده گرفته مي شود (مارتينا و فينين، 2009).
روش هايي نيز براي بهبود الگوريتم SVM در نظركاوي ارائه شده است. براي مثال، بصري و همكارانش روشي با تركيب دو الگوريتم SVM و بهينه سازي ازدحام ذرات6 پيشنهاد كردند كه از الگوريتمِ بهينه سازي ازدحام ذرات براي بهبود پارامترهاي SVM بهره ميبـرد (بصـري، حسـين،آنانتا و زنيارجا، 2013). ويندهيني و همكارش (2014) تركيب الگـوريتم SVM و تحليـل مؤلفـة اصلي را براي بهبود الگوريتم SVM به منظور دسته بندي نظر ها پيشـنهاد دادنـد . آنهـا از تحليـل مؤلفه هاي اصلي به منظور كاهش ابعاد داده ها استفاده كردند و بدين ترتيـب پيچيـدگي SVM را كاهش دادند.
در زبان فارسي نيز پژوهش هاي اندكي در زمينة نظركاوي انجام گرفته است. اولين پژوهش نظركاوي براي زبان فارسي بـه روش غيرنظـارتي بـود و بـا بهـره منـدي از الگـوريتمLDA 7 و
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
Topic
Accuracy
Random walk
Delta Term Frequency–Inverse Document Frequency
Term Frequency–Inverse Document Frequency
Particle swarm optimization
Latent Dirichlet allocation
لغت نامه انجام گرفت (شمس، شاكري و فيلي، 2012)؛ در واقع، لغت نامه بـه جـاي ويژگـيهـايLDA به كار رفته است؛ درستي استفاده از اين روش حدود 80 درصد گـزارش شـد. روش ديگـربه صورت نظارتي و با به كـارگيري الگـوريتمSVM صـورت گرفـت (حـاج محمـدي و ابـراهيم،2013). در اين روش، الگوريتم SVM با اسـتفاده از ويژگـي حضورداشـتن و حضورنداشـتن ، بـهدرستي حدود 72 درصد دست يافت. پژوهش انجام شدة ديگري در زمينة نظركاوي زبان فارسـي،بر انتخاب ويژگي براي نظركاوي تمركز كرد (سارايي و باقري، 2013). در اين پـژوهش ، ويژگـيجديد اطلاعات مشترك اصلاح شده (MMI)1 معرفي شده است.
لغت نامه
لغت نامه هاي زيادي براي تعيين قطبيت كلمه ها وجود دارد. هر يك از اين لغت نامـه هـا ، سـازوكار خاصي را براي تعيين قطبيت استفاده مي كند و روش خاصي را براي نشان دادن قطبيت كلمـ ه هـابه كار مي برد. براي مثال، لغت نامة بينگ ليو2 شامل 2006 لغت مثبت و4783 لغـت منفـي اسـت(هو و ليو، 2004). در اين لغت نامه، به مقدار مثبت و منفي بودن كلمه ها اشـاره اي نشـده اسـت وتنها فهرستي از لغات مثبت و منفي را دربرمي گيرد. لغت نامـة MPQA3 نيـز شـامل فهرسـتي از لغات مثبت و منفي است. در اين لغت نامه علاوهبـر قطبيـت هـر كلمـه، اطلاعـاتي ماننـد نقـشدستوري كلمه4 نيز به چشم مي خورد (ويبِي، ويلسون و كارديه، 2005). WordNet لغـت نامـهاي شامل اسم، فعل، صفت و قيد است. در اين لغـت نامـه هـر كلمـه در كنـار مجموعـة كلمـه هـاي هم خانواده اش قرار دارد. براي هر كلمه نقش هاي مختلف دستوري همراه با مثـالي از كـاربرد آنكلمه، درج شده است (ميلر، 1995). اين لغت نامه مثبت و منفيبودن كلمات را نشـان نمـي دهـد .
SentiWordNet توسعه يافتة لغت نامة WordNet است كه مقدار قطبيت هر كلمه را به صـورتعددي نشان مي دهد. در اين لغت نامه، مترادف ها و نقش دستوري هر كلمه مشخص شده اسـت .
Harvard General Inquirer لغت نامه اي شامل كلمات مثبت و منفي است (اسـتون، اسـميت،دانفري و آگيلويه، 1966). علاوه بر دو ويژگـي مثبـت و منفـي بـودن، 182 ويژگـي ديگـر را نيـز ميتوان در اين لغت نامه يافت.
لغت نامه اي كه در اين مقالـه از آن بهـره بـرده مـي شـود ، SentiWordNet نـام دارد . ايـنلغت نامه قطبيت كلم هها را به صورت عددي نشان مي دهد و بـراي زبـان انگليسـي توسـعه يافتـهاست؛ لذا براي استفاده در زبان فارسي بايد تغييراتي در آن اعمال شود.
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
Modified Mutual Information
Bing liu
Multi-Perspective Question Answering
Part of speech
پيچيدگي هاي زبان فارسي
برخلاف زبان هاي ديگر از جمله زبان انگليسي، متن كاوي براي زبان فارسي بـه دليـل پيچيـدگيبسيار با مشكلات متعددي روبه رو است. از آنجاكه هدف اين پژوهش نظركاوي اسـت، داده هـايبه كاررفته به صورت نظر و به شكل محاوره اي نوشته شده است. پـس عـلاوه بـر پيچيـدگي هـايمتون فارسي و مشكلات تحليلي آن، مسائلي نيز به دليل محاوره اي بودن زبان، به وجود مي آيد كه پژوهش را دشوارتر مي كند. همان طور كه سارايي و باقري (2013) نيز معتقدند نظركاوي در زبان فارسي با مشكلاتي روبه رو است؛ اين مشكلات به دليل كمبـود ابـزار و راه هـ اي مختلـف، وجـودپسوندهاي متفاوت، فاصله گذاري كلمه ها و استفاده از كلمه هاي غيررسـمي و محـاوره اي شـكلمي گيرد.
كمبود ابزار مناسب براي زبان فارسي: در زبان فارسـ ي بـه منظـور پـيش پـردازش و تحل يـل متن هاي فارسي، ابزار زيادي وجود ندارد، اما برخلاف زبان فارسي، ابزارها و روش هـاي متعـددي براي نظركاوي و تحليل متن در زبان هاي مختلف از جمله زبان انگليسي در دسـترس اسـت كـهمي توان از آنها در مراحل مختلف نظركاوي استفاده كرد. كمبود ابزار براي پردازش متون فارسي، نظركاوي را دشوارتر مي كند.
كلمههاي غيررسمي و محاورهاي: وقتي نوشتار به صورت غيررسمي و محاوره اي باشد، شـكل كلمه ها تغيير ميكند، گاهي براي يك كلمه، اشكال مختلفي به شكل محاوره اي به چشم ميخورد. ممكن است كلمه ها به شكل رسمي يا محاوره اي نوشته شـوند كـه افـراد هـر دو شـكل آن را در نظرها به كار مي برند. تغيير شكل كلمه ها در قالب محاوره اي با حذف، اضافه و تغيير حروف همراه است. براي مثال كلمة »نمي توانم« در شكل محاوره اي به صورت » نميتونم« بـا حـذف »الـف « بيان ميشود، يا كلمة »دارد« با تغيير حـرف »د« بـه »ه« بـه صـورت »داره« نوشـته مـي شـود.
كلمه هاي ديگري نيز در زبان محاوره اي به كار مي روند كـه بـه شـكل كـاملاً متفـاوتي از شـكلرسمي آن ظاهر مي شوند، براي مثال كلمة »براي« بهصورت »واسه« نوشته مي شود.
پيشوندها و واژه هاي غيرساده: در زبان فارسي واژه ها به دو دسـتة سـاده و غيرسـاده تقسـيممي شوند. كلمه هاي ساده تنها از يك جزء معنادار ساخته شده اند و واژه هاي غيرساده بيشتر از يك جزء معنادار، دارند. واژههاي غيرساده در سه شكل مشتق، مركب و مشتق ـ مركب به كار مي روند. هر واژة غي رسادهاي با افزودن پسوندها و پيشوندهاي مختلفي ساخته مي شود. مشكل كلمـه هـاي غيرساده، فاصله گذاري آن است. در شكل نوشـتاري كلمـه هـا ، اغلـب بـين اجـزاي مختلـف واژةغيرساده، فاصله اي گذاشته مي شود و اين فاصله تشخيص واژه را دشوار مي كند. براي مثال كلمة »خودنويس« كه در زبان فارسي واژة مركبي محسوب مي شـود ، در حالـت نوشـتاري آن ممكـناست به صورت »خود نويس« نوشته شود، فاصـل ة ميـان خـود و نـويس، تشـخيص آن را دشـوارمي كند.
فاصله گذاري: در زبان فارسي براي فاصله گذاري از فاصله و نيم فاصله استفاده مي شـود . فاصـلهبراي جداسازي كلمه ها از يكديگر است و از نيم فاصله براي فاصلة بين اجزاي مختلف يك كلمـهكاربرد دارد. براي مثال، در عبارت » كتاب خوب«، دو واژة متفاوت وجود دارد كه براي جداسـازي آنها از فاصله استفاده ميشود، اما با اينكه عبارت هاي »خود نويس«، »خاطره انگيز« و » كتاب هـا« يك واژه اند، آنها را با نيم فاصله جدا مي كنند. در حالت محاوره اي، اغلب ا يـن نـيم فاصـله ناد يـده گرفته مي شود، در نتيجه تشخيص چنين واژه هايي به دقت بيشتري نياز دارد.
روش شناسي پژوهش
از آنجاكه اين پژوهش به بررسي و نظرخواهي هتـل هـاي جزيـرة كـيش مـيپـردازد ، پژوهشـيكاربردي شمرده مي شود و به دليل جمع آوري دادهها از چندين هتل، در گروه پژوهشهاي موردي قرار مي گيرد. نظركاوي اين پژوهش در سطح سند انجام مي گيرد؛ به اين معنا كه نظر ها به منزلـةسند در نظر گرفته ميشوند. نظركاوي در سطح سند، به معناي دسته بندي نظـر هـاي متنـي در دودستة مثبت و منفي است (مورائس، ولياتي و نتو، 2013). داده هايي كه بـراي نظركـاوي در ايـنپژوهش استفاده شده است، از نظرهاي جمع آوري شدة تعدادي از هتلهاي كيش بـه دسـت آمـدهاست. براي نظركاوي در اين پژوهش از الگوريتم SVM كه الگـوريتم نظـارتي اسـت، اسـتفادهمي شود. SVM در برابر نويز داده ها مقاوم است، مي تواند با تعداد زيـاد ي ويژگـي كـار كنـد و دركارهاي مشابه مانند دسته بندي متن عملكرد خوبي دارد؛ از اين رو ابزار مناسبي به شـمار مـي رود.
(مارتينوا و فينين، 2009 و جوكيمز، 1998).
براي استفاده از الگوريتم SVM بايد داده ها برچسب دار شوند؛ از اين رو داده هايي كـه بـراينظركاوي در اين مقاله جمع آوري شده است نيز، برچسبگذاري شده اند؛ به اين صـورت كـه هـرفرد بعد از درج نظر در وب سايت، گزينة »آيا اين هتل را براي اقامت توصيه مي كنيد؟« را با بلـييا خير كامل مي كند و از همين گزينه براي برچسب گذاري نظرها استفاده ميشود. بـراي بررسـيبيشتر و مقايسة نتايج الگوريتم SVM و دستيابي به تحليل كاملتر، از الگوريتم بيزين سـاده نيـزاستفاده مي شود. همچنين ضمن مطرح كردن فرضيههايي، كارايي الگوريتم در هـر چهـار فرضـيه مقايسه ميشود.
هدف اين پژوهش تعيين مثبت و منفي بودن نظر ها در سطح سند است؛ براي اين منظور بايد ويژگي ها را در قالب مجموعه اي قرار داد. در ايـن پـژوهش دسـته اي از ويژگـي هـا در مجموعـة {,…,1 } قرار مي گيرد. اين ويژگي ها، همان كلمه هاي داخل لغت نامه است كه با اسـتفادهاز لغت نامه SentiWordNet ايجاد ميشود. لغت نامة مذكور متشكل از 312 لغت يا به بيان ديگر 312 ويژگي است. هر سند، مجموعه اي از كلمه ها در نظر گرفته مي شود كه مي تواند شـامل هـريك از ويژگي ها باشد. براي استفاده از اين ويژگي ها در الگوريتم SVM، فرض هاي زيـر مطـرحشده است:
فرض ها
تعداد تكرار كلمات: تعداد تكرار كلمه ها يكي از ويژگي هايي است كه از آن استفاده ميشـود؛بدين ترتيب كه هريك از كلمه هاي لغت نامه در بين اسناد جست و جو مي شود و تعداد تكـرارهر يك به دست مي آيد؛
حضورداشتن و حضورنداشتن هر كلمه: براي اين فرض، حضور هر كلمـه ويژگـي محسـوب ميشود؛ به اين ترتيب كه اگر كلمهاي وجود داشته باشد، براي آن مقـدار عـددي 1 در نظـرگرفته مي شود و چنانچه حضور نداشته باشد، صفر مي گيرد. در اين حالـت بـا جسـتوجـوي تمام كلمه هاي لغتنامه در اسناد، حضور هر يك از آنها مشخص ميشود؛
حاصل ضرب تكرار هر كلمه در مقدار قطبيت آن: هر سند مجموعـه اي از كلمـه هـا در نظـرگرفته مي شود؛ در نتيجه هر سند برداري از كلم هها اسـت. بـا جسـتوجـوي هـر كلمـه درلغت نامه، قطبيت آن تعيين مي شود و با مقدار عددي به نمايش درمي آيد. اين مقدار در تعداد تكرار هر كلمه ضرب مي شود و وزن جديدي را ايجاد كند. در نتيجة اين فراينـد، بـراي هـركلمه وزني ايجاد مي شود كه حاصل ضرب قطبيت آن كلمه در تعداد تكرارش در سند اسـت.
وزن صفر به كلمههايي اختصاص دارد كه در لغت نامه نيستند؛
حاصل ضرب حضورداشتن و حضورنداشتن هر كلمـه در مقـدار قطبيـت آن: ويژگـي ديگـر، استفاده از حضور كلمه است. بدين ترتيب، كلمه اي كه در لغت نامه حضور داشته باشد، مقدار يك و كلمه اي كه حضور نداشته باشد مقدار صفر مي گيرد. سپس اين مقدار در عدد قطبيـتآن كلمه ضرب ميشود.
به منظور بهرهمندي از الگوريتم SVM، از كتابخانة SMO1 و براي الگوريتم بيزين ساده نيـزاز كتابخانه اين الگوريتم در نرم افزار وكا2 استفاده شده است.
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
Sequential Minimal Optimization
Weka
به طور كلي براي اجراي نظركاوي مرحله هايي وجود دارد كه گذر از هريـك ضـروري اسـت. شكل 1 اين مرحله ها را به نمايش گذاشته است. همان طور كه مشـاهده مـي كنيـد ، نظركـاوي از جمع آوري داده ها آغاز مي شود و با ارزيابي نتايج، به پايان مي رسد.

جمع
داده

آوري

دسته

نظرها

بندي

نتايج

تحليل

پيش
داده

پردازش
اصلي

هاي

لغت

ايجاد
نامه

پيش
مجموع

پردازش
ة

جمع

اسناد
آوري

به

شده
فارسي

زبان

كلم

استخراج
ه

هاي

اسناد

پرتكرار

ترجمة

كلمه

ها

به
انگليسي

هر

قطبيت

تعيين

از

استفاده

با

كلمه
SentiWordNet

جمع

داده

آوري

در این سایت فقط تکه هایی از این مطلب با شماره بندی انتهای صفحه درج می شود که ممکن است هنگام انتقال از فایل ورد به داخل سایت کلمات به هم بریزد یا شکل ها درج نشود

شما می توانید تکه های دیگری از این مطلب را با جستجو در همین سایت بخوانید

ولی برای دانلود فایل اصلی با فرمت ورد حاوی تمامی قسمت ها با منابع کامل

اینجا کلیک کنید

دسته


پاسخ دهید