3-5-روش پيشنهادي سوم37
3-5-1.استخراج پلاريته کلمات و فيلتر بردار خصيصه38
فصل چهارم پياده سازي و نتايج گرفته شده47
4-1-مقدمه48
4-2-مجموعه داده‌ها48
4-3-طبقه‌بندي داده‌ها48

در این سایت فقط تکه هایی از این مطلب با شماره بندی انتهای صفحه درج می شود که ممکن است هنگام انتقال از فایل ورد به داخل سایت کلمات به هم بریزد یا شکل ها درج نشود

شما می توانید تکه های دیگری از این مطلب را با جستجو در همین سایت بخوانید

ولی برای دانلود فایل اصلی با فرمت ورد حاوی تمامی قسمت ها با منابع کامل

اینجا کلیک کنید

4-4-نتايج روش اول49
4-5-نتايج روش دوم52
4-6-نتايج روش سوم53
4-7-مقايسه روش پيشنهادي با روش‌هاي قبل53
8-4-نتايج اعمال روش پيشنهادي براي زبان فارسي…………………………………………………………………………………………………………..54
4-9-کارهاي آينده58
مراجع و منابع59
فهرست الگوريتم ها
Algorithm 1 Documents_To_model33
Algorithm 2 Documents_To_model235
Algorithm 3 Polarity_Filter40
فهرست تصاوير
شکل 1-1 دسته بندي متون5
شکل 1-2 تحليلگر احساس در سطح کلمه7
شکل 1-3 تحليلگر احساس در سطح جمله7
شکل 1-4 تحليلگر احساس در سطح سند8
شکل 2-1 مهمترين الگوريتم هاي انتخاب خصيصه تک متغيره19
شکل 2-2 مهمترين روش هاي انتخاب خصيصه چند متغيره21
شکل 3-1 Sentiwordnet22
شکل 3-2 شماي کلي روش پيشنهادي اول26
شکل 3-3 شماي پيش پردازش اسناد27
شکل3-4 برچسب گذار استنفورد30
شکل3-5 مجموعه خصيصه‌هاي پيشنهادي براي تحليل احساس32
شکل 3-6 شماي کلي روش پيشنهادي دوم36
شکل 3-7 شماي کلي روش سوم.38
شکل3-8 شماي کلي روش پيشنهادي43
شکل3-9 برچسب گذار زبان فارسي44
شکل3-10 مجموعه خصيصه‌هاي پيشنهادي براي تحليل احساس متون فارسي45
فهرست جداول
جدول 2-1 مجموعه خصيصه‌ها N-gram و مثال براي هر خصيصه15
جدول 2-2 مجموعه کاملي از خصيصه ها N-gram16
جدول 3-1 ليست Stopwords28
جدول 3-2 مثال براي رفع ابهام با استفاده از برچسب ادات سخن31
جدول 3-3 کلمات هم معناي great35
جدول 3-3 محاسبه تفاضل نسبي پلاريتي کلمات39
جدول 3-5 مثال خصيصه استخراج شده از متن.45
جدول 4-1 مجموعه داده هاي مورد استفاده در اين رساله49
جدول 4-2 تعداد خصيصه‌هاي پس از اعمال الگوريتم انتخاب خصيصه50
جدول 4-3 مقايسه روش هاي پيشنهادي50
جدول 4-4 مقايسه نتايج روش پيشنهادي با روش پيشين52
جدول 4-5 تعداد کل خصيصه ها بدون اعمال الگوريتم انتخاب خصيصه53
جدول 4-6 مقايسه نتايج روش پيشنهادي با روش ارائه شده توسط عباسي و همکارانش54
جدول 4-7 مقايسه نتايج روش پيشنهادي با روش ارائه شده توسط آگاروال و ميتال.54
جدول4-8- نتايج طبقه‌بندي متون فارسي57
فصل اول پيشگفتار

مقدمه
برخي نويسندگان داده کاوي را به عنوان ابزاري براي جستجو کردن اطلاعات سودمند در حجم زيادي از داده ها تعريف مي کنند. براي انجام فرايند داده کاوي با زمينه هاي گوناگون تحقيقي مواجه مي‌شويم، مانند پايگاه داده، يادگيري ماشين و آمار. پايگاه داده‌ها براي تحليل کردن حجم زيادي از داده‌ها ضروري هستند. يادگيري ماشين، يک ناحيه هوش مصنوعي است که با ايجاد تکنيک‌هايي امکان يادگيري به وسيله تحليل مجموعه‌هاي داده‌اي را به کامپيوترها مي‌دهند. تمرکز اين روش‌ها روي داده سمبوليک است و با آناليز داده‌هاي تجربي سر و کار دارد. پايه آن تئوري آماري است. در اين تئوري عدم قطعيت و شانس به وسيله تئوري احتمال مدل مي‌شوند. امروزه بسياري از روش‌هاي آماري در زمينه داده کاوي استفاده مي‌شوند. مي‌توان گفت که متن کاوي از تکنيک‌هاي بازيابي اطلاعات، استخراج اطلاعات همچنين پردازش کردن زبان طبيعي استفاده مي‌کند و آن‌ها را به الگوريتم‌ها و متدهاي داده کاوي، يادگيري ماشين و آماري مرتبط مي‌کند. با توجه به ناحيه‌هاي تحقيق گوناگون، بر هر يک از آن‌ها مي‌توان تعاريف مختلفي از متن کاوي در نظر گرفت در ادامه برخي از اين تعاريف بيان مي‌شوند:
متن کاوي = استخراج اطلاعات: در اين تعريف متن کاوي متناظر با استخراج اطلاعات در نظر گرفته مي‌شود (استخراج واقعيت‌ها از متن).
متن کاوي = کشف داده متني: متن کاوي را مي‌توان به عنوان متدها و الگوريتم‌هايي از فيلدهاي يادگيري ماشين و آماري براي متن‌ها با هدف پيدا کردن الگوهاي مفيد در نظر گرفت. براي اين هدف پيش پردازش کردن متون ضروري است. در بسياري از روش‌ها، متدهاي استخراج اطلاعات، پردازش کردن زبان طبيعي يا برخي پيش پردازش‌هاي ساده براي استخراج داده از متون استفاده مي‌شود، سپس مي‌توان الگوريتم‌هاي داده کاوي را بر روي داده‌هاي استخراج شده اعمال کرد.
متن کاوي = فرايند استخراج دانش: که در بخش قبلي به طور کامل توضيح داده شده است و در اينجا ديگر بيان نمي‌شود. در اين تحقيق ما بيشتر متن کاوي را به عنوان کشف داده متني در نظر مي‌گيريم و بيشتر بر روي روش‌هاي استخراج الگوهاي مفيد از متن براي دسته‌بندي مجموعه‌ هاي متني يا استخراج اطلاعات مفيد، تمرکز مي‌کنيم.
در دنياي کنوني مشکل کمبود اطلاعات نيست، بلکه مشکل کمبود دانشي است که از اين اطلاعات مي توان بدست آورد. ميليونها صفحه ي وب، ميليونها کلمه در کتابخانه‌هاي ديجيتال و هزاران صفحه اطلاعات در هر شرکت، تنها چند دست از اين منابع اطلاعاتي هستند. اما نمي‌توان به طور مشخص منبعي از دانش را در اين بين معرفي کرد. دانش خلاصه‌ي اطلاعات است و نيز نتيجه گيري و حاصل فکر و تحليل بر روي اطلاعات.
داده کاوي، يک روش بسيار کارا براي کشف اطلاعات از داده‌هاي ساختيافته‌اي که در جداول نگهداري مي‌شوند، است. داده کاوي، الگوها را از تراکنش‌ها، استخراج مي‌کند، داده را گروه‌بندي مي‌کند و نيز آنرا دسته‌بندي مي‌کند. بوسيله‌ي داده کاوي مي‌توانيم به روابط ميان اقلام داده‌اي که پايگاه داده را پر کرده‌اند، پي ببريم. در عين حال ما با داده کاوي مشکلي داريم و آن عدم وجود عاميت در کاربرد آن است. بيشتر دانش ما اگر به صورت غير ديجيتال نباشند، کاملاً غير ساختيافته اند. کتابخانه‌هاي ديجيتال، اخبار، کتابهاي الکترونيکي، بسياري از مدارک مالي، مقالات علمي و تقريباً هر چيزي که شما مي‌توانيد در داخل وب بيابيد، ساختيافته نيستند. در نتيجه ما نمي‌توانيم آموزه‌هاي داده کاوي را در مورد آنها به طور مستقيم استفاده کنيم. با اين حال، سه روش اساسي در مواجهه با اين حجم وسيع از اطلاعات غير ساختيافته وجود دارد که عبارتند از: بازيابي اطلاعات، استخراج اطلاعات و پردازش زبان طبيعي.
بازيابي اطلاعات: اصولاً مرتبط است با بازيابي مستندات و مدارک. کار معمول دربازيابي اطلاعات اين است که با توجه به نياز مطرح شده از سوي کاربر، مرتبط ترين متون و مستندات و يا در واقع بقچه‌ي کلمه را ازميان ديگر مستندات يک مجموعه بيرون بکشد. اين يافتن دانش نيست بلکه تنها آن بقچه‌اي از کلمات را که به نظرش مرتبط‌تر به نياز اطلاعاتي جستجوگر است را به او تحويل مي‌دهد. اين روش به واقع دانش و حتي اطلاعاتي را برايمان به ارمغان نمي‌آورد.
پردازش زبان طبيعي: هدف کلي پردازش زبان طبيعي رسيدن به يک درک بهتر از زبان طبيعي توسط کامپيوترهاست. تکنيک‌هاي مستحکم و ساده‌اي براي پردازش کردن سريع متن به کار مي‌روند. همچنين از تکنيک‌هاي آناليز زبان شناسي نيز براي پردازش کردن متن استفاده مي‌شود.
استخراج اطلاعات: هدف روش‌هاي استخراج اطلاعات، استخراج اطلاعات خاص از سندهاي متني است. استخراج اطلاعات مي‌تواند به عنوان يک فاز پيش پردازش در متن‌کاوي بکار برود. استخراج اطلاعات عبارتند از نگاشت کردن متن‌هاي زبان طبيعي (مثلا گزارش‌ها، مقالات journal، روزنامه‌ها، ايميل‌ها، صفحات وب، هر پايگاه داده متني و…..) به يک نمايش ساختيافته و از پيش تعريف شده يا قالب‌هايي که وقتي پر مي‌شوند، منتخبي از اطلاعات کليدي از متن اصلي را نشان مي‌دهند. يکبار اطلاعات استخراج شده و سپس اطلاعات مي‌توانند در پايگاه داده براي استفاده‌هاي آينده، ذخيره شوند.
کاربردهاي متن کاوي
در اين قسمت تعدادي از کاربردهاي متن‌کاوري را بيان خواهيم کرد. امروزه با وجود حجم زيادي از اطلاعات متني، متن‌کاوي از جمله روش هاي تحقيقي-تجاري مي‌باشد که از اهميت ويژه‌اي برخوردار است. همه شرکت‌هاي تجاري، توليد کنندگان کالاها، ارائه کنندگان خدمات و سياست‌مداران قادرند با بهره‌گيري از فرايند متن‌کاوي دانش مفيدي را به عنوان بازخورد از کالا، خدمات و عملکرد خود دريافت کنند. از جمله کاربردهاي متن کاوي مي‌توان به موارد زير اشاره نمود:
1.شناساييspam: آناليز کردن عنوان و محتواي يک ايميل دريافتي، براي تشخيص اينکه آيا ايميل مي‌تواند spam باشد ياخير.
2 .نظارت :يعني نظارت کردن رفتار شخص يا گروهي از انسان‌ها به صورت پنهان. پروژه‌اي به نام ENCODA تلفن، اينترنت و ديگر وسايل ارتباطي را براي شناسايي تروريسم نظارت مي‌کند.
3. شناسايي نامهاي مستعار: نام‌هاي مستعار در مراقبت‌هاي پزشکي براي شناسايي تقلب‌ها آناليز مي‌شوند. براي مثال يک صورت حساب ممکن هست با نام John Smith، J. Smith و Smith, John ارائه شود. از اين طريق يا با استفاده از روش‌هاي ديگري مطالبه کنندگان امکان سوءاستفاده را خواهند يافت و مطالبات حق بيمه زيادي تحت نام‌هاي مستعار مختلف دريافت مي‌کنند. استفاده از متن‌کاوي براي تشخيص اين نام‌هاي مستعار مي‌تواند در يافتن تقلب به شرکت‌هاي بيمه کمک فراواني کند.
4.خلاصه سازي: منظور از خلاصه سازي، روند استخراج و ارائه مجموعه‌اي مفاهيم پايه‌اي از متن، تنها در چند خط است. اين کار مي‌تواند بررسي محتويات مستندات را براي کاربران ساده‌تر کند و آنها را در مسير رسيدن به آنچه نياز دارند، سرعت بخشد.
5. روابط ميان مفاهيم: از جمله واقعيتهايي که مي توان از يک مجموعه متون دريافت، ارتباط و وابستگي برخي مفاهيم با مفاهيم ديگراست. اين واقعيات به طور مثال مي‌تواند بگويد که پديدار شدن بعضي کلمات ممکن است که وابسته باشد به ظاهر شدن بعضي ديگر از کلمات. منظور اين است که هرگاه مجموعه ي اول کلمات را ببينيم، مي‌توانيم انتظار داشته باشيم که مجموعه‌ي دوم لغات را نيز در ادامه مشاهده خواهيم کرد. اين مفهوم نيز از داده کاوي در ديتابيس به امانت گرفته شده است.
6. يافتن وتحليل رفتارها: براي شرح اين کاربرد فرض کنيد که مدير يک کمپاني تجاري هستيد. مشخصاً شما بايد همواره بر فعاليتهاي رقيبانتان نظارت داشته باشيد. اين مي‌تواند هر نوع اطلاعاتي باشد که شما از اخبار، معاملات بورس و يا از مستندات توليد شده توسط همان کمپاني رقيب گرفته‌ايد. امروزه اطلاعات به طور فزآينده‌اي در حال افزايش است، مديريت تمامي اين منابع داده‌اي قطعاً تنها به کمک چشمان ممکن نيست. متن‌کاوي اين امکان را مي‌دهد که به طور اتوماتيک رفتارها و تغييرات جديد را بيابيد. در واقع آنچه اصولاً بايد از متن‌کاوي انتظار برود اين است که به شما بگويد چه اخباري در ميان گستره‌اي از اخبار به آنچه مي خواهيد مرتبط است و در اين ميان کدام خبر جديداست، چه پيشرفتهايي در زمينه‌ي کاري شما صورت مي گيرد و علايق و رفتارهاي فعلي چگونه است و با چه روندي تغيير مي‌کند. با استفاده از اين اطلاعات، مديران قادرند از اطلاعات کشف شده براي بررسي وضعيت رقيب سود جويند.
7. تحليل احساس : در اين کاربرد هدف از متن کاوي تشخيص احساس نويسنده متن است. درجه رضايت يا خوشحالي و ناراحتي نويسنده تشخيص داده مي‌شود. اين رساله به بررسي متن کاوي به منظور تحليل احساس موجود در متون خواهد پرداخت، لذا در ادامه با جزئيات بيشتري تحليل احساس در متون را بررسي خواهيم کرد.
همه اطلاعات متني را مي‌توان به دو دسته:حقايق1 و عقايد2 دسته بندي کرد. حقايق عبارات علمي‌ و عملي درباره موجوديت‌ها، رويدادها و ويژگي‌هاي آنها هستند که بصورت عيني و واقعي در دنياي بيرون وجود دارند يا به وقوع پيوسته‌اند. عقايد عبارات غير عيني و ذهني هستند که نظرات، ارزيابي‌ها يا احساسات افراد را درباره يک موجوديت، رويداد و ويژگي‌هاي آنها بيان مي‌کنند [23]. شکل 1-1 مثالي را براي هر کدام بيان ميکند. در اين رساله تنها به يک جنبه از اين مفهوم يعني احساسات خواهيم پرداخت.
قبل از سال 2000 به دليل کمبود منابع داده‌اي و کمبود متون حاوي نظرات و عقايد در تارنماي گسترده جهاني3 تحقيقات اندکي در اين زمينه به انجام رسيده است. امروزه با گسترش اينترنت و همه‌گير شدن شبکه‌هاي اجتماعي، کاربران مي‌توانند نظرات خود درباره محصولات يا خدمات را در سايت‌هاي تجاري، شبکه‌هاي اجتماعي، وبلاگ‌ها بيان کنند؛ صفحات وب متون زيادي را در بر دارند که مشتمل بر نظرات، عقايد، ارزيابي کاربران پيرامون يک کالا يا خدمات خاص هستند. اطلاعاتي که از اين نوع داده‌ها قابل دست‌يابي است، براي شرکت‌هاي سازنده و همچنين سازمان‌هاي ارائه کننده خدمات بسيار مفيد و گاهي ضروري خواهند ‌بود. همچنين براي کاربراني که قصد انتخاب خدمات يا يک نوع کالا را دارند راهنمايي مفيدي را ارائه مي‌دهند. شخصي را در نظر بگيريد که قصد دارد موبايل يا دوربين ديجيتالي بخرد، براي آگاهي از کيفيت دوربين و مطلوبيت خدمات شرکت سازنده بدون شک به پرسش و جمع‌آوري اطلاعات از اطرافيان روي خواهد آورد، ولي امروزه با رشد اينترنت مي‌توان بصورت آنلاين نظرات و تجربيات صدها نفر را درباره يک کالاي خاص مطالعه کرد و براي تصميم گيري از آنها مدد گرفت.
امروزه تعدد و گوناگوني منابع اينترنتي حاوي نظرات و احساسات کاربران به حدي زياد شده است که يافتن و ارزيابي آنها کار بسيار پيچده‌اي است. در بسياري موارد نظرات و عقايد کاربر در يک پست طولاني پنهان شده است. براي استخراج نظرات و عقايد درباره يک موجوديت بايد در ابتدا منابع اينترنتي مرتبط با آن را يافت سپس متن مورد نظر خوانده شود، جملات بيان کننده نظرات و عقايد کاربر از متن استخراج شوند، خلاصه سازي شوند و به فرم قابل استفاده تبديل شوند. از جمله مشکلاتي که در اين زمينه وجود دارد حجم زياد داده مي‌باشد. در صفحه توييتر شخصي جاستين بيبر روزانه 300000 نظر ثبت مي‌شود [22]. اين حجم از داده‌ها ميتوانند اطلاعات مفيدي را براي شرکت‌ها و همچنين مشتري‌ها به همراه داشته باشند؛ ولي پردازش آنها بصورت دستي و انساني غير ممکن مي‌باشد، لذا طراحي يک روش اتوماتيک براي تحليل متن و استخراج نظرات و عقايد موجود در متن ضروري است. در همين راستا تلاش‌هاي فراواني صورت گرفته است، مثلا در کشور آمريکا 20 تا 30 شرکت به ارائه خدمات تخصصي تحليل احساس مي‌پردازند [17].
در اين رساله روشي براي تحليل احساس ارائه مي‌شود. روش پيشنهادي سعي در ارائه مجموعه مناسبي از خصيصه‌ها4 را دارد به نحوي که بتوان به دقت بهتري در ارزيابي اتوماتيک متون دست يافت، همچنين تعداد خصيصه‌ها در حد متناسبي حفظ شود. براي انتخاب خصيصه‌ها از الگوريتم‌هاي ساده و با حداقل پيچيدگي زماني بهره مي‌بريم و نياز به استفاده از الگوريتم انتخاب خصيصه با پيچيدگي زماني بالا مرتفع شده است.
تحليل احساس در متن
تحليل احساس در واقع مطالعه محاسباتي نظرات عقايد و احساسات بيان شده در متن است. متن زير نظر يک کاربر درباره iphone است.
“(1) I bought an iphone a few days ago. (2) It was such a nice phone. (3) The touch screen was really cool. (4) The voice quality was clear. (5) Although the battery life was not long, that is ok for me. (6) However my mother was mad with me as I did not tell her before I bough it. (7) She also thought the phone was too expensive, and wanted me to return it to shop……”
چه اطلاعاتي مي‌توان از متن استخراج کرد ؟ ابتدا بايد توجه کنيم چند نظر در اين متن وجود دارد، جملات (2)، (3) و (4) نظرات مثبتي را بيان مي‌کنند. جملات (5)، (6) و (7) نظرات منفي را بيان مي‌کنند. آيا نظرات بيان شده درباره يک موجوديت بيان شده‌اند؟ اين موجوديت کدام است؟ جمله (2) بصورت کلي نظري را درباره iphone بيان کرده است. جملات (3)، (4) و (5) نظراتي درباره صفحه لمسي، وضوح صدا و طول عمر باتري بيان مي‌کنند. جمله (7) عقيده مشتري نسبت به قيمت موبايل را بيان مي‌کند. ولي نظرات بيان شده در جمله (6) درباره شخص مي‌باشد نه درباره موبايل iphone. اين نکته بسيار مهم است بايد توجه داشت متني که حاوي نظرات کابران مي‌باشد لزوما درباره يک موجوديت خاص نيست، ممکن است در طول متن نظرات مثبت و منفي درباره موجوديت‌هاي متفاوت بيان شده باشد.
تحليلگر احساس و عقايد معمولا ورودي‌هاي خود(جملات، اسناد) را به دو گروه نظرات و عقايد مثبت و نظرات و عقايد منفي دسته‌بندي مي‌کند. برخي از تحقيقات نيز ضعيف يا قوي بودن نظرات در نظر گرفته‌اند و متون در 4 گروه دسته بندي مي‌شوند. گروه اول نظرات کاملا منفي، دوم نظرات کمي‌منفي، سوم نظرات کمي‌مثبت، چهارم نظرات کاملا مثبت.
فرايند تحليل احساس در سه سطح انجام مي‌شود:
در سطح کلمات
در سطح جمله
در سطح سند.
براي هر سطح پيش فرض‌ها و وظايفي برشمرده مي‌شود که بايد در تحليلگر لحاظ شوند. در ادامه به تشريح تحليلگر احساس در سطوح متفاوت خواهيم پرداخت.
تحليلگر احساس در سطح کلمه يک سند يا مجموعه اي از جملات را به عنوان ورودي دريافت مي‌کند. ابتدا کلمات متفاوت که ويژگي‌هاي يک موجوديت را بيان مي‌کنند را از متن استخراج مي‌کند. سپس نظرات بيان شده در متن پيرامون ويژگي‌هاي موجوديت را تشخيص مي‌دهد. شکل1-2 يک مثال از عملکرد تحليلگر احساس در سطح کلمه را بيان مي‌کند.
همانطور که در شکل 1-2 قابل مشاهده است، تحليلگر احساس در سطح کلمه يک سند را به عنوان ورودي دريافت مي‌کند، ويژگي هاي شئ مورد بحث در سند را استخراج مي‌کند(شئ مورد بحث:موبايل، ويژگي هاي شئ مورد بحث:کيفيت صدا و عمر باطري) و در پايان بر اساس نظرات بيان شده در سند به ويژگي‌هاي استخراج شده در مرحله قبل، نمره مثبت يا منفي مي‌دهد.
تحليل احساس در سطح جمله مانند تحليلگر احساس در سطح کلمه يک سند يا مجموعه‌اي از جملات را به عنوان ورودي دريافت مي‌کند. جملات متن را تشخيص داده و بر اساس محتواي متن آنها را دسته‌بندي مي‌کند؛ دسته اول جملات حاوي نظرات مثبت و دسته دوم جملات حاوي نظرات منفي. شکل 1-3 مثال تحليلگر احساس در سطح جمله را بيان مي‌کند.
تحليلگر احساس در سطح سند(شکل 1-4) که هدف از اين رساله نيز مي‌باشد، تعدادي اسناد را دريافت مي‌کند و آنها را در دو دسته اسناد حاوي نظر مثبت و اسناد حاوي نظر منفي طبقه‌بندي مي‌کند. در اين روش تحليل احساس فرض بر آن است که هر سند درباره يک موجوديت واحد بحث مي‌کند و همه نظرات مثبت و منفي درون سند درباره يک موجوديت واحد مي‌باشد. با اين کار طراحي تحليلگر ساده مي‌شود.
با اين فرض که در هر سند فقط درباره يک موجوديت بحث مي‌شود ديگر نيازي نيست با بسياري از پيچيدگي‌هايي که در پردازش زبان طبيعي با آن مواجه هستيم دست و پنجه نرم کنيم. پس از سال 2000 تا کنون تحقيقات فراواني در اين زمينه به انجام رسيده است؛ با اين وجود بسياري از مشکلات در اين زمينه هنوز حل نشده باقي مانده‌اند. در اين رساله به برخي از اين مشکلات پرداخته و روش‌هايي را براي غالب آمدن بر اين مشکلات بيان خواهيم کرد.
اهداف رساله
هدف از اين رساله ارائه روشي براي تحليل احساس در مجموعه‌اي از اسناد مي‌باشد، به گونه اي که اسناد در دو گروه نظرات مثبت و نظرات منفي طبقه شوند. از جمله مشکلاتي که براي تحليل احساس وجود دارد حجم زياد متون است، براي مثال تعداد خصيصه‌هاي استخراج شده از مجموعه داده فيلم‌ها بالغ بر پنجاه هزار خصيصه بود [4]. همچنين خصيصه‌هاي زبان شناختي فراواني وجود دارد که بايد از اين ميان بهترين خصيصه‌هاي را بيابيم و براي مدل‌سازي متون از آنها استفاده کنيم. در اين رساله تلاش بر آن بوده تا بتوانيم مجموعه مناسبي از خصيصه‌ها را انتخاب کنيم و با داشتن حداقل خصيصه‌ها از يک الگوريتم انتخاب خصيصه با پيچيدگي زمان کم استفاده شود. در اين رساله دو مجموعه داده فارسي و انگليسي بررسي خواهند شد. ابتدا سعي مي‌کنيم روش مناسبي براي تحليل احساس در متون انگليسي ارائه دهيم سپس روش ارائه شده را به زبان فارسي تعميم خواهيم داد.
روش کار
براي انجام پايان نامه در مرحله اول مباني نظري و راهکارهاي موجود، در ارتباط با تحليل احساس موجود درمتن و تشکيل بردار خصيصه‌ها با استفاده از خصيصه‌هاي زبان شناختي مورد مطالعه قرار گرفته‌اند. سپس با تحليل و بررسي روش‌هاي موجود نقات ضعف و قوت اين روش‌ها را مورد توجه قرار داده تا بتوانيم با ترکيب يا بهبود آنها به روش بهتري دست يابيم. در ادامه روش پيشنهادي را با استفاده از داده‌هاي موجود مورد تست و ارزيابي قرار داده‌ايم. به دنبال آن، با تحليل‌هاي انجام شده بر روش پيشنهادي، مشکلات موجود را تا حدي برطرف کرده و روشي جامع‌تر را با دقت عملکرد بهتر ارائه داديم. در اين رساله از ترکيب جديدي از خصيصه‌هاي زبان شناختي استفاده شده است. همچنين براي اولين بار در تحليل احساس از مفاهيم مبتني بر Wordnet بهره برده‌ايم.
ساختار پاياننامه
فصل دوم به طبقه‌بندي و بررسي شيوه‌هاي موجود در تحليل احساس وعقايد و بررسي روش‌هاي نوين ارائه شده در اين زمينه پرداخته است، همچنين کارهاي مرتبط و شيوه‌هاي مورد استفاده در آنها را بيان کرده‌ايم. در فصل سوم روش‌هاي پيشنهادي براي تحليل احساسات و عقايد در راستاي افزايش دقت و کاهش زمان طبقه‌بندي ارائه شده است. فصل چهارم عملکردِ روش‌هاي پيشنهادي ارزيابي شده و با روش‌هاي موجود در اين زمينه مقايسه مي‌شوند. در پايان فصل چهار نيز برخي از کارهايي که در آينده بايد انجام شوند را بيان کرده‌ايم.
فصل دوم کارهاي انجام شده

مقدمه
در اين فصل ابتدا به بررسي کارهاي که پيشتر انجام شده است خواهيم پرداخت و نقاط ضعف و قوّت هر کدام را بصورت کوتاه بيان مي‌کنيم. هر چند تعداد آثار موجود در زمينه تحليل احساس در متن، فراوان است ولي در اين بخش ما تعدادي از تحقيقات مهم را بصورت منتخب بيان خواهيم کرد.
براي مدل‌سازي اسناد بايد مجموعه خصيصه‌هاي مفيدي از متن استخراج کنيم. مجموعه خصيصه‌هاي مفيد خصيصه‌هاي هستند که به الگوريتم يادگيري ماشين براي طبقه‌بندي داده‌ها کمک کنند. اين خصيصه‌ها بايد به نحوي انتخاب شوند که بهترين مدل ممکن از اسناد را ارائه دهند و بايد توجه کنيم هدف اين مدل تحليل احساس است لذا بايد بيشترين اطلاعات ممکن به منظور تحليل احساس را در اختيار نرم‌افزار طبقه‌بندي قرار دهند. با توجه به حجم متن اسناد و تعداد اين اسناد، بردار خصيصه‌‌ي حاصل بزرگ خواهد بود، که اين امر مشکلاتي را به همراه دارد. از جمله‌ي اين مشکلات کاهش کارايي و دقت طبقه‌بندي را مي‌توان نام برد، لذا بايد از روش انتخاب خصيصه استفاده کرد تا بتوان سودمندترين خصيصه‌ها را از ميان هزاران خصيصه استخراج کرد. در ابتدا تاريخچه تحقيق در زمينه تحليل احساس در متن را بيان خواهيم کرد، سپس مجموعه خصيصه‌هاي N-gram مورد استفاده و کارهايي که از آنها استفاده کرده‌اند را بيان مي‌کنيم، پس از آن روش‌هاي انتخاب خصيصه معروف و تحقيقاتي که از آنها استفاده کرده‌اند را بيان خواهيم کرد.
تعريف مسئله
براي حل کردن هر مسئله، ابتدا بايد يک تعريف مناسب از مسئله را ارائه دهيم. در فصل قبل هدف از اين رساله را تحليل احساسات و عقايد در سطح سند معرفي کرديم.
چنانچه D مجموعه اي از اسناد باشد، سيستم ارائه شده بايد تشخيص دهد D d? نظر مثبت يا نظر منفي را درباره يک شي O بيان مي‌کند.
تحليلگر احساس يک مجموعه از اسناد D را که حاوي نظرات کاربران پيرامون يک شئ خاص O است را دريافت مي‌کند و جهت گيري آنها را نسبت به آن شئ خاص تشخيص مي‌دهد، به نحوي که هر سند D بطور قطعي نظر مثبت يا منفي را درباره شئ O بيان مي کند.
بسياري از تکنيک‌هاي تحليل احساس در سطح سند بر پايه الگوريتم هاي يادگيري نظارت شده5 هستند؛ تعداد از روش هاي يادگيري بدون نظارت6 نيز وجود دارد [23]. در اين رساله تمرکز بر روش‌هاي يادگيرنده‌ي مبتني بر ناظر است.
گام اول تحليل احساس در متن
سال 2002 pang و همکارانش تحقيقي را انجام دادند که سر آغاز اين راه ناميده مي‌شود. هر چند قبل از آن نيز کارهايي انجام شده‌اند که بطور ضمني از تحليل احساسات و عقايد سخن به ميان آورده‌اند ولي pang و همکارانش اولين بار بطور صريح در سال 2002 به تحليل احساس در متن پرداخته‌اند [4].
pang و همکارانش از مجموعه خصيصه‌هاي unigram، bigram، صفات و ترکيبي از اين سه نوع مجموعه خصيصه‌ها استفاده کردند. همچنين براي طبقه‌بندي از الگوريتم‌هاي SVM7، بيز ساده و حداکثر آنتروپي بهره گرفته‌اند. روش‌هاي متفاوتي براي نمايش بردار خصيصه‌ها وجود دارد pang و همکارانش از دو روش فرکانس خصيصه8 و حضور خصيصه9 براي نمايش بردار خصيصه‌ها استفاده کرده‌اند. نتايج نشان داد روش حضور خصيصه نسبت به ساير روش‌هاي مورد استفاده نتايج بهتري به همراه خواهد داشت. روش‌هاي که آنها براي نمايش بردار خصيصه‌هاي بکار برده‌اند، تاکنون در تحقيقات متفاوت به کار گرفته شده است. نتايج تحقيق نشان داد خصيصه‌هاي unigram نسبت به ساير خصيصه‌هاي زبان شناختي عملکرد بهتري دارند و باعث بهبود طبقه‌بندي مي‌شوند. خصيصه‌هاي bigram نسبت به خصيصه‌هاي unigram دقت کمتري در طبقه‌بندي از خود نشان دادند. در اين تحقيق براي طبقه‌بندي اسناد از روش‌هاي بيز ساده SVM و حداکثر آنتروپي استفاده شده است. نتايج طبقه‌بند SVM نسبت به ساير الگوريتم‌هاي طبقه‌بندي دقت بهتري از خود نشان داد. علاوه بر مطالب ذکر شده آنها مجموعه داده‌هاي بازبيني فيلم‌ها را ارائه دادند. اين مجموعه داده‌ها از سايت IMDB10 جمع‌آوري شده است، مجموعه داده بازبيني فيلم‌ها داده متشکل از 2000 فايل بازبيني فيلم بود، 1000 فايل آن حاوي نظرات مثبتي پيرامون فيلم‌ها و 1000 فايل ديگر نيز حاوي نظرات منفي پيرامون فيلم‌ها بودند. بهترين دقت بدست آمده توسط pang و همکارانش با استفاده از 16165 خصيصه unigram و در الگوريتم طبقه‌بندي SVM حاصل شده بود[4].
مهم‌ترين ويژگي اين تحقيق ارائه زمينه تحقيقي جديد براي طبقه‌بندي متون بوده‌است. همچنين نمايش بردار خصيصه ارائه شده در اين تحقيق، تا کنون به عنوان يکي از بهترين روش‌ها نمايش بردار خصيصه مورد استفاد قرار مي‌گيرد. pang و همکارانش در اين تحقيق بر غير مفيد بودن خصيصه‌هاي bigram و خصيصه‌هاي N-gram n>1 تاکيد داشتند.
روش‌هاي مبتني بر خصيصه‌هاي N-gram
يکي از مهمترين فازهاي فرايند تحليل احساسات و عقايد، مدلسازي متون با استفاده از خصيصه‌هايي است که قادرند بخوبي بيان کننده صفات اسناد باشند. اين رساله بر روي خصيصه‌هايN-gram تاکيد دارد.
خصيصه‌هاي N-gram به دو دسته تقسيم مي‌شوند:
N-gram ثابت؛ يک توالي دقيق در سطح کاراکتر يا توکن مي‌باشد. مانند unigram يا biram.
N-gram متغير؛ الگوهايي براي استخراج اطلاعات از متن هستند. مانند <subj> Pass VP يا <subj> dealt bow.
خصيصه‌هاي N-gram متغير قادرند مفاهيم پيچيده‌تر زبان شناختي را بيان کنند [1]. در اين رساله هدف اصلي خصيصه‌هاي N-gram مانند، بسته کلمات11 همچنين N-gram با درجات بالاتر مانند bigram و trigram مي باشند. N-pos ترکيب n تايي از ادات سخن مي‌باشد. همچنين n-posword ترکيب n تاي از کلمات به همراه برچسب ادات سخن آنها مي‌باشد. در ادامه مثال‌هايي براي هر يک از انواع خصيصه‌هاي N-gram بيان خواهيم کرد(جدول 2-1).
همانطور که در بخش قبلي بيان شد، pang و همکارانش نشان داده‌اند استفاده از خصيصه‌هاي bigram براي تحليل احساسات و عقايد عملکردي بدتري نسبت به خصيصه‌هاي unigram در پي خواهند داشت. تحقيقي که وينسنت و همکارانش سال 2006 انجام داده‌اند خصيصه‌هاي unigram، bigram و trigram را براي مدلسازي اسناد به کار بردند [25]. اسناد متني به دو دسته حقايق و عقايد دسته‌بندي مي‌شوند و مثال بخش 1-2 نشان مي‌دهد اغلب متون حاوي ترکيبي از حقايق و عقايد هستند، بنابراين بيشتر اسناد متني ترکيبي از متون جهت‌دار (عقايد و نظرات) با متون عيني و واقعي (حقايق) هستند. متون عيني و واقعي درون اسناد در واقع همان خصيصه‌هاي غير مرتبط با تحليل احساس هستند چون اطلاعات مفيدي براي الگوريتم يادگيري ماشين در جهت تحليل احساس موجود در متون را فراهم نمي‌کنند. تعداد زياد خصيصه‌ها و غير مرتبط بودن بسياري از اين خصيصه‌ها به تحليل احساس، مشکلات زيادي را موجب مي شود، از جمله اين مشکلات مي‌توان کاهش دقت طبقه‌بندي وکاهش سرعت عمليات طبقه‌بندي را نام برد. بهتر است قسمتي از متن که حاوي حقايق است در فاز اول از متون حاوي نظرات و عقايد مجزا شود. وينسنت و همکارانش در ابتدا، بخش‌هايي از اسناد که عقايد و نظرات را بيان مي‌کردند را تشخيص داده، از متن جدا کرده‌اند. آنها با فيلتر کردن متون حاوي حقايق از متون احساسي توانستند براي خصيصه‌ها unigram و bigram نتايج بهتري را نسبت به pang و همکارانش بدست آورند. همچنين آنها نشان دادن خصيصه‌هاي N-gram n>1 قادرند وابستگي کلمات موجود در متن، را در مدلسازي وارد کنند بنابراين به دقت عملکرد الگوريتم يادگيري ماشين در جهت طبقه‌بندي متون کمک مي‌کنند. در اين تحقيق دقت حاصله از طبقه‌بندي اسناد با استفاده از خصيصه‌هاي unigram به ميزان 87.1 درصد گزارش شده است. اين ميزان نسبت به نتيجه بهترين روش ارائه شده توسط pang و همکارانش 5 درصد بهبود يافته است. همچنين با استفاده از خصيصه‌هاي unigram+bigram+trigram (ترکيب هر سه نوع خصيصه) فرايند طبقه‌بندي اسناد را با دقت 89.2 درصد انجام داده‌اند. در اين تحقيق به بررسي اثر گذاري خصيصه‌هاي N-gram پرداخته شده است وينسنت و همکارانش نشان دادند استفاده از خصيصه‌هاي bigram به همراه unigram باعث بهبود عملکرد طبقه‌بندي مي‌شود. همچنين به اين نتيجه دست يافتند که خصيصه‌هاي bigram به تنهايي بهبودي در طبقه‌بندي ايجاد نمي‌کنند، دليل اين موضوع نيز پراکندگي خصيصه‌هاي bigram است؛ برخلاف آنچه در [4] اعلام شده، که خصيصه‌هاي bigram ذاتا به بهبود طبقه‌بندي کمک نمي‌کنند. بنابراين چنانچه بتوانيم پراکندگي موجود در خصيصه‌هاي bigram را کاهش دهيم مي‌توانيم دقت عملکرد اين نوع خصيصه‌ها را بهبود دهيم.
در برخي از تحقيقات براي مدلسازي اسناد از خصيصه‌هاي N-POS12 استفاده شده‌است. في و همکارانش در سال 2004 از خصيصه‌هاي 1-pos و 2-pos استفاده کرده‌اند و بهترين دقت حاصل از طبقه‌بندي در اين تحقيق 86% بوده است [26]. آنها الگوهايي نحوي را ارائه دادند که اغلب متون جهت‌دار در اين الگوها قرار مي‌گيرند، مثلا يکي از الگوهاي ارائه شده n+adj13 بوده است. ابتدا متن را برچسب گذاري کرده‌اند و الگوهاي مورد نظر را از متن استخراج کرده‌اند. مدلي که در اين روش ارائه شده همانند روش وينسنت و همکارانش سعي دارد در ابتدا متن را فيلتر کند و فقط متن جهت‌دار(متن حاوي نظرات مثبت يا منفي کاربران درباره يک موجوديت مشخص) را براي مرحله طبقه‌بندي و مدلسازي استفاده کند. اما مشکل اين روش آن است که نمي‌توان براي همه حالت هاي متن جهت‌دار الگويي ارائه داد و همواره ممکن است متن خاصي با الگوهاي ارائه شده سازگار نباشد. مدلسازي متن با استفاده از الگوهاي N-POS حتي نسبت به مدل unigram دقت کمتري را براي طبقه‌بندي به همراه داشت. لذا روش مناسبي براي مدل‌سازي اسناد نيست.

گامن سال 2004 4 گروه خصيصه را مورد بررسي قرار داد. گروه اول خصيصه‌هاي N-gram از ترکيب خصيصه‌هاي unigram، bigram و trigram تشکيل شده‌اند. گروه دوم خصيصه‌هاي متشکل از ترکيب N-gram و 3-POS بوده‌اند. گروه سوم، خصيصه‌هاي مانند طول جمله، طول عبارات، تعداد کلمات بوده‌اند و گروه چهارم ترکيب سه گروه خصيصه ذکر شده بوده‌اند. تعداد خصيصه‌ها در اين روش از 1000 تا 40000 خصيصه بوده‌اند. بهترين دقت حاصله براي طبقه‌بندي متون با استفاده از خصيصه‌هاي گروه چهارم بدست آمده است که نشان مي‌دهد ترکيب خصيصه‌ها مدل بهتري از اسناد به منظور تحليل احساس در متن را ارائه مي‌دهد. در بهترين حالت دقت طبقه‌بندي 89 درصد گزارش شده است. در اين تحقيق ترکيب‌هاي متفاوت از خصيصه‌ها مورد بررسي قرار گرفت و ميزان اثر گذاري آنها بحث شده‌است [20].
مدل N-gram کاراکترها(N-char) توسط عباسي و همکارانش مورد استفاده قرار گرفت. مثلا مدل Bigram عبارت Like بصورت “li ik ke” خواهد بود [2]. در اين مدل تعداد بسيار زياد خصيصه‌ها مشکل‌ساز خواهد بود و استفاده از الگوريتم‌هاي انتخاب خصيصه به دليل تعداد بسيار زياد خصيصه‌ها ما را با مشکل پيچيدگي زماني روبرو خواهد کرد. استفاده از خصيصه‌ها N-char همواره باعث افزونگي و افزايش تعداد خصيصه‌هاي غير مفيد مي‌شود، به اين دليل که همپوشاني بسياري زيادي در خصيصه‌هاي n-char وجود دارد.
تحقيقات اندکي از مدل POSWORD14 (برچسب نقش کلمه در سخن به همراه خود کلمه) استفاده کرده‌اند. ويب و همکارانش در سال 2004 . به منظور کاهش ابهام کلمات در فرايند تحليل احساس از 3-POSWORD استفاده کرده‌اند. با توجه به اينکه خصيصه‌هاي POS-Tag به همراه خود کلمه مي‌تواند باعث کاهش ابهام کلمات شود در نتيجه باعث بهبود دقت ارزيابي و طبقه‌بندي اسناد مي‌شود [12]. مهمترين دليل استفاده از 3-POSWORD وارد کردن وابستگي به متن در مدل مورد استفاده مي‌باشد. لذا اگر بتوان مشکلات ناشي از پراکندگي و افزونگي را مديريت کرد به نظر مي‌رسد استفاده از خصيصه‌هاي N-gram n>1 به بهبود نتايج کمک زيادي کند.
جدول 2-1 مثالي براي هر يک از خصيصه‌هاي N-gram مطرح شده را نشان مي‌دهد.
عباسي و همکارانش در سال 2011 مجموعه کاملي از خصيصه‌هاي N-gram که در کارهاي پيشين استفاده شده بود را جمع آوري کرده و براي مدلسازي اسناد از آنها استفاده کردند [1]. اين مجموعه خصيصه‌ها در جدول 2-2 بيان شده‌اند. آنها در اين تحقيق با استفاده از طبقه بند SVM به دقت 90 درصد براي طبقه‌بندي مجموعه داده‌هاي بازبيني فيلم‌ها دست يافتند. مدل ارائه شده که در جدول 2-2 قابل مشاهده است، بسياري از خصيصه‌ها همديگر را پوشش مي‌دهند لذا باعث تشديد افزونگي در مدل حاصله مي‌شوند. هر گروه از اين خصيصه‌ها داراي تعداد زيادي خصيصه‌هاي غيرمرتبط با تحليل احساس موجود در متن هستند، استفاده همزمان از همه اين خصيصه‌ها باعث افزايش چشم‌گير خصيصه‌هاي غير مرتبط در نتيجه کاهش اثر گذاري خصيصه‌هاي مرتبط با تحليل احساس و در نهايت کاهش دقت طبقه‌بندي مي‌شود. آنها براي حل اين مشکل يک روش انتخاب خصيصه شبکه ارتباطي خصيصه15 را ارائه دادند، که پيچيدگي زماني بالايي دارد. مي‌توان با بهره گيري از خصيصه‌هاي مطلوب‌تر خصيصه‌هاي افزونه و خصيصه‌هاي غير مرتبط را کاهش داد و براي تعيين سودمندي خصيصه‌ها از الگوريتم انتخاب خصيصه ساده‌تر با پيچيدگي زماني کمتر بهره برد.
جمله مثال I go home.خصيصه‌هاي N-gramUnigramI, go, homeBigramI go, go homeTrigramI go homeخصيصه‌هاي N-POS1-posFW, VBP,NN2-posFW VBP,VBP NN3-posFW VBP NNخصيصه‌هاي 3-POSWORD3-POSWORDI/FW go/VBP home/NN


پاسخ دهید