3-2داده ها25
3-2-1انتخاب داده25
3-2-2فيلدهاي مجموعه داده صدور25
3-2-3کاهش ابعاد25
3-2-4فيلدهاي مجموعه داده خسارت29
3-2-5پاکسازي داده ها29
3-2-6رسيدگي به داده هاي از دست رفته29
3-2-7کشف داده دور افتاده30
3-2-8انبوهش داده32
3-2-9ايجاد ويژگي دسته32
3-2-10تبديل داده32
3-2-11انتقال داده به محيط داده کاوي32
3-2-12انواع داده تعيين شده33
3-2-13عمليات انتخاب ويژگيهاي موثرتر34
3-3نتايج اعمال الگوريتم PCA و الگوريتم هاي وزن دهي34
3-4ويژگي هاي منتخب جهت استفاده در الگوريتمهاي حساس به تعداد ويژگي36
3-5معيارهاي ارزيابي الگوريتمهاي دسته بندي37
3-6ماتريس درهم ريختگي37
3-7معيار AUC38
3-8روشهاي ارزيابي الگوريتم هاي دسته بندي39
3-8-1روش Holdout39
3-8-2روش Random Subsampling39
3-8-3روش Cross-Validation40
3-8-4روش Bootstrap40
3-9الگوريتمهاي دسته بندي41
3-9-1الگوريتم KNN42
3-9-2الگوريتم Naïve Bayes42
3-9-3الگوريتم Neural Network43
3-9-4الگوريتم SVM خطي45
3-9-5الگوريتم رگرسيون لجستيک46
3-9-6الگوريتم Meta Decision Tree47
3-9-7الگوريتم درخت Wj4849
3-9-8الگوريتم درخت Random forest51
3-10معيارهاي ارزيابي الگوريتم هاي مبتني بر قانون(کشف قوانين انجمني)54
3-10-1الگوريتم FPgrowth55
3-10-2الگوريتم Weka Apriori55
3-11معيارهاي ارزيابي الگوريتمهاي خوشه بندي55
3-12الگوريتم هاي خوشه بندي57
3-12-1الگوريتم K-Means57
3-12-2الگوريتم Kohonen60
3-12-3الگوريتم دوگامي64
فصل چهارم: ارزيابي و نتيجه گيري
4-1مقايسه نتايج69
4-2الگوريتمهاي دسته بندي69
4-3الگوريتم هاي دسته بندي درخت تصميم70
4-4الگوريتم هاي خوشه بندي79
4-5الگوريتم هاي قواعد تلازمي(مبتني بر قانون)81
4-6پيشنهادات به شرکت هاي بيمه81
4-7پيشنهادات جهت ادامه کار83
منابع و مأخذ
فهرست منابع فارسي84
فهرست منابع انگليسي85
فهرست جدول‌ها
عنوان صفحه
جدول شماره 3-1: نتايج راي گيري استفاده از نرم افزارهاي داده کاوي24
جدول شماره 3-2: فيلدهاي اوليه داده هاي صدور26
جدول شماره 3-3: فيلدهاي نهايي داده هاي صدور27
جدول شماره 3-4: فيلدهاي حذف شده داده هاي صدور و علت حذف آنها28
جدول 3-5: فيلدهاي استخراج شده از داده هاي خسارت28
جدول 3-6: نتايج نمودار boxplot31
جدول 3-7: انواع داده استفاده شده33
جدول 3-8: نتايج حاصل از اجتماع فيلدهاي با بالاترين وزن در الگوريتمهاي مختلف37
جدول 3-9: ماتريس در هم ريختگي رکوردهاي تخميني(Predicted Records)38
جدول 3-10: قوانين استخراج شده توسط الگوريتم Fpgrowth55
جدول 3-11: قوانين استخراج شده توسط الگوريتم Weka Apriori55
جدول 3-12: تنظيمات پارامترهاي الگوريتم K-Means57
اجرا براي 9 خوشه در الگوريتم K-Means60
جدول 3-13: تنظيمات پارامترهاي الگوريتم Kohonen64
جدول 3-14: تنظيمات پارامترهاي الگوريتم دوگامي69
جدول 4-1: مقايسه الگوريتم هاي دسته بند70
جدول 4-2: مقايسه الگوريتم هاي دسته بند درخت تصميم70
جدول 4-3: ماتريس آشفتگي قانون شماره 171
جدول 4-4: ماتريس آشفتگي قانون شماره 272
جدول 4-5: ماتريس آشفتگي قانون شماره 3 الف72
جدول 4-6: ماتريس آشفتگي قانون شماره 3 ب72
جدول 4-7: ماتريس آشفتگي قانون شماره 3 ج73
عنوان صفحه

جدول 4-8: ماتريس آشفتگي قانون شماره 3 د73
جدول 4-9: ماتريس آشفتگي قانون شماره 3 ه73
جدول 4-10: ماتريس آشفتگي قانون شماره 3 و74
جدول 4-11: ماتريس آشفتگي قانون شماره 3 ز76
جدول 4-12: ماتريس آشفتگي قانون شماره 476
جدول 4-13: ماتريس آشفتگي قانون شماره 577
جدول 4-14: ماتريس آشفتگي قانون شماره 6 الف77
جدول 4-15: ماتريس آشفتگي قانون شماره 6 ب78
جدول 4-16: ماتريس آشفتگي قانون شماره778
جدول 4-17: ماتريس آشفتگي قانون شماره879
جدول 4-18: مقايسه الگوريتم هاي خوشه بندي79
جدول 4-19: فيلدهاي حاصل از الگوريتم هاي خوشه بندي80
جدول 4-20: نتايج الگوريتم هاي FpGrowth, Weka Apriori81

فهرست شکل‌ها
عنوان صفحه
شکل شماره3-1: داده از دست رفته فيلد” نوع بيمه ” پس از انتقال به محيط داده کاوي33
شکل 3-2: نتايج الگوريتمPCA 34
شکل 3-3: نتايج الگوريتم SVM Weighting در ارزشدهي به ويژگي ها35
شکل 3-4: نتايج الگوريتم Weighting Deviation در ارزشدهي به ويژگي ها35
شکل 3-5: نتايج الگوريتم Weighting Correlation در ارزشدهي به ويژگي ها36
شکل 3-6: نماي کلي استفاده از روشهاي ارزيابي41
شکل 3-7: نماي کلي استفاده از يک مدل درون يک روش ارزيابي42
شکل 3-8: نمودار AUC الگوريتم KNN42
شکل 3-9: نمودار AUC الگوريتم Naïve Bayes43
شکل 3-10: تبديل ويژگي هاي غير عددي به عدد در الگوريتم شبکه عصبي44
شکل 3-11: نمودار AUC و ماتريس آشفتگي الگوريتم Neural Net44
شکل 3-12: تبديل ويژگي هاي غير عددي به عدد در الگوريتم SVM خطي45
شکل 3-13 : نمودار AUC الگوريتم SVM Linear46
شکل 3-14 : نمودار AUC الگوريتم رگرسيون لجستيک47
شکل 3-15 : نمودار AUC الگوريتم Meta Decision Tree48
شکل 3-16 : قسمتي از نمودارtree الگوريتم Meta Decision Tree49
شکل 3-17 : نمودار radial الگوريتم Meta Decision Tree49
شکل 3-18: نمودار AUC الگوريتم Wj4850
شکل 3-19 : نمودار tree الگوريتم Wj4851
شکل 3-20 : نمودار AUC الگوريتم Random forest52
شکل 3-21 : نمودار توليد 20 درخت در الگوريتم Random Forest53
شکل 3-22 : يک نمونه درخت توليد شده توسط الگوريتم Random Forest53
عنوان صفحه
شکل 3-23 : رسيدن درصد خطا به صفر پس از 8مرتبه57
شکل 3-24 : Predictor Importance for K-Means58
شکل 3-25 : اندازه خوشه ها و نسبت کوچکترين خوشه به بزرگترين خوشه در الگوريتم
K-Means59
شکل 3-26 : کيفيت خوشه ها در الگوريتمMeans K-60
شکل 3-27 : Predictor Importance for Kohonen61
شکل 3-28 : اندازه خوشه ها و نسبت کوچکترين خوشه به بزرگترين خوشه در الگوريتم
Kohonen62
شکل 3-29 : کيفيت خوشه ها در الگوريتمMeans K-63
شکل 3-30 : تعداد نرون هاي ورودي و خروجي در Kohonen63
شکل 3-31 : Predictor Importance for دوگامي64
شکل 3-32 : اندازه خوشه ها و نسبت کوچکترين خوشه به بزرگترين خوشه در
الگوريتم دوگامي65
شکل 3-33 : کيفيت خوشه ها در الگوريتم دوگامي66
شکل4-1: نمودارنسبت تخفيف عدم خسارت به خسارت75
فصل اول
مقدمه

شرکتهاي تجاري و بازرگاني براي ادامه بقا و حفظ بازار همواره بر سود دهي و کاهش ضرر و زيان خود تاکيد دارند از اين رو روشهاي جذب مشتري و همچنين تکنيکهاي جلوگيري يا کاهش زيان در سرلوحه کاري اين شرکتها قرار مي گيرد.
از جمله شرکتهايي که بدلايل مختلف در معرض کاهش سود و يا افزايش زيان قرار مي گيرند شرکتهاي بيمه اي مي باشند. عواملي همچون بازاريابي، وفاداري مشتريان، نرخ حق بيمه، تبليغات، تقلب، مي تواند باعث جذب يا دفع مشتري گردد که در سود و زيان تاثير مستقيم و غير مستقيم دارد.
پرداخت خسارت نيز به عنوان تعهد شرکتهاي بيمه منجر به کاهش سود و در بعضي موارد موجب زيان يک شرکت بيمه مي شود. خسارت مي تواند بدلايل مختلف رخ دهد و يا عملي ديگر به گونه اي خسارت جلوه داده شود که در واقع اينچنين نيست[Derrig et. al 2006].
عواملي از قبيل فرهنگ رانندگي، داشتن گواهينامه رانندگي، نوع گواهينامه و تطابق يا عدم تطابق آن با وسيله نقليه، جاده هاي بين شهري و خيابانهاي داخل شهر که شهرداري ها و ادارات راه را به چالش مي کشد، تقلب، وضعيت آب و هوا، کيفيت خودروي خودرو سازان، سن راننده، سواد راننده، عدم تطابق حق بيمه با مورد بيمه [Wilson 2003]، روزهاي تعطيل، مسافرتها و بسياري موارد ديگر مي توانند موجب خسارت و در نهايت افزايش زيان يک شرکت بيمه اي گردند.
بيمه صنعتي سودمند، ضروري و مؤثر در توسعه اقتصادي است. اين صنعت بدليل “افزايش امنيت در عرصه هاي مختلف زندگي و فعاليتهاي اقتصادي”، “افزايش سرمايه گذاري و اشتغال و رشد اقتصادي” و ” ارتقاي عدالت اقتصادي و کاهش فقر ناشي از مخاطرات “، حائز جايگاه مهمي در پيشرفت و تعالي يک کشور است.
با وجود نقش مهم بيمه در بسترسازي و تأمين شرايط مساعد اقتصادي، وضعيت کنوني اين صنعت در اقتصاد ملي با وضعيت مطلوب آن فاصله زيادي دارد. عدم آشنايي عمومي و کم بودن تقاضا براي محصولات بيمه اي، دانش فني پايين در عرصه خدمات بيمه اي، عدم تطابق ريسک با حق بيمه، تفاوت فاحش در مقايسه معيارهاي تشخيص ريسک بيمه شخص ثالث با نوع بيمه معادل در کشورهاي توسعه يافته، وجود نارسايي ها در مديريت واحدهاي عرضه بيمه از دلايل عدم توسعه مناسب اين صنعت در کشور است. از آنجا که بشر در طول تاريخ به کمک علم و تجربه رستگاري ها و توفيقات فراواني کسب کرده است، نگاه علمي تر به مشکلات اين صنعت و يافتن راه حل در بستر علم مي تواند راه گشا باشد.
امروزه بوسيله روشهاي داده کاوي ارتباط بين فاکتورهاي مختلف موثر يا غير موثر در يک موضوع مشخص مي شود و با توجه به اينکه داده کاوي ابزاري مفيد در استخراج دانش از داده هاي انبوه مي باشد که ارتباطات نهفته بين آنها را نشان مي دهد، شرکتهاي تجاري بازرگاني رو به اين تکنيکها آورده اند.
داده کاوي محدود به استفاده از فناوري ها نيست و از هرآنچه که برايش مفيد واقع شود استفاده خواهد کرد. با اين وجود آمار و کامپيوتر پر استفاده ترين علوم و فناوري هاي مورد استفاده داده کاوي است.

تعريف داده کاوي

داده کاوي روند کشف قوانين و دانش ناشناخته و مفيد از انبوه داده ها و پايگاه داده است[ Liu et. al 2012].
انجام عمل داده کاوي نيز مانند هر عمل ديگري مراحل خاص خود را دارد که به شرح زير مي باشند:
1-جدا سازي داده مفيد از داده بيگانه
2-يکپارچه سازي داده هاي مختلف تحت يک قالب واحد
3-انتخاب داده لازم از ميان ديگر داده ها
4- انتقال داده به محيط داده کاوي جهت اکتشاف قوانين
5-ايجاد مدلها و الگوهاي مرتبط بوسيله روشهاي داده کاوي
6-ارزيابي مدل و الگوهاي ايجاد شده جهت تشخيص مفيد بودن آنها
7-انتشار دانش استخراج شده به کاربران نهايي

تعريف بيمه

بيمه: بيمه عقدي است كه به موجب آن يك طرف تعهد مي كند در ازاء پرداخت وجه يا وجوهي از طرف ديگر در صورت وقوع يا بروز حادثه خسارت وارده بر او را جبران نموده يا وجه معيني بپردازد. متعهد را بيمه گر طرف تعهد را بيمه گذار وجهي را كه بيمه گذار به بيمه گر مي پردازد حق بيمه و آنچه را كه بيمه مي شود موضوع بيمه نامند]ماده يک قانون بيمه مصوب 7/2/1316[.

هدف پايان نامه

در اين پژوهش سعي شده است با استفاده از تکنيکهاي داده کاوي اقدام به شناسايي فاکتورهاي تاثير گذار در سود و زيان بيمه شخص ثالث خودرو شرکتهاي بيمه نموده و ضريب تاثير آنها را بررسي نماييم. الگوريتم هاي استفاده شده در اين پژوهش شامل دسته بند ها، خوشه بند ها، درخت هاي تصميم و قوانين انجمني بوده است.

مراحل انجام تحقيق

در اين پايان نامه با استفاده از روشهاي داده کاوي با استفاده از بخشي از داده هاي صدور و خسارت يک سال شرکت بيمه مدل شده و از روي آنها يک الگو ساخته مي شود. در واقع به اين طريق به الگوريتم ياد داده مي شود که ارتباطات بين داده ها، منجر به چه نتايجي مي شود. سپس بخشي از داده ها که در مرحله قبل از آن استفاده نشده بود به مدل ايجاد شده داده مي شود ونتايج توسط معيارهاي علمي مورد ارزيابي قرار ميگيرند. بمنظور آزمايش عملکرد مي توان داده هاي ديگري به مدل داده شود و نتايج حاصله با نتايج واقعي موجود مقايسه شوند.

ساختار پايان نامه
اين پايان نامه شامل چهارفصل خواهد بود که فصل اول شامل يک مقدمه و ضرورت پژوهش انجام شده و هدف اين پژوهش است. در فصل دوم برخي تکنيک هاي داده کاوي و روشهاي آن مطرح و تحقيقاتي که قبلا در اين زمينه انجام شده مورد بررسي قرار مي گيرند. در فصل سوم به شرح مفصل پژوهش انجام شده و نرم افزار داده کاوي مورد استفاده در اين پايان نامه مي پردازيم و با کمک تکنيک هاي داده کاوي مدل هايي ارائه مي شود و مدلهاي ارائه شده درهرگروه با يکديگر مقايسه شده و بهترين مدل از ميان آنها انتخاب مي گردد. در فصل چهارم مسائل مطرح شده جمع بندي شده و نتايج حاصله مطرح خواهند شد و سپس تغييراتي که در آينده در اين زمينه مي توان انجام داد پيشنهاد مي شوند.

فصل دوم

ادبيات موضوع و تحقيقات پيشين
در اين فصل ابتدا مروري بر روشهاي داده کاوي خواهيم داشت سپس به بررسي تحقيقات پيشين مي پردازيم.

داده کاوي و يادگيري ماشين
داده کاوي ترکيبي از تکنيک هاي يادگيري ماشين، تشخيص الگو، آمار، تئوري پايگاه داده و خلاصه کردن و ارتباط بين مفاهيم و الگوهاي جالب به صورت خودکار از پايگاه داده شرکتهاي بزرگ است. هدف اصلي داده کاوي کمک به فرآيند تصميم گيري از طريق استخراج دانش از داده هاست [Alpaydin 2010].
هدف داده کاوي آشکار کردن روندها يا الگوهايي که تا کنون ناشناخته بوده اند براي گرفتن تصميمات بهتر است که اين هدف را بوسيله به کارگيري روشهاي آماري همچون تحليل لجستيک و خوشه بندي و همچنين با استفاده از روشهاي تحليل داده به دست آمده از رشته هاي ديگر )همچون شبکه هاي عصبي در هوش مصنوعي و درختان تصميم در يادگيري ماشين( انجام ميدهد[Koh & Gervis 2010] . چون ابزارهاي داده کاوي روند ها و رفتارهاي آينده را توسط رصد پايگاه داده ها براي الگوهاي نهان پيش بيني مي کند با عث مي شوند که سازمان ها تصميمات مبتني بر دانش گرفته و به سوالاتي که پيش از اين حل آنها بسيار زمان بر بود پاسخ دهند [Ramamohan et. al 2012 ] .
داده کاوي يک ابزار مفيد براي کاوش دانش از داده حجيم است. [Patil et. al 2012 ]. داده کاوي يافتن اطلاعات بامعناي خاص ازيک تعداد زيادي ازداده بوسيله بعضي ازفناوري ها به عنوان رويه اي براي کشف دانش ازپايگاه داده است، که گام هاي آن شامل موارد زير هستند [Han and Kamber 2001] .

1-پاک سازي داده ها :حذف داده داراي نويز و ناسازگار
2-يکپارچه سازي داده: ترکيب منابع داده گوناگون
3-انتخاب داده: يافتن داده مرتبط با موضوع از پايگاه داده
4-تبديل داده: تبديل داده به شکل مناسب براي کاوش
5-داده کاوي: استخراج مدل هاي داده با بهره گيري از تکنولوژي
6- ارزيابي الگو: ارزيابي مدل هايي که واقعا براي ارائه دانش مفيد هستند
7-ارائه دانش: ارائه دانش بعد ازکاوش به کاربران بوسيله استفاده از تکنولوژيهايي همچون ارائه بصري [Lin & Yeh 2012] .

ابزارها و تکنيک هاي داده کاوي

با توجه به تنوع حجم و نوع داده ها، روش هاي آماري زيادي براي کشف قوانين نهفته در داده ها وجود دارند. اين روش ها مي توانند با ناظر يا بدون ناظر باشند. [Bolton & Hand 2002] در روش هاي با ناظر، نمونه هايي از مواردخسارتي موجود است و مدلي ساخته مي شود که براساس آن، خسارتي يا غير خسارتي بودن نمونه هاي جديد مشخص مي شود. اين روش جهت تشخيص انواع خسارت هايي مناسب است که از قبل وجود داشته اند]فولادي نيا و همکاران 1392[ .
روش هاي بدون ناظر، به دنبال کشف نمونه هايي هستند که کمترين شباهت را با نمونه هاي نرمال دارند. براي انجام فعاليت هايي که در هر فاز داده کاوي بايد انجام شود از ابزارها و تکنيک هاي گوناگوني چون الگوريتمهاي پايگاه داده، تکنيکهاي هوش مصنوعي، روشهاي آماري، ابزارهاي گرافيک کامپيوتري و مصور سازي استفاده مي شود. هر چند داده کاوي لزوما به حجم داده زيادي بعنوان ورودي نياز ندارد ولي امکان دارد در يک فرآيند داده کاوي حجم داده زيادي وجود داشته باشد.
در اينجاست که از تکنيک ها وابزارهاي پايگاه داده ها مثل نرمالسازي، تشخيص و تصحيح خطا و تبديل داده ها بخصوص در فازهاي شناخت داده و آماده سازي داده استفاده مي شود. همچنين تقريبا در اکثرفرآيند هاي داده کاوي از مفاهيم، روشها و تکنيک هاي آماري مثل روشهاي ميانگين گيري )ماهيانه، ساليانه و . . . (، روشهاي محاسبه واريانس و انحراف معيار و تکنيک هاي محاسبه احتمال بهره برداري هاي فراواني مي شود. يکي ديگر از شاخه هاي علمي که به کمک داده کاوي آمده است هوش مصنوعي مي باشد.
هدف هوش مصنوعي هوشمند سازي رفتار ماشينها است. مي توان گفت تکنيک هاي هوش مصنوعي بطور گسترده اي در فرآيند داده کاوي به کار مي رود بطوريکه بعضي از آماردانها ابزارهاي داده کاوي را بعنوان هوش آماري مصنوعي معرفي مي کنند.
قابليت يادگيري بزرگترين فايده هوش مصنوعي است که بطور گسترده اي در داده کاوي استفاده مي شود. تکنيک هاي هوش مصنوعي که در داده کاوي بسيار زياد مورد استفاده قرار مي گيرند عبارتند از شبکه هاي عصبي، روشهاي تشخيص الگوي يادگيري ماشين و الگوريتمهاي ژنتيک ونهايتا تکنيک ها و ابزارهاي گرافيک کامپيوتري و مصور سازي که بشدت در داده کاوي بکار گرفته مي شوند و به کمک آنها مي توان داده هاي چند بعدي را به گونه اي نمايش داد که تجزيه وتحليل نتايج براي انسان براحتي امکان پذير باشد [Gupta 2006].

روشهاي داده کاوي

عمده روشهاي داده کاوي عبارتند از روشهاي توصيف داده ها، روشهاي تجزيه و تحليل وابستگي، روشهاي دسته بندي و پيشگويي، روشهاي خوشه بندي، روشهاي تجزيه و تحليل نويز.
مي توان روش هاي مختلف کاوش داده را در دو گروه روش هاي پيش بيني و روش هاي توصيفي طبقه بندي نمود. روش هاي پيش بيني در متون علمي به عنوان روش هاي با ناظر1 نيزشناخته مي شوند. روش هاي دسته بندي2، رگرسيون3 و تشخيص انحراف4 از روشهاي يادگيري مدل در داده کاوي با ماهيت پيش بيني هستند. در الگوريتم هاي دسته بندي مجموعه داده اوليه به دو مجموعه داده با عنوان مجموعه داده هاي آموزشي5 و مجموعه داده هاي آزمايشي6 تقسيم مي شود که با استفاده از مجموعه داده هاي آموزشي مدل ساخته مي شود و از مجموعه داده هاي آزمايشي براي اعتبار سنجي و محاسبه دقت مدل ساخته شده استفاده مي شود. هررکورد شامل يک مجموعه ويژگي است.
يکي از ويژگي ها، ويژگي دسته ناميده مي شود و در مرحله آموزش براساس مقادير ساير ويژگي ها براي مقادير ويژگي دسته، مدل ساخته مي شود. روشهاي توصيفي الگوهاي قابل توصيفي را پيدا ميکنند که روابط حاکم بر داده ها را بدون در نظرگرفتن هرگونه برچسب و يا متغيرخروجي تبيين نمايند. درمتون علمي روشهاي توصيفي با نام روشهاي بدون ناظر7 نيز شناخته مي شوند ]صنيعي آباده 1391[.

روشهاي توصيف داده ها8
هدف اين روشها ارائه يک توصيف کلي از داده هاست که معمولا به شکل مختصر ارائه مي شود. هر چند توصيف داده ها يکي از انواع روشهاي داده کاوي است ولي معمولا هدف اصلي نيست واغلب از اين روش براي تجزيه و تحليل نياز هاي اوليه و شناخت طبيعت داده ها و پيدا کردن خصوصيات ذاتي داده ها يا براي ارائه نتايج داده کاوي استفاده مي شود [Sirikulvadhana 2002] .

روشهاي تجزيه و تحليل وابستگي 9
هدف اين روشها پيدا کردن ارتباطات قابل توجه بين تعداد زيادي از متغير ها يا صفات مي باشد[Gupta 2006] . يکي از روشهاي متداول براي کشف قواعد وابستگي مدل Apriori است که نسبت به ساير مدلهاي کشف قواعد وابستگي سريعتر بوده و محدوديتي از نظر تعداد قواعد ندارد [Xindong et al 2007] . کاوش قواعد تلازمي يکي از محتواهاي اصلي تحقيقات داده کاوي در حال حاضر است و خصوصا بر يافتن روابط ميان آيتم هاي مختلف در پايگاه داده تاکيد دارد [Patil et. al 2012] . سه مدل CARMA و GRI و Fpgrowth سه الگوريتم ديگر از قواعد وابستگي هستند.

روشهاي دسته بندي و پيشگويي10
دسته بندي يک فرآيند يافتن مدل است که براي بخش بندي داده به کلاس هاي مختلف برطبق بعضي محدوديت ها استفاده شده است. به بيان ديگر ما مي توانيم بگوييم که دسته بندي يک فرآيند تعميم داده بر طبق نمونه هاي مختلف است. چندين نمونه اصلي الگوريتم هاي طبقه بندي شامل C4. 5 ، K نزديکترين همسايه11، بيز ساده و SVM است [Kumar and Verna 2012].
يکي از اين نوع الگوريتم ها نظريه بيز مي باشد. اين دسته بند از يک چارچوب احتمالي براي حل مساله استفاده مي کند. يک رکورد مفروض با مجموعه ويژگي هاي (A1, A2…. An) را درنظر بگيريد. هدف تشخيص دسته اين رکورد است. در واقع از بين دسته هاي موجود به دنبال دسته اي هستيم که مقدارP(C|A1, A2…. An) را بيشينه کند. پس اين احتمال را براي تمامي دسته هاي موجود محاسبه کرده و دسته اي که اين احتمال به ازاي آن بيشينه شود را به عنوان دسته رکورد جديد در نظر مي گيريم.
P(C?A)=(P(A?C) P(C))/P(A)
رگرسيون نيز نوع ديگري از اين الگوريتم ها است. پيش بيني مقدار يک متغير پيوسته بر اساس مقادير ساير متغيرها بر مبناي يک مدل وابستگي خطي يا غير خطي رگرسيون نام دارد. درواقع يک بردار X داريم که به يک متغير خروجي y نگاشت شده است. هدف محاسبه y يا همان F(X) است که از روي تخمين تابع مقدار آن محاسبه مي شود.

درخت تصميم12
درخت تصميم از ابزارهاي داده کاوي است که در رده بندي داده هاي کيفي استفاده مي شود. در درخت تصميم، درخت کلي به وسيله خرد کردن داده ها به گره هايي ساخته مي شود که مقاديري از متغير ها را در خود جاي مي دهند. با ايجاد درخت تصميم بر اساس داده هاي پيشين که رده آنها معلوم است، مي توان داده هاي جديد را دسته بندي کرد. روش درخت تصميم به طور کلي براي دسته بندي استفاده مي شود، زيرا يک ساختار سلسله مراتبي ساده براي فهم کاربر و تصميم گيري است. الگوريتم هاي داده کاوي گوناگوني براي دسته بندي مبتني بر شبکه عصبي مصنوعي، قوانين نزديکترين همسايگي و دسته بندي بيزين در دسترس است اما درخت تصميم يکي از ساده ترين تکنيک هاست [Patil et. al 2012] . از انواع درخت هاي تصميم مي توان C4. 5 و C5 و Meta Decision Tree و Random Forest وJ48 را نام برد.

2-3-5-شبکه عصبي13
روش پرکاربرد ديگر در پيشگويي نتايج استفاده از شبکه هاي عصبي مي باشد. شبکه هاي عصبي مدل ساده شده اي است که بر مبناي عملکرد مغز انسان کار مي کند. اساس کار اين شبکه شبيه سازي تعداد زيادي واحد پردازشي کوچک است که با هم در ارتباط هستند. به هريک از اين واحد ها يک نرون گفته مي شود. نرون ها بصورت لايه لايه قرار دارند و در يک شبکه عصبي معمولا سه لايه وجود دارد [Gupta 2006] . اولين لايه )لايه ورودي ( ، دومين )لايه نهان (و سومين )لايه خروجي (. لايه نهان مي تواند متشکل از يک لايه يا بيشتر باشد [Pradhan et. al 2011 ] .

2-3-6- استدلال مبتني بر حافظه14
توانايي انسان در استدلال براساس تجربه، به توانايي او در شناخت و درک نمونه هاي مناسبي که مربوط به گذشته است، بستگي دارد. افراد در ابتدا تجارب مشابهي که در گذشته داشته را شناسايي و سپس دانشي که از آن ها کسب کرده است را براي حل مشکل فعلي به کار مي گيرند. اين فرآيند اساس استدلال مبتني بر حافظه است. يک بانک اطلاعاتي که از رکوردهاي شناخته شده تشکيل شده است مورد جستجو قرار مي گيرد تارکوردهاي از قبل طبقه بندي شده و مشابه با رکورد جديد يافت شود.
از اين همسايه ها براي طبقه بند ي و تخمين زدن استفاده مي شود. 15KNN يک نمونه از اين الگوريتم هاست. فرض کنيد که يک نمونه ساده شده با يک مجموعه از صفت هاي مختلف وجود دارد، اما گروهي که اين نمونه به آن متعلق است نامشخص است. مشخص کردن گروه مي تواند از صفت هايش تعيين شود. الگوريتم هاي مختلفي مي تواند براي خودکار سازي فرآيند دسته بندي استفاده بشود. يک دسته بند نزديک ترين همسايه يک تکنيک براي دسته بندي عناصر است مبتني بردسته بندي عناصر در مجموعه آموزشي که شبيه تر به نمونه آزمايشي هستند.
باتکنيک Kنزديکترين همسايه، اين کار با ارزيابي تعداد K همسايه نزديک انجام مي شود. [Tan et al 2006] . تمام نمونه هاي آموزشي در يک فضاي الگوي چند بعدي ذخيره شده اند. وقتي يک نمونه ناشناخته داده مي شود، يک دسته بند نزديکترين همسايه در فضاي الگو براي K نمونه آموزشي که نزديک به نمونه ناشناخته هستند جستجو مي کند. نزديکي بر اساس فاصله اقليدسي تعريف مي شود [Wilson and Martinez 1997] .

2-3-7-ماشين هاي بردار پشتيباني
SVM 16 اولين بار توسط Vapnik در سال 1990 معرفي شد و روش بسيار موثري براي رگرسيون و دسته بندي و تشخيص الگو است [Ristianini and Shawe 2000] .
SVM به عنوان يک دسته بند خوب در نظر گرفته مي شود زيرا کارايي تعميم آن بدون نياز به دانش پيشين بالاست حتي وقتيکه ابعاد فضاي ورودي بسيار بالاست. هدف SVM يافتن بهترين دسته بند براي تشخيص ميان اعضاي دو کلاس در مجموعه آموزشي است [Kumar and Verna 2012] .
رويکرد SVM به اين صورت است که در مرحله آموزش سعي دارد مرز تصميم گيري را به گونه اي انتخاب نمايد که حداقل فاصله آن با هر يک از دسته هاي مورد نظر را بيشينه کند. اين نوع انتخاب مرز بر اساس نقاطي بنام بردارهاي پشتيبان انجام مي شوند.

2-3-8-روشهاي خوشه بندي 17
هدف اين روشها جداسازي داده ها با خصوصيات مشابه است. تفاوت بين دسته بندي و خوشه بندي اين است که در خوشه بندي از قبل مشخص نيست که مرز بين خوشه ها کجاست و برچسبهاي هر خوشه از پيش تعريف شده است ولي در دسته بندي از قبل مشخص است که هر دسته شامل چه نوع داده هايي مي شود و به اصطلاح برچسب هاي هر دسته از قبل تعريف شده اند. به همين دليل به دسته بندي يادگيري همراه با نظارت و به خوشه بندي يادگيري بدون نظارت گفته مي شود [Osmar 1999] .

2-3-9- روش K-Means
يکي از روش هاي خوشه بندي مدل K-Means است که مجموعه داده ها را به تعدادثابت و مشخصي خوشه، خوشه بندي مي کند. روش کار آن به اين صورت است که تعداد ثابتي خوشه در نظر ميگيرد و رکوردها را به اين خوشه ها اختصاص داده و مکرراً مراکز خوشه ها را تنظيم مي کند تا زمانيکه بهترين خوشه بندي بدست آيد[Xindong et al 2007].

2-3-10-شبکه کوهنن
شبکه کوهنن نوعي شبکه عصبي است که در اين نوع شبکه نرون ها در دو لايه ورودي و خروجي قرار دارند و همه نرون هاي ورودي به همه نرون هاي خروجي متصل اندو اين اتصالات داراي وزن هستند. لايه خروجي در اين شبکه ها بصورت يک ماتريس دو بعدي چيده شده و به آن نقشه خروجي گفته مي شود. مزيت اين شبکه نسبت به ساير انواع شبکه هاي عصبي اين است که نياز نيست دسته يا خوشه داده ها از قبل مشخص باشد، حتي نياز نيست تعداد خوشه ها از قبل مشخص باشد. شبکه هاي کوهنن با تعداد زيادي نرون شروع مي شود و به تدريج که يادگيري پيش مي رود، تعداد آنها به سمت يک تعداد طبيعي و محدود کاهش مي يابد.

2-3-11-روش دو گام18
اين روش در دو گام کار خوشه بندي را انجام مي دهد. در گام اول همه داده ها يک مرور کلي مي شوند و داده هاي ورودي خام به مجموعه اي از زير خوشه هاي قابل مديريت تقسيم مي شوند. گام دوم با استفاده از يک روش خوشه بندي سلسله مراتبي بطور مداوم زير خوشه ها را براي رسيدن به خوشه هاي بزرگتر با هم ترکيب مي کند بدون اينکه نياز باشد که جزئيات همه داده ها را مجددا مرور کند.

2-3-12-روشهاي تجزيه و تحليل نويز19
بعضي از داده ها که به طور بارز و مشخصي از داده هاي ديگر متمايز هستند اصطلاحاً بعنوان داده خطا يا پرت شناخته مي شوند که بايد قبل از ورود به فاز مدلسازي و در فاز آماده سازي داده ها برطرف شوند. با وجود اين زمانيکه شناسايي داده هاي غير عادي يا غير قابل انتظار مانند موارد تشخيص تقلب هدف اصلي باشد، همين نوع داده ها مفيد هستند که در اين صورت به آنها نويز گفته مي شود [Osmar 1999].

دسته هاي نامتعادل]صنيعي آباده 1391[.
مجموعه داده هايي که در آنها ويزگي دسته داراي توزيع نامتعادل باشد بسيار شايع هستند. مخصوصاً اين مجموعه داده ها در کاربردها و مسائل واقعي بيشتر ديده مي شوند.
در چنين مسائلي با وجود اينکه تعداد رکوردهاي مربوط به دسته نادر بسيار کمتر از دسته هاي ديگر است، ولي ارزش تشخيص دادن آن به مراتب بالاتر از ارزش تشخيص دسته هاي شايع است. در داده کاوي براي برخورد با مشکل دسته هاي نامتعادل از دو راهکار استفاده مي شود:
راهکار مبتني بر معيار
راهکار مبتني بر نمونه برداري
راهکار مبتني بر معيار

در این سایت فقط تکه هایی از این مطلب با شماره بندی انتهای صفحه درج می شود که ممکن است هنگام انتقال از فایل ورد به داخل سایت کلمات به هم بریزد یا شکل ها درج نشود

شما می توانید تکه های دیگری از این مطلب را با جستجو در همین سایت بخوانید

ولی برای دانلود فایل اصلی با فرمت ورد حاوی تمامی قسمت ها با منابع کامل

اینجا کلیک کنید

در دسته بندي شايع ترين معيار ارزيابي کارايي دسته بند، معيار دقت دسته بندي است. در معيار دقت دسته بندي فرض بر يکسان بودن ارزش رکوردهاي دسته هاي مختلف دسته بندي است. در راهکار مبتني بر معيار بجاي استفاده از معيار دقت دسته بندي از معيارهايي بهره برداري مي شود که بتوان بالاتر بودن ارزش دسته هاي نادر و کمياب را در آنها به نحوي نشان داد. بنابراين با لحاظ نمودن معيارهاي گفته شده در فرآيند يادگيري خواهيم توانست جهت يادگيري را به سمت نمونه هاي نادر هدايت نماييم. از جمله معيارهايي که براي حل مشکل عدم تعادل دسته ها بکار مي روند عبارتند از Recall, Precession, F-Measure, AUC و چند معيار مشابه ديگر.

2-4-2-راهکار مبتني بر نمونه برداري
نمونه برداري يکي از راهکارهاي بسيار موثربراي مواجهه با مشکل دسته هاي نامتعادل است. ايده اصلي نمونه برداري آن است که توزيع نمونه ها را به گونه اي تغيير دهيم که دسته کمياب به نحو پررنگ تري در مجموعه داده هاي آموزشي پديدار شوند. سه روش براي اين راهکار وجود دارد که عبارتند از:

الف- نمونه برداري تضعيفي:
در اين روش نمونه برداري، توزيع نمونه هاي دسته هاي مساله به گونه اي تغيير مي يابند که دسته شايع به شکلي تضعيف شود تا از نظرفراواني با تعداد رکوردهاي دسته نادر برابري کند. به اين ترتيب هنگام اجراي الگوريتم يادگيري، الگوريتم ارزشي مساوي را براي دو نوع دسته نادر و شايع درنظر مي گيرد.

ب- نمونه برداري تقويتي:
اين روش درست برعکس نمونه برداري تضعيفي است. بدين معني که نمونه هاي نادر کپي برداري شده و توزيع آنها با توزيع نمونه هاي شايع برابر مي شود.

ج- نمونه برداري مرکب:
در اين روش از هردو عمليات تضعيفي و تقويتي بصورت همزمان استفاده ميشود تا توزيع مناسب بدست آيد.
در اين پژوهش با توجه به کمتر بودن نسبت نمونه نادر يعني منجر به خسارت شده به نمونه شايع از روش نمونه برداري تضعيفي استفاده گرديد که کل تعداد نمونه ها به حدود 3 هزار رکورد تقليل پيدا کرد و توزيع نمونه ها به نسبت مساوي بوده است. شايان ذکر است اين نمونه برداري پس از انجام مرحله پاک سازي داده ها انجام شد که خود مرحله پاکسازي با عث تقليل تعداد نمونه هاي اصلي نيز گرديده بود.

پيشينه تحقيق
سالهاست که محققان در زمينه بيمه و مسائل مرتبط با آن به تحقيق پرداخته اند و از جمله مسائلي که براي محققان بيشتر جذاب بوده است مي توان به کشف تقلب اشاره کرد.


پاسخ دهید