دستهبندی، خوشهبندی، قواعد انجمنی و پیشبینی است. بیشتر الگوریتمهای تشخیص تقلب مالی بر اساس دستهبندی است.
تکنیکهای دادهکاوی: الگوریتمهای تشخیص تقلب مالی با توجه تکنیکهای دادهکاوی به پنج دسته تقسیم میشوند رگرسیون، شبکهعصبی، درخت تصمیم ، شبکه بردار پشتیبان و شبکه بیزین
نتیجه آزمایش: در رهیافت تشخیص تقلب مالی ازروشهای بانظارت نوع دستهبندی و بیشتر از الگوریتمهای رگرسیون و شبکهعصبی استفاده میشود.
۲-۶-۲ پژوهش دوم: کشف تقلب در کارت اعتباری با استفاده از شبکه عصبی و بیزین
۲-۶-۲-۱ هدف پژوهش:
هدف پژوهش شناسایی تقلب در کارت اعتباری و همچنین مقایسه بین شبکه عصبی و بیزین است که با توجه به مجموعه داده و همچنین کاربرد خاص شبکه بیزین عملکرد بهتری دارد[۸].
۲-۶-۲-۲ رویکرد پژوهش:
در این رویکرد از یکسری داده مورد استفاده از شرکت international waterschoot at europay گرفته شده است. این مجموعه دادهها دارای ویژگیهای و اطلاعات مفید درباره هر تراکنش هست که با Fi نشان میدهیم.
در استفاده از شبکه عصبی پیشپردازش خیلی مهم است برای نمایش بهتر ارزیابی که مستقل ازیادگیری است ما از receive Operating Curve استفاده میکنیم.
بعد از آموزش بوسیله شبکهعصبی ما با مجموعه ویژگی که تاکنون ندیدهایم برخورد میکنیم وتراکنشها در یک مجموعه دسته بندی مینماییم. اما باید مشخص کنیم چه مقدار تراکنش در هر دسته واقعا درست هستند همچنین باید مشخص شود چند درصد از تراکنش ها واقعا متقلب هستند.
از دو نرخ بنام نرخ قطعی درست و نرخ قطعی غلط استفاده میکنیم
نرخ قطعی درست: چه مقدار تراکنش متقلب بطور صحیح متقلب تشخیص داده شده است.
نرخ قطعی غلط: چه مقدار تراکنش درست بطور غلط متلقب تشخیص داده شده است.
در منحنیROC ضلع X نرخ قطعی غلط و ضلع Y نرخ قطعی درست را نشان میدهد.
تشخیص تقلب با شبکهعصبی:
مهم بودن پیشپردازش برای کارایی شبکهعصبی بسیار مهم است در شکل ۲-۱۱ دو منحنیROC وجود دارد که از اجرا روی مجموعه داده ها با ۱۰ ویژگی بدست آمده است.
ROC پررنگ: که نتیجه بهتری است پیشپردازش شامل نرمالسازی و مقادیر مورد انتظار دارای انحراف کمی از مقادیر واقعی است دارای نرخ قطعی درست ۷۰% و نرخ غلط ۱۵% است.
ROC روشن: پیش پردازش پیش پردازش شامل نرمالسازی و مقادیر مورد انتظار دارای انحراف کمی از مقادیر واقعی است و دارای نرخ قطعی درست ۶۰% و نرخ غلط ۱۵% است [۸].

شکل ۲-۱۱:مقایسه خروجیها با استفاده از نمودار [۸] ROC
تشخیص تقلب با شبکه بیزین: در شکل همچنان که دیدید ROC وابسته به ساختار است و با بهتر کردن ساختار میتوان نتیجه بهتری گرفت.
ارزیابی :
در ارزیابی که در جدول ۲-۴ آمده است شبکه بیزین دارای عمکرد بهتری نسبت به شبکه عصبی است.
جدول ۲-۴: مقایسه نتیجه بین شبکهعصبی و شبکه بیزین[۸]
نرخ قطعی غلط ±۱۵
نرخ قطعی غلط ±۱۰
تست
۷۰ % نرخ قطعی درست
۶۰% نرخ قطعی درست
شبکه عصبی(a)
۵۸%نرخ قطعی درست
۴۷% نرخ قطعی درست
شبکه عصبی(b)
۷۰%نرخ قطعی درست
۶۰% نرخ قطعی درست
شبکه عصبی(c)
۷۴%نرخ قطعی درست
۶۸% نرخ قطعی درست
شبکه بیزین(e)
۷۴%نرخ قطعی درست
۶۸% نرخ قطعی درست
شبکه بیزین(f)

نتیجه گیری: شبکه بیزین در این مثال خاص و با این مجموعه داده دارای نتیجهگیری بهتری نسبت به شبکه عصبی است.
پژوهش سوم: شناسایی تقلب بیمه با استفاده از تکنیکهای دادهکاوی
۲-۶-۳-۱ هدف پژوهش:
در این پژوهش با استفاده از الگوریتمهای برپایه قوانین، شبکه بیزین و درخت تصمیم برای تشخیص تقلب در بیمه اتومبیل استفاده میکنیم[۹].
۲-۶-۳-۲ رویکرد پژوهش:
در شبکه بیزین سعی بر این است که مدل رفتاری را، تحت این فرض که راننده متقلب یا راننده دارای عملکرد صحیح است ایجاد مینماییم با وارد کردن شاهد در این شبکه ما می توانیم احتمال E را تحت فرضیات ذکرشده بدست بیاوریم. محاسبه بصورت روابط ۲-۳۲ و ۲-۳۳ و ۲-۳۴ و ۲-۳۵ میباشد.
رابطه۲۳۲

P(output = fraud | E)= [P(E | output = fraud) P(output = fraud)] / P(E)
و رابطه۲۳۳

P(output = legal | E)= [P(E | output =legal) P(output = legal)] / P(E)
P(E|OUTPUT=LEGAL) و P(E|OUTPUT=FRAUD)
در شبکه بیزین برای محاسبه احتمال P(fraud)=di/d که d نشان دهنده کل رکورد و di نشان دهنده تعداد رکورد تقلب است.
رابطه۲۳۴

مطلب مشابه :  قائم مقام فراهانی، دیوان عالی کشور

p(E│OUTPUT=FRAUD) =∏_(K=1)^N▒〖P(X_K│OUTPUT=FRAUD) 〗)
رابطه‏۰۲۳۵

P(E|OUTPUT=LEGAL)=∏_(K=1)^N▒P(X_K |OUPUT=LEGAL)
P(X_K |OUTPUT=FRAUD=d_ik⁄d_i )
dik تعداد رکوردهایی از خروجی که برابر fraud است و دارای xk مقدار برای هرصفت است.
در جدول ۲-۵ برایE=(Policyholder=1,driverrating=0,report field=0.33)
با توجه به پایگاه داده مربوط به داده ها داریم :
p(fraud)=3⁄۲۰=۰.۱۵
p(legal)=17⁄۲۰=۰.۸۵
گامهای الگوریتم:
p((policyhoder=1)⁄(ouput=fraud))=3⁄۳=۱
p(E|output=fraud)=∏_(k=1)^n▒(p(x_k |output=fraud)) =0
اما محاسبه legal:
p((policyhoder=1)⁄(ouput=legal))=12⁄۱۷=۰.۷۰۶
p(E|output=legal)=∏_(k=1)^n▒(p(x_k |output=legal)) =0.0068
بنابراین
p(E|output=fraud)*p(E|output=fraud)=0
p(E|output=legal)*p(E|output=legal)=0.0058
بر پایه محاسبات ما رکورد جدید را درست میدانیم.
با توجه به تخمین لاپلاس ومحاسبات صورت گرفته و افزودن یک فیلد جدید، رکورد جدید در جدول زیر به عنوان رکورد متقلب است.
جدول ۲-۵: داده برای دستهبندی بیزین[۹]
خروجی
گزارشات
سرعت رانندگی
سیاست پلیس
موارد
legal
۰
۰
۱
۱
fraud
۱
۱
۱
۲
legal
۰
۰
۰
۳
legal
۱
۰.۳۳
۱
۴
legal
۰
۰.۶۶
۱
۵
?
۰.۳۳
۰
۱
E

جدول ۲-۶: داده برای
دستهبندی بیزین‎[۹]
خروجی
قیمت و سن خودرو
گزارشات
سرعت رانندگی
سیاست پلیس
موارد
legal
۰.۳۳
۰
۰
۱
۱
fraud
۰.۵
۱
۱
۱
۲
legal
۰.۷۵
۰
۰
۰
۳
legal
۰.۵
۱
۰.۳۳
۱
۴
legal
۰.۵
۰
۰.۶۶
۱
۵
?
۰.۵
۰.۳۳
۰
۱
E

با توجه به الگوریتم درخت تصمیم و C4.5 نتایج زیر بدست می آید. آنتروپی و مقادیر مورد انتظار ازرابطه ۲-۳۶ و ۲-۳۷ بدست می آید.

رابطه‏۰۲۳۶

P(FRAUD ,LEGAL)=-(FRAUDINSTANCE⁄INSTANCE) 〖log〗_۲⁡(FRAUDINSTANCE⁄INSTANCE)-(LEGALINSTANCE⁄INSTANCE) 〖log〗_۲⁡(LEGALINSTANCE⁄INSTANCE)
رابطه‏۰۲۳۷

E(A)=∑▒[{(FRAUDINSTANCE⁄INSTANCE)+(LEGALINSTANCE⁄INSTANCE)}*{E(FRAUDATTRIBUTE ,LEGALATTRIBUTE)}]
احتمالات برابر
entropy=-0.1 log⁡۰.۱-۰.۹ log⁡〖۰.۹ 〗=۰.۴۶۹
E(vehicleAgePrice) = (9/20) entropy(1, 8) = (9/20) (-1/9 log2 1/9 – 8/9 log2 8/9) = .225
information gain=0.469 – [(۹/۲۰) (-۱/۹ log2 1/9 – 8/9 log2 8/9)] = 0.244
prob(output = fraud) = 2/20 = 0.1
giniindex=1-∑_j▒〖prob〗_(j^2 ) =〖۰.۱〗^۲+〖۰.۹〗^۲=۰.۱۸
محاسبات نشان میدهد صفت vehicle age price باید دربرگ قرار گیرد.
الگوریتم مبتنی بر rule ها:
این الگوریتم بر اساس if-then است که ازدرخت تصمیم استخراج میشود.

شکل ۲-۱۲: الگوریتم استخراج شده از درخت تصمیم‎[۹]
برای مدل ارزیابی از ماتریس Confusion استفاده میشود که نتایج آن به درجدول ۲-۷ آمده است.
جدول ۲-۷: ارزیابی درخت تصمیم[۹]
Accuracy:0.78
fraud
legal

Recall:0.86
۱۱۲۵
۳۱۰۰
Legal
Precision:0.70
۲۳۸۰
۳۹۵
fraud

۲-۶-۴ پژوهش چهارم: استفاده از الگوریتم ژنتیک برای تشخیص تست نفوذ
۲-۶-۴-۱ هدف پژوهش:
استفاده و الهامگیری ازطبیعت برای تشخیص تست نفوذ
۲-۶-۴-۲ رویکرد پژوهش:
الگوریتم ژنتیک در واقع در شکل ۲-۱۳ نشان داده شده است مهمترین کار در این الگوریتم انتخاب تابع برازندگی۴۳ مناسب است. در هر الگوریتم ژنتیک ۳ مورد بسیار مهم است[۱۰].
انتخاب تابع برازندگی
مقدار پارامترها
نشان دادن جمعیت انفرادی

شکل ۲-۱۳: عملکرد الگوریتم ژنتیک‎[۱۰]
در کل اگر قانونی بصورت if-then باشد تابع برازش آن نیز باید مشخص شود در شکل ۲-۱۴ این قانون آمده است.

شکل ۲-۱۴: قاعده استخراج شده از الگورِیتم ژنتیک‎[۱۰]
توابع به صورت آنچه در شکل ۲-۱۵ آمده است تعریف میشود:

شکل ۲-۱۵: توابع مربوط به الگوریتم ژنتیک و مقدار دهی آنها[۱۰]
N: تعداد ارتباطات درشبکه است.
|A |: شمار ارتباطاتی که با شرط A تطابق دارند.
|A and B|: شمار ارتباطاتی که با شرط اگر A سپس B تطابق دارد.
W1 و W2 برای کنترل تعادل میان confidence و support بکار میرود. بعد از به کار بردن این الگوریتم قوانین جدیدی به مجموعه قوانین اضافه میشود.

شکل ۲-۱۶: معماری الگوریتم ژنتیک برای تست نفوذ [۱۰]

بعد از جمع آوری داده ازشبکه، داده مورد پردازش قرار میگیرد و به فرمت مناسب برای الگوریتم ژنتیک تبدیل میشود سپس ازتابع برازندگی استفاده میشود تا مجموعه قوانین در پایگاه داده ذخیره شود. [۱۰].
۲-۶-۵ پژوهش پنجم: شناسایی ترافیک غیرنرمال در شبکه با الگوریتم خوشه بندی
۲-۶-۵-۱ هدف پژوهش:
در این مقاله با استفاده از الگوریتم خوشه بندیk-means بستههای موجود در شبکه را به دو دسته نرمال و غیرنرمال تقسیم میکند[۱۱].
۲-۶-۵-۲ رویکرد پژوهش:
در این تحقیق داده ها دارای ۳ خصیصه اصلی هستند که شامل موارد زیر میباشد..
جمع کل بستههایی که ازیک پورت فرستاده میشود.
جمع کل بایتهایی که ازیک پورت فرستاده میشود.
تعداد جفت منبع-مقصد متفاوت
انگیزه اصلی این کار تعداد بایتها و بستههایی است که در شبکه رد و بدل میشود با توجه به ماهیت k_means و مفروضات مسئله فاصله بصورت زیر تعریف میشود.
رابطه۲۳۸

مطلب مشابه :  حقوق و تکالیف، قانون مجازات اسلامی

d(x,y)=√(∑_(i=1)^m▒〖((x_i-y_i ))⁄s_i 〗^۲ )
که si فاکتور است که بستگی به ویژگیi ام دارد. که بطور تجربی بدست میآید. ضرایب برای بسته و بایت و جفت فرستنده-گیرنده بدین بصورت است:
Spacket=Sbyte=5 , Ssrc-dist=1
با مقدار دهیk=2 و دو نوع بسته داده داریم
در ادامه خوشهبندی با دو جفت (پروتکل،پورت) انجام شده است.
مورد اول: خوشهبندی در این مورد بدین صورت است که داده به مرکز هر خوشه نزدیکتر باشد در آن خوشه قرار میگیرد در شکل ۲-۱۷ شیp به خوشه نرمال نزدیکتر است پس به خوشه نرمال تعلق میگیرد.

شکل ۲-۱۷: خوشه بندی برایk=2 [11]
اما در ادامه برای شناسایی داده غیرنرمال که در ادامه آماده است برای شناسایی آن، فاصله با مرکز داده نرمال مورد اندازه گیری قرار میگیرد اگر فاصله بین این داده و نرمال بزرگتر از dmax تعریف شده بود به عنوان داده غیرنرمال تشخیص داده میشود در شکل ۲- ۱۸p2 و p3 به عنوان داده غیرنرمال هستند.
ترکیب خوشهبندی و داده غیرنرمال: با ترکیب همزمان خوشهبندی و داده غیرنرمال میتوان داده غیرنرمال را تشخیص داد. اگر دو روش همزمان اجرا کنیم آن داده ای که نسبت به داده اصلی غیرنرمال است در دسته داده غیر نرمال قرار میگیرد.
در شکل ۲-۱۹ با توجه به dmaxدو داده p1 و p2 غیرنرمال هستند که با توجه به روش بالا p1 به مرکز خوشه غیر عادی و p2به مرکز خوشه عادی نزدیکتر است.

شکل ۲-۱۸: شناسایی داده غیرنرمال[۱۱]

شکل ۲-۱۹: ترکیب دستهبندی و شناسایی غیرنرمال‎[۱۱]
قسمت ارزیابی: در مجموعه داده بدست آمده از دانشگاه Twente با الگوریتم خوشه بندی
k-means در پروتکل HTTP،SSH و FTP مرکز خوشه داده نرمال و غیرنرمال تقریبا یکی است اما در آنالیزترافیک UDP نتیجه زیر بدست میآید:
جدول ۲-۱۱: ارزیابی با استفاده از خوشهبندی
SRC-
DIST
BYTES
PKTS
CLUSTER
۱۸۹۶
۳۲۸۸۰۰۷
۲۸۲۷۴
normal
۱۴۸۳۱
۳۵۱۰۷۹۲
۳۹۷۲۵
anomalous

که نشان میدهد src-dist در غیر نرمال ۸ برابر scr-dist در داده نرمال است.
محاسبه پیچیدگی: زمان پیچیدگیO(Knt) است کهk تعداد خوشه وn تعداد عناصری که باید خوشهبندی شوند وt زمان لازم برای خوشهبندی است[۱۱].

فصل سوم

روش تحقیق

۳-۱ روش تحقیق
هدف اصلی این پایاننامه معرفی بهترین الگوریتم با توجه به مجموعه دادهها است که بتواند بسته های عادی را از غیر عادی تشخیص دهد. نوآوری اصلی در پایاننامه، استفاده از الگوریتمهای مدل کاهل و مدل قانونمحور است که تاکنون برای سیستمهای تشخیصنفوذ استفاده نشده است و استفاده از تمام الگوریتمهای موجود در روشهای دستهبندی است که در نرم افزار WEKA و Rapidminer موجود است واستخراج ۵ نمونه داده از داده اولیه که برای مدلهای مختلف و الگوریتمها مربوط به آنها بهترین جواب را میدهد. استخراج ۵ نمونه داده وقت بسیار زیادی به خود اختصاص داده وهمه الگوریتمهای مختلف موجود در مدلهای دستهبندی با مجموعه دادههای مختلف شبیهسازی و اجرا شدهاند که در نهایت ۵ نمونه داده اولیه پیشنهاد نمودهایم. کار مربوط به پیدا کردن بهترین مجموعه دادهها مستلزم آزمایشات مکرر هر الگوریتم با مجموعه دادههای مختلف، مدلسازی و ارزیابی مختلف بوده که در نهایت موفق به ارائه ۵ نمونه داده مختلف از نظر تفاوت در نوع صفات شدهایم که بهترین جواب برای الگوریتمها را ارائه مینمایند.
گام های انجام تحقیقات برای پیادهسازی مدل مانند هر روش مبتنی بر دادهکاوی به شرح زیر است
گام اول: تعیین داده
دراین گام مجموعه داده تعیین می‌شود.
گام دوم: بررسی اولیه دادهها
با استفاده از دانش خبره و از طریق محاسبه اطلاعاتی از قبیل وزن داده ها، میانگین ، مرکز داده تحلیل های ی بر روی داده انجام می‌گردد.
گام سوم: ایجاد و آموزش مدل
بعد از ایجاد مدل میتوان به آن آموزش داد.
گام چهارم: ایجاد دانش
مدل ایجاد شده دارای دانشی است که آن را از مجموعه داده‌های آموزش یاد‌گرفته است. این دانش ساختار داده را دربر دارد و الگوهای موجود در

 

دیدگاهتان را بنویسید