تشخیصنفوذ استفاده نشده است. همچنین استفاده از تمام الگوریتمهای موجود در روشهای دستهبندی است که در نرم افزار WEKA و Rapidminer موجود است[۶۷]. پیشنهاد ۵ نمونه داده که از داده اولیه استخراج شده و برای مدلهای مختلف و الگوریتمها بهترین جواب را میدهد از نوآوری این پایاننامه است. استخراج ۵ نمونه داده وقت بسیار زیادی به خود اختصاص داده وهمه الگوریتمهای مختلف موجود در مدلهای دستهبندی با مجموعه دادههای مختلف شبیهسازی و اجرا شدند که در نهایت ۵ نمونه داده اولیه پیشنهاد نمودهایم.
۱-۲ بیان مسئله
در دنیای امروز، کامپیوتر و شبکههای کامپیوتری متصل به اینترنت نقش عمدهای در ارتباطات و انتقال اطلاعات ایفا میکند. در این بین افراد سودجو با دسترسی به اطلاعات مهم مراکز خاص یا اطلاعات افراد دیگر و با قصد اعمال نفوذ یا اعمال فشار و یا حتی به هم ریختن نظم سیستمها، به سیستم های کامپیوتری حمله میکنند. بنابراین لزوم حفظ امنیت اطلاعاتی و حفظ کارآیی در شبکههای کامپیوتری که با دنیای خارج ارتباط دارند، کاملا محسوس است.
مکانیزم‌های امنیتی به ۲ گروه کلی محافظتی و مقابله‌ای تقسیم‌بندی می‌شوند. مکانیزم‌های محافظتی سعی می‌کنند از اطلاعات و سیستم در مقابل حملات محافظت کنند. مکانیزم‌های مقابله‌ای هم برای مقابله با حمله تدارک دیده شده‌اند.‎[۱] سیستم‌های تشخیص نفوذ مطابق تعریف مؤسسه ملی استانداردها و تکنولوژی‌های آمریکا، فرایندی هستند که کار نظارت بر رویدادهایی که در شبکه و سیستم رخ می‌دهد و همچنین کار تحلیل رویدادهای مشکوک را برای به‌دست آوردن نشانه نفوذ، بر عهده دارند.
۱-۳ اهمیت و ضرورت تحقیق
هدف از این پایاننامه استفاده از روشهای مبتنی بر دادهکاوی برای تشخیص نفوذ است زیرا حملات همواره بروز میشوند و سیستمهای تشخیص نفوذ ستنی نمیتوانند این حملات شناسایی کنند. وقتی نفوذ اتفاق میافتد مهمترین کار شناسایی است. رخداد مربوط به نفوذ در هر زمان مرتبط به الگویی ازاتفاقات است که در گذشته رخ داده است. این دادههای تاریخی منبع بسیار مهمی از صفات هستند که نیاز هست تا بطور موثر علامت و نشانه های نفوذ در مجموعه دادهها مشخص شود. دادهکاوی با کشف الگوهای مناسب از میان دادههای قبلی به روند ساخت این مدل ها کمک شایانی میکند. در این روش مجموعهای از قانونهای دستهبندی از دادههای شبکه بدست میآید. این قانونها توانایی تعیین رفتار عادی از غیر عادی را دارا میباشند. این پایاننامه با استفاده از مجموعه داده DARPA مورد ارزیابی قرار گرفته است. هدف اصلی این پایاننامه معرفی بهترین الگوریتم با توجه به مجموعه دادهها است. که بتواند بسته های عادی را از غیر عادی تشخیص دهد. .نوآوری اصلی در پایاننامه، استفاده از الگوریتمهای مدل کاهل و مدل قانونمحور است که تاکنون برای سیستمهای تشخیصنفوذ استفاده نشده است. همچنین استفاده از تمام الگوریتمهای مجود در روشهای دستهبندی است که در نرم افزار WEKA و Rapidminer موجود است. و پیشنهاد ۵ نمونه داده که از داده اولیه استخراج شده و برای مدلهای مختلف و الگوریتمها بهترین جواب را میدهد. استخراج ۵ نمونه داده وقت بسیار زیادی به خود اختصاص داده وهمه الگوریتمهای مختلف موجود در مدلهای دستهبندی با مجموعه دادههای مختلف شبیهسازی و اجرا شدند که در نهایت ۵ نمونه داده اولیه پیشنهاد نمودهایم.
۱-۴ اهداف تحقیق
شناسایی داده نرمال۱ و غیرنرمال۲ با استفاده از روشهای دادهکاوی
استخراج مجموعه دادههای متعدد برای ارزیابی بهتر شبیهسازی
بررسی تمام روشهای موجود در دادهکاوی برای تشخیص نفوذ
مقایسه بین تمام الگوریتمهای موجود در هر مدل
عدم روشی موجود برای بررسی تمام الگوریتمها و مقایسه آنها
استفاده از پارامترهای متعدد ارزیابی
۱-۵ تعاریف و اختصار
نفوذ
نفوذ۳ به عملیاتی اطلاق می‌شود که تلاش میکند برای دسترسی غیر مجاز به شبکه یا سیستم های کامپیوتری از مکانیسم امنیتی سیستم عبور کند. این عملیات توسط نفوذ کننده گان خارجی و داخلی انجام میشود.
سیستم های تشخیص نفوذ
سیستم تشخیص نفوذ۴، برنامه‌ای ‌است که با تحلیل ترافیک جاری شبکه یا تحلیل تقاضاها سعی در شناسایی فعالیتهای نفوذگر می‌نماید و در صورتی که تشخیص داد ترافیک ورودی به یک شبکه یا ماشین، از طرف کاربر مجاز و عادی نیست بلکه از فعالیتهای یک نفوذگر ناشی می‌شود، به نحو مناسب به مسئول شبکه هشدار داده یا واکنش خاص نشان می‌دهد.

دادهکاوی
داده کاوی۵ عبارتست از فرآیند یافتن دانش از مقادیر عظیم داده های ذخیره شده در پایگاه داده، انباره داده ویا دیگر مخازن اطلاعات
مدل بیزین
مدل بیزین۶ نوعی از یادگیری با نظارت۷ است که عضویت در یک دسته را با توجه به مقدار احتمال اینکه یک رکورد به کدام دسته تعلق دارد مشخص مینماید.
شبکه عصبی
شبکه عصبی۸ نوعی از یادگیری با نظارت است که از مجموعه ای پیوسته از واحدهای ورودی خروجی وزندار تشکیل شده است. در طی مراحل یادگیری شبکه وزنها را بطور دقیق مقدار دهی مینماید یا عضویت هر داده ورودی در دسته را مشخص نماید.
درخت تصمیم
درخت تصمیم۹ نوعی از یادگیری با نظارت است که از ساختاردرخت برای مشخص کردن عضویت در دسته استفاده میکند. برگها نوع دسته ها و نود میانی حالات مختلف رسیدن تا جواب نهایی را نشان میدهد.
مدل کاهل
مدل کاهل۱۰ نوعی از یادگیری با نظارت است که روش مبتنی بر نمونه نیز نامیده میشود. در واقع مد
لی از دادهها ساخته نمیشود و یادگیری تا زمان دسته بندی به تعویق میافتد و زمان زیادی صرف دستهبندی میشود.
ماشین بردار پشتیبان
ماشین بردار پشتیبان۱۱ نوعی از یادگیری با نظارت است که هم در دادههای خطی و هم غیر خطی کاربرد دارد. مبنای آن استفاده از دادههای خطی است و دادههای غیر خطی را به خطی تبدیل مینماید.
مدل قانونمحور
مدل قانونمحور۱۲ نوعی از یادگیری با نظارت است است که نتایج بصورت قوانین if-then نشان میدهد. بخش بعد از if شرطها و بخش then جواب نهایی مشخص مینماید.
۱-۶ ساختار پایاننامه
ساختار پایاننامه در پنج فصل بصورت زیر ساماندهی شده است:
در فصل اول به شرح کلیات تحقیق از جمله تبین موضوع تحقیق، ضرورت انجام طرح، اهداف و فرضیات مسئله میپردازیم. در فصل دوم به ادبیات، مبانی نظری و پیشینه تحقیق پرداخته شده است. سپس روش انجام طرح بصورت تفصیلی در فصل سوم شرح داده شده است. در فصل چهارم روش پیشنهادی پیادهسازی شد و نتایج حاصل مورد ارزیابی قرار گرفت. در آخرین فصل از فصول پنجگانه نتیجه تحقیق و پیشنهاداتی برای کارهای آینده عنوان شده است.

مطلب مشابه :  الگوریتم ژنتیک

فصل دوم
ادبیات و پیشینه تحقیق

۲-۱ دادهکاوی
دادهکاوی را می توان حاصل سیر تکاملی طبیعی تکنولوژی اطلاعات دانست، که این سیر تکاملی ناشی از یک سیر تکاملی در صنعت پایگاهداده میباشد. نظیر عملیات جمعآوری دادهها وایجاد پایگاه داده، مدیریت داده و تحلیل و فهم دادهها.
دراینجا تعریفی از دادهکاوی ارائه میدهیم:
“دادهکاوی عبارتست از فرآیند یافتن دانش از مقادیر عظیم دادههای ذخیره شده در پایگاهداده، انباره داده ویا دیگر مخازن اطلاعات”[۲].
بر اساس این دیدگاه یک سیستم دادهکاوی به طور نمونه دارای اجزاء اصلی زیر است که شکل ۲-۱ بیانگر معماری سیستم است.
بنابراین دادهکاوی به عنوان یکی از شاخههای پیشرو در صنعت اطلاعات مورد توجه قرار گرفته و به عنوان یکی از نوید بخشترین زمینههای توسعه بین رشته ای در صنعت اطلاعات است.
۲-۱-۱دستهبندی۱۳
در مسائل دستهبندی هدف شناسایی ویژگیهایی است که گروهی را که هر مورد به آن تعلق دارد را نشان دهند. از این الگو میتوان هم برای فهم دادههای موجود و هم پیشبینی نحوه رفتار داده جدید استفاده کرد.

شکل ۲-۱: معماری یک نمونه سیستم دادهکاوی‎[۳]

دادهکاوی مدلهای دستهبندی را با بررسی دادههای دستهبندی شده قبلی ایجاد میکند و یک الگوی پیشبینی کننده را بصورت استقرایی ایجاد مینماید. این موارد موجود ممکن است از یک پایگاه داده تاریخی آمده باشند‎[۵].

۲-۲مدلها و الگوریتمهای دادهکاوی
در این بخش قصد داریم مهمترین الگوریتمها و مدلهای دادهکاوی را بررسی کنیم. بسیاری از محصولات تجاری دادهکاوی از مجموعه از این الگوریتم ها استفاده میکنند و معمولا هر کدام آنها در یک بخش خاص قدرت دارند و برای استفاده از یکی از آنها باید بررسی های لازم در جهت انتخاب متناسبترین محصول توسط گروه متخصص در نظر گرفته شود.نکته مهم دیگر این است که در بین این الگوریتم ها و مدل ها ، بهترین وجود ندارد و با توجه به دادهها و کارایی مورد نظر باید مدل انتخاب گردد.
۲-۲-۱ شبکههای عصبی۱۴
هر شبکه عصبی شامل یک لایه ورودی۱۵میباشد که هر گره در این لایه معادل یکی از متغیرهای پیشبینی میباشد. گرههای موجود در لایه میانی به تعدادی گره در لایه نهان۱۶وصل میشوند. هر گره ورودی به همه گرههای لایه نهان وصل میشود.
گرههای موجود در لایه نهان میتوانند به گرههای یک لایه نهان دیگر وصل شوند یا میتوانند به لایه خروجی۱۷وصل شوند.
لایه خروجی شامل یک یا چند متغیر خروجی می باشد
هر یال که بین نود هایX,Y میباشد دارای یک وزن است که با Wx,y نمایش داده میشود. این وزن ها در محاسبات لایههای میانی استفاده میشوند و طرز استفاده آنها به این صورت است که هر نود در لایههای میانی (لایههای غیر از لایه اول) دارای چند ورودی از چند یال مختلف میباشد که همانطور که گفته شد هر کدام یک وزن خاص دارند.
هر نود لایه میانی میزان هر ورودی را در وزن یال مربوطه آن ضرب میکند و حاصل این ضربها را با هم جمع میکند و سپس یک تابع از پیش تعیین شده (تابع فعالسازی) روی این حاصل اعمال میکند و نتیجه را به عنوان خروجی به نودهای لایه بعد میدهد.
وزن یالها پارامترهای ناشناختهای هستند که توسط تابع آموزش ۱۸و دادههای آموزشی که به سیستم داده میشود تعیین میگردند.
تعداد گرهها و تعداد لایههای نهان و نحوه وصل شدن گرهها به یکدیگر معماری(توپولوژی) شبکه عصبی را مشخص میکند.کاربر یا نرم افزاری که شبکهعصبی را طراحی میکند باید تعداد گرهها ، تعداد لایههای نهان ، تابع فعالسازی و محدودیتهای مربوط به وزن یالها را مشخص کند[۳].

مطلب مشابه :  تعالی سازمانی، انتخاب تأمین کننده

شکل ۲-۲: Wx,yوزن یال بین X و Y است[۳].
از مهمترین انواع شبکههای عصبی شبکه انتشار به جلو۱۹ و شبکه انتشار به عقب۲۰ میباشد که در اینجا به اختصار آنرا توضیح میدهیم.
انتشار به جلو به معنی این است که مقدار پارامتر خروجی براساس پارامترهای ورودی و یک سری وزن های اولیه تعیین می گردد. مقادیر ورودی با هم ترکیب شده و در لایههای نهان استفاده میشوند و مقادیر این لایههای نهان نیز برای محاسبه مقادیر خروجی ترکیب می شوند[۳].
انتشار به عقب خطای خروجی با مقایسه مقدار خروجی با مقدار مد نظر در دادههای آزمایشی محاسبه می گردد و این مقدار برای تصحیح شبکه و تغییر وزن یالها استفاده میگردد و از گره خروجی شروع شده و به عقب
محاسبات ادامه می یابد.
این عمل برای هر رکورد موجود در بانک اطلاعاتی تکرار می گردد.
به هر بار اجرای این الگوریتم برای تمام دادههای موجود در بانک یک دوره ۲۱گفته می شود. این دوره ها آنقدر ادامه می یابد که دیگر مقدار خطا تغییر نکند[۳].
۲-۲-۲درخت تصمیم
درختهای تصمیم روشی برای نمایش یک سری از قوانین هستند که منتهی به یک رده یا مقدار میشوند.
یکی از تفاوتها بین متدهای ساخت درخت تصمیم این است که این فاصله چگونه اندازهگیری میشود. درختهای تصمیمی که برای پیشبینی متغیرهای دستهای استفاده میشوند، درختهای دستهبندی نامیده میشوند زیرا نمونهها را در دستهها یا ردهها قرار میدهند. درختهای تصمیمی که برای پیشبینی متغیرهای پیوسته استفاده میشوند درختهای رگرسیون نامیده میشوند[۳].

شکل ۲-۳: درخت تصمیمگیری‎[۳]
الگوریتمهای یادگیری درخت تصمیم:
اغلب الگوریتمهای یادگیری درخت تصمیم بر پایه یک عمل جستجوی حریصانه بالا به پائین در فضای درختهای موجود عمل میکنند.
در درخت تصمیم ID3 از یک مقدار آماری به نام بهره اطلاعات۲۲ استفاده می شود تا اینکه مشخص کنیم که یک ویژگی تا چه مقدار قادر است مثالهای آموزشی را بر حسب دستهبندی آنها جدا کند[۴].
آنتروپی:
میزان خلوص (بی نظمی یا عدم خالص بودن) مجموعهای از مثالها را مشخص میکند. اگر مجموعه S شامل مثالهای مثبت و منفی از یک مفهوم هدف باشد آنتروپیS نسبت به این دسته بندی بولی بصورت رابطه ۲-۱ تعریف می شود‎[۴].

رابطه ۲-۱

Entropy(s)=-p^+*〖log〗_۲⁡〖p^+ 〗-p^-*〖log〗_۲⁡〖p^- 〗

بهره اطلاعات:
بهره اطلاعات یک ویژگی عبارت است از مقدار کاهش آنتروپی که بواسطه جداسازی مثالها از طریق این ویژگی حاصل میشود.
به عبارت دیگر بهره اطلاعات Gain(S,A) برای یک ویژگی نظیر A نسبت به مجموعه مثالهایS بصورت رابطه ۲-۲ تعریف میشود:
رابطه ۲-۲

Informationgain=Entropy(s)-∑_(v∈Values(A))▒s_v/|s| *Entropy(s)

که در آن Values(A) مجموعه همه مقدار ویژگیهایA بوده و SVزیرمجموعه ای از S است که برای آن A دارای مقدار V است.
در تعریف فوق عبارت اول مقدار آنتروپی دادهها و عبارت دوم مقدار آنتروپی مورد انتظار بعد از جداسازی دادههاست[۴].
درختان رگرسیون:
وظیفه یادگیری در درختان رگرسیون، شامل پیش بینی اعداد حقیقی بجای مقادیر دستهای گسسته است. که این عمل را با داشتن مقادیر حقیقی در گرههای برگ خود نشان میدهند. بدین صورت که میانگین مقادیر هدف نمونههای آموزشی را در این گره برگ بدست میآورند. این نوع از درختان، تفسیر آسان داشته و می توانند توابع ثابت تکه ای را تقریب بزنند.
نسخه پیچیدهتر درختان رگرسیون، درختان مدل هستند که عمل رگرسیون را با داشتن مدل خطی در گرههای داخلی یا پایانی نشان میدهند به عبارت بهتر ه

 

دیدگاهتان را بنویسید