شناسایی کاربران در فضای سایبری از جمله مواردی است که میتوان در سازمانهایی مانند پلیس فتا برای ردیابی و دستگیری هرچه سریعتر مجرمان سایبری استفاده شود. زمانی که یک کاربر در فضای سایبری در قالب هویتی گمنام بر این میشود تا اعمال خرابکارانه و سوء قصدی را در وسعت یک محل کار کوچک، سازمان بزرگ، ارگان، شهر و یا حتی کشور انجام دهد، این نیاز ایجاد میشود که این فرد کیست؟ هویت او چیست؟ چه نشانههایی از وی میتوان یافت؟ برای مثال زمانی که یک فرد تبلیغات ضددولتی و خرابکارانه را در فضای سایبری و مجازی پخش میکند، دولت نیاز به شناسایی هویت این کاربر در فضای اینترنتی دارد که هرچه این شناسایی با دقت بالاتری صورت گیرد به نفع کشور خواهد بود. . نهادهای نظارتی و امنیتی مانند پلیس فتا به وجود سیستمی که بتواند هویت افراد را برای آنها شناسایی کند، نیازمند هستند. اگر این سیستم وجود نداشته باشد در واقع به سوابق مجرم دسترسی وجود ندارد و نمیتوان اثبات کرد که این مجرم همان مجرمی است که در روزهای گذشته جرم خاصی را در فضای سایبری مرتکب شده است.
کاربران اینترنتی از طریق دستگاه های الکترونیکی مانند لپتاپ، گوشی های هوشمند و غیره، در طی گشت و گذار در وب، رفتارهای مشخصی از خود بهجا میگذارند. مشخصات بهدستآمده از رفتار کاربران میتواند به شناسایی فرد کمک کند. مدلسازی ترافیک شبکه و تحلیل آن که مهمترین ابزارهای نظارتی موجود هستند دارای کاربردهای بسیاری مانند تشخیص نفوذ، تشخیص بدافزارها، تشخیص ربات و شناسایی برنامههای در حال اجرا بر روی یک دستگاه است. پژوهشهای بسیاری در حوزه تحلیل و نظارت بر ترافیک شبکه با اهداف فوق انجام شده است، اما در این میان توجه کمتری به شناسایی کاربر شده است.
تکنیکهایی برای تحلیل ترافیک شبکه استفاده میشود. در مقالات مطالعه شده در این حوزه، از الگوریتم های یادگیری ماشین استفاده شد که شامل الگوریتمهای طبقه بندی و خوشه بندی است. این تکنیکها معمولا اطلاعات خام پکتهای رد و بدل شده را دریافت میکنند و از آنها اطلاعاتی مانند شناسهی IP، جنسیت، رشتهی تحصیلی و اطلاعاتی از این قبیل استخراج میکنند. این اطلاعات ممکن است از یک سو حریم خصوصی افراد را نقض کند، اما از سوی دیگر به شناسایی مجرمین اینترنتی کمک کند.
براساس پژوهش انجام شده توسط Nino Vincenzo Verde و همکارانش ترافیک تولید شده توسط یک کاربر تنها شامل الگوهای مشخصی است که میتواند به عنوان یک امضای منحصر به فرد یا همان اثر انگشت کاربر شناخته شود. چندین ابزار از این ترافیک به منظور اثر انگشت و نظارت بر کاربران استفاده میکنند. با این حال اغلب این ابزارها به کل ترافیک از جمله آدرسهای IP و Payload ها دسترسی دارند. یک آدرسIP متعلق به یک شبکهی بزرگ معمولاً با استفاده از تکنیک NAT پنهان میشود. چهارچوب طراحی شده در این پژوهش قادر به تجزیه وتحلیل حجم عظیمی از ترافیک شبکه است که با هدف دقیق زمان و IP ای که کاربر به شبکه متصل است که برای تشخیص ترافیک کاربر از مدل HMM استفاده شده است. در این پژوهش برای ضبط ترافیک از Netflow استفاده شده است. Netflow یک پروتکل شبکه است که توسط شرکت Cisco ایجاد شده و وظیفه آن استخراج اطلاعات مربوط به ترافیک شبکه است که به کمک آن می توان ترافیک و پهنای باند شبکه را آنالیز کرد. NetFlow این امکان را فراهم می سازد تا به آسانی از نحوه استفاده ترافیک شبکه آگاه شویم و بدانیم کدام کاربران و یا نرم افزار ها، چه نوع اطلاعاتی را در چه زمانی و با چه حجمی به چه مقاصدی ارسال و یا دریافت کرده اند. بصورت کلی در فرآیند NetFlow ای که توسط یک روتر انجام می شود مرحله اول به عنوان فرآیند مانیتورینگ در روتر انجام می شود و ما به روتر می گوییم که ترافیک چه پورتی را نیاز داریم که تحلیل کنیم و Flow داده های موجود در کدامیک از پورت ها مورد نیاز ما می باشد که همین فرآیند به عنوان مانیتورینگ ترافیک در روتر نیز معروف است ، بعد از اینکه ترافیک موجود در روتر مانیتور شد ، بر روی آن پردازش می شود و داده های لازم بعد از کش شدن و استفاده از CPU و RAM روتر شما به سمت نرم افزار مانیتورینگ Export یا خروجی داده می شوند تا توسط این نرم افزار تحلیل شوند. با توجه به نویز بالای کاربران در NetFlow، در تمامی تحلیلها انگشت نگاری در این پژوهش با دقت بالا و بیش از 90 درصد انجام شده است.
