Bộ dữ liệu lưu vết các vụ tấn công IoT 23

Để có thể phát hiện các cuộc tấn công vào hệ thống IoT thì cách tiếp cận dựa trên học máy (Machine Learning) đang là hướng khả thi nhất hiện nay. Các mô hình học máy cần phải được huấn luyện trên một bộ dữ liệu (training data) để có được khả năng phân biệt các vụ tấn công vào hệ thống IoT. Bộ dữ liệu vì thế rất quan trọng trong quá trình huấn luyện. Trong bài này sẽ giới thiệu về bộ dữ liệu IoT 23. 

Mỗi tệp conn.log.labeled chứa 23 cột dữ liệu, có loại được trình bày trong bảng trên. 

Cột conn-state là một biến dành riêng cho Zeek và biểu thị trạng thái kết nối giữa hai thiết bị. Ví dụ: S0 có nghĩa là một thiết bị đã thử kết nối nhưng phía bên kia không trả lời. Trong tập dữ liệu này, tất cả các giá trị bị thiếu trong bất kỳ mục nhập nào đều được đánh dấu bằng dấu gạch ngang (“-”), ngoại trừ địa chỉ IP, được đánh dấu bằng hai dấu hai chấm (“::”).