Anomaly detection là gì? Các ưu nhược điểm khi sử dụng anomaly detecrion
BÀI LIÊN QUAN
Hệ thống clustering là gì? Ứng dụng trong quản lý cơ sở dữ liệuRegression Analysis là gì? Ý nghĩa, phân loại và ví dụ cụ thểDecision Tree là gì? Các thuật toán liên quan tới Decision TreeAnomaly detection là gì?
Anomaly detection là gì? Đây là một thuật ngữ kỹ thuật và công nghệ có nghĩa là phát hiện bất thường (Đây là nghĩa tiếng Việt của Anomaly Detection - một thuật ngữ thuộc nhóm Technology Terms - Công nghệ thông tin). Anomaly detection (Phát hiện bất thường) là việc xác định các điểm dữ liệu, quan sát, các mục hoặc các sự kiện không phù hợp với các mô hình dự kiến của một nhóm nhất định. Những bất thường xảy ra thường xuyên nhưng có thể biểu hiện một mối đe dọa lớn và giống như sự xâm nhập mạng, gian lận.
Phát hiện bất thường chủ yếu là quá trình khai thác dữ liệu và sử dụng để xác định các loại dị thường xảy ra trong một file dữ liệu nhất định và để xác định chi tiết về sự xuất hiện dị thường của chúng. Anomaly detection được áp dụng trong các lĩnh vực như phát hiện gian lận, phát hiện lỗi, phát hiện xâm nhập, theo dõi sức khỏe hệ thống và hệ thống phát hiện sự kiện trong mạng cảm biến. Trong bối cảnh gian lận và phát hiện xâm nhập, sự bất thường hoặc vật phẩm thú vị không nhất thiết là những vật phẩm quý hiếm mà là những hoạt động bất ngờ bùng nổ. Các loại dị thường này không phù hợp với định nghĩa của dị thường hoặc ngoại lệ là hiếm khi xảy ra, vì vậy nhiều phương pháp phát hiện dị thường không hoạt động trong các trường hợp này trừ khi chúng được tổng hợp hoặc huấn luyện một cách thích hợp. Vì vậy, trong những trường hợp này, thuật toán phân tích cụm có thể phù hợp hơn để phát hiện các mẫu microcluster được tạo bởi các điểm dữ liệu này.
Ưu nhược điểm khi sử dụng Anomaly detection là gì?
Phát hiện bất thường có thể đem đến nhiều ưu điểm cũng có thêt là nhược điểm khi sử dụng về doanh nghiệp và mạng của bạn mà bạn có thể đã bỏ qua.
Ưu điểm ckhi sử dụng Anomaly detection là gì?
Từ khái niệm của Anomaly detection cho chúng ta biết được những ưu điểm khi sử dụng Anomaly detection sau:
- Kỹ thuật này phát hiện ra dấu hiên bất thường, nó có thể phát hiện ra nhiều cuộc tấn công mới mà không cà biết chi tết về laoij tấn công.
- Thông tin kết quả của Anomaly detection có thể sử dụng làm mẫu trong kỹ thuật phát hiện sự lạm dụng.
Nhược điểm của Anomaly detection là gì
Ngoại những ưu điểm trên thì Anomaly detection cũng đem đến nhiều nhược điểm khi sử dung. Cụ thể như sau:
- Các chương trình khi sử dụng Anomaly detection thường đưa ra những cảnh báo sai có hành vi bình thường của hệ thống hoặc của những người dùng nhưng không thể dựu đoán được.
- Nó đỏi hỏi phải mở rộng tập các bản ghi sự kiện hành vi được coi là bình thường của hệ thống
Khi nào nên sử dụng Anomaly Detection?
Nếu bạn có hiểu biết một chút về các thuật toán machine learning thì sẽ biết một thuật toán cho phép phát hiện (chẳng hạn như bất thường đó chính là Logistic Regression thuật toán này cho phép gán nhãn, một ví dụ khác nhãn 0 tương ứng với ví dụ bình thường, nhãn 1 tương ứng là ví dụ bất thường với ý tưởng sử dụng phương pháp Gradient Descent để tối thiểu hàm Cost Function tương đương với Linear Regression). Vậy nên với cùng khả năng cho phép nhận biết 2 nhãn lớp, khi nào ta sẽ dùng Anomaly Detection, khi nào ta sẽ dùng Logistic Regression.
Dựa vào tập dữ liệu mà các bạn đang có, bạn có thể quyết định chọn thuật toán tương ứng hợp lý:
- Nếu như tập dữ liệu của bạn là lệch, số lượng ví dụ bất thường là rất nhỏ hoặc không có, mà phần lớn là ví dụ bình thường, thì hãy lựa chọn Anomaly Detection vì nội dung thuật toán dựa trên công việc train trong một tập đông các ví dụ thông thường để phát hiện ra quy luật phân bố của chúng.
- Nếu như tập dữ liệu của bạn có số lượng ví dụ normal và anomaly instance đều lớn, lúc này lựa chọn Logistic Regression là phù hợp vì thuật toán này cần một lượng lớn ví dụ của cả 2 nhãn thì việc phát hiện decision boundary tỷ lệ càng chính xác.
Ngoài ra, nếu bạn gặp phải trường hợp có rất nhiều “types” of anomalies, và nó là rất khó khăn để cho thuật toán có thể đọc từ các ví dụ train để rút ra vậy thì các ví dụ ngoại lệ “trông” sẽ như thế nào, hơn nữa rất có thể những ví dụ ngoại lệ khác trong tương lai không hề giống (rất khác) với các anomalous instances hiện đang có trong tập train. Lúc này thuật toán Anomaly Dectection phát huy hiệu quả hơn thuật toán Logistic Regression. Ngược lại, nếu những ví dụ tương lai dường như sẽ tương ứng với các ví dụ ta đã có trong tập train, vậy thì có thể lựa chọn thuật toán Logistic Regression.
Một số ứng dụng của thuật toán anomaly detection là gì?
Với những ưu điểm của Anomaly detectian đem đến rát nhiều lợi ích khi sử dụng. Vậy Anomaly detection có những ứng dụng nào:
- Phát hiện giao dịch gian lận: Có thể gọi x(i) là tập các feature biểu diễn các activites của người sử dụng (số lần click chuột, số lần gửi request tới server, thời gian gửi giữa các request…) Từ đó hệ thống có thể phát hiện người sử dụng có các hành động bất thường và đưa ra cảnh báo với người quản trị hệ thống
- Kiểm tra chất lượng trong dây chuyền sản xuất
- Giám sát được các máy tính trong trung tâm dữ liệu. Các thuộc tính như bộ nhớ khi sử dụng, CPU load, số lần truy cập nhớ, network traffic có thể được sử dụng trong hoàn cảnh như thế này.
Việc lựa chọn thuộc tính biểu diễn ví dụ đều phụ thuộc vào kinh nghiệm của các chuyên gia tư vấn trên cơ sở hiểu biết về những đặc điểm nào có khả năng cho ta nhận ra các ví dụ bất thường. Đôi khi bạn sẽ cần phải xây dựng thêm một số thuộc tính dẫn xuất như nhân, chia 2 thuộc tính cũ để tạo ra thuộc tính mới có khả năng phân loại tốt hơn.
Một số lưu ý khi dử dụng Anomaly detection là gì?
Cần phải quan sát phân phối các giá trị thuộc tính có dạng giống phân phối chuẩn (dạng hình chuông). Lý do như đã nói ở phần trên, thuật toán Anomaly Detection được dựa trên giả định là các thuộc tính có phân phối chuẩn, khi đó thì công thức tính hàm mật độ xác suất f(x, μ, σ) như trên mới đúng.
Trong trường hợp giá trị thuộc tính không có dạng phân phối đúng chuẩn, chúng ta có thể áp dụng những biến đổi, chẳng hạn như sử dụng hàm log để đưa về dạng phân phối hình chuông. Đây là gợi ý giúp bạn một số cách biến đổi chuỗi ban đầu về dạng phân phối chuẩn.
Kết luận
Trên đây là những kiến thức cơ bản về thuật toán cho phép có thể phát hiện ngoại lệ bất thường, thuật toán Anomaly Detection. Như các bạn đã biết, đây là một trong những thuật toán không khó và dựa trên những kiến thức về xác suất thống kê, rất rõ ràng, rành mạch và dễ hiểu. Mong rằng những thông tin về thuật toán Anomaly detection trên có thể giúp bạn trong một vài tình huống mà bạn gặp phải trong công việc của mình. Cám ơn các bạn đã theo dõi bài viết: “Anomaly detection là gì? Các ưu nhược điểm khi sử dụng anomaly detecrion”