5 điều mà mọi kỹ sư dữ liệu cần biết về khả năng quan sát và giám sát dữ liệu trong kỷ nguyên số

11:00 | 04/12/2025
ThS. Phạm Hữu Thanh (Cục Chứng thực số và Bảo mật thông tin - Ban Cơ yếu Chính phủ)

[ATTT số 5 (087) 2025] - Trong Chiến lược dữ liệu quốc gia đến năm 2030 đã xác định: dữ liệu của Việt Nam mở ra không gian hoạt động và phát triển mới cho chính phủ số, kinh tế số và xã hội số. Chiến lược đặt yêu cầu hợp tác công - tư, nhà nước xây dựng một số công cụ thu thập, phân tích dữ liệu sử dụng chung để hỗ trợ các doanh nghiệp vừa và nhỏ; nghiên cứu hỗ trợ các doanh nghiệp công nghệ số phát triển các nền tảng làm giàu dữ liệu và tạo lập được hệ sinh thái dữ liệu Việt Nam đa dạng.     

Trong đó, các kỹ sư dữ liệu đóng vai trò then chốt trong việc duy trì tính toàn vẹn và độ tin cậy của các hệ thống dữ liệu. Một khía cạnh thiết yếu của trách nhiệm này là đảm bảo khả năng quan sát và giám sát dữ liệu được tích hợp vào các Hệ thống truyền dẫn dữ liệu. Với sự phức tạp ngày càng tăng trong các hệ sinh thái dữ liệu, việc hiểu được các khía cạnh của khả năng quan sát và giám sát có thể tạo nên sự khác biệt giữa vận hành trơn tru và tốn kém do ngừng hoạt động của các hệ thống dữ liệu.

KHẢ NĂNG QUAN SÁT DỮ LIỆU VÀ GIÁM SÁT DỮ LIỆU LÀ GÌ VÀ TẠI SAO NÓ LẠI QUAN TRỌNG ĐẾN VẬY?

Với việc môi trường đám mây ngày càng trở nên phổ biến, việc tìm ra nguyên nhân gốc rễ của các bất thường hoặc lỗi ngày càng trở nên khó khăn. Theo báo cáo của Splunk, năm 2023, gần 66% tổ chức báo cáo rằng mỗi giờ ngừng hoạt động gây thiệt hại hơn 150.000 đô la. Các tổ chức hiện cần khả năng quan sát dữ liệu hơn bao giờ hết.

Khả năng quan sát dữ liệu đề cập đến khả năng hiểu, chẩn đoán và quản lý trạng thái dữ liệu trong suốt vòng đời của nó trong các hệ thống dữ liệu hiện đại. Nó tập trung vào việc cung cấp khả năng hiển thị toàn diện vào các luồng xử lý dữ liệu, cho phép các nhóm xác định, khắc phục sự cố và giải quyết các bất thường, mâu thuẫn hoặc lỗi trước khi chúng ảnh hưởng đến các hệ thống tiếp nhận xử lý dữ liệu. Khả năng quan sát áp dụng một phương pháp tiếp cận chủ động và toàn diện, kết hợp giám sát với những hiểu biết sâu sắc về hành vi hệ thống, các mối phụ thuộc và nguyên nhân gốc rễ.

Mặt khác, giám sát dữ liệu tập trung vào việc theo dõi các số liệu và ngưỡng được xác định trước theo thời gian thực, chẳng hạn như độ mới của dữ liệu, hiệu suất công việc hoặc tốc độ truy vấn. Mặc dù giám sát là yếu tố thiết yếu để xác định các vấn đề tức thời, khả năng quan sát còn vượt xa việc giám sát bằng cách cung cấp sự phân tích bối cảnh và nguyên nhân gốc rễ để xác định được lý do tại sao xảy ra vấn đề.

Trong thời đại mà các doanh nghiệp dựa vào dữ liệu để đưa ra quyết định, sai sót hoặc chậm trễ trong dữ liệu có thể gây ra những hậu quả đáng kể, bao gồm báo cáo không chính xác, vi phạm quy định và tổn thất tài chính. Khả năng quan sát và giám sát dữ liệu hiệu quả giúp các tổ chức tránh được những khó khăn tiềm ẩn bằng cách cung cấp những thông tin chi tiết hữu ích về hoạt động dữ liệu của họ.

KHẢ NĂNG QUAN SÁT DỮ LIỆU ĐỐI VỚI KỸ SƯ DỮ LIỆU LÀ GÌ?

Khả năng quan sát dữ liệu đối với các kỹ sư dữ liệu đề cập đến việc giám sát, theo dõi và hiểu biết toàn diện về các luồng xử lý dữ liệu, quy trình và hệ thống để đảm bảo chất lượng, độ tin cậy và hiệu suất của dữ liệu. Nó bao gồm việc có được khả năng hiển thị đầy đủ về trạng thái và hành vi của dữ liệu khi nó chảy qua cơ sở hạ tầng, từ các hệ thống nguồn đến các nền tảng phân tích.

Các công cụ và thực hành về khả năng quan sát dữ liệu giúp các kỹ sư phát hiện, chẩn đoán và giải quyết các vấn đề như bất thường về dữ liệu, thay đổi lược đồ, lỗi trong luồng xử lý và hiện tượng nghẽn cổ chai theo thời gian thực. Các công cụ này cho phép các kỹ sư dữ liệu chủ động giải quyết các vấn đề trước khi chúng leo thang và ảnh hưởng đến các hoạt động quan trọng của doanh nghiệp

Bằng cách cung cấp thông tin chi tiết về các số liệu như độ mới của dữ liệu, tính đầy đủ, độ chính xác và nguồn gốc, khả năng quan sát dữ liệu đảm bảo rằng các tổ chức có thể tin tưởng vào dữ liệu của mình để đưa ra quyết định và các ứng dụng xử lý dữ liệu. Nó cho phép cộng tác tốt hơn giữa các nhóm, đảm bảo tuân thủ các tiêu chuẩn quản trị dữ liệu và hỗ trợ khả năng mở rộng của các hệ thống dữ liệu.

NĂM KHÍA CẠNH QUAN TRỌNG VỀ KHẢ NĂNG QUAN SÁT VÀ GIÁM SÁT DỮ LIỆU

Sau đây là năm khía cạnh quan trọng mà mọi kỹ sư dữ liệu cần biết về khả năng quan sát và giám sát dữ liệu.

1. Sự khác biệt giữa khả năng quan sát và giám sát

Mặc dù khả năng quan sát và giám sát có liên quan nhưng chúng phục vụ những mục đích riêng biệt:

- Giám sát: bao gồm việc theo dõi các số liệu cụ thể và tạo cảnh báo khi vượt ngưỡng được xác định trước. Ví dụ: giám sát có thể thông báo cho bạn nếu độ mới của dữ liệu vượt quá giới hạn đã thiết lập hoặc nếu khối lượng dữ liệu giảm xuống dưới mức mong đợi.

- Khả năng quan sát: đi sâu hơn, cung cấp thông tin chi tiết toàn diện về trạng thái bên trong của hệ thống dữ liệu bằng cách kiểm tra nhật ký, số liệu và dấu vết. Nó trả lời "tại sao" sự cố xảy ra và giúp xác định nguyên nhân gốc rễ.

Hiểu được sự khác biệt sẽ giúp các kỹ sư dữ liệu triển khai các công cụ và quy trình không chỉ phát hiện vấn đề mà còn cung cấp thông tin chi tiết hữu ích để giải quyết chúng.

2. Các yếu tố chính để quan sát hiệu quả

Khả năng quan sát dựa vào việc theo dõi các số liệu quan trọng phản ánh tình trạng của luồng xử lý dữ liệu. Các kỹ sư dữ liệu nên ưu tiên những điều sau:

- Độ mới: Giám sát tính kịp thời của dữ liệu trên các kênh xử lý để đảm bảo dữ liệu luôn được cập nhật như mong đợi không và xác định được trạng thái gần đây như thế nào?

- Khối lượng: Lượng dữ liệu đầu vào và lượng dữ liệu đã xử lý có nhất quán với xu hướng trước đây không?

- Lược đồ: Có bất kỳ thay đổi nào trong cấu trúc dữ liệu như bổ sung hoặc thiếu trường, có thể dẫn đến việc làm hỏng các hệ thống xử lý phía sau hay không?

- Phân phối: Các đặc tính thống kê như giá trị trung bình, phương sai hoặc tỷ lệ giá trị “0” có nằm trong phạm vi chấp nhận được không?

- Nguồn gốc: Dữ liệu di chuyển qua kênh truyền như thế nào và lỗi có thể lan truyền tới đâu?

Việc thiết lập và tự động theo dõi các số liệu này đảm bảo giám sát toàn diện tình trạng luồng xử lý dữ liệu.

3. Giám sát chủ động so với giám sát tập trung

Giám sát chủ động tập trung vào việc ngăn ngừa các vấn đề trước khi chúng xảy ra, trong khi giám sát tập trung xác định và giải quyết các vấn đề sau khi chúng phát sinh.

- Giám sát chủ động: Tận dụng thông tin chi tiết mang tính dự đoán và phát hiện bất thường để giải quyết sớm các lỗi tiềm ẩn. Ví dụ, các công cụ có thể đánh dấu quy trình thu thập dữ liệu chậm hơn bình thường trước khi nó ảnh hưởng đến báo cáo.

- Giám sát tập trung: Cung cấp cảnh báo và chuẩn đoán sau khi sự cố xảy ra, giúp các nhóm giải quyết nhanh chóng.

Các kỹ sư dữ liệu nên hướng tới mục tiêu xây dựng một hệ thống trong đó việc giám sát chủ động giúp giảm sự phụ thuộc vào phản ứng thụ động, giảm thiểu thời gian chết và tác động của nó.

4. Lựa chọn đúng công cụ

Có nhiều công cụ và nền tảng phục vụ cho khả năng quan sát và giám sát dữ liệu, việc lựa chọn công cụ và nền tảng phù hợp phụ thuộc vào nhu cầu cụ thể của tổ chức bạn. Hiện nay, có một số công cụ phổ biến để quan sát dữ liệu bao gồm:

- Monte Carlo: Cung cấp khả năng phát hiện và giám sát bất thường tự động trên toàn bộ luồng xử lý, tập trung vào chất lượng dữ liệu, nguồn gốc dữ liệu.

- Secoda: Tập trung vào việc đơn giản hóa việc giám sát và quan sát dữ liệu, cung cấp các công cụ để theo dõi nguồn gốc dữ liệu, lập danh mục và hiểu hiệu suất luồng xử lý.

- Datadog: Cung cấp chế độ xem thống nhất các bản ghi, số liệu và dấu vết, kết hợp khả năng quan sát cho cả hệ thống phần mềm và dữ liệu.

Ngoài ra, nhiều nền tảng dữ liệu hiện đại, chẳng hạn như Snowflake, dbt và Airflow có các tính năng giám sát tích hợp liền mạch vào quy trình làm việc hiện có.

5. Vai trò của tự động hóa và AI trong khả năng quan sát

Giám sát thủ công không thể mở rộng quy mô trong môi trường dữ liệu hiện đại, năng động, vì vậy tự động hóa là điều cần thiết để duy trì khả năng giám sát nhất quán và phản hồi nhanh.

- Tự động cảnh báo: Thiết lập các kích hoạt cảnh báo cho các bất thường về độ mới, khối lượng hoặc thay đổi lược đồ để đảm bảo thông báo kịp thời về các sự cố.

- Sử dụng AI/ML để phát hiện bất thường: Triển khai các mô hình học máy có thể tìm hiểu hành vi cơ bản và đánh dấu độ lệch, ngay cả đối với các vấn đề chưa biết.

- Xây dựng bảng thông tin: Trực quan hóa các số liệu quan trọng để kiểm tra tổng thể tình trạng của hệ thống dữ liệu.

- Tự động khắc phục: Phát triển các tập lệnh hoặc quy trình công việc để tự động giải quyết các sự cố phổ biến, chẳng hạn như xử lý lại các lô dữ liệu bị lỗi.

Tự động hóa giúp giảm thiểu lỗi của con người, tăng tốc thời gian phản hồi và đảm bảo giám sát các hệ thống quan trọng 24/7. AI đã bùng nổ trong lĩnh vực quan sát, một phần vì nó cho phép các tổ chức phân tích khối lượng dữ liệu khổng lồ và xác định trạng thái hệ thống của họ từ góc độ an ninh mạng và độ tin cậy của quản lý. Một bước phát triển thú vị trong lĩnh vực này là sự trỗi dậy của khả năng quan sát sử dụng các mô hình ngôn ngữ lớn (LLM). Công nghệ này dựa trên công nghệ giám sát ML truyền thống để thu thập các tín hiệu cần thiết cho việc điều chỉnh và vận hành LLM. Các tổ chức sẽ cần nhiều phân tích dự đoán dựa trên AI hơn thay vì các giải pháp truyền thống sử dụng huấn luyện học máy để theo kịp tốc độ cung cấp dịch vụ đám mây.

[Quý độc giả đón đọc Tạp chí An toàn thông tin số 5 (087) 2025 tại đây]

TÀI LIỆU THAM KHẢO

[1] https://www.secoda.co/learn/5-things-every-data-engineershould-know-about-data-observability-and-monitoring.

 

Để lại bình luận