Cách ChatGPT lấy dữ liệu đào tạo
Theo một nghiên cứu của OpenAI đã công bố, ChatGPT3 đã được đào tạo trên một số bộ dữ liệu như: Common Crawl, WebText2, Book1 và Book2 hay Wikipedia. Lượng dữ liệu đào tạo lớn nhất đến từ Common Crawl, cung cấp quyền truy cập vào thông tin web thông qua kho lưu trữ thu thập dữ liệu web mở. Bot Common Crawl, còn được gọi là CCBot, tận dụng Apache Nutch để cho phép các nhà phát triển xây dựng các trình thu thập thông tin quy mô lớn.
Phiên bản mới nhất của CCBot thu thập dữ liệu từ Amazon AWS và tự nhận dạng nó bằng User agent “CCBot/2.0”. Các doanh nghiệp nếu muốn cho phép sử dụng CCBot không nên chỉ dựa vào User agent để nhận dạng nó, bởi vì nhiều bot xấu giả mạo User agent của họ để ngụy trang thành bot tốt và tránh bị chặn. Để cho phép sử dụng CCBot trên trang web của mình, người dùng cần sử dụng các thuộc tính như dải IP hoặc DNS Reverse. Để chặn ChatGPT, tối thiểu trang web của người dùng phải chặn lưu lượng truy cập từ CCBot.
Ba cách ngăn chặn CCBot
Scrapers luôn có thể tìm cách giải quyết
LLM sử dụng bot scraper để thu thập dữ liệu đào tạo. Mặc dù việc chặn CCBot có thể hiệu quả trong việc chặn những scraper ChatGPT ngày nay, nhưng không thể biết được tương lai của những scraper LLM sẽ ra sao. Nếu có quá nhiều trang web chặn OpenAI truy cập vào nội dung của họ, thì nhà phát triển có thể quyết định ngừng sử dụng robots.txt và có thể không khai danh tính trình thu thập thông tin của họ (crawler identity) trong User agent.
Một khả năng khác là OpenAI có thể sử dụng mối quan hệ hợp tác với Microsoft để truy cập scraper data của Microsoft Bing khiến tình hình trở nên khó khăn hơn đối với chủ sở hữu trang web. Các bot của Bing được xác định là Bingbot nhưng việc chặn chúng có thể gây ra sự cố khi ngăn trang web của người dùng được lập chỉ mục trên công cụ tìm kiếm Bing, dẫn đến có ít khách truy cập là con người hơn.
Người dùng có thể gặp phải các vấn đề tương tự bằng cách chặn LLM Bard của Google (đối thủ cạnh tranh với ChatGPT). Việc thu thập dữ liệu công khai được sử dụng để đào tạo Bard, nhưng có thể Bard đang hoặc sẽ được đào tạo bằng dữ liệu được thu thập bởi những người thu thập dữ liệu của Googlebot. Giống như Bingbot, việc chặn Googlebot có thể là không hợp lý, ảnh hưởng đến cách trang web của người dùng được lập chỉ mục và cách công cụ tìm kiếm Google hướng lưu lượng truy cập đến trang web của người dùng. Kết quả có thể dẫn đến lượng khách truy cập giảm nghiêm trọng.
Sử dụng plugin để truy cập dữ liệu trực tiếp
Một trong những hạn chế chính của các mô hình như ChatGPT là thiếu quyền truy cập vào dữ liệu trực tiếp. Vì được đào tạo trên tập dữ liệu (dataset) đã dừng vào năm 2021 nên nó không thể cung cấp thông tin cập nhật và phù hợp nhất. Đó là nơi các plugin xuất hiện.
Các plugin được sử dụng để kết nối LLM như ChatGPT với các công cụ khác và cho phép LLM truy cập dữ liệu bên ngoài có sẵn trực tuyến, có thể bao gồm dữ liệu riêng tư và tin tức thời gian thực. Plugin cũng cho phép người dùng hoàn thành các hành động trực tuyến (ví dụ: đặt chuyến bay hoặc đặt hàng) thông qua lệnh gọi API.
Một số doanh nghiệp đang phát triển plugin của riêng họ để cung cấp cách mới cho người dùng tương tác với nội dung/dịch vụ của họ thông qua ChatGPT. Tuy nhiên, tùy thuộc vào lĩnh vực, ngành nghề, việc cho phép người dùng tương tác với trang web thông qua plugin ChatGPT của bên thứ ba, điều này đồng nghĩa với việc người dùng nhìn thấy ít quảng cáo hơn, cũng như giảm lưu lượng truy cập vào trang web.
Cũng có thể thể nhận thấy rằng người dùng ít sẵn sàng trả phí cho các tính năng cao cấp hơn khi các tính năng có thể được sao chép thông qua plugin ChatGPT của bên thứ ba. Ví dụ: một ứng dụng web client không chính thức tương tác với trang web của doanh nghiệp có thể cung cấp các tính năng cao cấp thông qua giao diện người dùng.
Cách xác định các yêu cầu plugin ChatGPT
Tài liệu OpenAI nêu rõ rằng các yêu cầu có tiêu đề HTTP User agent cụ thể (với token: "ChatGPT-User") đến từ plugin ChatGPT. Tuy nhiên, tài liệu không nêu rõ rằng User agent được tiết lộ là User agent duy nhất có thể được các plugin sử dụng khi thực hiện các yêu cầu HTTP. Do đó, khi plugin ChatGPT tương tác với API của bên thứ ba, các API sau đó có thể thực hiện bất kỳ loại yêu cầu HTTP nào từ cơ sở hạ tầng của chính chúng. Hình dưới đây cho thấy điều gì sẽ xảy ra khi sử dụng "Live Sport Plugin" hư cấu với ChatGPT để nhận thông tin cập nhật về một sự kiện thể thao.
Minh họa sử dụng Live Sport Plugin với ChatGPT
Một plugin thực sự có thể đưa ra yêu cầu đối với API thể thao mà không cần phải tìm kiếm trang web thể thao. Trên thực tế, khi yêu cầu được thực hiện trực tiếp từ máy chủ lưu trữ API plugin, không có ràng buộc nào đối với user agent.
Cách chặn yêu cầu plugin ChatGPT
Trong quy trình tương tự như chặn web scraper của ChatGPT, người dùng có thể chặn yêu cầu từ các plugin khai báo sự hiện diện của chúng bằng chuỗi con "ChatGPT-User" theo User agent. Nhưng việc chặn User agent cũng có thể chặn người dùng ChatGPT khi chế độ "duyệt web (browsing)" được kích hoạt. Trái với những gì tài liệu OpenAI có thể chỉ ra, việc chặn yêu cầu từ "ChatGPT-User" không đảm bảo rằng ChatGPT và các plugin của nó không thể tiếp cận dữ liệu của bạn bằng các User agent token khác nhau.
Trên thực tế, plugin ChatGPT có thể thực hiện yêu cầu trực tiếp từ máy chủ lưu trữ API của họ bằng cách sử dụng bất kỳ User agent nào và thậm chí sử dụng trình duyệt tự động (headless browser - trình duyệt web không có giao diện đồ họa người dùng). Việc phát hiện các plugin không khai báo danh tính của chúng trong User agent yêu cầu các kỹ thuật phát hiện bot nâng cao.
Các bước tiếp theo người dùng nên làm
Việc có được bộ dữ liệu chất lượng cao về nội dung do con người tạo ra sẽ vẫn có tầm quan trọng đặc biệt đối với LLM. Về lâu dài, các công ty như OpenAI (được Microsoft tài trợ một phần) và Google có thể muốn sử dụng Bingbots và Googlebots để xây dựng bộ dữ liệu nhằm đào tạo LLM của họ. Điều đó sẽ gây khó khăn hơn cho các trang web trong việc từ chối thu thập dữ liệu, vì hầu hết các doanh nghiệp trực tuyến phụ thuộc rất nhiều vào Bing và Google để lập chỉ mục nội dung và hướng lưu lượng truy cập đến trang web của họ.
Các trang web có dữ liệu giá trị sẽ muốn tìm cách kiếm tiền từ việc sử dụng dữ liệu của họ hoặc từ chối đào tạo mô hình AI để tránh mất lưu lượng truy cập web và doanh thu quảng cáo cho ChatGPT và các plugin của nó. Nếu muốn từ chối, người dùng sẽ cần các kỹ thuật phát hiện bot nâng cao, chẳng hạn như lấy dấu vân tay, phát hiện proxy và phân tích hành vi để ngăn chặn bot trước khi chúng có thể truy cập dữ liệu của họ.
Các giải pháp nâng cao cho bot và chống gian lận sử dụng trí tuệ nhân tạo (AI) và học máy (ML) để phát hiện và ngăn chặn các bot lạ ngay từ yêu cầu đầu tiên, giữ cho nội dung an toàn trước các LLM scraper, plugin không xác định và các công nghệ AI đang phát triển nhanh chóng khác.
Hồng Đạt
(Theo The Hacker News)
10:00 | 28/08/2023
09:00 | 06/11/2023
15:00 | 06/10/2023
10:00 | 07/11/2023
18:00 | 22/09/2023
09:00 | 03/10/2023
09:00 | 25/10/2023
14:00 | 10/11/2023
09:00 | 05/06/2023
13:00 | 26/02/2024
11:00 | 26/04/2024
07:00 | 24/04/2023
14:00 | 11/10/2023
17:00 | 03/01/2025
Trong thời đại kỹ thuật số ngày nay, ransomware đã trở thành một trong những mối đe dọa nguy hiểm nhất đối với cả cá nhân lẫn tổ chức. Ransomware không chỉ gây tổn thất về tài chính mà còn đe dọa đến sự bảo mật thông tin, uy tín và hoạt động kinh doanh của các tổ chức. Tiếp nối phần I đã trình bày trong số trước, phần II của bài viết nhóm tác giả sẽ tiếp tục giới thiệu tới độc giả một số kỹ năng cần thiết cho các tổ chức để ngăn ngừa và giảm thiểu tác động của các cuộc tấn công ransomware.
15:00 | 26/12/2024
Trong thời đại công nghệ số, việc bảo vệ thông tin cá nhân và dữ liệu nhạy cảm trở nên vô cùng quan trọng. Các cuộc tấn công mạng và rò rỉ thông tin đang diễn ra thường xuyên, khiến người dùng cá nhân và doanh nghiệp phải tìm đến các giải pháp bảo mật mạnh mẽ hơn. Một trong những biện pháp hữu hiệu nhất chính là sử dụng phần mềm mã hóa. Việc lựa chọn phần mềm mã hóa tốt cần được đáp ứng bởi sự đa dạng về tính năng, mức độ bảo mật và khả năng tương thích với hệ thống, từ đó người dùng đưa ra lựa chọn. Bài viết này sẽ giới thiệu tới độc giả 6 lựa chọn phần mềm mã hóa tốt nhất cho năm 2024, từ đó giúp người dùng đưa ra quyết định đúng đắn và phù hợp nhất cho nhu cầu bảo mật của mình.
13:00 | 11/11/2024
Trong bối cảnh an ninh mạng ngày càng trở nên phức tạp và tinh vi, các tổ chức đang dần nhận ra rằng các phương pháp bảo mật truyền thống không còn đáp ứng được yêu cầu bảo vệ hệ thống của họ. Chính trong hoàn cảnh này, mô hình Zero Trust nổi lên như một giải pháp toàn diện, giúp bảo vệ hệ thống mạng khỏi các cuộc tấn công cả từ bên ngoài và bên trong. Tuy nhiên, việc triển khai Zero Trust không đơn giản, bài học kinh nghiệm nào để các tổ chức triển khai thành công mô hình bảo mật hiện đại này?
10:00 | 17/05/2024
Mã độc không sử dụng tệp (fileless malware hay mã độc fileless) còn có tên gọi khác là “non-malware”, “memory-based malware”. Đây là mối đe dọa không xuất hiện ở một tệp cụ thể, mà thường nằm ở các đoạn mã được lưu trữ trên RAM, do vậy các phần mềm anti-virus hầu như không thể phát hiện được. Thay vào đó, kẻ tấn công sử dụng các kỹ thuật như tiêm lỗi vào bộ nhớ, lợi dụng các công cụ hệ thống tích hợp và sử dụng các ngôn ngữ kịch bản để thực hiện các hoạt động độc hại trực tiếp trong bộ nhớ của hệ thống. Bài báo tìm hiểu về hình thức tấn công bằng mã độc fileless và đề xuất một số giải pháp phòng chống mối đe dọa tinh vi này.
Trong bối cảnh chuyển đổi số và ứng dụng rộng rãi của công nghệ thông tin (CNTT) thì xu hướng kết nối liên mạng để chia sẻ cơ sở dữ liệu (CSDL) trở nên tất yếu. Các hệ thống công nghệ vận hành (Operational Technology - OT) cũng không nằm ngoài xu hướng này, quá trình đó được gọi là Hội tụ IT/OT. Do vậy, nhu cầu truyền dữ liệu một chiều giữa các mạng độc lập ngày càng tăng để phục vụ cho mục đích khai thác dữ liệu. Bài viết này giới thiệu một giải pháp mới dựa trên công nghệ vi mạch tích hợp khả trình (Field-Programmable Gate Array - FPGA), sử dụng cơ chế xử lý đa luồng tốc độ cao, giúp duy trì băng thông hệ thống mà không gây ra tình trạng treo hoặc nghẽn mạng, cho phép các kết nối yêu cầu thời gian thực. Đồng thời, bài viết cũng sẽ trình bày giải pháp giả lập giao thức TCP/IP hỗ trợ cho các giao thức truyền thông trong các hệ thống mạng điều khiển IT/OT.
09:00 | 06/01/2025
Xe tự hành (Autonomous Vehicles- AV) là một bước tiến lớn trong lĩnh vực công nghệ ô tô đang phát triển nhanh chóng hiện nay. Những chiếc xe tự hành được trang bị công nghệ tiên tiến, mang đến cải thiện hiệu quả về mặt an toàn và tiện lợi cho người dùng. Tuy nhiên, giống như bất kỳ tiến bộ công nghệ nào, AV cũng tạo ra những lo ngại về các mối đe dọa mới, đặc biệt là trong lĩnh vực an ninh mạng. Việc hiểu được những mối nguy hiểm này là rất quan trọng đối với cả chủ xe và những người đam mê công nghệ, vì chúng không chỉ ảnh hưởng đến sự an toàn của cá nhân mà còn ảnh hưởng đến sự an toàn của cộng đồng.
10:00 | 30/12/2024