Cách ngăn chặn ChatGPT đánh cắp nội dung và lưu lượng truy cập

10:00 | 20/09/2023 | GP ATM

ChatGPT và các mô hình ngôn ngữ lớn (LLM) tương tự đã làm tăng thêm độ phức tạp trong bối cảnh mối đe dọa trực tuyến ngày càng gia tăng. Tội phạm mạng không còn cần các kỹ năng mã hóa nâng cao để thực hiện gian lận và các cuộc tấn công gây thiệt hại khác chống lại các doanh nghiệp và khách hàng trực tuyến nhờ vào bot dưới dạng dịch vụ, residential proxy, CAPTCHA và các công cụ dễ tiếp cận khác. Giờ đây, ChatGPT, OpenAI và các LLM khác không chỉ đặt ra các vấn đề đạo đức bằng cách đào tạo các mô hình của họ về dữ liệu thu thập trên Internet mà LLM còn đang tác động tiêu cực đến lưu lượng truy cập web của doanh nghiệp, điều này có thể gây tổn hại lớn đến doanh nghiệp đó.

Cách ngăn chặn ChatGPT đánh cắp nội dung và lưu lượng truy cập

Cách ChatGPT lấy dữ liệu đào tạo

Theo một nghiên cứu của OpenAI đã công bố, ChatGPT3 đã được đào tạo trên một số bộ dữ liệu như: Common Crawl, WebText2, Book1 và Book2 hay Wikipedia. Lượng dữ liệu đào tạo lớn nhất đến từ Common Crawl, cung cấp quyền truy cập vào thông tin web thông qua kho lưu trữ thu thập dữ liệu web mở. Bot Common Crawl, còn được gọi là CCBot, tận dụng Apache Nutch để cho phép các nhà phát triển xây dựng các trình thu thập thông tin quy mô lớn.

Phiên bản mới nhất của CCBot thu thập dữ liệu từ Amazon AWS và tự nhận dạng nó bằng User agent “CCBot/2.0”. Các doanh nghiệp nếu muốn cho phép sử dụng CCBot không nên chỉ dựa vào User agent để nhận dạng nó, bởi vì nhiều bot xấu giả mạo User agent của họ để ngụy trang thành bot tốt và tránh bị chặn. Để cho phép sử dụng CCBot trên trang web của mình, người dùng cần sử dụng các thuộc tính như dải IP hoặc DNS Reverse. Để chặn ChatGPT, tối thiểu trang web của người dùng phải chặn lưu lượng truy cập từ CCBot.

Ba cách ngăn chặn CCBot

Robots.txt: Vì CCBot tuân theo các tệp “robots.txt”, tệp này liệt kê những trang mà bot được phép truy cập và những trang mà bot không được truy cập nên người dùng có thể chặn nó bằng các dòng mã sau:

Chặn CCBot User agent: Người dùng có thể chặn bot không mong muốn thông qua User agent (Lưu ý rằng, việc cho phép lưu lượng bot thông qua User agent có thể không an toàn, dễ bị tin tặc lạm dụng).
Phần mềm quản lý bot: Cách tốt nhất để ngăn chặn bot đánh cắp trang web, ứng dụng và API của người dùng là sử dụng tính năng bảo vệ bot chuyên dụng sử dụng công nghệ học máy để bắt kịp các chiến thuật đe dọa đang phát triển trong thời gian thực.

Scrapers luôn có thể tìm cách giải quyết

LLM sử dụng bot scraper để thu thập dữ liệu đào tạo. Mặc dù việc chặn CCBot có thể hiệu quả trong việc chặn những scraper ChatGPT ngày nay, nhưng không thể biết được tương lai của những scraper LLM sẽ ra sao. Nếu có quá nhiều trang web chặn OpenAI truy cập vào nội dung của họ, thì nhà phát triển có thể quyết định ngừng sử dụng robots.txt và có thể không khai danh tính trình thu thập thông tin của họ (crawler identity) trong User agent.

Một khả năng khác là OpenAI có thể sử dụng mối quan hệ hợp tác với Microsoft để truy cập scraper data của Microsoft Bing khiến tình hình trở nên khó khăn hơn đối với chủ sở hữu trang web. Các bot của Bing được xác định là Bingbot nhưng việc chặn chúng có thể gây ra sự cố khi ngăn trang web của người dùng được lập chỉ mục trên công cụ tìm kiếm Bing, dẫn đến có ít khách truy cập là con người hơn.

Người dùng có thể gặp phải các vấn đề tương tự bằng cách chặn LLM Bard của Google (đối thủ cạnh tranh với ChatGPT). Việc thu thập dữ liệu công khai được sử dụng để đào tạo Bard, nhưng có thể Bard đang hoặc sẽ được đào tạo bằng dữ liệu được thu thập bởi những người thu thập dữ liệu của Googlebot. Giống như Bingbot, việc chặn Googlebot có thể là không hợp lý, ảnh hưởng đến cách trang web của người dùng được lập chỉ mục và cách công cụ tìm kiếm Google hướng lưu lượng truy cập đến trang web của người dùng. Kết quả có thể dẫn đến lượng khách truy cập giảm nghiêm trọng.

Sử dụng plugin để truy cập dữ liệu trực tiếp

Một trong những hạn chế chính của các mô hình như ChatGPT là thiếu quyền truy cập vào dữ liệu trực tiếp. Vì được đào tạo trên tập dữ liệu (dataset) đã dừng vào năm 2021 nên nó không thể cung cấp thông tin cập nhật và phù hợp nhất. Đó là nơi các plugin xuất hiện.

Các plugin được sử dụng để kết nối LLM như ChatGPT với các công cụ khác và cho phép LLM truy cập dữ liệu bên ngoài có sẵn trực tuyến, có thể bao gồm dữ liệu riêng tư và tin tức thời gian thực. Plugin cũng cho phép người dùng hoàn thành các hành động trực tuyến (ví dụ: đặt chuyến bay hoặc đặt hàng) thông qua lệnh gọi API.

Một số doanh nghiệp đang phát triển plugin của riêng họ để cung cấp cách mới cho người dùng tương tác với nội dung/dịch vụ của họ thông qua ChatGPT. Tuy nhiên, tùy thuộc vào lĩnh vực, ngành nghề, việc cho phép người dùng tương tác với trang web thông qua plugin ChatGPT của bên thứ ba, điều này đồng nghĩa với việc người dùng nhìn thấy ít quảng cáo hơn, cũng như giảm lưu lượng truy cập vào trang web.

Cũng có thể thể nhận thấy rằng người dùng ít sẵn sàng trả phí cho các tính năng cao cấp hơn khi các tính năng có thể được sao chép thông qua plugin ChatGPT của bên thứ ba. Ví dụ: một ứng dụng web client không chính thức tương tác với trang web của doanh nghiệp có thể cung cấp các tính năng cao cấp thông qua giao diện người dùng.

Cách xác định các yêu cầu plugin ChatGPT

Tài liệu OpenAI nêu rõ rằng các yêu cầu có tiêu đề HTTP User agent cụ thể (với token: "ChatGPT-User") đến từ plugin ChatGPT. Tuy nhiên, tài liệu không nêu rõ rằng User agent được tiết lộ là User agent duy nhất có thể được các plugin sử dụng khi thực hiện các yêu cầu HTTP. Do đó, khi plugin ChatGPT tương tác với API của bên thứ ba, các API sau đó có thể thực hiện bất kỳ loại yêu cầu HTTP nào từ cơ sở hạ tầng của chính chúng. Hình dưới đây cho thấy điều gì sẽ xảy ra khi sử dụng "Live Sport Plugin" hư cấu với ChatGPT để nhận thông tin cập nhật về một sự kiện thể thao.

Minh họa sử dụng Live Sport Plugin với ChatGPT

ChatGPT sẽ kích hoạt Plugin Live Sport, đưa ra yêu cầu tới API điểm cuối dựa trên các thông số từ lời nhắc của người dùng.
Plugin tạo yêu cầu HTTP để thu thập thông tin trang web thể thao nhằm nhận thông tin mới nhất về sự kiện.
Thông tin sau đó được chuyển lại cho người dùng cuối thông qua ChatGPT.

Một plugin thực sự có thể đưa ra yêu cầu đối với API thể thao mà không cần phải tìm kiếm trang web thể thao. Trên thực tế, khi yêu cầu được thực hiện trực tiếp từ máy chủ lưu trữ API plugin, không có ràng buộc nào đối với user agent.

Cách chặn yêu cầu plugin ChatGPT

Trong quy trình tương tự như chặn web scraper của ChatGPT, người dùng có thể chặn yêu cầu từ các plugin khai báo sự hiện diện của chúng bằng chuỗi con "ChatGPT-User" theo User agent. Nhưng việc chặn User agent cũng có thể chặn người dùng ChatGPT khi chế độ "duyệt web (browsing)" được kích hoạt. Trái với những gì tài liệu OpenAI có thể chỉ ra, việc chặn yêu cầu từ "ChatGPT-User" không đảm bảo rằng ChatGPT và các plugin của nó không thể tiếp cận dữ liệu của bạn bằng các User agent token khác nhau.

Trên thực tế, plugin ChatGPT có thể thực hiện yêu cầu trực tiếp từ máy chủ lưu trữ API của họ bằng cách sử dụng bất kỳ User agent nào và thậm chí sử dụng trình duyệt tự động (headless browser - trình duyệt web không có giao diện đồ họa người dùng). Việc phát hiện các plugin không khai báo danh tính của chúng trong User agent yêu cầu các kỹ thuật phát hiện bot nâng cao.

Các bước tiếp theo người dùng nên làm

Việc có được bộ dữ liệu chất lượng cao về nội dung do con người tạo ra sẽ vẫn có tầm quan trọng đặc biệt đối với LLM. Về lâu dài, các công ty như OpenAI (được Microsoft tài trợ một phần) và Google có thể muốn sử dụng Bingbots và Googlebots để xây dựng bộ dữ liệu nhằm đào tạo LLM của họ. Điều đó sẽ gây khó khăn hơn cho các trang web trong việc từ chối thu thập dữ liệu, vì hầu hết các doanh nghiệp trực tuyến phụ thuộc rất nhiều vào Bing và Google để lập chỉ mục nội dung và hướng lưu lượng truy cập đến trang web của họ.

Các trang web có dữ liệu giá trị sẽ muốn tìm cách kiếm tiền từ việc sử dụng dữ liệu của họ hoặc từ chối đào tạo mô hình AI để tránh mất lưu lượng truy cập web và doanh thu quảng cáo cho ChatGPT và các plugin của nó. Nếu muốn từ chối, người dùng sẽ cần các kỹ thuật phát hiện bot nâng cao, chẳng hạn như lấy dấu vân tay, phát hiện proxy và phân tích hành vi để ngăn chặn bot trước khi chúng có thể truy cập dữ liệu của họ.

Các giải pháp nâng cao cho bot và chống gian lận sử dụng trí tuệ nhân tạo (AI) và học máy (ML) để phát hiện và ngăn chặn các bot lạ ngay từ yêu cầu đầu tiên, giữ cho nội dung an toàn trước các LLM scraper, plugin không xác định và các công nghệ AI đang phát triển nhanh chóng khác.

Hồng Đạt

(Theo The Hacker News)

‹ › ×

Tin liên quan

Cảnh báo nguy cơ rò rỉ tài sản sở hữu trí tuệ và chiến lược khi sử dụng ChatGPT

10:00 | 28/08/2023

Trong khi các tổ chức/doanh nghiệp trên thế giới đang tìm cách tận dụng tốt nhất chatbot ChatGPT, các hãng bảo mật lại đưa ra cảnh báo nguy cơ rò rỉ tài sản sở hữu trí tuệ và chiến lược.

Sắp diễn ra Tọa đàm “Mặt tối của ChatGPT và hàm ý chính sách cho Việt Nam”

09:00 | 06/11/2023

Cuối năm 2022, sự xuất hiện của ChatGPT đã làm cho giới công nghệ trên toàn thế giới phải quan tâm và đã nhanh chóng thu hút được số lượng lớn người dùng. Chatbot này hiện được mệnh danh là trí tuệ nhân tạo thông minh nhất thế giới. Sự đột phá về công nghệ ứng dụng trí tuệ nhân tạo đã biến ChatGPT trở thành một kho kiến thức khổng lồ. Tuy nhiên, bên cạnh những lợi ích mà ChatGPT mang lại cũng còn nhiều vấn đề đáng lo ngại, đặc biệt là về những thách thức bảo mật mà ChatGPT nói riêng và trí tuệ nhân tạo nói chung đặt ra. Toạ đàm “Mặt tối của ChatGPT và hàm ý chính sách cho Việt Nam” được tổ chức vào ngày 09/11 tới đây trên Tạp chí An toàn thông tin điện tử sẽ bàn luận rõ hơn về vấn đề này.

Smartphone tích hợp trí tuệ nhân tạo đang được OpenAI phát triển

15:00 | 06/10/2023

Theo tờ Financial Times (Mỹ) ngày 28/9/2023 dẫn một số nguồn tin giấu tên cho biết, OpenAI - Công ty phát triển ChatGPT, đang đàm phán với cựu Giám đốc thiết kế của Apple về kế hoạch thiết kế một dòng “điện thoại thông minh trí tuệ nhân tạo”.

Số lượng email lừa đảo tăng 1265% kể từ khi ChatGPT ra mắt

10:00 | 07/11/2023

Vừa qua, nhà cung cấp bảo mật đám mây tích hợp SlashNext đã công bố báo cáo thực trạng tấn công lừa đảo năm 2023, cho thấy số lượng tin nhắn lừa đảo độc hại đã tăng hơn 1.000% kể từ quý IV/2022.

Lo ngại rủi ro đạo đức của AI trong hoạt động báo chí

18:00 | 22/09/2023

Ngày 20/9, Sáng kiến “JournalismAI” của Trường Kinh tế và Khoa học chính trị London (Anh) công bố cuộc khảo sát cho thấy trí tuệ nhân tạo (AI) mang đến cả lợi ích và rủi ro trong hoạt động báo chí. Đáng chú ý, có tới 60% số người được hỏi bày tỏ lo ngại tác động về mặt đạo đức khi sử dụng AI trong tác nghiệp báo chí.

AI có nguy cơ trở thành vũ khí chống lại nhân loại

09:00 | 03/10/2023

Trí tuệ nhân tạo (AI) có tiềm năng trở thành công cụ hữu ích, song cũng có nguy cơ trở thành vũ khí chống lại nhân loại nếu chúng vượt tầm kiểm soát của con người.

G7 nỗ lực kiểm soát rủi ro, quản lý và sử dụng AI hiệu quả, an toàn

09:00 | 25/10/2023

Nhóm các nước công nghiệp phát triển (G7) mới đây đã nhất trí về bản dự thảo nguyên tắc phát triển trí tuệ nhân tạo, cho thấy một bước đi tích cực trong nỗ lực giảm rủi ro liên quan công nghệ mới nổi này. Việc xây dựng chiến lược để quản lý và sử dụng AI một cách hiệu quả, an toàn, có trách nhiệm đang là nhiệm vụ cấp bách của mọi quốc gia.

Tọa đàm “Mặt tối của ChatGPT và hàm ý chính sách cho Việt Nam”

14:00 | 10/11/2023

Kính mời quý độc giả theo dõi Tọa đàm "Mặt tối của ChatGPT và hàm ý chính sách cho Việt Nam" cùng Tạp chí An toàn thông tin với 2 vị khách mời GS.TS. Nguyễn Thanh Thủy, nguyên Phó Hiệu trưởng Đại học Công nghệ, Ủy viên Hội đồng Giáo sư nhà nước, Chủ tịch HĐGS ngành CNTT, Chủ tịch Câu lạc bộ FISU và TS. Đặng Minh Tuấn, Viện trưởng Viện Nghiên cứu Ứng dụng CMC, Trưởng phòng Lab Blockchain - Học viện Công nghệ Bưu chính Viễn thông, Phó Chủ tịch Câu lạc bộ FinTech của Hiệp hội Ngân hàng Việt Nam.

Thận trọng khi sử dụng công cụ ChatGPT

09:00 | 05/06/2023

Không thể phủ nhận những tác dụng tích cực của ChatGPT, tuy nhiên, những mặt trái của mô hình này cũng là vấn đề được giới công nghệ cảnh báo.

OpenAI ngăn chặn các tin tặc được nhà nước bảo trợ sử dụng ChatGPT

13:00 | 26/02/2024

OpenAI đã xóa các tài khoản được sử dụng bởi các nhóm tin tặc do nhà nước bảo trợ từ Iran, Triều Tiên, Trung Quốc và Nga, những tài khoản được cho là đang lạm dụng ChatGPT nhằm thực hiện các hành vi độc hại.

Apple có thể sử dụng AI Gemini của Google vào Iphone

11:00 | 26/04/2024

Apple đang đàm phán để sử dụng công cụ Gemini AI của Google trên iPhone, tạo tiền đề cho một thỏa thuận mang tính đột phá trong ngành công nghiệp AI.

Mỹ nghiên cứu áp quy tắc giải trình với ChatGPT

07:00 | 24/04/2023

Chính quyền của Tổng thống Mỹ Joe Biden đang lấy ý kiến từ công chúng về khả năng áp dụng những biện pháp giải trình tiềm năng đối với các hệ thống trí tuệ nhân tạo (AI), trong bối cảnh có nhiều câu hỏi đặt ra về tác động của những công cụ ứng dụng AI mới đối với an ninh và giáo dục quốc gia.

OpenAI lên kế hoạch tạo chip AI của riêng mình

14:00 | 11/10/2023

OpenAI, công ty đứng sau thành công của ChatGPT, đang lên kế hoạch cho việc sản xuất chip trí tuệ nhân tạo của riêng mình.

Tin cùng chuyên mục

An toàn khi sử dụng thiết bị đồng hồ thông minh

08:00 | 09/01/2024

Nhiều người trong chúng ta thường có thói quen chỉ để ý đến việc bảo vệ an toàn máy tính và điện thoại của mình nhưng lại thường không nhận ra rằng đồng hồ thông minh (ĐHTM) cũng có nguy cơ bị tấn công mạng. Mặc dù ĐHTM giống như một phụ kiện cho các thiết bị chính nhưng chúng thường được kết nối với điện thoại, máy tính cá nhân và có khả năng tải các ứng dụng trên mạng, cài đặt tệp APK hay truy cập Internet. Điều đó có nghĩa là rủi ro mất an toàn thông tin trước các cuộc tấn công của tin tặc là điều không tránh khỏi. Vậy nên để hạn chế những nguy cơ này, bài báo sau đây sẽ hướng dẫn người dùng cách sử dụng ĐHTM an toàn nhằm tránh việc bị tin tặc lợi dụng đánh cắp thông tin.

Mô hình chia sẻ trách nhiệm bảo mật và việc ứng dụng điện toán đám mây

14:00 | 17/05/2023

Một trong những lý do khiến các tổ chức e ngại khi sử dụng các dịch vụ điện toán đám mây là vấn đề về an toàn thông tin. Tuy nhiên, dù nhìn nhận từ góc độ nào thì hầu hết chúng ta đều phải công nhận là các nhà cung cấp dịch vụ điện toán đám mây lớn như Amazon, Microsoft hay Google đều có nhiều nguồn lực và nhân sự giỏi về an ninh bảo mật hơn hầu hết các doanh nghiệp khác. Vậy tại sao chúng ta liên tục nhận được tin tức về các sự cố bảo mật của các doanh nghiệp khi sử dụng điện toán đám mây?

Wifi Mesh - Công nghệ mạng truyền dẫn đối với hệ thống IoT

09:00 | 04/05/2023

Những năm gần đây, các ứng dụng sử dụng hệ thống IoT đang ngày càng phát triển bởi khả năng mềm dẻo trong thiết kế phần cứng và thu thập dữ liệu. Đồng hành cùng với sự thay đổi của các công nghệ mạng truyền dẫn, tín hiệu, Wifi Mesh đang trở thành một lựa chọn thực tế và phù hợp đối với các hệ thống IoT công nghiệp, thương mại điện tử. Thông qua bài báo này, nhóm tác giả sẽ giới thiệu về nền tảng công nghệ mạng Wifi Mesh, từ đó làm cơ sở cho việc ứng dụng để thiết kế hệ thống giám sát đo độ nghiêng sẽ được trình bày trong kỳ tới.

Những nguyên tắc để tránh bị lừa đảo trên Facebook

08:00 | 07/04/2023

Trong thời đại công nghệ số hiện nay facebook trở thành một ứng dụng hết sức phổ biến, từ trẻ em đến người già đều sở hữu cho mình 1 tài khoản Facebook. Tuy nhiên, đây cũng trở thành miếng mồi béo bở cho tội phạm mạng. Chúng dùng rất nhiều thủ đoạn tinh vi nhằm đánh lừa người dùng và đánh cắp tài khoản Facebook với mục đích xấu. Dưới đây là 8 nguyên tắc giúp người dùng trách bị lừa đảo trên mạng xã hội Facebook.

Tin được quan tâm

Bảo đảm an ninh thông tin cơ sở hạ tầng quan trọng của Hoa Kỳ

08:00 | 11/01/2024 | Chính sách - Chiến lược
Giải pháp phân loại tương tác giữa 2 người trong chuỗi ảnh rời rạc (Phần I)

09:00 | 10/01/2024 | Giải pháp khác

Giải pháp tăng cường an ninh mạng ở Italia

09:00 | 05/01/2024|Chính sách - Chiến lược
Cạnh tranh Mỹ - Trung về cáp quang biển toàn cầu (phần 1)

09:00 | 05/01/2024|An ninh – Quốc Phòng

CISA cung cấp dịch vụ an ninh mạng cho các tổ chức trọng yếu không thuộc Chính quyền

09:00 | 21/12/2023|CA Công cộng
5 lưu ý giúp tăng cường bảo mật công nghệ vận hành cho các doanh nghiệp sản xuất

14:00 | 14/08/2023|Giải pháp khác

GP Mật mã

Sự phát triển của lược đồ chữ ký số kháng lượng tử dựa trên hàm băm

Lược đồ chữ ký số dựa trên hàm băm là một trong những lược đồ chữ ký số kháng lượng tử đã được Viện Tiêu chuẩn và Công nghệ Quốc gia Mỹ (NIST) chuẩn hóa trong tiêu chuẩn đề cử FIPS 205 (Stateless Hash Based Digital Signature Standard) vào tháng 8/2023. Bài báo này sẽ trình bày tổng quan về sự phát triển của của lược đồ chữ ký số dựa trên hàm băm thông qua việc phân tích đặc trưng của các phiên bản điển hình của dòng lược đồ chữ ký số này.

09:00 | 01/04/2024
Về một phương pháp tấn công kênh kề lên mã khối Kalyna
Khuyến nghị độ dài các tham số sử dụng cho hệ thống mật mã RSA trong một số tiêu chuẩn mật mã
Một số khuyến nghị về độ an toàn của hệ mật RSA (Phần I)

Giải pháp khác

Những yếu tố quan trọng giúp khôi phục dữ liệu hiệu quả sau khi bị tấn công mã độc tống tiền

Theo báo cáo năm 2022 về những mối đe doạ mạng của SonicWall, trong năm 2021, thế giới có tổng cộng 623,3 triệu cuộc tấn công ransomware, tương đương với trung bình có 19 cuộc tấn công mỗi giây. Điều này cho thấy một nhu cầu cấp thiết là các tổ chức cần tăng cường khả năng an ninh mạng của mình. Như việc gần đây, các cuộc tấn công mã độc tống tiền (ransomware) liên tục xảy ra. Do đó, các tổ chức, doanh nghiệp cần quan tâm hơn đến phương án khôi phục sau khi bị tấn công.

19:00 | 30/04/2024
Bug Bounty nguồn lực cộng đồng: lợi ích về bảo mật và tổn thất tiềm tàng (Phần II)
Bug Bounty nguồn lực cộng đồng: lợi ích về bảo mật và tổn thất tiềm tàng (Phần 1)
Cách bảo vệ email và tài khoản mạng xã hội