Cách thức và lý do thu thập dữ liệu của Googlebot

Thu thập dữ liệu (Crawling) là bước quan trọng không thể thiếu để một bài viết được lập chỉ mục và hiển thị trong kết quả tìm kiếm của Google. Việc thu thập dữ liệu cho Google Search được thực hiện bởi Googlebot, một chương trình chạy trên các máy chủ của Google, truy xuất một URL và xử lý các lỗi mạng, chuyển hướng, và các phức tạp nhỏ khác mà nó có thể gặp phải khi làm việc qua web. Trong bài viết mới nhất của Google tháng 12 đã giải thích chi tiết hơn về quá trình Googlebot thu thập dữ liệu trên web, đặc biệt là cách Googlebot xử lý các tài nguyên như JavaScript, CSS, và hình ảnh.

Thu thập dữ liệu (Crawling) là gì?

Thu thập dữ liệu là quá trình khám phá các bài viết mới và thu thập lại các bài viết cũ được cập nhật nội dung và tải chúng về. Googlebot thực hiện việc này bằng cách gửi yêu cầu HTTP đến máy chủ và xử lý các phản hồi, bao gồm theo dõi các chuyển hướng, xử lý lỗi và chuyển nội dung trang đến hệ thống lập chỉ mục của Google.

Tuy nhiên, ngoài HTML, các trang web hiện đại còn sử dụng JavaScript, CSS, hình ảnh và video. Googlebot không chỉ tải HTML mà còn các tài nguyên này để xây dựng trang hoàn chỉnh. Vậy các dữ liệu này ảnh hưởng nào đến ngân sách thu thập dữ liệu?

Cách Googlebot thu thập dữ liệu các tài nguyên trang

Như đã nói ở trên goài HTML, các trang web hiện đại còn sử dụng JavaScript, CSS, hình ảnh và video. Googlebot không chỉ tải HTML mà còn các tài nguyên này để xây dựng trang hoàn chỉnh.

Qúa trình thu thập dữ liệu:

  • Bắt đầu bằng việc Googlebot tải dữ liệu HTML từ URL chính của trang.
  • Sau khi tải dữ liệu, Googlebot chuyển nó đến WRS (Web Rendering Service)
  • WRS sử dụng Googlebot, tải các tài nguyên được tham chiếu trong HTML như JavaScript và CSS.
  • WRS sử dụng tất cả các tài nguyên đã tải xuống để xây dựng trang hoàn chỉnh như trình duyệt của người dùng.

Việc thu thập dữ liệu các tài nguyên này tiêu tốn "ngân sách thu thập dữ liệu (crawl budget)" của tên miền lưu trữ tài nguyên. Để tiết kiệm ngân sách, WRS cố gắng lưu trữ tạm thời mọi tài nguyên (JavaScript và CSS) trong tối đa 30 ngày và không bị ảnh hưởng bởi các chỉ thị bộ nhớ cache HTTP. Điều này giúp bảo tồn ngân sách thu thập dữ liệu của trang web cho các nhiệm vụ thu thập khác.

Quản lý tài nguyên để tối ưu hóa ngân sách thu thập dữ liệu

Để tối ưu hóa việc quản lý tài nguyên và ngân sách thu thập dữ liệu (crawl budget) của Googlebot, Google khuyến cáo:

Sử dụng ít tài nguyên

Người dùng nên cố gắng giảm số lượng tài nguyên như JavaScript, CSS, hình ảnh cần thiết để xây dựng trang web. Bằng cách này, khi Googlebot thu thập dữ liệu, nó sẽ tốn ít ngân sách hơn, và các trang sẽ được thu thập và lập chỉ mục nhanh hơn.

Cẩn thận với các tham số phá bộ nhớ cache

Tham số phá bộ nhớ cache thay đổi URL của các tài nguyên (như hình ảnh hoặc CSS) để đảm bảo người dùng luôn nhận được phiên bản mới nhất. Tuy nhiên, nếu thay đổi thường xuyên, Googlebot phải thu thập lại các tài nguyên này, tiêu hao ngân sách thu thập dữ liệu. Do đó, nên sử dụng các tham số này một cách thận trọng để tránh việc không cần thiết phải thu thập lại các tài nguyên không thay đổi.

Lưu trữ tài nguyên trên tên miền phụ hoặc CDN

Bằng cách lưu trữ các tài nguyên như JavaScript, CSS hoặc hình ảnh trên một tên miền phụ hoặc qua các mạng phân phối nội dung (CDN), người dùng có thể chuyển tải ngân sách thu thập dữ liệu sang các tên miền khác. Điều này giúp tiết kiệm ngân sách thu thập dữ liệu của tên miền chính.

Tuy nhiên trong cập nhật ngày 6 tháng 12, 2024, có nhắc đến việc lưu trữ các tài nguyên quan trọng như JavaScript hoặc CSS trên các tên miền phụ có thể làm chậm hiệu suất của trang do chi phí kết nối cao. Vì vậy, không nên sử dụng chiến lược này cho các tài nguyên quan trọng nhưng có thể xem xét cho các tài nguyên lớn không quan trọng như video hoặc tệp tải xuống.

Khi Googlebot tải các tài nguyên như hình ảnh và video, nó tiêu hao một phần ngân sách thu thập dữ liệu của trang web, tương tự như cách nó tải HTML và CSS. Và nếu bạn nghỉ đến việc ngăn chặn Googlebot truy cập các tài nguyên quan trọng thông qua robots.txt thường không được khuyến khích vì sẽ gây ra lỗi trong quá trình kết xuất trang. Điều này có thể dẫn đến việc Google không thể trích xuất nội dung và xếp hạng trang hiệu quả trên kết quả tìm kiếm.

Làm thế nào để biết Googlebot thu thập dữ liệu gì?

Làm cách nào để biết được Googlebot đang thu thập dữ liệu gì trên website của bạn?

Nhật ký thô (raw access log)

Cách tốt nhất là xem ở nhật ký truy cập thô (raw access log) của trang web. Đây là tài liệu ghi lại mọi URL được yêu cầu bởi trình duyệt và trình thu thập dữ liệu (crawler). Nó là nguồn tốt nhất để phân tích chính xác những tài nguyên nào đang được Googlebot thu thập. Google cũng công bố các dải IP của mình trong tài liệu dành cho nhà phát triển. Điều này giúp chủ sở hữu trang web xác định chính xác các yêu cầu đến từ trình thu thập dữ liệu của Google, so sánh với các trình thu thập dữ liệu khác.

Báo cáo thu thập dữ liệu trên Google Search Console

Báo cáo thống kê thu thập dữ liệu trên Google Search Console (Crawl stats) là công cụ tốt thứ hai có thể theo dõi các loại tài nguyên mà Googlebot thu thập trên trang web. Báo cáo này cung cấp một cách chi tiết về các tài nguyên đã được thu thập, giúp chủ sở hữu trang web hiểu rõ hơn về hoạt động của Googlebot.

Cộng đồng Search Central

Cuối cùng là Cộng đồng Search Central (Search Central community) là nơi dành cho những người quan tâm sâu sắc đến việc thu thập và kết xuất dữ liệu. Tại đây, mọi người có thể thảo luận và chia sẻ kinh nghiệm về các chủ đề liên quan.

Hiểu được quá trình thu thập dữ liệu của Googlebot, bao gồm việc truy cập và tải xuống các tài nguyên như HTML, JavaScript, CSS, hình ảnh và video để xây dựng trang web và các ảnh hưởng của chúng đến "ngân sách thu thập dữ liệu". Điều này không chỉ giúp tiết kiệm ngân sách thu thập dữ liệu mà còn cải thiện thứ hạng trên công cụ tìm kiếm.

Thông tin liên hệ

Nếu bạn có thắc mắc gì, có thể gửi yêu cầu cho chúng tôi, và chúng tôi sẽ liên lạc lại với bạn sớm nhất có thể .

Công ty TNHH TMĐT Công nghệ LP

Giấy phép kinh doanh số 0315561312/GP bởi Sở Kế Hoạch và Đầu Tư TP. Hồ Chí Minh.

Văn phòng: Lầu 4, Toà nhà Lê Trí, 164 Phan Văn Trị, Phường 12,Quận Bình Thạnh, HCMC

Hotline: 0338 586 864

Mail: sales@lptech.asia

Zalo:LP Tech Zalo Official

Liên hệ qua Zalo: 0338586864 ( hoặc bấm vào link này: http://lptech.asia/zalo-lptech). Hoặc nhập thông tin mà bạn cần hỗ trợ vào ô liên hệ bên dưới để lên lạc với LPTech nhé.

Bài viết cùng chuyên mục

Google Search Console cải tiến thời gian xem hiệu...

Ngày 12 tháng 12 Google Search Console cập nhật chế độ xem 24 giờ cho các báo cáo hiệu suất giúp cải thiện độ mới dữ liệu hơn so với chế...

TTFB là gì? Cách đo lường và cải thiện TTFB cho...

TTFB (Time to First Byte) là một chỉ số quan trọng trong việc đánh giá hiệu suất của website. Tìm hiểu chi tiết TTFB là gì ở bài viết này.

Sapo là gì? Vai trò và cách viết 1 đoạn sapo hấp...

Sapo là gì? Sapo là đoạn tóm tắt của bài viết để người dùng có thể nắm bắt được nội dung chính. Đoạn sapo hấp dẫn sẽ thu hút được nhiều...

Slug là gì? Tầm quan trọng và cách tối ưu slug...

Slug là gì? Đây là một yếu tố có thể chỉnh sửa được trong URL của Wordpress, nó có các ký tự chữ, số, dấu gạch ngang và được đặt sau tên...

Disavow Link là gì? Cách gỡ phạt tác vụ thủ công...

Tìm hiểu Disavow Link là gì và cách sử dụng công cụ này để gỡ bỏ hình phạt tác vụ thủ công từ Google. Chia sẻ kinh nghiệm thực tế từ...

10 cách nén, giảm dung lượng ảnh online miễn phí...

Giảm dung lượng ảnh là biện pháp giúp ảnh vẫn đảm bảo chất lượng nhưng không làm nặng hệ thống khi upload. Tìm hiểu 10 cách nén, giảm...

Bài viết mới nhất


AWS là gì? Tất tần tật chứng chỉ AWS 'đẻ vàng'...

AWS là nền tảng điện toán đám mây hàng đầu thế giới, cung cấp hơn 200 dịch vụ tiên tiến, từ lưu trữ dữ liệu đến trí tuệ nhân tạo. Tìm hiểu ngay...

Google Search Console cải tiến thời gian xem...

Ngày 12 tháng 12 Google Search Console cập nhật chế độ xem 24 giờ cho các báo cáo hiệu suất giúp cải thiện độ mới dữ liệu hơn so với chế độ xem cũ

Cách thức và lý do thu thập dữ liệu của Googlebot

Thu thập dữ liệu (Crawling) là gì? Cách thức thu thập dữ liệu của Googlebot trên trang như thế nào? Làm cách nào để tối ưu ngân sách dữ liệu thu thập?

Kỹ sư cầu nối (BrSE) là gì? Công việc và mức...

Kỹ sư cầu nối (BrSE) là một ví trí quan trọng trong lĩnh vực công nghệ thông tin, giúp kết nối khách hàng với các dev trong team và phát triển sản...

Thông báo lịch nghỉ Tết Dương lịch 2025

Kính chúc Quý khách hàng, Đối tác và toàn thể nhân viên một năm 2025 thật nhiều thành công và sức khoẻ.

Convolutional Neural Network là gì? Tìm hiểu về...

Convolutional Neural Network là một công cụ quan trọng được sử dụng trong nhiều lĩnh vực của đời sống. Để tìm hiểu chi tiết về CNN, bạn hãy xem bài...

Cách thay đổi ngày, tháng, năm sinh trên Tiktok...

Đổi ngày sinh trên TikTok giúp đủ tuổi để mở khóa một số tính năng như tài video về, livestream, nhắn tin,.. Xem cách đổi ngày sinh trên TikTok đơn...

Props là gì? Bí quyết sử dụng Props sao cho hợp...

Props là gì? Đây là một khái niệm quan trọng trong React giúp truyền tải dữ liệu giữa các component. Cùng tìm hiểu chi tiết cách sử dụng props và...

Params là gì? Tìm hiểu từ khóa chỉ định tham số...

Params là gì? Tìm hiểu về tham số (params) trong lập trình và toán học, đặc điểm, vai trò, cũng như định dạng chuẩn của tham số.

Quy hoạch động là gì? Cách giảm thời gian chạy...

Quy hoạch động l(Dynamic Programming) à một thuật toán quan trọng dùng để giải quyết các bài toán và nhiệm vụ lập trình. Tìm hiểu nguyên lý và ứng...