Cách thức và lý do thu thập dữ liệu của Googlebot

Thu thập dữ liệu (Crawling) là bước quan trọng không thể thiếu để một bài viết được lập chỉ mục và hiển thị trong kết quả tìm kiếm của Google. Việc thu thập dữ liệu cho Google Search được thực hiện bởi Googlebot, một chương trình chạy trên các máy chủ của Google, truy xuất một URL và xử lý các lỗi mạng, chuyển hướng, và các phức tạp nhỏ khác mà nó có thể gặp phải khi làm việc qua web. Trong bài viết mới nhất của Google tháng 12 đã giải thích chi tiết hơn về quá trình Googlebot thu thập dữ liệu trên web, đặc biệt là cách Googlebot xử lý các tài nguyên như JavaScript, CSS, và hình ảnh.

Thu thập dữ liệu (Crawling) là gì?

Thu thập dữ liệu là quá trình khám phá các bài viết mới và thu thập lại các bài viết cũ được cập nhật nội dung và tải chúng về. Googlebot thực hiện việc này bằng cách gửi yêu cầu HTTP đến máy chủ và xử lý các phản hồi, bao gồm theo dõi các chuyển hướng, xử lý lỗi và chuyển nội dung trang đến hệ thống lập chỉ mục của Google.

Tuy nhiên, ngoài HTML, các trang web hiện đại còn sử dụng JavaScript, CSS, hình ảnh và video. Googlebot không chỉ tải HTML mà còn các tài nguyên này để xây dựng trang hoàn chỉnh. Vậy các dữ liệu này ảnh hưởng nào đến ngân sách thu thập dữ liệu?

Cách Googlebot thu thập dữ liệu các tài nguyên trang

Như đã nói ở trên goài HTML, các trang web hiện đại còn sử dụng JavaScript, CSS, hình ảnh và video. Googlebot không chỉ tải HTML mà còn các tài nguyên này để xây dựng trang hoàn chỉnh.

Qúa trình thu thập dữ liệu:

  • Bắt đầu bằng việc Googlebot tải dữ liệu HTML từ URL chính của trang.
  • Sau khi tải dữ liệu, Googlebot chuyển nó đến WRS (Web Rendering Service)
  • WRS sử dụng Googlebot, tải các tài nguyên được tham chiếu trong HTML như JavaScript và CSS.
  • WRS sử dụng tất cả các tài nguyên đã tải xuống để xây dựng trang hoàn chỉnh như trình duyệt của người dùng.

Việc thu thập dữ liệu các tài nguyên này tiêu tốn "ngân sách thu thập dữ liệu (crawl budget)" của tên miền lưu trữ tài nguyên. Để tiết kiệm ngân sách, WRS cố gắng lưu trữ tạm thời mọi tài nguyên (JavaScript và CSS) trong tối đa 30 ngày và không bị ảnh hưởng bởi các chỉ thị bộ nhớ cache HTTP. Điều này giúp bảo tồn ngân sách thu thập dữ liệu của trang web cho các nhiệm vụ thu thập khác.

Quản lý tài nguyên để tối ưu hóa ngân sách thu thập dữ liệu

Để tối ưu hóa việc quản lý tài nguyên và ngân sách thu thập dữ liệu (crawl budget) của Googlebot, Google khuyến cáo:

Sử dụng ít tài nguyên

Người dùng nên cố gắng giảm số lượng tài nguyên như JavaScript, CSS, hình ảnh cần thiết để xây dựng trang web. Bằng cách này, khi Googlebot thu thập dữ liệu, nó sẽ tốn ít ngân sách hơn, và các trang sẽ được thu thập và lập chỉ mục nhanh hơn.

Cẩn thận với các tham số phá bộ nhớ cache

Tham số phá bộ nhớ cache thay đổi URL của các tài nguyên (như hình ảnh hoặc CSS) để đảm bảo người dùng luôn nhận được phiên bản mới nhất. Tuy nhiên, nếu thay đổi thường xuyên, Googlebot phải thu thập lại các tài nguyên này, tiêu hao ngân sách thu thập dữ liệu. Do đó, nên sử dụng các tham số này một cách thận trọng để tránh việc không cần thiết phải thu thập lại các tài nguyên không thay đổi.

Lưu trữ tài nguyên trên tên miền phụ hoặc CDN

Bằng cách lưu trữ các tài nguyên như JavaScript, CSS hoặc hình ảnh trên một tên miền phụ hoặc qua các mạng phân phối nội dung (CDN), người dùng có thể chuyển tải ngân sách thu thập dữ liệu sang các tên miền khác. Điều này giúp tiết kiệm ngân sách thu thập dữ liệu của tên miền chính.

Tuy nhiên trong cập nhật ngày 6 tháng 12, 2024, có nhắc đến việc lưu trữ các tài nguyên quan trọng như JavaScript hoặc CSS trên các tên miền phụ có thể làm chậm hiệu suất của trang do chi phí kết nối cao. Vì vậy, không nên sử dụng chiến lược này cho các tài nguyên quan trọng nhưng có thể xem xét cho các tài nguyên lớn không quan trọng như video hoặc tệp tải xuống.

Khi Googlebot tải các tài nguyên như hình ảnh và video, nó tiêu hao một phần ngân sách thu thập dữ liệu của trang web, tương tự như cách nó tải HTML và CSS. Và nếu bạn nghỉ đến việc ngăn chặn Googlebot truy cập các tài nguyên quan trọng thông qua robots.txt thường không được khuyến khích vì sẽ gây ra lỗi trong quá trình kết xuất trang. Điều này có thể dẫn đến việc Google không thể trích xuất nội dung và xếp hạng trang hiệu quả trên kết quả tìm kiếm.

Làm thế nào để biết Googlebot thu thập dữ liệu gì?

Làm cách nào để biết được Googlebot đang thu thập dữ liệu gì trên website của bạn?

Nhật ký thô (raw access log)

Cách tốt nhất là xem ở nhật ký truy cập thô (raw access log) của trang web. Đây là tài liệu ghi lại mọi URL được yêu cầu bởi trình duyệt và trình thu thập dữ liệu (crawler). Nó là nguồn tốt nhất để phân tích chính xác những tài nguyên nào đang được Googlebot thu thập. Google cũng công bố các dải IP của mình trong tài liệu dành cho nhà phát triển. Điều này giúp chủ sở hữu trang web xác định chính xác các yêu cầu đến từ trình thu thập dữ liệu của Google, so sánh với các trình thu thập dữ liệu khác.

Báo cáo thu thập dữ liệu trên Google Search Console

Báo cáo thống kê thu thập dữ liệu trên Google Search Console (Crawl stats) là công cụ tốt thứ hai có thể theo dõi các loại tài nguyên mà Googlebot thu thập trên trang web. Báo cáo này cung cấp một cách chi tiết về các tài nguyên đã được thu thập, giúp chủ sở hữu trang web hiểu rõ hơn về hoạt động của Googlebot.

Cộng đồng Search Central

Cuối cùng là Cộng đồng Search Central (Search Central community) là nơi dành cho những người quan tâm sâu sắc đến việc thu thập và kết xuất dữ liệu. Tại đây, mọi người có thể thảo luận và chia sẻ kinh nghiệm về các chủ đề liên quan.

Hiểu được quá trình thu thập dữ liệu của Googlebot, bao gồm việc truy cập và tải xuống các tài nguyên như HTML, JavaScript, CSS, hình ảnh và video để xây dựng trang web và các ảnh hưởng của chúng đến "ngân sách thu thập dữ liệu". Điều này không chỉ giúp tiết kiệm ngân sách thu thập dữ liệu mà còn cải thiện thứ hạng trên công cụ tìm kiếm.

Thông tin liên hệ

Nếu bạn có thắc mắc gì, có thể gửi yêu cầu cho chúng tôi, và chúng tôi sẽ liên lạc lại với bạn sớm nhất có thể .

Công ty TNHH TMĐT Công nghệ LP

Giấy phép kinh doanh số 0315561312/GP bởi Sở Kế Hoạch và Đầu Tư TP. Hồ Chí Minh.

Văn phòng: Lầu 4, Toà nhà Lê Trí, 164 Phan Văn Trị, phường Bình Thạnh, TP. HCM.

Hotline: 0338 586 864

Mail: sales@lptech.asia

Zalo:LP Tech Zalo Official

Liên hệ qua Zalo: 0338586864 ( hoặc bấm vào link này: http://lptech.asia/zalo-lptech). Hoặc nhập thông tin mà bạn cần hỗ trợ vào ô liên hệ bên dưới để lên lạc với LPTech nhé.

Bài viết cùng chuyên mục

AI Overviews là gì? Cách tối ưu SEO website trong...

Chào mọi người, gần đây sự ra mắt của AI Overviews không chỉ là một bản cập nhật, mà nó là một cuộc cách mạng trong giới SEO nói riêng và...

Google Search Console cải tiến thời gian xem hiệu...

Ngày 12 tháng 12 Google Search Console cập nhật chế độ xem 24 giờ cho các báo cáo hiệu suất giúp cải thiện độ mới dữ liệu hơn so với chế...

TTFB là gì? Cách đo lường và cải thiện TTFB cho...

TTFB (Time to First Byte) là một chỉ số quan trọng trong việc đánh giá hiệu suất của website. Tìm hiểu chi tiết TTFB là gì ở bài viết này.

Sapo là gì? Vai trò và cách viết 1 đoạn sapo hấp...

Sapo là gì? Sapo là đoạn tóm tắt của bài viết để người dùng có thể nắm bắt được nội dung chính. Đoạn sapo hấp dẫn sẽ thu hút được nhiều...

Slug là gì? Tầm quan trọng và cách tối ưu slug...

Slug là gì? Đây là một yếu tố có thể chỉnh sửa được trong URL của Wordpress, nó có các ký tự chữ, số, dấu gạch ngang và được đặt sau tên...

Disavow Link là gì? Cách gỡ phạt tác vụ thủ công...

Tìm hiểu Disavow Link là gì và cách sử dụng công cụ này để gỡ bỏ hình phạt tác vụ thủ công từ Google. Chia sẻ kinh nghiệm thực tế từ...

Bài viết mới nhất


Tết Trung Thu 2025 – Mùa trăng đoàn viên, mùa...

Giữa sắc đèn lung linh và hương bánh nồng nàn, Tết Trung Thu trở về như bản nhạc dịu êm của đoàn viên, hạnh phúc và sự gắn kết.

LPTech chào mừng Quốc khánh 2/9 – 80 năm tự hào...

Kỷ niệm Quốc khánh 2/9 – LPTech tự hào đồng hành cùng tinh thần dân tộc, tổ chức nhiều hoạt động nội bộ ý nghĩa để gắn kết tập thể và lan tỏa giá...

Thông báo lịch nghỉ lễ Quốc khánh 2025

LPTech kính chúc Quý khách hàng, Đối tác và toàn thể nhân viên có một kỳ nghỉ lễ vui bên gia đình và người thân!

Thông báo thay đổi địa chỉ Công ty sau sáp nhập...

Công ty TNHH Thương mại Điện tử Công nghệ LP trân trọng thông báo đến Quý Khách hàng, Đối tác và toàn thể nhân viên về việc thay đổi địa chỉ Công...

AI Overviews là gì? Cách tối ưu SEO website...

Chào mọi người, gần đây sự ra mắt của AI Overviews không chỉ là một bản cập nhật, mà nó là một cuộc cách mạng trong giới SEO nói riêng và Google...

Khoá học SEO thực chiến cùng chuyên gia SEO Lê...

Khóa học SEO EXECUTION giúp các bạn học viên không chỉ nắm chắc các kiến thức lý thuyết mà còn áp dụng hiệu quả thực tế cho doanh nghiệp của mình.

Nội san tháng 04 & tháng 05: Năng lượng LPTech!

Chúng tôi xây dựng sản phẩm tốt, vì trước đó chúng tôi đã xây dựng một đội ngũ gắn bó. Mỗi khoảnh khắc gắn bó, tinh thần LPTech vươn xa!

Hướng dẫn cách tạo logo bằng AI miễn phí

Tạo logo bằng AI là một cách sáng tạo và tiết kiệm thời gian để xây dựng thương hiệu. Sau đây là hướng dẫn cách tạo logo bằng AI trên các công cụ...

Top những phần mềm/ứng dụng AI thông minh nhất...

Với công nghệ hiện đại, ngày càng có nhiều phần mềm/ứng dụng AI ra đời nhằm phục vụ các nhu cầu hằng ngày của con người. Điểm danh top các ứng dụng...

Deepseek là gì? Cách đăng ký và sử dụng...

DeepSeek đang là cái tên được giới công nghệ nhắc đến nhiều nhất trong những ngày qua. Vậy DeepSeek là gì? Bài viết dưới đây sẽ cho bạn câu trả lời.