Gọi ngay

Dịch vụ

CHAT NGAY

Tin tức

Cách thức và lý do thu thập dữ liệu của Googlebot

5.0/5 (1 Reviews)

13/12/2024

Thu thập dữ liệu (Crawling) là gì? Cách thức thu thập dữ liệu của Googlebot trên trang như thế nào? Làm cách nào để tối ưu ngân sách dữ liệu thu thập?

Thu thập dữ liệu (Crawling) là bước quan trọng không thể thiếu để một bài viết được lập chỉ mục và hiển thị trong kết quả tìm kiếm của Google. Việc thu thập dữ liệu cho Google Search được thực hiện bởi Googlebot, một chương trình chạy trên các máy chủ của Google, truy xuất một URL và xử lý các lỗi mạng, chuyển hướng, và các phức tạp nhỏ khác mà nó có thể gặp phải khi làm việc qua web. Trong bài viết mới nhất của Google tháng 12 đã giải thích chi tiết hơn về quá trình Googlebot thu thập dữ liệu trên web, đặc biệt là cách Googlebot xử lý các tài nguyên như JavaScript, CSS, và hình ảnh.

Thu thập dữ liệu (Crawling) là gì?

Thu thập dữ liệu là quá trình khám phá các bài viết mới và thu thập lại các bài viết cũ được cập nhật nội dung và tải chúng về. Googlebot thực hiện việc này bằng cách gửi yêu cầu HTTP đến máy chủ và xử lý các phản hồi, bao gồm theo dõi các chuyển hướng, xử lý lỗi và chuyển nội dung trang đến hệ thống lập chỉ mục của Google.

Tuy nhiên, ngoài HTML, các trang web hiện đại còn sử dụng JavaScript, CSS, hình ảnh và video. Googlebot không chỉ tải HTML mà còn các tài nguyên này để xây dựng trang hoàn chỉnh. Vậy các dữ liệu này ảnh hưởng nào đến ngân sách thu thập dữ liệu?

Cách Googlebot thu thập dữ liệu các tài nguyên trang

Như đã nói ở trên goài HTML, các trang web hiện đại còn sử dụng JavaScript, CSS, hình ảnh và video. Googlebot không chỉ tải HTML mà còn các tài nguyên này để xây dựng trang hoàn chỉnh.

Qúa trình thu thập dữ liệu:

  • Bắt đầu bằng việc Googlebot tải dữ liệu HTML từ URL chính của trang.
  • Sau khi tải dữ liệu, Googlebot chuyển nó đến WRS (Web Rendering Service)
  • WRS sử dụng Googlebot, tải các tài nguyên được tham chiếu trong HTML như JavaScript và CSS.
  • WRS sử dụng tất cả các tài nguyên đã tải xuống để xây dựng trang hoàn chỉnh như trình duyệt của người dùng.

Việc thu thập dữ liệu các tài nguyên này tiêu tốn "ngân sách thu thập dữ liệu (crawl budget)" của tên miền lưu trữ tài nguyên. Để tiết kiệm ngân sách, WRS cố gắng lưu trữ tạm thời mọi tài nguyên (JavaScript và CSS) trong tối đa 30 ngày và không bị ảnh hưởng bởi các chỉ thị bộ nhớ cache HTTP. Điều này giúp bảo tồn ngân sách thu thập dữ liệu của trang web cho các nhiệm vụ thu thập khác.

Quản lý tài nguyên để tối ưu hóa ngân sách thu thập dữ liệu

Để tối ưu hóa việc quản lý tài nguyên và ngân sách thu thập dữ liệu (crawl budget) của Googlebot, Google khuyến cáo:

Sử dụng ít tài nguyên

Người dùng nên cố gắng giảm số lượng tài nguyên như JavaScript, CSS, hình ảnh cần thiết để xây dựng trang web. Bằng cách này, khi Googlebot thu thập dữ liệu, nó sẽ tốn ít ngân sách hơn, và các trang sẽ được thu thập và lập chỉ mục nhanh hơn.

Cẩn thận với các tham số phá bộ nhớ cache

Tham số phá bộ nhớ cache thay đổi URL của các tài nguyên (như hình ảnh hoặc CSS) để đảm bảo người dùng luôn nhận được phiên bản mới nhất. Tuy nhiên, nếu thay đổi thường xuyên, Googlebot phải thu thập lại các tài nguyên này, tiêu hao ngân sách thu thập dữ liệu. Do đó, nên sử dụng các tham số này một cách thận trọng để tránh việc không cần thiết phải thu thập lại các tài nguyên không thay đổi.

Lưu trữ tài nguyên trên tên miền phụ hoặc CDN

Bằng cách lưu trữ các tài nguyên như JavaScript, CSS hoặc hình ảnh trên một tên miền phụ hoặc qua các mạng phân phối nội dung (CDN), người dùng có thể chuyển tải ngân sách thu thập dữ liệu sang các tên miền khác. Điều này giúp tiết kiệm ngân sách thu thập dữ liệu của tên miền chính.

Tuy nhiên trong cập nhật ngày 6 tháng 12, 2024, có nhắc đến việc lưu trữ các tài nguyên quan trọng như JavaScript hoặc CSS trên các tên miền phụ có thể làm chậm hiệu suất của trang do chi phí kết nối cao. Vì vậy, không nên sử dụng chiến lược này cho các tài nguyên quan trọng nhưng có thể xem xét cho các tài nguyên lớn không quan trọng như video hoặc tệp tải xuống.

Khi Googlebot tải các tài nguyên như hình ảnh và video, nó tiêu hao một phần ngân sách thu thập dữ liệu của trang web, tương tự như cách nó tải HTML và CSS. Và nếu bạn nghỉ đến việc ngăn chặn Googlebot truy cập các tài nguyên quan trọng thông qua robots.txt thường không được khuyến khích vì sẽ gây ra lỗi trong quá trình kết xuất trang. Điều này có thể dẫn đến việc Google không thể trích xuất nội dung và xếp hạng trang hiệu quả trên kết quả tìm kiếm.

Làm thế nào để biết Googlebot thu thập dữ liệu gì?

Làm cách nào để biết được Googlebot đang thu thập dữ liệu gì trên website của bạn?

Nhật ký thô (raw access log)

Cách tốt nhất là xem ở nhật ký truy cập thô (raw access log) của trang web. Đây là tài liệu ghi lại mọi URL được yêu cầu bởi trình duyệt và trình thu thập dữ liệu (crawler). Nó là nguồn tốt nhất để phân tích chính xác những tài nguyên nào đang được Googlebot thu thập. Google cũng công bố các dải IP của mình trong tài liệu dành cho nhà phát triển. Điều này giúp chủ sở hữu trang web xác định chính xác các yêu cầu đến từ trình thu thập dữ liệu của Google, so sánh với các trình thu thập dữ liệu khác.

Báo cáo thu thập dữ liệu trên Google Search Console

Báo cáo thống kê thu thập dữ liệu trên Google Search Console (Crawl stats) là công cụ tốt thứ hai có thể theo dõi các loại tài nguyên mà Googlebot thu thập trên trang web. Báo cáo này cung cấp một cách chi tiết về các tài nguyên đã được thu thập, giúp chủ sở hữu trang web hiểu rõ hơn về hoạt động của Googlebot.

Báo cáo thu thập dữ liệu trên Google Search Console

Cộng đồng Search Central

Cuối cùng là Cộng đồng Search Central (Search Central community) là nơi dành cho những người quan tâm sâu sắc đến việc thu thập và kết xuất dữ liệu. Tại đây, mọi người có thể thảo luận và chia sẻ kinh nghiệm về các chủ đề liên quan.

Hiểu được quá trình thu thập dữ liệu của Googlebot, bao gồm việc truy cập và tải xuống các tài nguyên như HTML, JavaScript, CSS, hình ảnh và video để xây dựng trang web và các ảnh hưởng của chúng đến "ngân sách thu thập dữ liệu". Điều này không chỉ giúp tiết kiệm ngân sách thu thập dữ liệu mà còn cải thiện thứ hạng trên công cụ tìm kiếm.

Thông Tin Liên Hệ

ĐỀ XUẤT CHO BẠN

Bài Viết Cùng Chuyên Mục

article-img

AI Overviews là gì? Cách tối ưu SEO website trong thời kì AI

Chào mọi người, gần đây sự ra mắt của AI Overviews không chỉ là một bản cập nhật, mà nó là một cuộc cách mạng trong giới SEO nói riêng và Google Tìm kiếm nói chung.

author-avatar

Phú Lê Văn

09/06/2025

XEM CHI TIẾT
article-img

Google Search Console cải tiến thời gian xem hiệu suất 24 giờ

Ngày 12 tháng 12 Google Search Console cập nhật chế độ xem 24 giờ cho các báo cáo hiệu suất giúp cải thiện độ mới dữ liệu hơn so với chế độ xem cũ

author-avatar

Phú Lê Văn

13/12/2024

XEM CHI TIẾT
article-img

TTFB là gì? Cách đo lường và cải thiện TTFB cho website

TTFB (Time to First Byte) là một chỉ số quan trọng trong việc đánh giá hiệu suất của website. Tìm hiểu chi tiết TTFB là gì ở bài viết này.

author-avatar

Nguyễn Thị Ái Vy

15/10/2024

XEM CHI TIẾT
article-img

Sapo là gì? Vai trò và cách viết 1 đoạn sapo hấp dẫn, lôi cuốn

Sapo là gì? Sapo là đoạn tóm tắt của bài viết để người dùng có thể nắm bắt được nội dung chính. Đoạn sapo hấp dẫn sẽ thu hút được nhiều người dùng hơn.

author-avatar

Nguyễn Thị Ái Vy

21/07/2024

XEM CHI TIẾT
article-img

Slug là gì? Tầm quan trọng và cách tối ưu slug cho website

Slug là gì? Đây là một yếu tố có thể chỉnh sửa được trong URL của Wordpress, nó có các ký tự chữ, số, dấu gạch ngang và được đặt sau tên miền của website.

author-avatar

Nguyễn Thị Ái Vy

18/07/2024

XEM CHI TIẾT
article-img

Disavow Link là gì? Cách gỡ phạt tác vụ thủ công từ Google

Tìm hiểu Disavow Link là gì và cách sử dụng công cụ này để gỡ bỏ hình phạt tác vụ thủ công từ Google. Chia sẻ kinh nghiệm thực tế từ LPTech, giúp bạn xử lý backlink xấu hiệu quả và bảo vệ website.

author-avatar

Phú Lê Văn

25/06/2024

XEM CHI TIẾT

Chất Lượng Sản Phẩm Tạo Nên Uy Tín Doanh Nghiệp.

Tầm nhìn của LPTech mong muốn trở thành công ty Công nghệ không chỉ phát triển tại thị trường Việt Nam mà còn mở rộng ra cả khu vực Asia. Vậy nên, mỗi một công việc mà LPTech làm đều sẽ ảnh hưởng đến thương hiệu của công ty ở hiện tại lẫn tương lai. Chính vì thế, quý khách hàng có thể yên tâm về chất lượng website được thiết kế tại LPTech.

LIÊN HỆ NGAY

THÔNG BÁO

Tin nổi bật

notification-img
Thông báo lịch nghỉ lễ Mùng 10 tháng 3, 30/4 và 1/5 năm 2026

Công ty TNHH Thương mại Điện tử Công nghệ LP xin thông báo đến Quý Khách hàng, Đối tác và toàn thể Nhân viên lịch nghỉ lễ 10/3, 30/4 và 1/5 năm 2026

notification-img
Thông báo nghỉ Tết Nguyên Đán 2026

LPTech kính chúc Quý Khách hàng, Quý Đối tác và toàn thể nhân sự một năm mới an khang, nhiều niềm vui, đủ đầy yêu thương và vững bước thành công.

notification-img
Thông báo lịch nghỉ Tết Dương lịch 2026

Chào đón năm mới 2026, LPTech xin gửi đến Quý Khách hàng, Đối tác và toàn thể nhân viên lời chúc sức khỏe, bình an và thành công, đồng thời thông tin về lịch nghỉ Tết Dương lịch 2026 của Công ty.

notification-img
Vũng Tàu: Du lịch công ty 2 ngày 1 đêm cùng LPTech

Giữa những ngày cuối năm bận rộn, cả team rủ nhau đi trốn một chuyến về Vũng Tàu để đổi gió và tận hưởng biển xanh. Một chuyến đi đầy ắp kỉ niệm.

notification-img
Thông báo lịch nghỉ du lịch thường niên 2025

Một chuyến du lịch ngắn ngày nhưng đầy năng lượng này sẽ giúp đội ngũ LPTech tạm rời nhịp làm việc, nghỉ ngơi và sẵn sàng cho những mục tiêu mới.

notification-img
Tết Trung Thu 2025 – Mùa trăng đoàn viên, mùa yêu thương lan tỏa

Giữa sắc đèn lung linh và hương bánh nồng nàn, Tết Trung Thu trở về như bản nhạc dịu êm của đoàn viên, hạnh phúc và sự gắn kết.

notification-img
LPTech chào mừng Quốc khánh 2/9 – 80 năm tự hào dân tộc

Kỷ niệm Quốc khánh 2/9 – LPTech tự hào đồng hành cùng tinh thần dân tộc, tổ chức nhiều hoạt động nội bộ ý nghĩa để gắn kết tập thể và lan tỏa giá trị yêu nước.

notification-img
Thông báo lịch nghỉ lễ Quốc khánh 2025

LPTech kính chúc Quý khách hàng, Đối tác và toàn thể nhân viên có một kỳ nghỉ lễ vui bên gia đình và người thân!