Sitemap.xml là gì ?
Sitemap.xml là một danh sách các trang trên một website. Các Robot dựa vào đây để indexing website của bạn 1 cách nhanh nhất. Hay còn gọi là một bản đồ của 1 website, được các công cụ tìm kiếm sử dụng để thu thập thông tin của một website (như bài viết mới, bài viết được cập nhật, hình ảnh, video) và lập chỉ mục.
Một website chuẩn seo khi bạn Thiết kế website cần phải có đầy đủ các chức năng tự động tạo Sitemap và Robots.txt vì nếu không có Sitemap bạn sẽ không thể SEO website của minh tốt nhất được.
Có một Sitemap.xml là cách để các webmaster (chủ nhân trang web) cho công cụ tìm kiếm biết về sự tồn tại của tất cả các trang trên website của họ. Bạn cần biết thêm về Robots.txt là gì? để có thể tối ưu SEO hơn cho website của ban.
Sitemap.xml còn giúp cho các công cụ tìm kiếm như Google biết liên kết nào là quan trọng và việc cập nhật nội dung của website như thế nào? Sơ đồ trang web không trực tiếp giúp tăng thứ hạng website/blog của bạn nhưng nó giúp cho các nhện tìm kiếm (boot tìm kiếm) thu thập thông tin, lập chỉ mục (index) tốt hơn từ đó xếp hạng từ khoá nhanh hơn.
Có 4 loại sitemap chính:
- Sitemap XML: đây là loại sơ đồ trang Web phổ biến nhất. Nó thường ở dạng Sitemap XML liên kết với nhiều trang khác nhau bền trong Website của bạn.
- Sitemap Video: được dùng để giúp Google có thể hiểu được nội dung video trên trang của bạn.
- Sitemap News: Giúp Google tìm nội dung trên các trang Web được phê duyệt trên Google News.
- Sitemap Image: giúp Google tìm thấy tất cả hình ảnh được lưu trữ trên trang Web của bạn.
Chúng ta luôn muốn Google thu thập dữ liệu mọi trang quan trọng trên website một cách nhanh chóng. Nhưng thông thường các bài viết mới thì không có liên kết internal tới, điều này gây khó khăn cho bot Google lập chỉ mục.
Cấu trúc của file sitemap.xml là gì?
XML được xây dựng dựa vào cấu trúc NODE lồng nhau, mỗi node sẽ có một thẻ mở và một thẻ đóng.
Khai báo Header (Chỉ thị xử lý):
Trên đầu mỗi file XML bạn phải khai báo một thẻ để thông báo version XML đang sử dụng (thường là version 1.0), và còn có thể chứa các thông tin về mã hóa ký tự hoặc các phụ thuộc bên ngoài khác (sẽ tìm hiểu sau). Giá trị của encoding (kiểu mã hóa ký tự) thuộc một trong các định dạng sau: UTF-8, UTF-16, ISO-10646-UCS-2, ISO-10646-UCS-4, ISO-8859-1 to ISO-8859-9, ISO-2022-JP, Shift_JIS, EUC-JP.
Cú pháp của thẻ chỉ thị xử lý như sau:
<?
xml
version
=
"1.0"
encoding
=
"UTF-8"
?>
Các dạng Style Sheet trong xml
Chúng ta có nhiều dạng Style Sheet có thể dùng để hiển thị thông tin trong file XML. Tuy nhiên có 2 dạng được sử dụng nhiều nhất đó là CSS và XSLT:
– Cascading Style Sheet (CSS): là phương pháp dùng để thể hiện thông tin trong HTML và XML thông qua khai báo các thuộc tính về vị trí, màu sắc, khoảng cách giữa các dữ liệu ….
– Extensible Style Sheet (XSLT): là phương pháp dùng để thể hiện thông tin trong XML, chúng ta có thể sử dụng XSLT để chuyển đổi XML sang dạng file khác.
Cú pháp của việc khai báo thuộc tính Style cho xml như sau:
<?xml-stylesheet href="/vendor/sitemap/styles/sitemapindex.xsl" type="text/xsl"?>
Thẻ này nhằm quy định thiết kế cho file xml cụ thể ở bài viết này là làm đẹp cho file sitemap.xml của bạn. Nó sẽ tạo nên bố cục, màu và font chữ để sitemap của bạn dễ xem hơn bằng trình duyệt, và dễ đánh giá cho sitemap của bạn hơn.
Ví dụ 1 sitemap.xml
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet href="http://www.example.com/vendor/sitemap/styles/sitemapindex.xsl" type="text/xsl"?>
<sitemapindexxmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<sitemap>
<loc>http://www.example.com/sitemap1.xml.gz</loc>
<lastmod>2004-10-01T18:23:17+00:00</lastmod>
</sitemap>
<sitemap>
<loc>http://www.example.com/sitemap2.xml.gz</loc>
<lastmod>2005-01-01</lastmod>
</sitemap>
</sitemapindex>
Có các kiểu Sitemap nào?
1. HTML Sitemap là gì?
HTML Sitemap dùng để thể hiện cấu trúc website của bạn dưới con mắt của con người bình thường
2. XML Sitemap là gì?
XML Sitemap dùng để khai báo siêu văn bản riêng cho các công cụ tìm kiếm. Với XML Sitemap, các con bọ của công cụ tìm kiếm sẽ tự động hiểu được khai báo về cấu trúc website, cập nhật nội dung và các thông tin về website của bạn. Để chúng giúp index website bạn nhanh hơn thay vì chúng phải tự mò và lập sitemap riêng có thể không giống như mục đích của người chủ website.
Vì sao website cần có sitemap?
Với nhưng website/blog mới, sơ đồ trang web đóng vai trò rất quan trọng vì bạn chưa nhận được nhiều backlink cho nên các bài viết của bạn được lập chỉ mục rất chậm. Nếu có một sơ đồ trang web nó sẽ giúp “nhện tìm kiếm” nhanh chóng thu thập dữ liệu và gửi về Goolge để lập chỉ mục tốt hơn.
Sitemap có nhiệm vụ hướng dẫn cho các bot của những bộ máy tìm kiếm những thông tin, liên kết của website để từ đó các bot này có thể lập chỉ mục (index) cho website đó. Một sitemap có cấu trúc tốt thì sẽ được Google đánh giá cao.
Còn đối với các website/blog cũ, XML sitemap sẽ giúp cho Google biết được mức độ cập nhật của website, giúp cho website của bạn “ghi điểm” nhiều hơn với công cụ tìm kiếm, từ đó có thể xếp hạng chính xác trên kết quả tìm kiếm.
Bên cạnh đó, nếu như website của bạn có bất kỳ thay đổi nào, sitemap sẽ giúp bạn kết nối và thông tin đến các bot của những bộ máy tìm kiếm một cách nhanh chóng nhất.
Yếu tố nào quan trọng khi tạo Sitemap ?
Cấu trúc của sơ đồ nên có tương quan với chính hệ thống có tính phân cấp của website. Vì cấu trúc của một sơ đồ trang web nên cần được sử dụng các tiêu đề và danh sách. Không nên sử dụng các bảng cho cấu trúc sơ đồ vì nó khiến cho quy trình này nhiều khó khăn hơn.
Không nên sử dụng những yếu tố đồ hoạ trong khi tạo một sitemap.
Thời gian gần đây, hầu hết người sử dụng lướt Web vào những trang trên Internet ở chế độ ngăn chặn đồ họa. Vì lý do này nên sự xuất hiện của đồ hoạ như là những yếu tố điều hướng truy cập trên site map của bạn sẽ không được xem là có ích lắm, vì chúng sẽ không hoạt động cho tất cả người dùng, và sơ đồ sẽ chỉ là sự thể hiện chưa được thành công cho sáng tạo của bạn.
Bởi thế, lý tưởng là một sitemap nên nhìn giống nhau trong tất cả các trình duyệt khi mọi người truy cập web.
Một site map nên tương ứng với thiết kế của trang web. Hãy xuất phát từ khái niệm thông thường, như được đề cập trong bất cứ tài liệu tương tự khác nào, một sitemap không mang lại cho trang web của bạn sự đánh giá đầy đủ về mức độ thu hút mà thậm chí ngược lại còn có thể làm những người dùng hoảng sợ.
Các thông số trong Sitemap XML là gì ?
<urlset>: bắt buộc Đóng gói tệp và tham chiếu chuẩn giao thức hiện tại.
<url>: thẻ Parent bắt buộc cho mỗi mục nhập URL. Các thẻ còn lại là con của thẻ này.
<loc>: URL bắt buộc của trang. URL này phải bắt đầu bằng giao thức (như http) và kết thúc bằng dấu gạch chéo, nếu máy chủ web của bạn yêu cầu. Giá trị này phải nhỏ hơn 2.048 ký tự.
<lastmod>: tùy chọn Ngày sửa đổi cuối cùng của tệp. Ngày này phải ở định dạng W3C Datetime. Định dạng này cho phép bạn bỏ qua phần thời gian, nếu muốn và sử dụng YYYY-MM-DD.
Lưu ý rằng thẻ này tách biệt với tiêu đề If-Modified-Because (304) mà máy chủ có thể trả về và các công cụ tìm kiếm có thể sử dụng thông tin từ cả hai nguồn khác nhau.
<changefreq>: tùy chọn Tần suất trang có thể thay đổi. Giá trị này cung cấp thông tin chung cho các công cụ tìm kiếm và có thể không tương quan chính xác với tần suất họ thu thập dữ liệu trang.
Các giá trị hợp lệ là: alway, hourly , Daily, weekly, monthly, yearly, never Giá trị "alway" nên được sử dụng để mô tả các tài liệu thay đổi mỗi khi chúng được truy cập. Giá trị "không bao giờ" nên được sử dụng để mô tả các URL được lưu trữ.
Xin lưu ý rằng giá trị của thẻ này được coi là một gợi ý và không phải là một lệnh. Mặc dù trình thu thập thông tin của công cụ tìm kiếm có thể xem xét thông tin này khi đưa ra quyết định, họ có thể thu thập dữ liệu các trang được đánh dấu "hourly" ít thường xuyên hơn và họ có thể thu thập dữ liệu các trang được đánh dấu "yearly" thường xuyên hơn thế. Trình thu thập thông tin có thể thu thập dữ liệu định kỳ các trang được đánh dấu "never" để họ có thể xử lý các thay đổi bất ngờ đối với các trang đó.
<priority>: tùy chọn Mức độ ưu tiên của URL này so với các URL khác trên trang web của bạn. Các giá trị hợp lệ nằm trong khoảng từ 0,0 đến 1,0. Giá trị này không ảnh hưởng đến cách các trang của bạn được so sánh với các trang trên các trang web khác. Nó chỉ cho phép các công cụ tìm kiếm biết trang nào bạn cho là quan trọng nhất đối với các trình thu thập thông tin.
Ưu tiên mặc định của một trang là 0,5.
Xin lưu ý rằng mức độ ưu tiên bạn gán cho một trang không có khả năng ảnh hưởng đến vị trí của các URL trong các trang kết quả của công cụ tìm kiếm. Các công cụ tìm kiếm có thể sử dụng thông tin này khi chọn giữa các URL trên cùng một trang, vì vậy bạn có thể sử dụng thẻ này để tăng khả năng các trang quan trọng nhất của bạn có trong chỉ mục tìm kiếm.
Ngoài ra, xin lưu ý rằng việc chỉ định mức độ ưu tiên cao cho tất cả các URL trên trang web của bạn không có khả năng giúp bạn. Vì mức độ ưu tiên là tương đối, nên nó chỉ được sử dụng để chọn giữa các URL trên trang web của bạn.
Thông tin liên hệ
Nếu bạn có thắc mắc gì, có thể gửi yêu cầu cho chúng tôi, và chúng tôi sẽ liên lạc lại với bạn sớm nhất có thể .
Công ty TNHH TMĐT Công nghệ LP
Giấy phép kinh doanh số 0315561312/GP bởi Sở Kế Hoạch và Đầu Tư TP. Hồ Chí Minh.
Văn phòng: Lầu 4, Toà nhà Lê Trí, 164 Phan Văn Trị, Phường 12,Quận Bình Thạnh, HCMC
Hotline: 0338 586 864
Mail: sales@lptech.asia
Liên hệ qua Zalo: 0338586864 ( hoặc bấm vào link này: http://lptech.asia/zalo-lptech). Hoặc nhập thông tin mà bạn cần hỗ trợ vào ô liên hệ bên dưới để lên lạc với LPTech nhé.