DigitalStar

Sitemap.xml

Có thể bạn chưa biết, lịch sử của Sitemap xml bắt đầu khi mà Google giới thiệu phiên bản 0.84 vào tháng 6 năm 2005 để cho phép các nhà phát triển website xuất bản danh sách liên kết từ khắp các trang web của họ. Đến tháng 11 năm 2006, Google, Yahoo! và Microsoft đã thông báo sẽ hỗ trợ chung cho giao thức Sitemap. Phiên bản này đã được thay đổi thành “Sitemap 0.90”.Vào tháng 4 năm 2007, Ask.com và IBM đã thông báo hỗ trợ cho Sitemap. Ngoài ra, Google, Yahoo và MSN đã thông báo về auto-discovery cho sitemap thông qua robots.txt. Vào tháng 5 năm 2007, các chính phủ bang Arizona, California, Utah và Virginia đã thông báo rằng họ sẽ sử dụng Sitemap trên các trang web của họ.Giao thức Sitemap được dựa trên các ý tưởng từ “Crawler-friendly Web Servers”, với các cải tiến bao gồm auto-discovery thông qua robots.txt và khả năng chỉ định ưu tiên và tần suất thay đổi của các trang. Vậy tóm lại, Sitemap.xml là gì? Tại sao nó lại được nhiều nền tảng sử dụng như vậy? Hãy cùng DigitalStar tìm hiểu tất tần tật về Sitemap.xml. Bắt đầu thôi!

Sitemap XML là gì ?

Sitemap.xml là một cách dễ dàng để quản trị viên website thông báo cho các công cụ tìm kiếm về các url có sẵn trên website để Google có thể thu thập thông tin và lập chỉ mục cho trang web. Ở dạng đơn giản nhất, Sitemap là một tệp XML liệt kê các URL cho một website cùng với siêu dữ liệu bổ sung về mỗi URL. Bạn có thể dễ dàng truy cập vào trang chủ của sitemap với domain http://www.sitemaps.org

Sitemap.xml trông như nào?

Sitemap ở dưới dạng code, nó sẽ có dạng cơ bản như sau:

<?xml version=”1.0″ encoding=”UTF-8″?><urlset xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9″> <url> <loc>https://example.com</loc> </url></urlset>

Trong ví dụ này, sitemap chứa một thẻ <urlset>để định nghĩa các URL trong sitemap và một thẻ<url>để đại diện cho một URL cụ thể. Thẻ <loc> được sử dụng để chỉ định URL của trang web.

Một sitemap XML thường bao gồm một vài phần như sau:

  • Phần khai báo phiên bản XML <xml version>: được sử dụng bởi các trình thu thập dữ liệu của công cụ tìm kiếm để xác định loại tệp đang đọc.
  • Tập hợp các URL <url set>: cho biết thông tin về giao thức.
  • URL <url>: liệt kê URL của trang web.
  • Thẻ Lastmod: định dạng ngày tháng mô tả khi trang web được chỉnh sửa lần cuối.

Tạo Sitemap.xml đáp ứng đủ các thành phần trên được coi là một sitemap hợp lệ và được đưa vào hoạt động. Ngoài ra, còn có các thuộc tính khác như <priority> và <changefreq>. Tuy nhiên, chúng không ảnh hưởng đến hoạt động hay hiệu suất của sitemap. Hãy tham khảo thêm các thuộc tính khác tại XML tag definitions của sitemaps.org.

Ví dụ về Sitemap

Hình ảnh dưới đây là hình chụp màn hình sitemap của DigitalStar. Nó sẽ là ví dụ cho bài viết lần này. Bạn có thể dễ dàng nhìn thấy các thành phần hay thuộc tính có trong sitemap giống như phần trên mình đã liệt kê.

Nếu bạn có một website lớn, bạn sẽ cần phải chia nhỏ các sitemap ra thành các trang. Một sitemap XML đơn lẻ sẽ có giới hạn là 50.000 URL và có kích thước tệp là 50MB. Vì vậy, nếu website của bạn có hơn 50.000 bài, bạn sẽ cần hai sitemap riêng biệt để chứa toàn bộ URL trên website của bạn. Nếu bạn đang sử dụng Plugin Yoast SEO, nó sẽ đặt giới hạn thấp hơn, chỉ ở mức 1.000 URL. Tuy nhiên, nó được tạo thấp như vậy để giữ cho sitemap của bạn được tải nhanh nhất có thể.

Các loại sitemap.xml

XML Sitemap Index

Sitemap xml index là thứ cơ bản nhất của trong tất cả các loại sitemap.

Như đã nói ở trên, Sitemap XML có một số giới hạn như:

  • Tối đa 50.000 URL.
  • Giới hạn kích thước tệp không nén là 50MB.

Các sitemap được nén bằng gzip để tiết kiệm băng thông cho sever website. Những sitemap này sẽ được kết hợp thành một tệp sitemap index duy nhất, thường có tên là sitemap-index.xml. Đây được xem như là bản tóm tắt của các sitemap.Đối với các trang web lớn, họ sẽ muốn tiếp cận người dùng một cách chi tiết hơn. Cho nên, họ có thể sẽ tạo nhiều tệp sitemap index khác nhau cho từng loại danh mục trên trang web:

  • sitemap-index-articles.xml
  • sitemap-index-products.xml
  • sitemap-index-categories.xml

XML Image Sitemap

Image sitemap được thiết kế để cải thiện việc lập chỉ mục cho nội dung của hình ảnh. Tuy nhiên, trong SEO hiện đại, hình ảnh sẽ được nhúng trong bài viết luôn, vì vậy sẽ được Google lập chỉ mục chung với url của bài viết.Hơn nữa, việc sử dụng Image Object của Schema để chỉ ra các thuộc tính của hình ảnh cho các công cụ tìm kiếm sẽ tốt hơn so với image sitemap, đơn giản là vì Schema cung cấp nhiều thuộc tính hơn. Do đó, một sitemap hình ảnh không cần thiết đối với hầu hết các trang web, thậm chí nó còn là lãng phí sự index của Google cho hình ảnh đấy nữa cơ.

Tuy nhiên, sẽ có một vài trường hợp ngoại lệ như một các website chuyên về nội dung hình ảnh hoặc các trang thương mại điện tử sẽ phải khai báo bình thường như các sitemap khác.

XML Video Sitemap

Có hình ảnh thì cũng sẽ có video sitemap. Tương tự như vậy, nếu các video không quan trọng và không phục vụ cho doanh nghiệp quá nhiều, bạn cũng sẽ không cần phải khai báo nó làm gì để tiết kiệm băng thông.

Google News Sitemap

Đây là một loại sitemap đặc biệt vì chỉ có các website đã đăng ký với Google News mới nên sử dụng sitemap này. Nếu bạn đã đăng ký Google News, thì một sitemap sẽ bao gồm các bài viết được xuất bản trong hai ngày qua, tối đa 1.000 URL cho mỗi sitemap và sẽ index ngay sau khi chúng được xuất bản.Khác với một số lời khuyên trực tuyến, sitemap Google News không hỗ trợ URL hình ảnh. Google khuyên bạn nên sử dụng schema  hoặc og:image để thay đổi, định hình lại hình thu nhỏ của bài viết cho Google News.

Mobile Sitemap

Mobile sitemap gần như sẽ là không cần thiết đối với hầu hết các website. Bởi vì sitemap mobile chỉ dành cho các loại điện thoại chuyên dụng, không tương thích với điện thoại thông minh. Vì vậy, trừ khi bạn có các URL được thiết kế đặc biệt dành riêng cho các loại điện thoại này, còn không thì loại này sẽ không đem lại lợi ích gì.

HTML Sitemap

Nếu sitemaps XML được tạo ra để đáp ứng nhu cầu của các công cụ tìm kiếm thì Sitemap HTML được thiết kế để giúp người dùng tìm kiếm nội dung. Nó thường được liên kết trong chân trang của website và cung cấp một cái nhìn tổng quan về cấu trúc của website. Tuy nhiên, vì sitemap HTML chỉ giúp cho người dùng tìm kiếm nội dung, nó không cần thiết đối với hầu hết các trang web, đặc biệt là khi trang web có UX tốt và tối ưu hóa Sitemap.xml được liên kết nội bộ.

Dynamic XML Sitemap

Để hiểu về dynamic sitemap, trước hết bạn cần phải hiểu static sitemap đã. Static sitemap hay sitemap tĩnh, là một loại sitemap được tạo ra bằng thủ công hoặc các công cụ tạo sitemap tĩnh. Đặc điểm của loại này là không thể tự động cập nhật khi có thay đổi trên website của bạn, do đó, nó có thể trở nên lỗi thời và không chính xác nếu không được cập nhật thường xuyên.

Trái lại, dynamic sitemap hay sitemap động, nó được thiết kế để có thể tự động cập nhật các thay đổi liên quan đến website khi chúng xảy ra. Các phần mềm tạo dynamic sitemap nổi tiếng hiện nay thường là các Plugin có sẵn như Yoast SEO, All in One SEO,…

Website như nào thì sẽ cần Sitemap?

Google từng nói rằng, sitemap mang lại lợi ích cực lớn cho những “large website” – những trang web thực sự lớn. Vậy tại sao lại như thế? Theo Google, việc chúng ta tối ưu liên kết nội bộ đúng cách đã cho phép Google Bot tìm thấy tất cả nội dung của website và lập chỉ mục nó một cách dễ dàng rồi. Tuy nhiên, thật không may, việc tối ưu liên kết nội bộ cho một website lớn là một việc cực kỳ khó. Do đó, sitemap là một công cụ cực kỳ hữu ích để giúp các công cụ tìm kiếm tìm thấy tất cả nội dung của các large website một cách hiệu quả, đặc biệt là đối với các website lớn chuyên về nội dung tổng hợp, toplist

Vậy các website nhỏ có cần khai báo sitemap.xml không? Với DigitalStar, tất cả website đều sẽ phải cần khai báo website cho Google. Việc này không chỉ giúp website được thu thập thông tin và lập chỉ mục tốt hơn mà còn giúp con người dễ dàng quản lý nội dung trên website của mình hơn.

Có phải bất cứ URL nào cũng xuất hiện trên sitemap không?

Tất nhiên, những URL nào được bạn tối ưu để mang đến cho người dùng đều sẽ xuất hiện trên sitemap cho Google lập chỉ mục. Thế những bài không được tối ưu cho người dùng thì sao? Làm sao để không cho nó xuất hiện trên sitemap?

Để trả lời cho câu hỏi này, Google đã tạo ra thẻ “Noindex“. Nếu index là quá trình mà con bọ của Google sẽ đi qua các bài viết của bạn để thu thập dữ liệu và đánh chỉ mục, thì Noindex sẽ là… Noindex. Đơn giản nó sẽ không cho quá trình index diễn ra nữa. Khi bạn setup lệnh noindex cho một bài viết trên website của bạn, nó sẽ không xuất hiện trên cả sitemap và SERP. Tuy nhiên, việc loại bỏ URL đó khỏi sitemap không có nghĩa là Google sẽ không lập chỉ mục URL đó. Nếu Google có thể tìm thấy URL đó bằng cách theo dõi các liên kết nội bộ, Google vẫn có thể lập chỉ mục URL đó một cách bình thường.

Cách khai báo sitemap.xml cho website trên SGC

Để có thể giúp Google nhận sitemap của bạn nhanh hơn, bạn hoàn toàn có thể khai báo nó thẳng lên Google Search Console luôn. Bạn sẽ thực hiện 2 bước đơn giản để hoàn thành quá trình này.

Bước 1: hãy mở bảng điều khiển “Sitemaps” trong Google Search Console. Nếu bạn chưa tìm được, hãy tìm phần “Indexing” ở menu bên trái là được.
Bước 2: Sao chép và dán URL của sitemap của bạn vào trường “Add a new sitemap” và nhấp vào “Submit”.

Sau khi Google lập chỉ mục sitemap của bạn, nó sẽ hiển thị trạng thái “Success” màu xanh lá cây bên cạnh sitemap của bạn trong phần “Submitted sitemaps”.

Như vậy, chỉ với 2 bước đơn giản, bạn đã khai báo thành công sitemap cho website của bạn. Tuy nhiên, sitemap của bạn sẽ không được xử lý ngay lập tức mà nó có thể nó mất vài ngày.

Câu hỏi thường gặp

People Also Ask

1. Tại sao Sitemap.xml lại quan trọng cho SEO?

Sitemap.xml quan trọng cho SEO vì nó giúp các công cụ tìm kiếm như Google hiểu cấu trúc trang web của bạn và tìm thấy các trang được index. Nó cung cấp thông tin về URL và các metadata quan trọng khác để tối ưu hóa quá trình index trang web.

2. Làm thế nào để tạo một Sitemap.xml?

Để tạo một Sitemap.xml, bạn có thể sử dụng các công cụ tạo Sitemap miễn phí trực tuyến hoặc sử dụng plugin Sitemap trong hệ thống quản lý nội dung (CMS) như WordPress. Bạn cần liệt kê tất cả các URL trên trang web của bạn và tạo một tệp tin Sitemap.xml tuân thủ định dạng chuẩn.

3. Làm thế nào để tối ưu hóa Sitemap.xml cho SEO?

Để tối ưu hóa Sitemap.xml cho SEO, bạn nên đảm bảo rằng Sitemap của bạn bao gồm tất cả các trang quan trọng và cập nhật nhanh chóng khi có thay đổi. Hãy đảm bảo rằng các URL trong Sitemap đúng và không có lỗi, và sử dụng các metadata như tần suất cập nhật và độ ưu tiên để chỉ định mức độ quan trọng của các trang.

4. Làm thế nào để kiểm tra Sitemap.xml của một trang web?

Để kiểm tra Sitemap.xml của một trang web, bạn có thể sử dụng công cụ kiểm tra Sitemap của Google Search Console. Công cụ này sẽ cho bạn biết các lỗi và cảnh báo liên quan đến Sitemap của bạn.

5. Có công cụ nào hỗ trợ tạo Sitemap.xml không?

Có nhiều công cụ hỗ trợ tạo Sitemap.xml như Yoast SEO (WordPress plugin), Screaming Frog, và XML-Sitemaps.com.

6. Làm thế nào để gửi Sitemap.xml cho Google?

Để gửi Sitemap.xml cho Google, bạn cần đăng ký và xác nhận trang web của mình trong Google Search Console. Sau đó, bạn có thể tải lên Google XML Sitemaps vào Search Console hoặc chỉ định URL của Sitemap để Google tự động tìm và index.

Tổng kết

Đến đây cũng là kết thúc cho bài viết này. Sitemap.xml nó giống như một bản tóm tắt toàn bộ cấu trúc website của bạn vậy. Vì vậy, dù bạn to hay nhỏ, hãy đều tạo cho mình một sitemap để có thể quản lý toàn bộ URL của mình cũng như là để Google có thể dễ dàng thu thập dữ liệu và lập chỉ mục cho website của bạn. Còn bây giờ thì xin chào và hẹn gặp lại ở những bài viết tiếp theo!