Skip to main content

Tệp robots.txt mẫu cho trang web của bạn

Hướng dẫn chỉnh sửa File robots.txt trên hosting và website Blogspot (Tháng Tư 2024)

Hướng dẫn chỉnh sửa File robots.txt trên hosting và website Blogspot (Tháng Tư 2024)
Anonim

Tệp robots.txt được lưu trữ trong thư mục gốc của trang web sẽ thông báo cho các rô-bốt web như trình thu thập thông tin của công cụ tìm kiếm những thư mục và tệp nào họ được phép thu thập thông tin. Thật dễ dàng để sử dụng tệp robots.txt, nhưng có một số điều bạn nên nhớ:

  1. Các rô bốt web của Blackhat sẽ bỏ qua tệp robots.txt của bạn. Các loại phổ biến nhất là chương trình phần mềm độc hại và rô bốt tìm kiếm địa chỉ email để thu hoạch.
  2. Một số lập trình viên mới sẽ viết robot bỏ qua tệp robots.txt. Điều này thường được thực hiện do nhầm lẫn.
  3. Bất kỳ ai cũng có thể xem tệp robots.txt của bạn. Chúng luôn được gọi là robots.txt và luôn được lưu trữ tại thư mục gốc của trang web.
  4. Cuối cùng, nếu ai đó liên kết đến một tệp hoặc thư mục bị loại trừ bởi tệp robots.txt của bạn từ một trang không bị loại trừ bởi tệp robots.txt của họ thì công cụ tìm kiếm vẫn có thể tìm thấy tệp đó.

Không sử dụng tệp robots.txt để ẩn bất kỳ điều gì quan trọng. Thay vào đó, bạn nên đặt thông tin quan trọng đằng sau mật khẩu an toàn hoặc để nó hoàn toàn khỏi web.

Cách sử dụng các tệp mẫu này

Sao chép văn bản từ mẫu gần với những gì bạn muốn làm và dán nó vào tệp robots.txt của bạn. Thay đổi tên robot, thư mục và tệp để khớp với cấu hình ưa thích của bạn.

Hai tệp Robots.txt cơ bản

Đại lý người dùng: *Không cho phép: /

Tệp này nói rằng bất kỳ rô bốt nào (

Đại lý người dùng: *) truy cập nó nên bỏ qua mọi trang trên trang web (

Không cho phép: /).

Đại lý người dùng: *Không cho phép:

Tệp này nói rằng bất kỳ rô bốt nào (

Đại lý người dùng: *) truy cập nó được phép xem mọi trang trên trang web (

Không cho phép:).

Bạn cũng có thể thực hiện việc này bằng cách để trống tệp robots.txt hoặc hoàn toàn không có tệp robots.txt trên trang web của mình.

Bảo vệ các thư mục cụ thể từ rô-bốt

Đại lý người dùng: *Disallow: / cgi-bin /Disallow: / temp /

Tệp này nói rằng bất kỳ rô bốt nào (

Đại lý người dùng: *) truy cập nó nên bỏ qua các thư mục / cgi-bin / và / temp / (

Disallow: / cgi-bin / Không cho phép: / temp /).

Bảo vệ các trang cụ thể từ rô-bốt

Đại lý người dùng: *Disallow: /jenns-stuff.htmDisallow: /private.php

Tệp này nói rằng bất kỳ rô bốt nào (

Đại lý người dùng: *) truy cập nó nên bỏ qua các tập tin /jenns-stuff.htm và /private.php (

Disallow: /jenns-stuff.htm Disallow: /private.php).

Ngăn chặn một Robot cụ thể truy cập trang web của bạn

Tác nhân người dùng: Lycos / x.xKhông cho phép: /

Tệp này nói rằng bot Lycos (

Tác nhân người dùng: Lycos / x.x) không được phép truy cập bất cứ nơi nào trên trang web (

Không cho phép: /).

Chỉ cho phép một Robot truy cập cụ thể

Đại lý người dùng: *Không cho phép: /Tác nhân người dùng: GooglebotKhông cho phép:

Tệp này trước tiên không cho phép tất cả các rô bốt như chúng tôi đã làm ở trên và sau đó cho phép Googlebot một cách rõ ràng (

Tác nhân người dùng: Googlebot) có quyền truy cập vào mọi thứ (

Không cho phép:).

Kết hợp nhiều dòng để nhận chính xác các loại trừ bạn muốn

Mặc dù sử dụng dòng Tác nhân người dùng bao gồm rất nhiều, như Tác nhân người dùng: *, bạn có thể cụ thể như bạn muốn. Hãy nhớ rằng robot đọc tập tin theo thứ tự. Vì vậy, nếu các dòng đầu tiên nói rằng tất cả các robot bị chặn từ tất cả mọi thứ, và sau đó trong tập tin nó nói rằng tất cả các robot được phép truy cập vào tất cả mọi thứ, các robot sẽ có quyền truy cập vào tất cả mọi thứ.

Nếu bạn không chắc mình đã viết đúng tệp robots.txt của mình hay chưa, bạn có thể sử dụng Công cụ quản trị trang web của Google để kiểm tra tệp robots.txt của bạn hoặc viết một tệp mới.