Це вільний переклад статті “How to write and submit a robots.txt file” з офіційної довідки Google.
Що ви дізнаєтесь з цієї статті:
За допомогою файлу robots.txt ви можете вказувати, які файли на вашому сайті буде видно пошуковим роботам. Файл robots.txt знаходиться у кореневому каталозі вашого сайту. Наприклад, на сайті www.example.com
він знаходиться за адресою www.example.com/robots.txt
.
Він є звичайним текстовим файлом, який відповідає стандарту винятків для роботів і містить одне або кілька правил. Кожне з них забороняє або дозволяє всім пошуковим роботам або обраним доступ до певного шляху в домені або субдомені, в якому розміщується файл robots.txt.
Усі файли вважаються доступними для сканування, якщо ви не вказали інше у файлі robots.txt.
Нижче наведено приклад простого файлу robots.txt із двома правилами:
User-agent: Googlebot
Disallow: /nogooglebot/
User-agent: *
Allow: /
Sitemap: https://www.example.com/sitemap.xml
Пояснення:
https://example.com/nogooglebot/
.https://www.example.com/sitemap.xml
.Докладнішу інформацію ви знайдете в розділі Синтаксис .
Робота з файлом robots.txt включає чотири етапи.
Створити файл robots.txt можна у будь-якому текстовому редакторі, такому як Блокнот, TextEdit, vi або Emacs. Не використовуйте офісні програми (Word та подібні), оскільки вони часто зберігають файли в пропрієтарному форматі і додають в них зайві символи, наприклад фігурні лапки, які не розпізнаються пошуковими роботами. Обов’язково збережіть файл у кодуванні UTF-8, якщо вам буде запропоновано вибрати кодування.
Правила щодо формату та розташування файлу
https://www.example.com/
він повинен розташовуватись за адресою https://www.example.com/robots.txt
. Він не повинен знаходитись у підкаталозі (наприклад, за адресою https://example.com/pages/robots.txt
). Якщо ви не знаєте, як отримати доступ до кореневого каталогу сайту, або у вас немає відповідних прав, зверніться до хостинг-провайдера (куди завантажувати файли?). Якщо у вас немає доступу до кореневого каталогу сайту, використовуйте альтернативний метод, наприклад, meta-теги
.https://website.example.com/robots.txt
) або він може бути доступний через нестандартний порт (наприклад, https://example.com:8181/robots.txt
)<strong>https://example.com/</strong>robots.txt
діє тільки для файлів, що належать до домену https://example.com/
, але не до субдомену, такого як https://m.example.com/
, або не для інших протоколів, наприклад <strong>http</strong>://example.com/
.Правила – це вказівки для пошукових роботів, що вказують, які розділи сайту можна сканувати. Додаючи правила до файлу robots.txt, враховуйте наступне:
User-agent
, що визначає, якому роботу адресовані правила у ній.disallow
.disallow: /file.asp
поширюється на URL https://www.example.com/file.asp
, але не на https://www.example.com/FILE.asp
.#
означає початок коментаря. Під час обробки коментарі ігноруються.Правила у файлах robots.txt, які підтримує робота Google
user-agent:
(Обов’язкове правило може повторюватися в межах групи). Визначає, до якого клієнта (пошукового роботу) відносяться правила в групі. *
, щоб заблокувати доступ для всіх пошукових роботів (крім роботів AdsBot, яких потрібно вказувати окремо). # Example 1: блокувати тільки Googlebot
User-agent: Googlebot
Disallow: /
# Example 2: блокувати Googlebot та Adsbot
User-agent: Googlebot
User-agent: AdsBot-Google
Disallow: /
# Example 3: блокувати усіх робтів, окрім AdsBot (AdsBot потрібно вказувати окремо в правилах)
User-agent: *
Disallow: /
disallow:
(кожне правило повинне містити не менше однієї директиви disallow
або allow
). Вказує на каталог або сторінку відносно кореневого домену, який не можна сканувати агенту користувача. Якщо правило стосується сторінки, має бути вказаний повний шлях до неї, як у адресному рядку браузера. На початку рядка має бути символ /
. Якщо правило стосується каталогу, рядок має закінчуватись символом /
.allow:
(кожне правило повинне містити не менше однієї директиви disallow
або allow
). Вказує на каталог або сторінку щодо кореневого домену, які можна сканувати агенту користувача. Використовується для того, щоб перевизначити правило disallow
та дозволити сканування підкаталогу або сторінки у закритому для обробки каталозі. Якщо правило стосується сторінки, має бути вказаний повний шлях до неї, як у адресному рядку браузера. На початку рядка має бути символ /
. Якщо правило стосується каталогу, рядок має закінчуватись символом /
.sitemap:
(Необов’язкова директива, яка може повторюватися кілька разів або не використовуватись зовсім). Вказує на розташування файлу Sitemap, який використовується на сайті. URL файлу Sitemap має бути повним. Google не перебирає варіанти URL-адрес з префіксами http і https або з елементом www і без нього. З файлів Sitemap роботи Google отримують інформацію про те, який контент потрібно сканувати і як відрізнити його від матеріалів, які можна обробляти. Детальніше… Sitemap: https://example.com/sitemap.xml
Sitemap: https://www.example.com/sitemap.xml
Всі правила, крім sitemap
, підтримують знак підстановки *
для позначення префікса або суфікса шляху, а також всього шляху.
Рядки, які не відповідають жодному з цих правил, ігноруються.
Ознайомтеся зі специфікацією Google для файлів robots.txt , де докладно описано всі правила.
Збережений на комп’ютері файл robots.txt необхідно завантажити на сайт та зробити доступним для пошукових роботів. Спеціального інструменту для цього не існує, оскільки спосіб завантаження залежить від вашого сайту та серверної архітектури, на нашому хостингу є відпоівідна стаття.
Зверніться до свого хостинг-провайдера по додаткові інструкції або спробуйте самостійно знайти документацію (приклад запиту: “куди завантажувати файли сайту“).
Після завантаження файлу robots.txt перевірте, чи він доступний для роботів і чи може Google обробити його.
Щоб переконатися, що завантажений файл robots.txt є загальнодоступним, відкрийте у браузері вікно в режимі інкогніто (або аналогічне) і перейдіть за адресою файлу. Приклад: https://example.com/robots.txt
. Якщо ви бачите вміст файлу robots.txt, можна переходити до тестування розмітки.
Для цього Google пропонує два засоби:
Коли ви завантажите та протестуєте файл robots.txt, пошукові роботи Google автоматично знайдуть його та почнуть застосовувати. З вашого боку жодних дій не потрібно. Якщо ви внесли до файлу robots.txt зміни та хочете якнайшвидше оновити кешовану копію, дотримуйтесь інструкцій у цій статті .
Нижче наведено кілька правил, які часто використовуються у файлах robots.txt.
Корисні правила | |
---|---|
Це правило забороняє сканувати весь веб-сайт. | Варто врахувати, що в деяких випадках URL-адреси сайту можуть індексуватися, навіть якщо вони не були проскановані. Зверніть увагу, що це правило не відноситься до робот AdsBot , яких потрібно вказувати окремо. User-agent: * Disallow: / |
Це правило забороняє сканування каталогу з усім його вмістом. | Щоб заборонити сканування цілого каталогу, поставте слеш після його назви. Увага: не використовуйте файл robots.txt, щоб обмежити доступ до певного контенту. Натомість використовуйте автентифікацію відвідувачів. URL адреси, сканування яких заборонено у файлі robots.txt, все ж таки можуть бути проіндексовані. Крім того, зловмисники можуть переглянути вміст файлу robots.txt і дізнатися, де знаходиться контент, який ви хочете приховати. User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/ |
Це правило дозволяє сканувати сайт лише одному пошуковому роботу. | Сканувати весь сайт може лише робот googlebot-news . User-agent: Googlebot-news Allow: / User-agent: * Disallow: / |
Це дозволяє сканування всім пошуковим роботам крім одного. | Робот Unnecessarybot не може сканувати сайт, а решта можуть.User-agent: Unnecessarybot Disallow: / User-agent: * Allow: / |
Це правило забороняє сканування окремої сторінки. | Наприклад, можна заборонити сканування сторінок useless_file.html та other_useless_file.html з каталога junk .User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html |
Це правило забороняє сканувати весь сайт за винятком певного підкаталогу. | Пошуковим роботам надано доступ тільки до підкаталогу public .User-agent: * Disallow: / Allow: /public/ |
Це правило приховує певне зображення від робота Google Картинок. | Наприклад, ви можете заборонити сканування зображення dogs.jpg .User-agent: Googlebot-Image Disallow: /images/dogs.jpg |
Це правило приховує всі зображення на сайті від робота Google Картинок. | Google не зможе індексувати зображення та відео, які недоступні для сканування. User-agent: Googlebot-Image Disallow: / |
Це правило забороняє сканування всіх файлів певного типу. | Наприклад, ви можете заборонити роботам доступ до всіх файлів .gif .User-agent: Googlebot Disallow: /*.gif$ |
Це правило забороняє сканувати весь сайт, але він може оброблятися роботом Mediapartners-Google | Робот Mediapartners-Google зможе отримати доступ до закритих від пошукового робота сторінок, щоб підібрати оголошення для показу тому чи іншому користувачеві.User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: / |
Скористайтеся знаками підстановки * та $ , щоб зіставляти URL, які закінчуються певним рядком. | Наприклад, можна виключити всі файли .xls User-agent: Googlebot Disallow: /*.xls$ |
Якщо ця інформація виявилася корисною – поділіться нею в соцмережах!