Nem todos os di­re­tó­rios e sub­pá­gi­nas do seu site precisam ser en­con­tra­dos pelos me­ca­nis­mos de busca con­ven­ci­o­nais, pois nem todos são re­le­van­tes para o público. O arquivo robots.txt no WordPress define quais sub­pá­gi­nas serão ex­plo­ra­das por crawlers e quais serão ignoradas. Ao fazer essa distinção, você poderá melhorar con­si­de­ra­vel­mente a colocação do seu site nas buscas. Entenda como funciona o WordPress robots.txt e como você pode otimizar este arquivo.

Nomes de domínio por US$ 1

Registre ótimos TLDs por menos de US$ 1 no primeiro ano. Esperar para quê? Garanta seu nome de domínio preferido hoje mesmo.

  • inscrição fácil
  • Cer­ti­fi­cado SSL
  • Suporte 24 horas por dia, 365 dias por ano

O que é WordPress robots.txt?

Robôs (bots) chamados crawlers estão cons­tan­te­mente vas­cu­lhando a internet, à procura de sites. Estes programas, uti­li­za­dos pelos diversos me­ca­nis­mos de busca, tem a missão de indexar o maior número possível de páginas e sub­pá­gi­nas, assim incluindo-as nos re­sul­ta­dos das pesquisas. Para que os crawlers analisem cor­re­ta­mente o seu site, você precisa orientá-los, ga­ran­tindo que eles só encontrem as páginas des­ti­na­das ao público. Isso evita a indexação de conteúdos ir­re­le­van­tes.

Para controlar o caminho dos crawlers, você pode usar o arquivo robots.txt. No WordPress e em outros CMS, esse arquivo determina quais seções do site devem ser indexadas por crawlers e quais não. Mo­di­fi­cando o robots.txt, você pode bloquear ou permitir robôs es­pe­cí­fi­cos, além de definir pre­ci­sa­mente quais me­ca­nis­mos de busca en­con­tra­rão quais conteúdos e os incluirão nos re­sul­ta­dos das pesquisas. Cada domínio tem seu crawl budget: um número limitado de páginas indexadas di­a­ri­a­mente pelos* crawlers* de um de­ter­mi­nado mecanismo de busca. Por isso, é muito im­por­tante destacar páginas prin­ci­pais e excluir sub­pá­gi­nas ir­re­le­van­tes.

Dica

Você está a poucos cliques do domínio que você deseja. Registre seu domínio com a IONOS com toda a pra­ti­ci­dade e receba o melhor suporte, diversos recursos de segurança e uma caixa de e-mail com 2GB de espaço.

Para que serve o WordPress robots.txt?

No WordPress, o robots.txt determina pre­ci­sa­mente quais conteúdos são indexados por me­ca­nis­mos de busca e quais são ignorados, o que pode ser muito vantajoso para quem tem um site. Por exemplo: sua página inicial deve conseguir a melhor colocação possível nas buscas re­la­ci­o­na­das. Por outro lado, uma subpágina com in­for­ma­ções técnicas ou jurídicas não precisa ser indexada. Co­men­tá­rios e pu­bli­ca­ções ar­qui­va­das também não agregam nenhum valor à busca e, pelo contrário, podem até pre­ju­di­car os re­sul­ta­dos — como nos casos em que os me­ca­nis­mos de busca detectam conteúdo duplicado no site e o avaliam ne­ga­ti­va­mente. Com o arquivo robots.txt no WordPress, você evita casos assim e direciona os diversos crawlers para as seções do seu site que realmente devem ser en­con­tra­das.

WordPress robots.txt au­to­má­tico

O próprio WordPress gera um robots.txt au­to­ma­ti­ca­mente, já criando uma base im­por­tante. Mas esse arquivo au­to­má­tico é simples demais e, por isso, serve apenas como ponto de partida. Ele contém o seguinte código:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
php

O “User-agent” descrito na primeira linha refere-se ao crawler. O asterisco significa que qualquer mecanismo de busca pode enviar bots para o site. Em princípio, isso é re­co­men­dá­vel, pois assim seu site será en­con­trado com mais frequên­cia. O comando “Disallow” impede o acesso dos crawlers aos di­re­tó­rios es­pe­ci­fi­ca­dos (neste caso, à área de ad­mi­nis­tra­ção e ao diretório de arquivos internos do WordPress). O robots.txt bloqueia essas seções para me­ca­nis­mos de busca, pois as páginas nelas contidas não têm nenhuma utilidade para os vi­si­tan­tes. Para ter certeza de que somente você acessará essas áreas, proteja-as con­fi­gu­rando uma senha forte.

Dica

Como ad­mi­nis­tra­dor de um site, você pode proteger seu login no WordPress com o arquivo .htaccess.

O que incluir em um arquivo WordPress robots.txt

Ob­vi­a­mente, me­ca­nis­mos de busca como o Google devem continuar en­con­trando seu site com fa­ci­li­dade. Porém serviços ma­li­ci­o­sos ou suspeitos, como o Dugg­Mir­ror, não devem. Você também pode bloqueá-los usando o robots.txt no WordPress. Além disso, você deve excluir da indexação páginas que têm pouca ou nenhuma re­le­vân­cia para buscas (como themes uti­li­za­dos, in­for­ma­ções jurídicas, etc.). Plugins também não devem ser indexados, não só por serem ir­re­le­van­tes para o público, mas também por motivos de segurança. Caso algum plugin tenha uma falha de segurança, sua indexação pode permitir que invasores encontrem e afetem seu site.

Na maioria dos casos, os dois comandos men­ci­o­na­dos an­te­ri­or­mente já são su­fi­ci­en­tes para usar o robots.txt no WordPress de forma adequada. “User-agent” determina a quais bots o comando se aplicará. Assim, você pode definir exceções para me­ca­nis­mos de busca es­pe­cí­fi­cos, ou criar regras básicas. “Disallow” proíbe o acesso de crawlers a uma de­ter­mi­nada página ou subpágina. O terceiro comando, “Allow”, ge­ral­mente não é im­por­tante, pois o acesso é permitido por padrão. Você só precisará usá-lo caso deseje bloquear uma página, mas permitir o acesso às sub­pá­gi­nas dela.

Dica

Conheça o jeito mais rápido de conseguir o próprio site: com o Hospedagem para WordPress da IONOS, você aproveita uma série de vantagens. Além de domínios gratuitos per­ma­nen­tes, o serviço inclui SSD, HTTP/2 e gzip. Escolha o plano mais adequado às suas ne­ces­si­da­des.

Como con­fi­gu­rar WordPress robots.txt ma­nu­al­mente

Para uma con­fi­gu­ra­ção mais per­so­na­li­zada, você mesmo pode modificar o arquivo robots.txt do seu site WordPress. Basta seguir alguns passos simples:

  • Passo 1: Em qualquer editor de texto, crie um arquivo vazio chamado “robots.txt”.
  • Passo 2: Carregue esse arquivo no diretório-raiz do seu domínio.
  • Passo 3: Edite o arquivo por SFTP ou carregue um novo arquivo de texto.

Com os comandos que apre­sen­ta­mos acima, você controla quais regras e exceções se aplicam ao seu site. Para bloquear o acesso a uma pasta es­pe­cí­fica, escreva o código abaixo, subs­ti­tuindo “folder” pelo nome da pasta:

Imagem: Captura de tela de um arquivo robots.txt bloqueando acesso a uma pasta
Use este comando para bloquear uma pasta es­pe­cí­fica para todos os crawlers

Para impedir o acesso de um de­ter­mi­nado bot ao seu site, insira o seguinte comando, trocando “Crawler” pelo nome do bot:

Imagem: Captura de tela de um arquivo robots.txt bloqueando um crawler específico
Use este comando para impedir o acesso de um *crawler* es­pe­cí­fico ao site

Plugins para criar um arquivo WordPress robots.txt

Você também pode criar e editar um arquivo WordPress robots.txt usando um plugin de SEO. Isso talvez seja ainda mais fácil, pois tudo é feito com pra­ti­ci­dade e segurança pelo Painel. Um plugin muito popular para indexação é o Yoast SEO. Estes são os passos a serem tomados:

  • Passo 1: Antes de tudo, instale e ative o plugin.
  • Passo 2: Permita que o plugin altere con­fi­gu­ra­ções avançadas. Para isso, vá para “SEO” > “Dashboard” > “Features” e, no item “Advanced settings pages”, clique na opção “Enabled”.
  • Passo 3: Depois da au­to­ri­za­ção, faça as al­te­ra­ções pelo Painel, acessando “SEO” > “Tools” > “File editor”. Nesse editor de arquivos, você pode criar e editar di­re­ta­mente um novo arquivo robots.txt no WordPress. As al­te­ra­ções têm efeito imediato.

Como testar as mo­di­fi­ca­ções

Neste momento, você já con­fi­gu­rou seu site, definiu suas regras e, pelo menos em tese, bloqueou alguns crawlers e tornou in­vi­sí­veis certas sub­pá­gi­nas. Mas como ter certeza de que todas as suas al­te­ra­ções fun­ci­o­na­ram? Para checar as mo­di­fi­ca­ções, use o Google Search Console. Nessa fer­ra­menta, do lado esquerdo, no item “Crawl”, você encontra o “robots.txt Tester”. Ali você deve inserir o endereço das suas páginas e sub­pá­gi­nas, para ver se são en­con­tra­das ou estão blo­que­a­das. A indicação “allowed”, em verde, na borda inferior direita, indica que os crawlers encontram e con­si­de­ram a página. Já a “di­sal­lowed”, em vermelho, mostra que a página não é indexada.

Conclusão: WordPress robots.txt otimiza e protege seu site

No WordPress, o robots.txt é um método simples e eficaz para de­ter­mi­nar quais partes do site poderão ser en­con­tra­das, e por quem. Se você já usa um plugin de SEO, como o Yoast, o jeito mais fácil é fazer as al­te­ra­ções pelo próprio plugin. Se não, você também pode criar e editar o arquivo ma­nu­al­mente, sem grandes di­fi­cul­da­des.

Dica

No IONOS Digital Guide você encontra uma série de dicas úteis sobre o WordPress. Ajudamos você a evitar os erros mais comuns no WordPress, ensinamos como deixar o WordPress mais rápido e ex­pli­ca­mos tudo sobre o WordPress Gutenberg. Nosso guia oferece respostas para todo tipo de dúvida.

Ir para o menu principal