charset=UTF-8 vs ISO-8859-1 e SEO

SEO e a relação entre UTF-8 e ISO-8859-1


Autor: Réulison Silva Publicado em: Maio 22, 2020

Hoje vamos discutir um tópico que parece bastante técnico, mas quando explicado é realmente fácil de entender.

Esse tópico é sobre charset=UTF-8 vs. ISO-8859-1 e sua relação com otimização para motores de busca.

O que é o conjunto de caracteres do documento?

De acordo com o w3.org: Para promover a interoperabilidade[1], o SGML[2] exige que cada aplicativo (incluindo HTML) especifique seu conjunto de caracteres do documento. Um conjunto de caracteres do documento consiste em:

  • Repertório: Um conjunto de caracteres abstratos, como por exemplo, a letra latina “A”, a letra do alfabeto cirílico[3] “I”, o caractere chinês que significa “água” etc.
  • Posições do código: um conjunto de referências inteiras aos caracteres do repertório.

Portanto, como podemos ver, o problema que estamos discutindo aqui é o tipo de conjunto de caracteres que usamos para codificar nossos sites. Se optarmos por codificar nossos sites em um determinado conjunto de caracteres, devemos alertar o navegador sobre o conjunto de caracteres que estamos usando.

Isso permitirá que o navegador exiba os dados corretamente. Nota: Neste artigo, não discutiremos como especificar os conjuntos de caracteres. Se você quiser aprender sobre a especificação do conjunto de caracteres, saiba mais aqui.

Agora que estamos esclarecidos sobre isso, vejamos o charset=UTF-8 vs. ISO-8859-1 e sua relação com SEO.

O que é charset=UTF-8?

De acordo com UTF8.com: UTF-8 significa Unicode Transformation Format-8. É uma codificação sem perdas de octetos (8 bits) de caracteres Unicode.

Parece complicado, então permita-me simplificá-la. UTF-8 é um padrão para codificação de sites. Ao codificar sites dessa maneira informa aos crawlers e navegadores que nossos sites são codificados nesse formato, podemos ter certeza de que nossas páginas serão exibidas corretamente.

Então, como informamos a um navegador que nossa página está codificada nesse idioma? Isso é fácil! Apenas colocamos um código na seção principal da nossa página. Se parece com isso.

Observe que há um código diferente para documentos HTML e XML.

UTF-8 para HTML

<!-- HTML4 -->
<meta http-equiv="Content-Type" content="text/html;charset=UTF-8" />
<!-- HTML5 -->
<meta charset="UTF-8" />

UTF-8 para XML

<?xml version="1.0" encoding="UTF-8" ?>

O que é ISO-8859-1?

De acordo com w3schools.com: ISO-8859-1 é o conjunto de caracteres padrão na maioria dos navegadores. Os primeiros 128 caracteres da ISO-8859-1 são o conjunto de caracteres ASCII original (os números de 0 a 9, o alfabeto inglês em maiúsculas e minúsculas e alguns caracteres especiais).

Portanto, o ISO-8859-1 é o conjunto de caracteres usado pela maioria dos navegadores. Por esse motivo, servidores antigos geralmente funcionam com ISO-8859-1.

ISO-8859-1 para HTML

<!-- HTML4 -->
<meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1" />
<!-- HTML5 -->
<meta charset="ISO-8859-1" />

ISO-8859-1 para XML

<?xml version="1.0" encoding="ISO-8859-1"?>

Qual é a diferença entre UTF-8 e ISO-8859-1?

Esta é realmente a questão, qual é a diferença entre os dois? A partir de agora, eles são realmente apenas uma questão de preferência ou estrutura. Se você escolher um padrão e cumpri-lo, ficará bem. Mas se você quiser entrar em detalhes, aqui estão eles.

UTF-8 suporta mais caracteres que ISO-8859-1. Se você precisar de mais caracteres, esta é uma boa opção.

O ISO-8859-1 é o padrão para a maioria dos navegadores, portanto, possui um suporte mais amplo.

Como isso poderia afetar o SEO?

Se você escolhe UTF-8 ou ISO-8859-1, ele não deve ter um grande efeito no que refere a SEO. Pode haver problemas em potencial se você exibir ambos os padrões por engano no cabeçalho ou não aderir corretamente ao padrão.

Por exemplo, se você não seguir as regras da ISO-8859-1 e seus caracteres forem exibidos incorretamente, poderão ocorrer algumas coisas, como:

  • Outros sites podem ficar com receio em enviar links para você;
  • As pessoas podem não gostar da experiência de ver caracteres ilegíveis e abandonar seu site.
  • Os motores de busca podem ter dificuldades em interpretar seus dados da melhor maneira possível.

É simples, basta escolher um padrão e cumpri-lo. Nos últimos anos, houve uma tendência no desenvolvimento de aplicações usando UTF-8 devido a sua abrangência maior , então fica a dica.

[2]: O alfabeto cirílico (em búlgaro e macedônio: кирилица; em russo: кириллица; em ucraniano: osкирилиця; em bielorrusso: кірыліца; em ruteno: кырилиця; em sérvio: ћирилица), também conhecido como azbuka, é um alfabeto cujas variantes são utilizadas para a grafia de seis línguas nacionais eslavas (bielorrusso, búlgaro, macedônio, russo, sérvio. e ucraniano), além do ruteno, e outras línguas extintas.

[2]: A linguagem de marcação Standard Generalized Markup Language (SGML) é um padrão internacional, não proprietário e de código aberto, utilizado já há bastante tempo para troca eletrônica de dados e que pode ser utilizada por diferentes sistemas informatizados.

[3]: Interoperabilidade é a capacidade de um sistema (informatizado ou não) de se comunicar de forma transparente (ou o mais próximo disso) com outro sistema (semelhante ou não). Para um sistema ser considerado interoperável, é muito importante que ele trabalhe com padrões abertos ou ontologias. Seja um sistema de portal, seja um sistema educacional ou ainda um sistema de comércio eletrônico, ou e-commerce, hoje em dia se caminha cada vez mais para a criação de padrões para sistemas.