Visite também: Currículo ·  Efetividade BR-Mac

O que é LinuxDownload LinuxApostila LinuxEnviar notícia


Unicode dominando a web

Lembra quando as distribuições de Linux e softwares para servidores começaram a vir configurados por default para caracteres Unicode, fazendo a troca dos conjuntos específicos para cada idioma por um conjunto único, capaz de representar símbolos e caracteres especiais de uma grande variedade de idiomas, incluindo no mesmo espaço o nosso, os dos chineses (e outros representantes do oriente extremo), os arábicos (e outros do oriente médio), o dos zulus, e até os hieróglifos egípcios?

Eu era profissional da administração de sistemas na época, e embora tenha sofrido um pouco com a transição, não me esforcei para resistir a ela nos sistemas de arquivos – embora até hoje eu tenha e mantenha arquivos e scripts em ASCII puro, Latin-1, ISO-8859-1 e outros padrões que usei anteriormente, ou que eram adotados em empresas (um dia ainda tiro uma tarde para converter tudo, começando pelos que não estão mais sendo exibidos corretamente…)

Mas no que diz respeito ao conteúdo atual, eu adiro à maioria: é tudo Unicode.

E esta maioria está a poucos passos de galgar um degrau a mais: tornar-se superior à soma de todas as demais opções – ao menos no que diz respeito ao conjunto dos sites indexados pelo Google.

Consta que o Google vai promover uma festa quando a marca de 50% for ultrapassada. E como a tendência está bem clara no gráfico, não deve demorar. (via h-online.com)


• Publicado por Augusto Campos em 2010-02-01

Comentários dos leitores

Os comentários são responsabilidade de seus autores, e não são analisados ou aprovados pelo BR-Linux. Leia os Termos de uso do BR-Linux.

    Reikainosuke Nekomata (usuário não registrado) em 1/02/2010 às 4:10 pm

    Lembro-me quando fiz a transição a partir do ISO8859-1 alguns anos atrás, “na unha”, baseado em alguns HOW-TOs e com baita medo de alguma coisa dar errado. Mas depois, tudo tem corrido bem que até tenho esquecido sobre isso.

    Como,além do português e inglês, mexo com coisas em japonês, foi uma mão na roda. Espero que o Google realmente faça essa comemoração.

    mahousenshi (usuário não registrado) em 1/02/2010 às 4:18 pm

    O unicode tem kligon se eu não me engano.

    InFog (usuário não registrado) em 1/02/2010 às 4:39 pm

    E para fazer a integração de lojas virtuais com o PagSeguro do UOL ainda é necessário converter para ISO-8859-1 #fail.

    InFog (usuário não registrado) em 1/02/2010 às 4:40 pm

    E para fazer a integração de lojas virtuais com o PagSeguro do UOL ainda é necessário converter para ISO-8859-1 #fail

    Lucas (usuário não registrado) em 1/02/2010 às 5:36 pm

    Se não estou enganado, Latin-1 é apenas um apelido para ISO-8859-1, e não um encoding diferente.

    Igor Cavalcante (usuário não registrado) em 1/02/2010 às 5:50 pm

    A muito tempo todos os softwares que faço e banco de dados utilizo utf-8, ainda tem muita gente que desenvolve utilizando iso8879-1, prejudica muito a compatibilização com o resto do mundo.

    Lucas Timm (usuário não registrado) em 1/02/2010 às 6:04 pm

    Quando migrei do Windows, a maioria dos meus arquivos (principalmente minha coleção de MP3) era cheia de caracteres acentuados, cedilhados, pontuados, e outras coisas que o Linux não “entendeu” muito bem. Sofri aproximadamente um ano configurando o fstab e o resto do sistema pra trabalhar em ISO8859, e a cada remendo, outro problema aparecia.

    Até que em 2006, dei uma facada no sistema: Tirei tudo que tinha ISO8859 e converti pra UTF-8. Desde então, no desktop e nos meus servidores, tenho mantido essa codificação e ajudado a aumentar essa estatística.

    Unicode é o que há. “Atrás não volto, nunca mais.”

    E o UTF-16, não aparece nem na lista?

    Heaven (usuário não registrado) em 1/02/2010 às 8:49 pm

    @EmanuelSan

    Por enquanto o UTF-16 é para o futuro, pois ainda causa problemas.

    @EmanuelSan
    @Heaven

    O UTF-8 se tornou padrão porque ele consegue ser (quase) compatível mesmo com aplicações que não entendem UNICODE.

    Os caracteres ASCII até 127 (se não me engano) são representados da mesma forma, então o texto fica minimamente legível nesses casos.

    Como o UTF-16 representa todos os caracteres com 2 bytes aplicativos que não entendam UTF-16 não conseguem exibir o texto de uma forma legivel.

Este post é antigo (2010-02-01) e foi arquivado. O envio de novos comentários a este post já expirou.