Introdução ao Unicode

O Newsforge publicou um artigo introduzindo o Unicode, desenvolvido para ser o código de caracteres universal capaz de conter os símbolos de todos os idiomas e resolver as limitações dos herdeiros do código ASCII, que se limitam a 256 caracteres de cada vez e não permitem muita flexibilidade na representação de arquivos em múltiplos idiomas ou em idiomas com mais de 256 símbolos. O artigo tem o foco no suporte a Unicode pelo Linux, e é leitura recomendada para esta véspera de feriado.

» Caio Begotti () em 01/11 12:02

Oi, Augusto

Talvez seja legal dar um update na notícia com um link pra http://www.inf.ufsc.br/~nardin/utf8.txt (um texto bem "educativo" sobre Unicode e UTF-8. Pelo menos foi com esse texto que eu me convenci (um pouco) da superioridade deles, apesar de ainda não usar por birra :)

» Caio Begotti () em 01/11 12:34

Isso me lembrou um detalhe, uma dúvida, que deixo aí para alguém com mais conhecimento disso responder: é possível ter hoje um sistema 120% (piada, é 100% mesmo), tanto para escrita de dados quanto para leitura, em português do Brasil, usando Unicode/UTF-8?

» Luis Alberto GC () em 01/11 14:54

Ha!

Reforço a pergunta do Caio. Por misericórdia, quem hoje vive na luz, indique o caminho das pedras aos infiéis!

Meio off-topic, sei lá, o Windows Xuxa Park tá pressionando pra mudança pro UTF-8, não? Os Macs usam o quê? codepage própria ou UTF-8?

» Silvio Fonseca () em 01/11 16:34

Os Windows "modernos" (2k e XP se nao me engano) utilizam UTF-16...

Pra quem usa Debian, pra usar português com UTF-8: dpkg-reconfigure locales

Acho que isso já resolve... Alguém com mais know-how no assunto pode comfirmar?

» Silvio Fonseca () em 01/11 16:36

ops, sed s/comfirmar/confirmar/

» wconserta () em 01/11 16:38

a redhat/fedora e shackware/gentoo usam por padrão o UTF-8 , que sempre acaba dando problema de acentos nos programas quando em pt-BR ele desordena os ç e acentos

acho que ainda deve ser melhorado antes de ser o padrão nas distro

» Carlos Roberto () em 01/11 17:38

Engraçado, segundos antes de entrar no br-linux, estava pensando sobre o que seria o unicode que tanto ouso falar nesses ultimos tempos. Logo depois de carregar a pagina me deparo com uma notícia sobre ele. Hilário...

» Thomas () em 01/11 18:12

Eu estou utilizando UTF-8 no meu Debian Unstable.
Configurei através do dpkg-reconfigure locales.
O Gnome reconhece direitinho, mas o konqueror não mostra os nomes de arquivos direito e o kedit também tem que ser "informado" de que está editando um arquivo em UTF-8. Acho que falta algum trabalho nesse sentido ainda. Ou pode ser falha minha nas configurações da minha máquina :/

» luciano () em 02/11 10:04

O SuSE 9.1 passou a usar o UTF-8.

Alguem saberia me dizer a diferença entre UNICODE, UTF-8 e UTF-16.

A unica coisa que sei é que caga a codificação dos arquivos em ISO-8859-1 toda...

» Caio Begotti () em 02/11 12:07

Luciano, leia a URL que postei nos primeiros comentários. E já que falaram "que usam" UTF-8 aí sem problemas... eu havia esquecido de um detalhe: leitura e escrita em português do Brasil em qualquer programa mesmo, qualquer ambiente, seja gráfico ou terminal, seja pra ler e-mails de terceiros ou botar acentos em códigos de programas... algo do gênero "sentar e usar". Quanto ao problema de zoar caracteres ISO-*, Luciano, veja novamente a URL que lá tem a resposta.

» spuk () em 02/11 15:00

O que é um sistema 100%? KDE que eu saiba funciona "OK" com UTF-8.

Da pra escrever e ler pt_BR normalmente usando UTF-8 (i.e. UTF-8 tem todas as letras e sináis gráficos relevantes ao pt_BR, que eu saiba, mas nem pesquisei, e nem irei).

Acho que os grandes problemas para usar UTF-8 são: (a)coisas antigas que usem outros charsets, sem especificar qual (tipo arquivos "txt" em iso8859-1), cujo charset tem que ser "adivinhado"; e (b) troca de dados com pessoas que usem outros charsets, que também tenham que ser "adivinhados".

Na prática, uma grande b0sta é trocar emails com pessoas que usem charset não-UTF-8, porque o email acaba ficando com charsets misturados e não muito adivinháveis pelos programas, e mesmo que sejam adivinháveis, é necessário que o programa de email suporte um mesmo texto com pedaços charsets diferentes, etc., o que não é muito prático...

No trabalho usamos ISO8859-1, não há muito motivo, nem grande vantagem, atualmente, para mudar o charset de tudo para UTF-8, e possivelmente causaria algum problema...

caio1982, simplesmente deixe de ser mala, solte a franga, e use UTF-8, obrigando seus amigos a usarem também. Como diria o Pearl Jam: It's evolution, beibeéah.

Obs.: que coragem em ter uma notícia sobre algo tão passional e divergenciável em um sítio tão limpinho de fleimes e trolhas.

» Caio Begotti () em 02/11 15:16

Heh eu solto, mas o problema é esse, obrigar alguém a usar um charset específico é rídiculo, IMHO. Tá, sei que não existe retro-compatibilidade nesse caso com charset velhos e podres, já que o problema maior parece mesmo ser e-mail de outras pessoas e arquivos velhos (isso é pelo menos contornável, mas não no caso dos e-mails, acho). Uma solução seria uma migração em massa de distros e projetos grandes... algo como um consórcio temporário pra isso ser feito de uma vez, aí o problema já seria menor, acho.

Ah, IRC também é um problema com múltiplos charsets :P e honestamente acho menos trabalhoso simplesmente especificar um charset na instalação ou configuração do programa do que esquentar a cabeça *hoje* com isso.

» zé do caixão () em 02/11 15:52

Para quem quiser conhecer mais unicode (com um artigo de verdade), sugiro ler o artigo do Joel Spolsky, artigo excelente (como geralmente são os artigos dele).

Http://www.joelonsoftware.com/articles/Unicode.html

[]´s do Zé.

Comentários desativados: Esta discussão é antiga e foi arquivada, não é mais possível enviar comentários adicionais.

O Arquivo Histórico do BR-Linux.org mantém no ar (sem alteração, exceto quanto à formatação, layout, tabela de caracteres, etc.) o acervo de notícias, artigos e outros textos publicados originalmente no site na segunda metade da década de 1990 e na primeira década do século XXI, que contam parte considerável a história do Linux e do Open Source no Brasil. Exceto quando indicado em contrário, a autoria dos textos é de Augusto Campos, e os termos de uso podem ser consultados na capa do BR-Linux.org. Considerando seu caráter de acervo, é provável que boa parte dos links estejam quebrados, e que as informações deste texto estejam desatualizadas.