Notícia publicada por brain em novembro 1, 2004 10:52 AM
| TrackBack
O Newsforge publicou um artigo introduzindo o Unicode, desenvolvido para ser o código de caracteres universal capaz de conter os símbolos de todos os idiomas e resolver as limitações dos herdeiros do código ASCII, que se limitam a 256 caracteres de cada vez e não permitem muita flexibilidade na representação de arquivos em múltiplos idiomas ou em idiomas com mais de 256 símbolos. O artigo tem o foco no suporte a Unicode pelo Linux, e é leitura recomendada para esta véspera de feriado.
Oi, Augusto
Talvez seja legal dar um update na notícia com um link pra http://www.inf.ufsc.br/~nardin/utf8.txt (um texto bem "educativo" sobre Unicode e UTF-8. Pelo menos foi com esse texto que eu me convenci (um pouco) da superioridade deles, apesar de ainda não usar por birra :)
Isso me lembrou um detalhe, uma dúvida, que deixo aí para alguém com mais conhecimento disso responder: é possível ter hoje um sistema 120% (piada, é 100% mesmo), tanto para escrita de dados quanto para leitura, em português do Brasil, usando Unicode/UTF-8?
Ha!
Reforço a pergunta do Caio. Por misericórdia, quem hoje vive na luz, indique o caminho das pedras aos infiéis!
Meio off-topic, sei lá, o Windows Xuxa Park tá pressionando pra mudança pro UTF-8, não? Os Macs usam o quê? codepage própria ou UTF-8?
Os Windows "modernos" (2k e XP se nao me engano) utilizam UTF-16...
Pra quem usa Debian, pra usar português com UTF-8: dpkg-reconfigure locales
Acho que isso já resolve... Alguém com mais know-how no assunto pode comfirmar?
ops, sed s/comfirmar/confirmar/
a redhat/fedora e shackware/gentoo usam por padrão o UTF-8 , que sempre acaba dando problema de acentos nos programas quando em pt-BR ele desordena os ç e acentos
acho que ainda deve ser melhorado antes de ser o padrão nas distro
Engraçado, segundos antes de entrar no br-linux, estava pensando sobre o que seria o unicode que tanto ouso falar nesses ultimos tempos. Logo depois de carregar a pagina me deparo com uma notícia sobre ele. Hilário...
Eu estou utilizando UTF-8 no meu Debian Unstable.
Configurei através do dpkg-reconfigure locales.
O Gnome reconhece direitinho, mas o konqueror não mostra os nomes de arquivos direito e o kedit também tem que ser "informado" de que está editando um arquivo em UTF-8. Acho que falta algum trabalho nesse sentido ainda. Ou pode ser falha minha nas configurações da minha máquina :/
O SuSE 9.1 passou a usar o UTF-8.
Alguem saberia me dizer a diferença entre UNICODE, UTF-8 e UTF-16.
A unica coisa que sei é que caga a codificação dos arquivos em ISO-8859-1 toda...
Luciano, leia a URL que postei nos primeiros comentários. E já que falaram "que usam" UTF-8 aí sem problemas... eu havia esquecido de um detalhe: leitura e escrita em português do Brasil em qualquer programa mesmo, qualquer ambiente, seja gráfico ou terminal, seja pra ler e-mails de terceiros ou botar acentos em códigos de programas... algo do gênero "sentar e usar". Quanto ao problema de zoar caracteres ISO-*, Luciano, veja novamente a URL que lá tem a resposta.
O que é um sistema 100%? KDE que eu saiba funciona "OK" com UTF-8.
Da pra escrever e ler pt_BR normalmente usando UTF-8 (i.e. UTF-8 tem todas as letras e sináis gráficos relevantes ao pt_BR, que eu saiba, mas nem pesquisei, e nem irei).
Acho que os grandes problemas para usar UTF-8 são: (a)coisas antigas que usem outros charsets, sem especificar qual (tipo arquivos "txt" em iso8859-1), cujo charset tem que ser "adivinhado"; e (b) troca de dados com pessoas que usem outros charsets, que também tenham que ser "adivinhados".
Na prática, uma grande b0sta é trocar emails com pessoas que usem charset não-UTF-8, porque o email acaba ficando com charsets misturados e não muito adivinháveis pelos programas, e mesmo que sejam adivinháveis, é necessário que o programa de email suporte um mesmo texto com pedaços charsets diferentes, etc., o que não é muito prático...
No trabalho usamos ISO8859-1, não há muito motivo, nem grande vantagem, atualmente, para mudar o charset de tudo para UTF-8, e possivelmente causaria algum problema...
caio1982, simplesmente deixe de ser mala, solte a franga, e use UTF-8, obrigando seus amigos a usarem também. Como diria o Pearl Jam: It's evolution, beibeéah.
Obs.: que coragem em ter uma notícia sobre algo tão passional e divergenciável em um sítio tão limpinho de fleimes e trolhas.
Heh eu solto, mas o problema é esse, obrigar alguém a usar um charset específico é rídiculo, IMHO. Tá, sei que não existe retro-compatibilidade nesse caso com charset velhos e podres, já que o problema maior parece mesmo ser e-mail de outras pessoas e arquivos velhos (isso é pelo menos contornável, mas não no caso dos e-mails, acho). Uma solução seria uma migração em massa de distros e projetos grandes... algo como um consórcio temporário pra isso ser feito de uma vez, aí o problema já seria menor, acho.
Ah, IRC também é um problema com múltiplos charsets :P e honestamente acho menos trabalhoso simplesmente especificar um charset na instalação ou configuração do programa do que esquentar a cabeça *hoje* com isso.
Para quem quiser conhecer mais unicode (com um artigo de verdade), sugiro ler o artigo do Joel Spolsky, artigo excelente (como geralmente são os artigos dele).
Http://www.joelonsoftware.com/articles/Unicode.html
[]´s do Zé.
Comentários desativados: Esta discussão é antiga e foi arquivada, não é mais possível enviar comentários adicionais.