Arquivos históricos do BR-Linux.org apresenta:

Linux in Brazil (Indexando seu site com o ht://dig )

Pesquisando em seu site com o ht://Dig

Um dos usos mais frequentes do Linux em redes de empresas é como servidor web para uso interno ou até mesmo para a Internet. A maior parte das distribuições comerciais de Linux já vem com o servidor web Apache pré-configurado, pronto para hospedar os seus documentos HTML.

Entretanto, muitos usuários recentes do Linux ignoram outra ferramenta importante que é distribuída com a maior parte das distribuições: o ht://Dig, um sistema capaz de gerar índices e pesquisas no seu servidor web.

O ht://Dig tem muitos recursos interessantes, capazes de gerar uma ferramenta de busca completa e incrementar bastante os recursos do seu site, seja ele uma Intranet ou um site na Internet. Particularmente, a aparência das páginas geradas por ele é bastante configurável, o que vai alegrar os designers do seu site, já que eles poderão fazer com que o seu sistema de busca tenha a "cara" do seu site.

O ht://Dig indexa as páginas através de um robô de busca ou aranha. Isto significa que você não terá que fazer nenhuma alteração na configuração do seu servidor web, ou nas suas páginas, para que ele seja executado. Basta informar ao ht://Dig qual o endereço da página inicial do seu site, e quais os domínios que ele pode indexar, e ele sairá seguindo automaticamente todos os links do seu site, e gerando a base de dados de pesquisa. Esta tarefa pode inclusive ser rodada a partir de um processo na cron do Linux, e você terá atualizações periódica (digamos, de 2 em 2 horas) da sua base de dados de pesquisa, automaticamente.

Outra vantagem do funcionamento através de robôs é que o ht://Dig não precisa estar instalado na mesma máquina onde estão as páginas que ele irá indexar. Basta que as páginas estejam em um servidor web (mesmo que seja um servidor proprietário, como o IIS ou o Domino) ao qual o ht://Dig tenha condições de se conectar! Do ponto de vista do seu servidor web, o ht://Dig é apenas mais um cliente...

Além de tudo isso, e ao contrário de outras ferramentas de busca mais simples, o ht://Dig tem amplo suporte ao nosso alfabeto, incluindo a acentuação.

Em suma, o ht://Dig está longe de poder se comparar ao Altavista, Lycos ou outro dos search engines de grande porte - e nem tem esta intenção - mas apresenta funcionalidades semelhantes para sites de tamanho limitado, como por exemplo as páginas de uma universidade ou empresa.

Instalação

Todas as distribuições de Linux que tenham chegado ao nosso conhecimento incluem uma versão do htdig, o que nos poupa a necessidade de explicar como instalá-lo. Siga os procedimentos padronizados pela sua distribuição, e tudo deverá correr bem. Caso você realmente necessite, faça o download do ht://Dig em htdig.org, e siga as instruções de instalação que o acompanham.

Configuração

A configuração do ht://Dig é bastante simples, principalmente se você conhecer bem a arquitetura do seu servidor web e da máquina onde o ht://Dig irá rodar (caso sejam diferentes). Não apresentaremos um tutorial de configuração (que você encontra no site oficial do ht://Dig), mas daremos algumas dicas básicas, para que você tenha idéia da simplicidade do processo.

O principal arquivo de configuração é o htdig.conf, que pode estar em /etc/htdig/htdig.conf ou em outro diretório a critério dos autores de sua distribuição de Linux. Neste arquivo serão informados parâmetros como a URL da página inicial do site a ser indexado, o path para gravação das bases de dados, os domínios a serem incluídos na busca, e vários outros. As opções básicas deste arquivo constam na configuração de exemplo que é distribuída, repletas de comentários (em inglês) que transformam a configuração inicial em uma tarefa ao alcance até de administradores iniciantes.

Outro arquivo que você irá querer alterar logo no início é o search.html, que contém o formulário básico de pesquisa. O formulário padrão é bastante sem-graça, e não é preciso ser nenhum gênio de HTML para encontrar idéias criativas de formulários.

Os outros quatro arquivos de configuração são o header.html, footer.html, nomatch.html e syntax.html. Os dois primeiros são respectivamente o cabeçalho e rodapé que serão anexados ao documento de resposta das pesquisas bem-sucedidas. O nomatch.html é o documento que será exibido ao usuário que executar uma pesquisa para a qual não houver resposta positiva. E o syntax.html será exibido ao usuário que tentar fazer uma pesquisa com erros.

Exemplo de uso

A ferramenta de busca do Trix, que você pode usar para pesquisar todo o conteúdo do Linux in Brazil, é baseada no ht://Dig. Confira!

O Arquivo Histórico do BR-Linux.org mantém no ar (sem alteração, exceto quanto à formatação) notícias, artigos e outros textos publicados originalmente no site na segunda metade da década de 1990 e na primeira década do século XXI, que contam parte considerável a história do Linux e do Open Source no Brasil. Exceto quando indicado em contrário, a autoria dos textos é de Augusto Campos, e os termos de uso podem ser consultados na capa do BR-Linux.org. Considerando seu caráter histórico, é provável que boa parte dos links estejam quebrados, e que as informações deste texto estejam desatualizadas.