Visite também: Currículo ·  Efetividade BR-Mac

O que é LinuxDownload LinuxApostila LinuxEnviar notícia


Artigo sobre raspagem de dados

Enviado por Mauro Pichiliani (pichilianiΘuol·com·br):

“O conceito de raspagem de dados, ou data scrapping, não é novo. Desde os primórdios da informática já havia a necessidade e soluções para se obter dados a partir da tela do computador, ou seja, obter os dados que estão em telas, relatórios e outros formatos que não são convencionais. Neste artigo comento sobre uma idéia que já é antiga, mas vem ganhando alguma atenção recentemente: a raspagem de dados. Comentarei sobre o que se trata, alguns detalhes, um exemplo e também apresentarei outras questões relevantes.” [referência: imasters.uol.com.br]

• Publicado por Augusto Campos em 2010-01-08

Comentários dos leitores

Os comentários são responsabilidade de seus autores, e não são analisados ou aprovados pelo BR-Linux. Leia os Termos de uso do BR-Linux.

    tobias (usuário não registrado) em 8/01/2010 às 1:36 pm

    meio gambiarra não?

    Bem, achei interessante a idéia e não tão gambiarresca assim não.

    O engraçado foi o cara utilizar um incrível utilitário para Windows chamado wget.exe para baixar as páginas :-)

    Ás vezes me assusto com as coisas que são possíveis de serem feitas com o lynx, wget, curl, sed e alguns pipes juntando tudo isso :-)

    Há como converter documentos como PDF para xml, o que facilita bastante a obtenção de conteúdo destas fontes binárias.

    abngo (usuário não registrado) em 8/01/2010 às 2:48 pm

    ue ? o cara descobriu o wget.exe semana passada, dá um desconto pro cara, o artigo está excelente!
    :D

    Igor Cavalcante (usuário não registrado) em 8/01/2010 às 2:56 pm

    Em ambientes de desenvolvimento onde existem muitas migrações de sistemas, é uma idéia bem interessante.

    @abngo, eu achei interessante a idéia e o artigo. O wget.exe não foi uma cítica não :-)

    olh (usuário não registrado) em 8/01/2010 às 5:42 pm

    Só pra poder trollar: 15 linhas em Python com urllib e pyxml.

Este post é antigo (2010-01-08) e foi arquivado. O envio de novos comentários a este post já expirou.