Visite também: Currículo ·  Efetividade BR-Mac

O que é LinuxDownload LinuxApostila LinuxEnviar notícia


Titanic nefelibático: Servidores dos serviços de nuvens da Amazon falham e ficam 36h offline

Como uma versão do insubmersível Titanic navegando nas nuvens, o serviço da Amazon que garante a infraestrutura de bom número de nomes conhecidos da computação em nuvem (Foursquare, Instagr.am, Reddit, etc.) e muitos outros semianônimos que aderiram ao novo modelo sofreu um acidente grave durante o feriadão brasileiro – mas voltou a emergir após a crise.

Apesar da sua promessa de ficar no ar durante 99,95% do tempo (o que corresponde a cerca de 4,4 horas de parada aceitável por ano), para uma série de clientes os serviços da gigante ficaram fora do ar por 36 horas consecutivas, colocando à prova os planos de disponibilidade, contingência e recuperação de desastres de muitos deles – ou demonstrando a necessidade de planejá-los, para quem anteriormente se limitou a confiar no fornecedor.

Trecho da Info:

Os sites que utilizam o serviço de hospedagem e de computação em núvem da Amazon voltaram ao ar após a pane que afetou os servidores da empresa durante o fim de semana prolongado.

Entre as cerca de 70 grandes empresas que mantêm suas bases na Amazon e que foram atigindidas pela falha estão o Foursquare, New York Times, Reddit, Quora, Instagr.am, entre outros.

De acordo com o paínel do Amazon Web Services, todos os serviços operam normalmente nesta segunda, porém, nem todos os dados dos clientes foram restaurados. A empresa afirmou que trabalha para resolver casos individuais.

Considerado o Titanic dos serviços em nuvem, com uma série de backups alinhados em fila, os servidores da Amazon estão (…) (via info.abril.com.br)


• Publicado por Augusto Campos em 2011-04-25

Comentários dos leitores

Os comentários são responsabilidade de seus autores, e não são analisados ou aprovados pelo BR-Linux. Leia os Termos de uso do BR-Linux.

    Rael Gugelmin Cunha (usuário não registrado) em 25/04/2011 às 3:02 pm

    A Amazon ficou fora, a PSN (Playstation Network) está fora a quase uma semana, e até a rede da Nintendo ficou umas horas fora.

    No caso da Big N e da Sony, as redes foram terceirizadas.

    psantos (usuário não registrado) em 25/04/2011 às 3:15 pm

    Dependendo do acordo de nivel de serviço fechado com seus clientes, multas milionárias à vista.

    That's all folks (usuário não registrado) em 25/04/2011 às 3:44 pm

    Do it ANONYMOUS!!!

    André Moraes (usuário não registrado) em 25/04/2011 às 3:59 pm

    Não dá pra não falar:
    Stallman was Right!

    Quanto às multas, o serviço da Amazon é bem claro e praticamente remove todo tipo de possível causa de problema do que é coberto nos 99% de tempo.

    Resumindo, acho que na pior das hipóteses a Amazon só vai dar um “descontão” pro pessoal.

    Agora isso deve ter sido causado quando alguém queria muito fazer café e desligou o “super ultra mega switch principal” para ligar a cafeteira. :D

    Márcio Carneiro (usuário não registrado) em 25/04/2011 às 4:01 pm

    Mais um caso de bala de prata. Vendida como solução para todos os problemas de infraestrutura, a nuvem iria revolucionar o mundo da TI.
    Esse caso da Amazon apenas é mais uma demonstração de que não existe a bala de prata.

    André Moraes (usuário não registrado) em 25/04/2011 às 4:02 pm

    Só para esclarecer o título do artigo.
    http://pt.wikipedia.org/wiki/Nefelibata

    Nessa o Augusto se superou.

    Tobias (usuário não registrado) em 25/04/2011 às 4:04 pm

    Q isso pessoal, cloud eh o futuro da computação, qem vc confia mais pra monitorar seus sevidores, vc ou o amazon, google etc?
    Quem ainda n deixou seus dados na mao de terceiros eh que tah comendo mosca, eh seguro….

    Alex Maia Sanchez (usuário não registrado) em 25/04/2011 às 4:12 pm

    http://vimeo.com/11769593

    Na certeza de ser massacrado, resolvi resgatar um vídeo de muitos anos, quando a Novell (a do mal, rsrsrs) resolveu embarcar no software livre. Assistam e creio que pode servir de lição para os “nossos” casos de sucesso.

    Paulo (usuário não registrado) em 25/04/2011 às 4:12 pm

    A culpa vai sobrar pra algum estagiario =D

    Allan (usuário não registrado) em 25/04/2011 às 4:44 pm

    Engraçado que todo serviço de hospedagem garante 99.9% de uptime, desde amazon até aqueles hosting de cidade do interior que o sobrinho cuida do “datacenter”.

    foobob (usuário não registrado) em 25/04/2011 às 4:52 pm

    Stallman está sempre certo.

    R. Stallman (usuário não registrado) em 25/04/2011 às 5:03 pm

    Eu disse, eu disse!

    Tércio Martins (usuário não registrado) em 25/04/2011 às 5:04 pm

    Correção ao comentário acima: O Stallman só está errado quando não está certo =D

    Augusto, a tua nota de resumo está maior que a fonte da informação… pra você ver o nível da Info.

    Enfim, outras fontes melhores, análises, etc: http://highscalability.com/blog/2011/4/25/the-big-list-of-articles-on-the-amazon-outage.html

    Resumo do resumo: Não foi a Amazon inteira que falhou, somente parte de um datacenter na Virgínia Setentrional(subúrbio de Washington, D.C.), causado por uma falha de replicação de volumes, onde o sistema detectou a falha, tentou replicar novamente, e novamente, sobrecarregando toda a zona de disponibilidade. As outras zonas dentro do mesmo datacenter, que deveriam ser independentes entre si, também foram afetadas, fazendo o failover falhar.

    Assim as empresas quem não tinham replicação manual entre datacenters distintos, entre outras técnicas de failover próprias, ficaram fora do ar.

    Enfim, foi uma boa lição para todos.

    Aliás, o pessoal afetado, além de estarem chateados com o acontecido, estão putos mesmo é com a falta de comunicação da Amazon com os consumidores deles.

    Só lêem respostas genéricas, inúteis, não explicando o que ocorreu e que medidas os afetados deveriam tomar, enfim, deixaram todos numa penumbra por mais de 3 dias.

    Amarok (usuário não registrado) em 25/04/2011 às 7:21 pm

    O problema de computação nas nuvens é que nas nuvens também há tempestades e trovoadas, sem contar que para chegar aos céus é preciso um avião (e no caso de computação das nuvens de acesso à internet), o que dobra a possibilidade de indisponibilidade dos serviços hospedados nas nuvens.

    André Machado (usuário não registrado) em 25/04/2011 às 8:57 pm

    Atualmente, muitas pessoas colocam suas vidas e seus negócios na Internet (ou na Nuvem), mas é necessário que lembremos que este é apenas um mundo virtual: uma falha como essa ou um blecaute generalizado pode pôr tudo a perder. Um suposto ataque terrorista que deixe o mundo offline por algumas horas poderia instaurar o caos. As tecnologias mais avançadas ainda dependem das mais primitivas para funcionarem!

    Weber Jr . (usuário não registrado) em 25/04/2011 às 9:47 pm

    Furada da Amazon, mas a velha questão de não colocar todos os ovos na mesma cesta continua valendo.

    Boa hora para lembrar das várias opções (sempre com linux como base, claro) para manter uma “nuvem particular” na sua própria rede.

    Ironmaniaco (usuário não registrado) em 25/04/2011 às 10:43 pm

    Pois é

    CLientes nossos que geram Builds na Nuvem EC2(Amazon Elastic Compute Cloud) reclamaram de agents que não sincronizavam, e perderam tempo de build…

    …é por isso que chamam de computação na Nuvem. Vem um vento e leva
    [piadaOff]

    André Luiz (usuário não registrado) em 25/04/2011 às 11:15 pm

    36h? Hummm…
    Eu cobraria 9 anos sem interrupção!

    eMule (usuário não registrado) em 26/04/2011 às 3:23 am

    Acessei normalmente o Instagr.am, o feriado todo, não vi qualque erro ou lentidão, não se pode acreditar 100% em tudo que se lê, parece que estão querendo denegrir ou fazer maketing viral convencional.

    kashmir (usuário não registrado) em 26/04/2011 às 4:11 am

    “As outras zonas dentro do mesmo datacenter, que deveriam ser independentes entre si, também foram afetadas, fazendo o failover falhar.” muhahahahah

    Mas como diabos essa infra deles não usou os outros 4 datacenters?

Este post é antigo (2011-04-25) e foi arquivado. O envio de novos comentários a este post já expirou.