Titanic nefelibático: Servidores dos serviços de nuvens da Amazon falham e ficam 36h offline
Como uma versão do insubmersível Titanic navegando nas nuvens, o serviço da Amazon que garante a infraestrutura de bom número de nomes conhecidos da computação em nuvem (Foursquare, Instagr.am, Reddit, etc.) e muitos outros semianônimos que aderiram ao novo modelo sofreu um acidente grave durante o feriadão brasileiro – mas voltou a emergir após a crise.
Apesar da sua promessa de ficar no ar durante 99,95% do tempo (o que corresponde a cerca de 4,4 horas de parada aceitável por ano), para uma série de clientes os serviços da gigante ficaram fora do ar por 36 horas consecutivas, colocando à prova os planos de disponibilidade, contingência e recuperação de desastres de muitos deles – ou demonstrando a necessidade de planejá-los, para quem anteriormente se limitou a confiar no fornecedor.
Trecho da Info:
Os sites que utilizam o serviço de hospedagem e de computação em núvem da Amazon voltaram ao ar após a pane que afetou os servidores da empresa durante o fim de semana prolongado.
Entre as cerca de 70 grandes empresas que mantêm suas bases na Amazon e que foram atigindidas pela falha estão o Foursquare, New York Times, Reddit, Quora, Instagr.am, entre outros.
De acordo com o paínel do Amazon Web Services, todos os serviços operam normalmente nesta segunda, porém, nem todos os dados dos clientes foram restaurados. A empresa afirmou que trabalha para resolver casos individuais.
Considerado o Titanic dos serviços em nuvem, com uma série de backups alinhados em fila, os servidores da Amazon estão (…) (via info.abril.com.br)
A Amazon ficou fora, a PSN (Playstation Network) está fora a quase uma semana, e até a rede da Nintendo ficou umas horas fora.
No caso da Big N e da Sony, as redes foram terceirizadas.
Dependendo do acordo de nivel de serviço fechado com seus clientes, multas milionárias à vista.
Do it ANONYMOUS!!!
Não dá pra não falar:
Stallman was Right!
Quanto às multas, o serviço da Amazon é bem claro e praticamente remove todo tipo de possível causa de problema do que é coberto nos 99% de tempo.
Resumindo, acho que na pior das hipóteses a Amazon só vai dar um “descontão” pro pessoal.
Agora isso deve ter sido causado quando alguém queria muito fazer café e desligou o “super ultra mega switch principal” para ligar a cafeteira. :D
Mais um caso de bala de prata. Vendida como solução para todos os problemas de infraestrutura, a nuvem iria revolucionar o mundo da TI.
Esse caso da Amazon apenas é mais uma demonstração de que não existe a bala de prata.
Só para esclarecer o título do artigo.
http://pt.wikipedia.org/wiki/Nefelibata
Nessa o Augusto se superou.
Q isso pessoal, cloud eh o futuro da computação, qem vc confia mais pra monitorar seus sevidores, vc ou o amazon, google etc?
Quem ainda n deixou seus dados na mao de terceiros eh que tah comendo mosca, eh seguro….
http://vimeo.com/11769593
Na certeza de ser massacrado, resolvi resgatar um vídeo de muitos anos, quando a Novell (a do mal, rsrsrs) resolveu embarcar no software livre. Assistam e creio que pode servir de lição para os “nossos” casos de sucesso.
A culpa vai sobrar pra algum estagiario =D
Engraçado que todo serviço de hospedagem garante 99.9% de uptime, desde amazon até aqueles hosting de cidade do interior que o sobrinho cuida do “datacenter”.
Stallman está sempre certo.
Eu disse, eu disse!
Correção ao comentário acima: O Stallman só está errado quando não está certo =D
Augusto, a tua nota de resumo está maior que a fonte da informação… pra você ver o nível da Info.
Enfim, outras fontes melhores, análises, etc: http://highscalability.com/blog/2011/4/25/the-big-list-of-articles-on-the-amazon-outage.html
Resumo do resumo: Não foi a Amazon inteira que falhou, somente parte de um datacenter na Virgínia Setentrional(subúrbio de Washington, D.C.), causado por uma falha de replicação de volumes, onde o sistema detectou a falha, tentou replicar novamente, e novamente, sobrecarregando toda a zona de disponibilidade. As outras zonas dentro do mesmo datacenter, que deveriam ser independentes entre si, também foram afetadas, fazendo o failover falhar.
Assim as empresas quem não tinham replicação manual entre datacenters distintos, entre outras técnicas de failover próprias, ficaram fora do ar.
Enfim, foi uma boa lição para todos.
Aliás, o pessoal afetado, além de estarem chateados com o acontecido, estão putos mesmo é com a falta de comunicação da Amazon com os consumidores deles.
Só lêem respostas genéricas, inúteis, não explicando o que ocorreu e que medidas os afetados deveriam tomar, enfim, deixaram todos numa penumbra por mais de 3 dias.
O problema de computação nas nuvens é que nas nuvens também há tempestades e trovoadas, sem contar que para chegar aos céus é preciso um avião (e no caso de computação das nuvens de acesso à internet), o que dobra a possibilidade de indisponibilidade dos serviços hospedados nas nuvens.
Atualmente, muitas pessoas colocam suas vidas e seus negócios na Internet (ou na Nuvem), mas é necessário que lembremos que este é apenas um mundo virtual: uma falha como essa ou um blecaute generalizado pode pôr tudo a perder. Um suposto ataque terrorista que deixe o mundo offline por algumas horas poderia instaurar o caos. As tecnologias mais avançadas ainda dependem das mais primitivas para funcionarem!
Furada da Amazon, mas a velha questão de não colocar todos os ovos na mesma cesta continua valendo.
Boa hora para lembrar das várias opções (sempre com linux como base, claro) para manter uma “nuvem particular” na sua própria rede.
Pois é
CLientes nossos que geram Builds na Nuvem EC2(Amazon Elastic Compute Cloud) reclamaram de agents que não sincronizavam, e perderam tempo de build…
…é por isso que chamam de computação na Nuvem. Vem um vento e leva
[piadaOff]
36h? Hummm…
Eu cobraria 9 anos sem interrupção!
Acessei normalmente o Instagr.am, o feriado todo, não vi qualque erro ou lentidão, não se pode acreditar 100% em tudo que se lê, parece que estão querendo denegrir ou fazer maketing viral convencional.
“As outras zonas dentro do mesmo datacenter, que deveriam ser independentes entre si, também foram afetadas, fazendo o failover falhar.” muhahahahah
Mas como diabos essa infra deles não usou os outros 4 datacenters?