Ao contrário do que muitos pensam em um primeiro momento, O Big Data não está somente relacionado a imensas massas de dados ou um banco de dados gigante.

Vamos pensar assim: Dados são para sempre. Eis a história que não me deixa mentir. Informações, relatos, fatos, são dados que perdurarão eternamente.

Exemplificando esse contexto em nosso campo de TI, é muito comum sistemas serem substituídos por outros de novas tecnologias, e os dados serem migrados entre versões, plataformas, etc. Os processadores, memórias, HDs, linguagens, unidades de armazenamento, tudo muda, e o dado perdura.

Hoje em dia, as organizações tem uma grande preocupação com seus dados. E muitas vezes os dados não são de uma fonte única ou um único sistema. É cada vez mais comum, grandes corporações, principalmente multinacionais, terem sistemas específicos para determinados setores. Assim, o grande legado dessas empresas, ficam descentralizados. E com a corrida da globalização, redes sociais, crescente de mobilidade, cada vez mais informações são geradas, e nesse caso, de origens desconhecidas. Qualquer pessoa, por exemplo, pode postar no facebook, orkut, twitter ou outra mídia social, qualquer informação sobre qualquer coisa ou qualquer corporação.

Legal, e o que o Big Data tem a ver com isso?

O Big Data, como disse anteriormente, não é apenas sobre grandes quantidades de dados. É um conceito de juntar informações de fontes de dados distintas, e encontrar uma visão sobre eles, bem como orientações para captura e análise de seus dados futuros.

Algumas fontes, retratam o Big Data com alguns Vs, umas com 5, outras com 4, outras com 3. Na minha humilde opinião e entendimento, até o momento, acredito que os 3 Vs dão a estrutura para o que é o Big Data.

Os 3 Vs que definem o Big Data são, Variety (variedade), Velocity (velocidade) e Volume (volume):

Volume

Aqui o grande volume de informações, representa o Big Data. Hoje em dia, as informações que as empresas armazenam, não são somente informações textuais. É possível encontrar diversos formatos de dados diferentes sendo guardados: músicas, vídeos, imagens, etc. Assim, o crescimento exponencial dos armazenamentos são inevitáveis. Como a quantidade de informações é muito grande, as aplicações, bancos de dados, arquiteturas precisam ser reavaliadas com certa frequencia. Como os dados são reavaliados por vários angulos, e com a inteligência empregada, cria-se uma explosao dos dados, apesar dos dados originais estarem lá.

Velocidade

Com a crescente da internet e a explosão das mídias sociais, nosso olhar para as informações mudou. Qualquer um, de qualquer lugar, pode postar uma mensagem falando sobre algo ou alguem. E a velocidade dessa informação é muito grande. Antigamente, as infomações chegavam através de telejornais, revistas, jornais, mas não eram tão “real time” como atualmente acontece. Chega a ser uma situação viral. O moviento dos dados agora é em tempo real e sua janela de atualizações reduzido a frações de segundos. Essa grande velocidade no acesso as informações, fazem parte do Big Data.

Variedade

Esse talvez seja o grande desafio do Big Data. As informações hoje não tem uma origem e formato únicos. Podem estar no banco de dados da corporação, podem estar em planilhas Excel, documentos Word, arquivos textos comuns, vídeos, fotos, tweets, atualizações do facebook, enfim, existe uma variedade gigantesca, descentralizada e despadronizada de informações sendo geradas. E é uma grande necessidade das empresas tornar esses dados organizados e principalmente significativos. Dificilmente existirá um padrão de informações e por isso esse é um grande desafio do Big Data, a variedade.

O assunto é extenso e muito discutido. Existem algumas frameworks para desenvolvimento em cima do Big Data, como Hadoop, Reef. Futuramente, farei alguns artigos sobre essas frameworks.

É isso!

Dúvidas, sugestões, fiquem a vontade.

Abraços

Léo Lopes