DataGramaZero - Revista de Informação - v.15   n.3    jun/14                              COLUNAS

"BIG DATA não é uma tecnologia”

 Luciana Sodré Costa e Marcos Cavalcanti

 

 

 

Big data é um assunto que tem interessado um numero cada vez maior de pessoas. Uma simples pesquisa do termo no Google Trends* confirma essa tendência. No entanto, isso não quer dizer que tenhamos uma compreensão apropriada do termo. Se perguntadas, a maioria das pessoas dirá que big data é uma tecnologia. Outros dirão que é uma ferramenta ou um grande banco de dados. Nada de errado associar big data a essas palavras, mas precisamos saber que essas associações isoladas não são capazes de descrever a sua essência. A maneira mais simples de explicar o que é big data é através de uma analogia.

Imagine a quantidade de dados que você utiliza para decidir se pode atravessar uma rua com segurança: dados já armazenados de experiências anteriores e dados que você recolhe naquele momento, como a velocidade do carro, a distância que ele está de você e a distância para o outro lado da rua. Consideramos ainda nosso estado físico naquele momento, o sapato que estamos usando, as condições do piso, a cultura local e outra infinidade de fatores impossíveis de serem listados, não por falta de espaço, mas por total desconhecimento de tudo o que de fato consideramos antes de tomar essa “simples” decisão. Quanto maior a quantidade, variedade e confiabilidade dos dados analisados, maiores as nossas chances de sucesso. Captamos dados do mundo através dos nossos sensores chamados de sentidos.

Mas a quantidade e variedade de dados por si só não nos garante a melhor decisão. É preciso analisar tudo isso. Relacionamos dados uns com os outros dados, formulamos hipóteses e testamos a sua eficácia tentando chegar com vida do outro lado. Tudo isso tem que ser feito num espaço de tempo razoável. A demora na análise dos dados pode nos levar a um atraso na tomada de decisão. Então, ou você perde a oportunidade da travessia, ou age com atraso, o que pode ser fatal.

Quando tomamos a decisão do melhor momento para atravessar a rua, partimos de algumas certezas sobre o futuro como, por exemplo: O carro não chegará antes que eu alcance o outro lado da rua. Com esse tênis dá pra correr. Nesse piso escorregadio, se eu correr, eu caio. Os carros não avançarão o sinal vermelho. Esse vislumbre do futuro é uma habilidade que vamos aprimorando com o acúmulo de mais dados e mais experiências que vão sendo incorporados à nossa capacidade de apreender o mundo. Já viram uma mãe tirar um copo de vidro da beira da mesa onde um filho pequeno está comendo? Ou um filho dizendo que não vai pedir aquele brinquedo agora porque o pai está zangado e vai responder “não”? São modelos preditivos por excelência, baseados na experiência. Além de usar dados e experiência para tomar decisões, usamos nosso conhecimento para interferir no ambiente de modo a facilitar e aumentar a taxa de sucesso desse processo. Instalar faixas de segurança e sinais de trânsito são exemplos disso.Tudo o que sabemos do mundo vem da observação e da correlação de observações. Toda nossa interferência no meio vem do nosso desejo de controlar fenômenos que ameaçam nossa sobrevivência.

Dados digitais: quantidade (volume) e variedade
E o que tudo isso tem a ver com big data? Simples. Big data é tudo isso, só que em formato digital. É a representação do mundo real em códigos que podem ser guardados, compartilhados, correlacionados, confrontados e analisados de modo objetivo e racional, aumentando em proporções incalculáveis nossa capacidade cognitiva. Como toda representação da realidade é incompleta, mas nos permite um salto de qualidade na interpretação e análise da realidade à nossa volta.

Comecemos pelos dados. Estamos progressivamente e irreversivelmente migrando para o digital nossas relações pessoais, comerciais e com o meio ambiente. Está cada vez mais difícil imaginar algo que não possa ser feito em um processo digital. Ao contrário, cada vez mais portas não digitais são definitivamente fechadas. Experimente por exemplo entregar sua declaração de renda, tirar passaporte ou fazer uma ligação telefônica fora do ambiente digital.Esse movimento garante de uma só vez a quantidade e variedade de dados tão alardeada pelos entusiastas do big data.

Outra grande parte dessa digitalização da vida é feita por sensores que captam informações como ruído, volume, peso, temperatura, localização, deslocamento, luminosidade, umidade etc. Os sensores digitais são responsáveis pela digitalização de grande parte das informações das condições físicas de pessoas, animais, plantas e objetos assim como das relações entre eles e o meio ambiente. Tem mais: todo movimento com o mouse ou teclado é registrado digitalmente deixando uma espécie de pegadas da nossa navegação pela internet. Esses dados são chamados de rastros de navegação.

Numa simples observação da quantidade e variedade dos dados digitais citados acima podemos imaginar quanta informação podemos obter do mundo em que vivemos. Como as pessoas se comunicam? Como escolhem o que comprar? Por quais assuntos se interessam? O que pensam disso ou daquilo? Qual o movimento de uma população quando a temperatura cai? E quando sobe? Como se deslocam as pessoas? Como fatores de luminosidade e umidade interferem na produtividade de uma plantação? Será possível visualizar muito processo que antes parecia impossível de ser rastreado, encontrar relação entre muitas coisas que antes pareciam desconectadas e identificar muitos fatores que contribuem para um determinado fenômeno, que antes nos eram invisíveis.

Dados digitais: veracidade e velocidade
Nada disso seria possível se não pudéssemos confiar nesses dados, mas a pressuposição da veracidade dos dados em big data tem fundamentos sólidos. Mais da metade deles têm origem em rastros de navegação e sensores de todo tipo como o GPS. Ou seja, a maior parte dos dados digitais é fornecida de modo involuntário, portanto livre de erros de registro e interpretação e de ruídos na comunicação, tão comuns em dados captados de outro modo. Outra grande parte é fornecida de modo voluntário em transações comerciais e financeiras, consulta em sites de busca e troca de mensagens, gerando dados igualmente autênticos.  Não bastassem as três dimensões já citadas, volume, variedade e veracidade, os dados digitais em big data apresentam mais uma característica imprescindível para a tomada de decisão: a velocidade. Essa quarta dimensão se manifesta em pelo menos três momentos: na captação, na disponibilização e na resposta da analítica dos dados.

A mobilidade da comunicação explica a velocidade na captação e disponibilização dos dados. Atualmente os dados são captados por aparatos digitais munidos de tecnologia de comunicação móvel permitindo a digitalização de informações em tempo real. As transações comerciais e as comunicações pessoais, por exemplo, podem ser feitas de aparelhos celulares ou tabletes e computadores conectados à internet por wifi, que dataficam essas relações com muito mais fidedignidade. Isso porque, além do registro da transação feita, e dos rastro de navegação, são dataficados também hora e local da transação, informação de grande relevância no estudo do comportamento social. Sensores que captam informações de objetos, animais, plantas e condições ambientais também dispõem de tecnologia de comunicação wireless possibilitando que os dados, tão logo sejam captados, estejam disponíveis para utilização. A chamada computação em nuvem responde pela velocidade da capacidade analítica. Por estarem sempre disponíveis para utilização, o tempo entre a coleta dos dados, a analítica digital e a disponibilização dos insights gerados tem sido cada vez menor, o que é de grande valor no processo de tomada de decisão.

Ciência das Redes Complexas
A possibilidade de entender, modelar e predizer comportamentos através de dados digitais é garantida pela Ciência das Redes Complexas. Trata-se de um campo novo de estudo que estuda as relações entre os nós de sistemas complexos, identificando sua arquitetura, topologia e propriedades, permitindo que seja feita uma governança eficaz desses sistemas.

Nos últimos quatro séculos, usamos o método científico para construir o conhecimento que tem transformado o mundo e a humanidade. Olhando para fora de nós fomos capazes de identificar quase todas as partes que compõem o universo. Descobrimos novas espécies, novas partículas e elementos químicos e novos planetas e galáxias. Olhando para dentro, descobrimos todos os órgãos e seus componentes, todas as substâncias que compõem o corpo humano, todas as partes de uma célula e sequenciamos todo o genoma humano. Esse avanço do conhecimento foi resolvendo alguns problemas e trazendo novos desafios, novas zonas de sombra e ignorância. Se em algum momento achávamos que íamos descobrir a explicação definitiva do universo, a vida rapidamente se encarregava de nos colocar novos problemas, bem mais complexos.

Sempre foi assim e, provavelmente, continuará a sê-lo. Imagine o nosso conhecimento como algo contido em um círculo. A circunferência seria a nossa fronteira com o desconhecido. Cada vez que aumentamos nosso conhecimento, aumentamos esse círculo e consequentemente a nossa ignorância. Este é o paradoxo do conhecimento: quanto mais conhecemos, mais aumenta a consciência de nossa ignorância. Parafraseando Sócrates, "Quanto mais eu sei, mais me dou conta que nada sei"...

A ampliação do nosso conhecimento cientifico nos últimos quatro séculos nos levou ao seguinte desafio: conhecemos as mínimas partes de todo sistema que estudamos, mas temos cada vez mais problemas sem solução. A Ciência das Redes traz novo oxigênio ao campo das ciências complementando o método cientifico reducionista que chegou ao seu limite. Conhecer as partes nos possibilitou muito conhecimento e inovação, mas garantiu a solução apenas daqueles problemas que têm a sua gênese no entendimento das partes do sistema, e não na relação entre estas partes.

O melhor exemplo disso é o Projeto Genoma que reduziu o DNA humano às suas partes sem causar o impacto que se imaginava em novos tratamentos para doenças. Para que isso aconteça, erá preciso colocar as partes do sistema juntas de novo e observá-las em funcionamento com as outras partes e com outros sistemas. Ou seja, precisamos estudar o potencial das redes. O próprio projeto Genoma é exemplo também desse potencial. O trabalho foi desenvolvido por milhares de pesquisadores de todo o mundo que, de forma colaborativa e em rede, desenvolveram e compartilharam seus conhecimentos e descobertas. Na mesma época foi criada uma empresa privada, a Celera Genomics, que pretendia patentear a descoberta e cobrar royalties. Seu modelo de produção de conhecimento era o tradicional: apostava na força das partes, seus cientistas altamente especializados, e desprezava a importância da rede. Um modelo hierárquico e cartesiano.

Outro exemplo da força das redes na geração do conhecimento se deu na Astronomia. Um avanço extraordinário foi identificado quando a comunidade cientifica tradicional passou a aceitar a colaboração de milhares de cosmologistas amadores em todo o mundo. O resultado deste confronto de modelos talvez tenha sido a primeira grande comprovação de que a rede pode ser a maneira mais eficiente e eficaz de se resolver problemas complexos. A rede de pesquisadores sequenciou o genoma humano antes da Celera que trabalhou sozinha. A astronomia reconhece e se beneficia do trabalho de milhares de pessoas que observam o espaço por diletantismo e que agora fazem parte de uma rede de conhecimento.Temos ainda a Wikipedia que, com um modelo de registro e disponibilização de conhecimento em rede, superou a Enciclopédia Britânica que tinha um modelo de produção baseado em notáveis especialistas trabalhando isoladamente.

Um ponto em comum em todos esses exemplos é a rede complexa que os sustenta. Por complexidade entendemos diversidade e nos exemplos dados essa diversidade se dá por diferentes domínios do conhecimento. As redes não são formadas apenas por especialistas no problema, mas por pessoas de diversas áreas que se interessam pelo problema. Portanto, a busca de soluções inovadoras para problemas complexos deve ter como pressupostos básicos a cooperação e a multidisciplinaridade. Esta abordagem em rede para a resolução de problemas, que reúne as melhores ideias de diferentes disciplinas, aproximando-se de um problema a partir de diferentes perspectivas é uma evolução da metodologia científica. Ela parte de uma premissa básica: em problemas complexos não existe uma resposta única e definitiva.

Diversos autores (Edgar Morin, Fritjof Capra, Adam Kahane, dentre outros) desenvolveram esta visão mais complexa (sistêmica, holística) da realidade. Saber que o mundo é complexo e reconhecer as limitações dos métodos existentes já era um grande avanço, mas aí surgiu a internet e os dados digitais. A Ciência das Redes surgiu com a experiência do cientista Albert-Laszló Barabasi, uma das maiores referências mundiais no estudo de redes complexas. Barabási foi o primeiro a utilizar dados digitais para tentar compreender o comportamento das pessoas na internet. Ao encontrar padrões em rastros de navegação, concluiu que redes complexas possuem propriedades e que essas propriedades podem ser aplicadas no conhecimento e gestão de outros sistemas complexos como um organismo, uma célula ou a própria sociedade.

Além disso, a descoberta de padrões em redes até então consideradas randômicas ou caóticas mostra que com dados suficientes é possível explicar o funcionamento dos sistemas complexos e mais que isso, se é possível explicar, é possível governar. Entender e controlar crises financeiras, disseminação endêmica de doenças, surgimento e evolução de doenças ainda incuráveis, comportamentos sociais não desejados como a violência, processos de aprendizagem, comportamentos de consumo, entre outros, são os fenômenos para os quais os métodos reducionistas não encontraram soluções.  A complexidade dada pela alta interconectividade desses sistemas impedem que um olhar especialista, reduzido e linear possa vislumbrar as causas e trazer soluções efetivas para esses problemas.

Conclusão
Conhecer e controlar os fenômenos complexos são as promessas do big data que têm mobilizado as pessoas em torno do tema. Entusiastas e críticos desprendem grandes esforços para entender as possibilidades e consequências dessa nova plataforma de geração do conhecimento que estamos começando a explorar.

Estamos construindo em torno do planeta uma rede digital que ilumina a complexidade dos sistemas naturais, incluindo a sociedade, permitindo não apenas a sua visualização (analítica descritiva), mas também sua compreensão (analítica diagnóstica) e antecipação do seu comportamento (analítica preditiva). Toda essa capacidade analítica da complexidade levará a uma capacidade elevada de governança no mundo dos negócios, na ciência e entre os seres humanos. Tudo indica que big data será a maior plataforma de inovação deste século, nos levando a um novo patamar de conhecimento da realidade à nossa volta.

Diante dessa constatação, definir big data como tecnologia, banco de dados ou ferramenta, seria passar bem longe da sua verdadeira essência e do seu potencial. Preferimos defini-lo como um ecossistema digital. Toda complexidade do universo sendo gradativamente digitalizada, onde buscaremos grande parte do conhecimento que ainda nos falta.

Nota:

 * Ferramenta do Google que permite verificar tendências de busca por assuntos e localidades. Se pesquisarmos o termo de pesquisa “big data”, até 2011 encontrávamos 10 referências. Em março de 2014 este número tinha crescido 10 vezes.


Referências Bibliográficas

Barabasi, Albert-Lazlo; Linked – How everything is connected to everything eles and what it means for business, science, and everyday life; Plume Penguin Group, New York, 2003

Capra, Fritjof; O ponto de mutação, Editora Cultrix, São Paulo, 2000

Capra Fritjof, A teia da vida, Editora Cultrix, São Paulo, 2005

Kahane, Adam; Como resolver problemas complexos, Editora Senac, São Paulo, 2010.

Morin, Edgar, Introduction à la pensée complexe, Éditions du Seuil, Paris, 2005
 


 

 Luciana Sodré Costa é diretora do Instituto Big Data Brasil. Pós-Graduada em gestão do conhecimento e inteligência empresarial pela COPPE/UFRJ.  Mestranda do Programa de Engenharia de Produção da COPPE/UFRJ.

Marcos Cavalcanti é Coordenador do CRIE (Centro de Referência em Inteligência Empresarial). Doutor em informática pela Université de Paris XI.  Professor do Programa de Engenharia de Produção da COPPE/UFRJ.
 

Email: marcos@crie.ufrj.br