o que é e por que é importante? bigdata é o termo que descreve o imenso volume de dados – estruturados e não estruturados – que impactam os negócios no dia a dia. mas o importante não é a quantidade de dados. e sim o que as empresas fazem com os dados que realmente importam. bigdata pode ser analizado para a obtenção de insights que levam a melhores decisões e direções estratégicas de negócio. história importância quem utiliza como funciona a história do bigdata e considerações atuais embora o termo bigdata seja relativamente novo, o ato de recolher e armazenar grandes quantidades de informações para eventual análise de dados é bem antigo. o conceito ganhou força no início dos anos 2000, quando um analista famoso deste setor, doug laney, articulou a definição de bigdata como os três vs: volume. organizações coletam dados de uma grande variedade de fontes, incluindo transações comerciais, redes sociais e informações de sensores ou dados transmitidos de máquina a máquina. no passado, armazenar tamanha quantidade de informações teria sido um problema – mas novas tecnologias (como o hadoop) têm aliviado a carga. velocidade. os dados fluem em uma velocidade sem precedentes e devem ser tratados em tempo hábil. tags de rfid, sensores, celulares e contadores inteligentes estão impulsionado a necessidade de lidar com imensas quantidades de dados em tempo real, ou quase real. variedade. os dados são gerados em todos os tipos de formatos de dados estruturados, dados numéricos em bancos de dados tradicionais, até documentos de texto não estruturados, email, vídeo, áudio, dados de cotações da bolsa e transações financeiras. no sas, consideramos duas dimensões adicionais quando falamos sobre big data: variabilidade. além da velocidade e variedade de dados cada vez maiores, os fluxos de dados podem ser altamente incosistentes com picos periódicos. existe algo em tendência nas redes sociais? diariamente, picos de dados sazionais ou picos gerados com base em eventos podem ser um desafio de gerenciar. ainda mais quando falamos de dados não estruturados. complexidade. os dados de hoje vem de várias fontes, o que torna difícil estabelecer uma relação, corresponder, limpar e transformar dados entre diferentes sistemas. no entanto, para que seus dados não saiam rapidamente de controle, é necessário ligar e correlacionar relações, hierarquias e as várias ligações de dados. o grande potencial do bigdata a quantidade de dados que está sendo criada e armazenada em um nível global é quase inconcebível. e esta quantidade só continua aumentando. isso significa que há ainda mais potencial para extrair insights de negócios provenientes destas informações – mesmo que apenas uma pequena porcentagem destes dados é realmente analizada. o que isso significa para as empresas? como elas podem utilizar melhor as informações que fluem para dentro de suas organizações todos os dias? por que bigdata é importante? a importância do bigdata não gira em torno da quantidade de dados que você tem, mas em torno do que você faz com eles. você pode analisar dados de qualquer fonte para encontrar respostas que permitam 1) redução de custos, 2) redução de tempo, 3) desenvolvimento de novos produtos e ofertas otimizadas, 4) decisões mais inteligentes. quando você combina bigdata com a alta potência do analytics, você pode realizar tarefas relacionadas a negócios, tais como: determinar a causa raiz de falhas, problemas e defeitos em tempo quase real; gerar cupons no ponto de venda com base em hábitos de compra dos clientes; recalcular carteiras de risco inteiras, em questão de minutos; detectar comportamentos fraudulentos antes que eles afetem sua organização. bigdata no mundo moderno bigdata – e a maneira como as organizações gerenciam e extraem insights disso – está mudando a maneira como o mundo utiliza informações de negócios. saiba mais sobre o impacto do bigdata. visa implementa analytics analisando grandes quantidades de dados (bigdata analytics), a companhia de cartão de crédito melhorou a experiência do cliente e reduziu transações fraudulentas de débito e crédito. playbook de bigdata para não geeks este paper examina como um profissional não geek, porém técnicamente experiente, pode entender como utilizar hadoop e como esta nova técnica afetará ambientes de dados corporativos nos próximos anos. leia uma síntese book bigdata e data mining o especialista em mineração de dados, jared dean, explica em seu livro como maximizar o seu programa analítico utilizando capacidade computacional de alta performance e análises avançadas (advanced analytics). quem utiliza bigdata? bigdata afeta organizações em praticamente todas as indústrias. veja como cada uma pode se beneficiar deste ataque devastador de informações. banco com grandes quantidades de informações fluindo partir inúmeras fontes, os bancos são desafiados a encontrar maneiras novas e inovadoras de gerenciar bigdata. ao mesmo tempo em que bigdata é importante para compreender os clientes e aumentar sua satisfação, é igualmente importante para minimizar os riscos e fraudes enquanto mantém uma conformidade regulatória. bigdata traz ótimos insights, mas também exige que as instituições financeiras estejam um passo à frente neste jogo, com análises avançadas. ensino educadores armados com uma visão orientada a dados podem ter um impacto significativo sobre os sistemas escolares, estudantes e currículos. analisando bigdata, eles podem identificar alunos em risco, assegurar que os estudantes estão progredindo de forma adequada, e podem implementar um sistema melhor de avaliação e apoio aos professores e diretores. governo quando as organizações governamentais são capazes de aproveitar e aplicar analytics em bigdata, elas progridem significativamente quando se trata de gerenciar serviços públicos, lidar com o congestionamento ou a previnir a criminalidade. mas, enquanto existem muitas vantagens com o uso de bigdata, os governos também devem abordar as questões de transparência e privacidade das informações. saúde registros de pacientes. planos de tratamento. informações de prescrição. quando se trata de cuidados com a saúde, tudo precisa ser feito rapidamente, com precisão e, em alguns casos, com suficiente transparência para satisfazer as regulamentações rigorosas desta indústria. quando grandes quantidades de dados são geridas de forma eficaz, os prestadores de cuidados de saúde podem descobrir insights escondidos que melhoram o atendimento ao paciente. manufatura armados com uma visão que bigdata pode fornecer, os fabricantes podem aumentar a qualidade e a produção, minimizando o desperdício processos que são fundamentais no mercado altamente competitivo de hoje. mais e mais fabricantes estão trabalhando em uma cultura baseada em análise de dados, o que significa que eles podem resolver problemas mais rapidamente e tomar decisões de negócios mais ágeis. varejo a construção de relacionamento com o cliente é fundamental para o setor de varejo e a melhor maneira de gerenciar este relacionamento é gerenciando bigdata. os varejistas precisam saber a melhor maneira de vender aos clientes, a maneira mais eficaz de lidar com transações, e a maneira mais estratégica de aumentar o número de negócios repetidos. bigdata permanece no coração de todas essas coisas. bigdata em ação: ups como uma empresa com muitos ativos e encomendas constantemente em movimento, a ups armazena grandes quantidades de dados sendo que muitos deles vem de sensores em seus veículos. estes dados não somente monitoram o desempenho diário, mas também desencadeiam uma grande reformulação de estruturas nas rotas  dos motoristas da ups. a iniciativa foi chamada de orion (onroad integration optimization and navigation), e é discutível que o chamemos de um dos maiores projetos de pesquisa operacional do mundo. este projeto dependeu fortemente dos dados de mapas online para reconfigurar em tempo real as cargas e descargas dos motoristas. o projeto levou a uma economia de mais de 8,4 milhões de litros de combustível, cortando 85 milhões de milhas de rotas diárias. a ups estima que economizando apenas uma milha por dia de cada motorista, economiza us $30 milhões para a companhia, portanto as economias financeiras são substanciais. é importante lembrar que o valor principal de bigdata não vem dos dados em sua forma bruta, mas do processamento e análise destes dados e os insights, produtos e serviços que surgem desta análise. as mudanças radicais nas tecnologias e abordagens de gerenciamento de bigdata devem ser acompanhadas, de forma semelhante, por mudanças dramáticas na forma como os dados suportam decisões e geram inovação de produtos e serviços. como isso funciona? antes de descobrir como bigdata pode favorecer o seu negócio, você deve primeiro entender de onde isso vem. as fontes de bigdata geralmente caem em uma das três categorias: transmissão de dados (streaming data) esta categoria inclui dados que chegam aos seus sistemas de ti a partir de uma rede de dispositivos conectados. você pode analisar esses dados ao ponto em que eles chegam e tomar decisões sobre quais dados você deve manter, não manter e quais requerem uma análise posterior mais aprofundada. dados de redes sociais os dados sobre interações sociais são um conjunto cada vez mais atraente de informação, particularmente para marketing, vendas e funções de apoio. são muitas vezes capturados de formas não estruturada ou semiestruturada, por isso representam um desafio único quando se trata de consumo e análise. fontes publicamente disponíveis enormes quantidades de dados estão disponíveis por meio de canais públicos como o dados.gov.br do governo federal brasileiro, o livro de fatos da cia (world factbook) ou o portal de dados abertos da união européia. após identificar todas as potenciais fontes de dados, considere as decisões que você precisará tomar uma vez que você começar a fazer uso destas informações. estas incluem: como armazenar e gerenciar embora o armazenamento de dados teria sido um problema anos atrás, agora há opções de baixo custo para armazenamento de dados caso esta seja a melhor estratégia para seu negócio. quanto se deve analisar algumas organizações não excluem quaisquer dados de suas análises, o que é possível com as tecnologias atuais de alto desempenho, como a computação em grade (grid computing) ou análises em memória (inmemory analytics). outra abordagem é determinar antecipadamente quais dados são relevantes antes de analisálos. como utilizar os insights descobertos quanto mais conhecimento você tiver, mais confiante você estará para tomar suas decisões de negócio. é importante ter uma estratégia desenhada para quando você tiver uma abundância de informações em mãos. o passo final para fazer bigdata trabalhar a favor do seu negócio é procurar tecnologias que o ajudarão a tirar melhor proveito da enorme quantidade de informações e das análises de bigdata. considere: armazenamento barato de grandes quantidades de dados; processadores mais rápidos; open source acessível e plataformas distribuidas de bigdata, como o hadoop; processamento paralelo, clusterização, mpp, virtualização, grandes ambientes de grid, alta conectividade e altas taxas de transferência; computação em nuvem (cloud computing) e outros arranjos de alocação flexível de recursos. transforme os dados e a análise em uma vantagem competitiva três coisas que você deve fazer… para transformar seu negócio com bigdata & analytics: 1. construir uma cultura para difundir a análise em todas as áreas da empresa. permitir que todos os funcionários tomem decisões baseadas em dados, ao invés de confiar no instinto e em experiências prévias. 2. ser proativo com a privacidade, segurança e governança. certificarse da segurança e precisão dos dados analisados. 3. investir em uma plataforma bigdata & analytics ajustada à tarefa de lidar com todo tipo de dados e análises, independentemente de sua forma ou função. conquiste, some e retenha clientes 80% os ceos acreditam que fornecem uma experiência superior ao cliente, mas somente 80% de seus clientes concordam. quem são seus melhores clientes e como você pode mantêlos satisfeitos? onde você pode encontrar mais clientes como esses? bigdata sabe quem são os seus clientes e suas motivações. a análise de bigdata pode lhe ajudar a descobrir formas de melhorar o relacionamento com seus clientes, acrescentar valor e construir relações duradouras. otimize operações e combata a fraude e as ameaças os dados gerados por máquinas aumentarão de 11% em 2005 para 43% de todos os dados até 2020 seus processos e sistemas operacionais atingem a máxima eficiência? você poderia reduzir as perdas e a fraude se pudesse ver o seu negócio em tempo real? adotar uma estratégia bigdata & analytics pode ajudar você a planejar e administrar melhor as operações, as cadeias de suprimento e o uso de ativos de infraestrutura. obtenha os conhecimentos necessários para reduzir custos, aumentara eficiência, a produtividade, e limitar as ameaças. transforme os processos de administração 88% dos cfos dizem que suas empresas estão constando com consultoria financeira na seleção dos principais indicadores de desempenho você tem acesso em tempo real a informação confiável sobre todos os aspectos de seu negócio? você tem a visão, o insight e o controle para medir o seu desempenho financeiro, monitorar e definir melhor seus resultados de negócio? analisar todos os seus dados, até bigdata, pode impulsionar a agilidade empresarial e lhe fornecer os conhecimentos necessários para tomar melhores decisões sobre a estratégia de negócio e o gerenciamento do capital humano. gerencie o risco os riscos estratégicos causam 68% das recusas graves de capitalização de mercado como você pode mitigar riscos financeiros e operacionais que poderiam ser devastadores para sua organização? como você pode gerenciar a mudança regulatória e reduzir o risco de nãoconformidade normativa? identificar, entender e gerenciar de forma proativa o risco financeiro e operacional pode permitir uma tomada de decisão mais consciente e mais segura. crie novos modelos de negócio os líderes em desempenho são inovadores mais ousados e é mais provável que eles inovem com seus parceiros do que as organizações de desempenho inferior seus concorrentes estão dando passos mais largos do que você para mudar a indústria ou gerar novos mercados? a cultura de sua organização promove o pensamento inovador e a exploração? explore opções estratégicas para crescer o seu negócio, utilizando novas perspectivas adquiridas com bigdata & analytics. maximize a visão, garanta a confiança e melhore a economia de ti estimase que até 2020 poderá haver quatro vezes mais dados digitais do que o número de todos os grãos de areia que há na terra. pode sua atual infraestrutura de ti dar os conhecimentos necessários aos tomadores de decisões? você está fazendo o suficiente para proteger seu centro de dados e seus dados de potenciais atividades criminosas ou fraudulentas? lidere a criação de novo valor e nova agilidade para seu negócio otimizando bigdata & análises para um insight mais rápido a menor custo. introdução você já parou para pensar na quantidade e variedade de dados que geramos e armazenamos a cada dia? bancos, companhias aéreas, operadoras de telefonia, serviços de busca online e redes varejistas são apenas alguns dos inúmeros exemplos de empresas que convivem diariamente com grandes volumes de informações. mas apenas ter dados não basta: é importante conseguir e saber usálos. é aí que o conceito de bigdata entra em cena. neste texto, você verá o que é bigdata, entenderá o porquê de este nome estar cada vez mais presente no vocabulário dos ambientes de tecnologia da informação (ti) e compreenderá os motivos que levam o conceito a contribuir para o cotidiano de empresas, governos e demais instituições. o conceito de bigdata a princípio, podemos definir o conceito de bigdata como sendo conjuntos de dados extremamente amplos e que, por este motivo, necessitam de ferramentas especialmente preparadas para lidar com grandes volumes, de forma que toda e qualquer informação nestes meios possa ser encontrada, analisada e aproveitada em tempo hábil. de maneira mais simplista, a ideia também pode ser compreendida como a análise de grandes quantidades de dados para a geração de resultados importantes que, em volumes menores, dificilmente seriam alcançados. bigdata não é difícil entender o cenário em que o conceito se aplica: trocamos milhões de emails por dia; milhares de transações bancárias acontecem no mundo a cada segundo; soluções sofisticadas gerenciam a cadeia de suprimentos de várias fábricas neste exato momento; operadoras registram a todo instante chamadas e tráfego de dados do crescente número de linhas móveis no mundo todo; sistemas de erp coordenam os setores de inúmeras companhias. enfim, exemplos não faltam se te perguntarem, você certamente será capaz de apontar outros sem fazer esforço. informação é poder, logo, se uma empresa souber como utilizar os dados que tem em mãos, poderá entender como melhorar um produto, como criar uma estratégia de marketing mais eficiente, como cortar gastos, como produzir mais em menos tempo, como evitar o desperdício de recursos, como superar um concorrente, como disponibilizar serviços para a um cliente especial de maneira satisfatória e assim por diante. perceba, estamos falando de fatores que podem inclusive ser decisivos para o futuro de uma companhia. mas, bigdata é um nome relativamente recente (ou, ao menos, começou a aparecer na mídia recentemente). isso significa que somente nos últimos anos é que as empresas descobriram a necessidade de fazer melhor uso de seus grandes bancos de dados? pode ter certeza que não. há tempos que departamentos de ti contemplam aplicações de data mining, business intelligence e crm (customer relationship management), por exemplo, para tratar justamente de análise de dados, tomadas de decisões e outros aspectos relacionados ao negócio. a proposta de uma solução de bigdata é a de oferecer uma abordagem ampla no tratamento do aspecto cada vez mais caótico dos dados para tornar as referidas aplicações e todas as outras mais eficientes e precisas. para tanto, o conceito considera não somente grandes quantidades de dados, a velocidade de análise e a disponibilização destes, como também a relação com e entre os volumes. o facebook é um exemplo de empresa que se beneficia de bigdata o facebook é um exemplo de empresa que se beneficia de bigdata: as bases de dados do serviço aumentam todo dia e são utilizadas para determinar relações, preferências e comportamentos dos usuários por que bigdata é tão importante? lidamos com dados desde os primórdios da humanidade. acontece que, nos tempos atuais, os avanços computacionais nos permitem guardar, organizar e analisar dados muito mais facilmente e com frequência muito maior. este panorama está longe de deixar de ser crescente. basta imaginar, por exemplo, que vários dispositivos em nossas casas geladeiras, tvs, lavadoras de roupa, cafeteiras, entre outros deverão estar conectados à internet em um futuro não muito distante. esta previsão está dentro do que se conhece como internet das coisas. se olharmos para o que temos agora, já veremos uma grande mudança em relação às décadas anteriores: tomando como base apenas a internet, pense na quantidade de dados que são gerados diariamente somente nas redes sociais; repare na imensa quantidade de sites na web; perceba que você é capaz de fazer compras online por meio até do seu celular, quando o máximo de informatização que as lojas tinham em um passado não muito distante eram sistemas isolados para gerenciar os seus estabelecimentos físicos. as tecnologias atuais nos permitiram e permitem aumentar exponencialmente a quantidade de informações no mundo e, agora, empresas, governos e outras instituições precisam saber lidar com esta explosão de dados. o bigdata se propõe a ajudar nesta tarefa, uma vez que as ferramentas computacionais usadas até então para gestão de dados, por si só, já não podem fazêlo satisfatoriamente. a quantidade de dados gerada e armazenada diariamente chegou a tal ponto que, hoje, uma estrutura centralizada de processamento de dados já não faz mais sentido para a maioria absoluta das grandes entidades. o google, por exemplo, possui vários data centers para dar conta de suas operações, mas trata todos de maneira integrada. este particionamento estrutural, é bom destacar, não é uma barreira para o bigdata em tempos de computação nas nuvens, nada mas trivial. os vs do bigdata: volume, velocidade, variedade, veracidade e valor no intuito de deixar a ideia de bigdata mais clara, alguns especialistas passaram a resumir o assunto em aspectos que conseguem descrever satisfatoriamente a base do conceito: os cincos vs volume, velocidade e variedade, com os fatores veracidade e valor aparecendo posteriormente. o aspecto do volume (volume) você já conhece. estamos falando de quantidades de dados realmente grandes, que crescem exponencialmente e que, não raramente, são subutilizados justamente por estarem nestas condições. velocidade (velocity) é outro ponto que você já assimilou. para dar conta de determinados problemas, o tratamento dos dados (obtenção, gravação, atualização, enfim) deve ser feito em tempo hábil muitas vezes em tempo real. se o tamanho do banco de dados for um fator limitante, o negócio pode ser prejudicado: imagine, por exemplo, o transtorno que uma operadora de cartão de crédito teria e causaria se demorasse horas para aprovar um transação de um cliente pelo fato de o seu sistema de segurança não conseguir analisar rapidamente todos os dados que podem indicar uma fraude. variedade (variety) é outro aspecto importante. os volume de dados que temos hoje são consequência também da diversidade de informações. temos dados em formato estruturados, isto é, armazenados em bancos como postgresql e oracle, e dados não estruturados oriundos de inúmeras fontes, como documentos, imagens, áudios, vídeos e assim por diante. é necessário saber tratar a variedade como parte de um todo um tipo de dado pode ser inútil se não for associado a outros. o ponto de vista da veracidade (veracity) também pode ser considerado, pois não adianta muita coisa lidar com a combinação volume + velocidade + variedade se houver dados não confiáveis. é necessário que haja processos que garantam o máximo possível a consistência dos dados. voltando ao exemplo da operadora de cartão de crédito, imagine o problema que a empresa teria se o seu sistema bloqueasse uma transação genuína por analisar dados não condizentes com a realidade. informação não é só poder, informação também é patrimônio. a combinação volume + velocidade + variedade + veracidade, além de todo e qualquer outro aspecto que caracteriza uma solução de bigdata, se mostrará inviável se o resultado não trouxer benefícios significativos e que compensem o investimento. este é o ponto de vista do valor (value). é claro que estes cinco aspectos não precisam ser tomados como a definição perfeita. há quem acredite, por exemplo, que a combinação volume + velocidade + variedade seja suficiente para transmitir uma noção aceitável do bigdata. sob esta óptica, os aspectos da veracidade e do valor seriam desnecessários, porque já estão implícitos no negócio qualquer entidade séria sabe que precisa de dados consistentes; nenhuma entidade toma decisões e investe se não houver expectativa de retorno. o destaque para estes dois pontos talvez seja mesmo desnecessário por fazer referência ao que parece óbvio. por outro lado, a sua consideração pode ser relevante porque reforça os cuidados necessários a estes aspectos: uma empresa pode estar analisando redes sociais para obter uma avaliação da imagem que os clientes têm de seus produtos, mas será que estas informações são confiáveis ao ponto de não ser necessário a adoção de procedimentos mais criteriosos? será que não se faz necessário um estudo mais profundo para diminuir os riscos de um investimento antes de efetuálo? de qualquer forma, os três primeiros vs volume, velocidade e variedade podem até não oferecer a melhor definição do conceito, mas não estão longe de fazêlo. entendese que bigdata trata apenas de enormes quantidades de dados, todavia, você pode ter um volume não muito grande, mas que ainda se encaixa no contexto por causa dos fatores velocidade e variedade. soluções de bigdata além de lidar com volumes extremamente grandes de dados dos mais variados tipos, soluções de bigdata também precisam trabalhar com distribuição de processamento e elasticidade, isto é, suportar aplicações com volumes de dados que crescem substancialmente em pouco tempo. o problema é que os bancos de dados tradicionais, especialmente aqueles que exploram o modelo relacional, como o mysql, o postgresql e o oracle, não se mostram adequados a estes requisitos, já que são menos flexíveis. isso acontece porque bancos de dados relacionais normalmente se baseiam em quatro propriedades que tornam a sua adoção segura e eficiente, razão pela qual soluções do tipo são tão populares: atomicidade, consistência, isolamento e durabilidade. esta combinação é conhecida como acid, sigla para o uso destes termos em inglês: atomicity, consistency, isolation e durability. vejamos uma breve descrição de cada uma: atomicidade: toda transação deve ser atômica, isto é, só pode ser considerada efetivada se executada completamente; consistência: todas as regras aplicadas ao banco de dados devem ser seguidas; isolamento: nenhuma transação pode interferir em outra que esteja em andamento ao mesmo tempo; durabilidade: uma vez que a transação esteja concluída, os dados consequentes não podem ser perdidos. o problema é que este conjunto de propriedades é por demais restritivo para uma solução de bigdata. a elasticidade, por exemplo, pode ser inviabilizada pela atomicidade e pela consistência. é neste ponto que entra em cena o conceito de nosql, denominação que muitos atribuem à expressão em inglês not only sql, que em tradução livre significa não apenas sql (sql structured query language é, em poucas palavras, uma linguagem própria para se trabalhar com bancos de dados relacionais). o nosql faz referência às soluções de bancos de dados que possibilitam armazenamento de diversas formas, não se limitando ao modelo relacional tradicional. bancos do tipo são mais flexíveis, sendo inclusive compatíveis com um grupo de premissas que compete com as propriedades acid: a base (basically available, soft state, eventually consistency basicamente disponível, estado leve, eventualmente consistente). não é que bancos de dados relacionais tenham ficado ultrapassados eles são e continuarão por muito tempo sendo úteis a uma série de aplicações. o que acontece é que, geralmente, quanto maior um banco de dados se torna, mais custoso e trabalhoso ele fica: é preciso otimizar, acrescentar novos servidores, empregar mais especialistas em sua manutenção, enfim. via de regra, escalar (tornálo maior) um bancos de dados nosql é mais fácil e menos custoso. isso é possível porque, além de contar com propriedades mais flexíveis, bancos do tipo já são otimizados para trabalhar com processamento paralelo, distribuição global (vários data centers), aumento imediato de sua capacidade e outros. além disso, há mais de uma categoria de banco de dados nosql, fazendo com que soluções do tipo possam atender à grande variedade de dados que existe, tanto estrurados, quanto não estruturados: bancos de dados orientados a documentos, bancos de dados chavevalor, bancos de dados de grafos, enfim. exemplos de bancos de dado nosql são o cassandra, o mongodb, o hbase, o couchdb e o redis. mas, quando o assunto é bigdata, apenas um banco de dados do tipo não basta. é necessário também contar com ferramentas que permitam o tratamento dos volumes. neste ponto, o hadoop é, de longe, a principal referência. exemplos de bancos de dados nosql: cassandra, mongodb, hbase, couchdb e redis exemplos de bancos de dados nosql: cassandra, mongodb, hbase, couchdb e redis o que é hadoop? o hadoop é uma plataforma open source desenvolvida especialmente para processamento e análise de grandes volumes de dados, sejam eles estruturados ou não estruturados. o projeto é mantido pela apache foundation, mas conta com a colaboração de várias empresas, como yahoo!, facebook, google e ibm. podese dizer que o projeto teve início em meados de 2003, quando o google criou um modelo de programação que distribui o processamento a ser realizado entre vários computadores para ajudar o seu mecanismo de busca a ficar mais rápido e livre da necessidades de servidores poderosos (e caros). esta tecnologia recebeu o nome de mapreduce. alguns meses depois, o google apresentou o google file system (gfs), um sistema de arquivos especialmente preparado para lidar com processamento distribuído e, como não poderia deixar de ser no caso de uma empresa como esta, grandes volumes de dados (em grandezas de terabytes ou mesmo petabytes). em poucas palavras, o sistema de arquivos é um conjunto de instruções que determina como os dados devem ser guardados, acessados, copiados, alterados, nomeados, eliminados e assim por diante. em 2004, uma implementação open source do gfs foi incorporada ao nutch, um projeto de motor de busca para a web. o nutch enfrentava problemas de escala não conseguia lidar com um volume grande de páginas e a variação do gfs, que recebeu o nome nutch distributed filesystem (ndfs), se mostrou como uma solução. no ano seguinte, o nutch já contava também com uma implementação do mapreduce. na verdade, o nutch fazia parte de um projeto maior: uma biblioteca para indexação de páginas chamada lucene. os responsáveis por estes trabalhos logo viram que o que tinham em mãos também poderia ser usado em aplicações diferentes das buscas na web. esta percepção motivou a criação de outro projeto que engloba características do nutch e do lucene: o hadoop, cuja implementação do sistema de arquivos recebeu o nome de hadoop distributed file system (hdfs). o hadoop é tido como uma solução adequada para bigdata por vários motivos: é um projeto open source, como já informado, fato que permite a sua modificação para fins de customização e o torna suscetível a melhorias constantes graças à sua rede de colaboração. por causa desta característica, vários projetos derivados ou complementares foram e ainda são criados; proporciona economia, já que não exige o pagamento de licenças e suporta hardware convencional, permitindo a criação de projetos com máquinas consideravelmente mais baratas; o hadoop conta, por padrão, com recursos de tolerância a falhas, como replicação de dados; o hadoop é escalável: havendo necessidade de processamento para suportar maior quantidade de dados, é possível acrescentar computadores sem necessidade de realizar reconfigurações complexas no sistema. é claro que o hadoop pode ser usado em conjunto com bancos de dados nosql. a própria apache foundation mantém uma solução do tipo que é uma espécie de subprojeto do hadoop: o já mencionado banco de dados hbase, que funciona atrelado ao hdfs. logotipo do hadoop a denominação hadoop tem uma origem inusitada: este é o nome que o filho de doug cutting, principal nome por trás do projeto, deu ao seu elefante de pelúcia amarelo o hadoop, é bom frisar, é a opção de maior destaque, mas não é a única. é possível encontrar outras soluções compatíveis com nosql ou que são baseadas em massively parallel processing (mpp), por exemplo. não podemos considerar as soluções de bigdata como um arsenal computacional perfeito: sistemas do tipo são complexos, ainda desconhecidos por muitos gestores e profissionais de ti e a sua própria definição ainda é passível de discussão. o fato é que a ideia de bigdata reflete um cenário real: há, cada vez mais, volumes de dados gigantescos e que, portanto, exigem uma abordagem capaz de aproveitálos ao máximo. apenas para dar uma noção deste desafio, a ibm divulgou no final de 2012 que, de acordo com as suas estimativas, 90% dos dados disponíveis no mundo foram gerados apenas nos dois anos anteriores. até o final de 2015, este volume todo terá aumentado pelo menos duas vezes. diante deste ponto de vista, é um tanto precipitado encarar a expressão bigdata como uma mero termo da moda. bigdata: descubra o que é e como usar na sua empresa o que é bigdata? o termo bigdata é relativamente novo e ao mesmo tempo velho, surgindo por volta de 2005 com o google e recebeu uma alavancada em 2008 com o pessoal do yahoo que transformou a plataforma hadoop em open source. quando pensamos em bigdata, é comum fazermos uma tradução literária do texto e imaginamos “grandes dados”, relacionado à grande quantidade de dados a ser analisado. mas o termo é um pouco mais abrangente, levando como base os 3 vs do bigdata. mas o que são os 3 “v’s”? volume, que está relacionado à grande quantidade de dados que possuímos dentro e fora da empresa; o segundo é a velocidade, pois a cada segundo muitos dados novos são criados na internet, e alguns destes dados podem ser interessantes para sua empresa; o terceiro e ultimo está relacionado à variedade, sendo que o dado pode ser um compartilhamento de um texto em uma rede social, um post no blog, um review em um ecommerce. juntando estes três pilares, é possível analisar praticamente tudo que está público, envolvendo dados estruturados, no caso de nós conhecermos a estrutura de armazenamento daquele contexto, e também os dados não estruturados, como imagens, vídeos, áudios e documentos. como aplicar em seu cenário? a aplicação de técnicas de bigdata é particular para cada cenário. pode ser que seu caso seja um portal de saúde e bem estar que consegue cruzar dados comuns de idade, altura, peso, sexo e localização de 10 milhões de usuários por mês, e inferir qual região tem mais propensão � determinada doença; ou então você é uma empresa de fabricação de aviões e não quer virar manchete por causa de uma queda de suas aeronaves, então consegue analisar os mais de 280 sensores espalhados pelo seu avião e consegue cruzar estes dados e saber se aquele avião que está a 4 horas de seu destino precisa fazer uma parada em um aeroporto mais perto para uma manutenção ou então é possível esperar ele chegar a seu destino. muitos até associam a conquista da copa do mundo do brasil pela alemanha devido a uma grande plataforma de dados que eles utilizaram. a aplicação destas técnicas é muito ampla, sendo possível encontrar a necessidade de seu cenário e então utilizar estas tecnologias para facilitar a aplicação e a tomada de decisão. quais tecnologias posso usar sem custo? o hadoop é uma plataforma open source, que roda em cima do servidor apache em distribuições linux. não entendeu nada? o hadoop é o nome do núcleo principal de uma plataforma pra trabalhar com bigdata, este núcleo pode ser executado em um servidor de internet chamado apache, que é responsável por executar e controlar o ambiente que o hadoop está trabalhando. por sua vez, o apache é uma ferramenta que trabalha em cima do sistema operacional linux, famoso por ser gratuito e também por possuir muitas empresas trabalhando para adequar as funcionalidades para chegar a um trabalho cada vez mais profissional. o hadoop sozinho não faz muita coisa, ele precisa de apis (application programming interface), programas que interagem através de troca de informação com o núcleo principal, satélites que ajudam nas principais tarefas de uma plataforma. existem apis que se encarregam de fazer o trabalho para movimentar dados entre uma base de dados que você possui e o hadoop. tem api que trabalha no âmbito de aprendizado de máquina e pode ajudar na sua tomada de decisão, aprendendo com métodos estatísticos o comportamento dos seus usuários. outra api que é amplamente utilizada é responsável por agendamento de tarefas, que podem processar os dados que são inseridos durante o dia na plataforma de bigdata. é possível implementar bigdata sem uma equipe de ti focada? sim, mas pode dar um trabalho extra e você precisará aprender algumas coisas de ti para isso. hoje, grandes provedores de serviços na internet oferecem plataformas prontas para se trabalhar com bigdata utilizando seus serviços. a amazon possui uma plataforma que é comercializada através do amazon web services; a microsoft possui sua plataforma que se chama windows azure; e o google tem o google big query. cada fornecedor possui suas peculiaridades, e também variam de preço e recursos. em alguns o esforço é maior, em outros, é menor. vale a pena investigar as ofertas do mercado e ver o que melhor se encaixa na sua necessidade e budget. mas você precisa ter bigdata no seu negócioempresa? é muito comum com o “modismo” as empresas implantarem um sistema ou tecnologia sem saber o que querem… assim como qualquer tecnologia, você precisa saber se o seu negócio está preparado, se de fato isso vai ajudar a sua empresa… essa é a típica solução que sozinha não dará nada! ou seja, pense muito bem para não gastar uma fortuna com “mais um sistema” na sua empresa. outro cuidado grande esta relacionado a preocupação ou não com a essência do bigdata. o que isso quer dizer: esqueça se você está fazendo bigdata, bi, ou o que quiser chamar. o que importa é você investir o tempo em algo que de fato fará a diferença no seu negócio! às vezes o mais simples já te entrega mais valor e muitas vezes o complicado… só é complicado! alexandre tarifa é diretor de tecnologia do minha vida e escreveu esse artigo em parceria com diego nogare, especialista de bi e bigdata. com a evolução das aplicações e a necessidade do ser humano pelas informações, mais e mais aplicações vem surgindo, deixando o homem cada vez mais refém da informação. para isso basta lembrarnos da evolução da relação homemcomputador em que num passado existiam muitas pessoas para uma máquina (como o mainframe), em seguida uma pessoa por máquina (o caso do computador pessoal) e nos tempos atuais em que cada pessoa possui várias máquinas (notebook, ultrabook, pc, tablet, smartphone, no futuro óculos, geladores, etc.). com tantos aplicativos surgindo, as informações são geradas exponencialmente, com isso a capacidade de gerenciar tantas informações se torna primordial para as aplicações atuais. esse mesmo crescimento de dados acontece nos aplicativos empresariais com crescimento anual de 60%. estimase que uma empresa com mil funcionários gera anualmente 1000 terabytes, sem falar que essa quantidade tende a aumentar cinquenta vezes até 2020. com o recém surgimento do bigdata, a primeira dificuldade é encontrar o seu conceito. é possível vêlo de maneiras totalmente divergentes em cada blog que se lê, ou seja, se você ler 10 materiais sobre bigdata, provavelmente cada um trará conceitos diferentes. dentre as matérias, ao se tirar um mínimo comum se verá que o bigdata, na sua raiz, fala em tratar um grande volume de dados com grande velocidade. no entanto, se repara que essa definição é bastante abstrata pelo simples fato de que para uma pessoa a, por exemplo, um grande volume seja um gigabyte e para uma pessoa b um grande volume seja um terabyte e o mesmo pode acontecer ao se referenciar a velocidade e o tempo de resposta de uma requisição. assim, o grande desafio do bigdata é estar administrando um grande volume de dados e minerando informações em um menor tempo de requisição. com o grande volume de dados, fazer com que a aplicação cresça à medida que é necessário é uma ótima estratégia, assim, uma escalabilidade vertical (em que se aumenta o poder do hardware, como aumento de memória e de processamento de uma única máquina) ou horizontal (em que se aumenta a quantidade de máquinas) deve ser analisada. apesar de ser mais complexa, a escalabilidade horizontal acaba sendo muito barata, sem falar de ser mais fácil de crescer ou diminuir os recursos por demanda. para armazenar as informações com a escalabilidade horizontal, os bancos nosql são uma ótima estratégia. vale lembrar que o banco nosql significa não apenas not only e não sql. uma diferença entre os bancos nosql e sql é que o primeiro possui uma grande variedade de bancos e cada um com características diferentes. em termo de arquitetura, os bancos nosql podem ser distribuídos ou não, embora sejam mais populares do tipo distribuído. sua forma de armazenamento pode ser apenas em memória, apenas em disco rígido ou configurável (vale apena lembrar que banco apenas na memória são muito rápidos, no entanto são volúveis, já os somente no hd tem informações permanentes, porém o io é muito alto). outra característica divergente entre os bancos nosql está na forma do armazenamento que são: chavevalor, documento, família de coluna e grafos. os bancos nosql costumam ser muito rápidos na leitura e na escrita, no entanto, possuem uma grande deficiência por parte das buscas. estas normalmente são feitas apenas pela chave, para isso usar um serviço para terceirizar o serviço pode ser uma boa ideia, como o framework lucene. mesmo realizando estratégias de buscas terceirizadas ou buscando pelo id, se a informação não estiver na memória principal pode haver uma demora para recuperar essa informação. assim, ter um dispositivo de acesso rápido pode ser uma melhor opção, entra aqui o uso do cache. ao se optar pelo cache devese levar em conta os dois maiores desafios: ter informação: o ato de esquentar a informação é extremamente importante para esse mecanismo, já que não adianta existir um cache se o mesmo não possuir nenhuma informação. para isso ele pode ser esquentado de várias formas (ao iniciar uma aplicação, por demanda, por sessão do usuário) que deve ser definido com o aplicativo em questão. matar o cache: para o cache é necessário que existam apenas informações atuais, assim é importante que os dados antigos sejam mortos e trocados por informações mais atuais. um outro aspecto no bigdata, que não é muito tratado, está relacionado à velocidade da modelagem além da velocidade no desenvolvimento de software. um exemplo muito interessante é o twitter que viu muito usuários usando a hashtag (o # adicionado com uma palavra) e em pouco tempo teve que realizar pesquisas através dos mesmos. assim podemos verificar que o bigdata não apenas está relacionado apenas à velocidade de requisição, mas também em desenvolvimento, então conhecer bem o negócio além de várias ferramentas poderá ser extremamente importante. na linguagem java, conhecer o java ee 6, muito em breve o java 7, além do jdk 7 trará velocidade de desenvolvimento, produtividade e um melhor gerenciamento de memória. assim podese concluir que o conceito do bigdata é relativamente muito fácil, mesmo sendo divergente em várias fontes, que é gerenciar um grande volume de memória em alta velocidade. o mais difícil certamente é chegar nesse objetivo, já que para isso é necessário conhecer uma gama de ferramentas, frameworks, metodologias, tipos de bancos como nosql, sql e newsql, cache, serviço de indexação de buscas, tipos de escalabilidades, etc. apesar de ainda ser muito discutida nas universidades, a normalização foi desenvolvida em 1970 (vale lembrar que os servidores da época possuíam 16kb de memória principal e 800kb de armazenamento e os celulares atuais são muitas vezes mais rápidos que estes servidores), ou seja, não é certo afirmar que os aplicativos, os hardwares, as necessidades de hoje são os mesmos daquela época, e com isso entender que esse padrão nem sempre é válido. o que é bigdata e como usar na sua pequena empresa o que é bigdata? o termo bigdata é relativamente novo e ao mesmo tempo velho, surgindo por volta de 2005 com o google e recebeu uma alavancada em 2008 com o pessoal do yahoo que transformou a plataforma hadoop em open source. quando pensamos em bigdata, é comum fazermos uma tradução literária do texto e imaginamos “grandes dados”, relacionado à grande quantidade de dados a ser analisado. mas o termo é um pouco mais abrangente, levando como base os 3 vs do bigdata. mas o que são os 3 vs? volume, que está relacionado à grande quantidade de dados que possuímos dentro e fora da empresa; o segundo é a velocidade, pois a cada segundo muitos dados novos são criados na internet, e alguns destes dados podem ser interessantes para sua empresa; o terceiro e ultimo está relacionado à variedade, sendo que o dado pode ser um compartilhamento de um texto em uma rede social, um post no blog, um review em um ecommerce. juntando estes três pilares, é possível analisar praticamente tudo que está público, envolvendo dados estruturados, no caso de nós conhecermos a estrutura de armazenamento daquele contexto, e também os dados não estruturados, como imagens, vídeos, áudios e documentos. como aplicar em seu cenário? a aplicação de técnicas de bigdata é particular para cada cenário. pode ser que seu caso seja um portal de saúde e bem estar que consegue cruzar dados comuns de idade, altura, peso, sexo e localização de 10 milhões de usuários por mês, e inferir qual região tem mais propensão � determinada doença; ou então você é uma empresa de fabricação de aviões e não quer virar manchete por causa de uma queda de suas aeronaves, então consegue analisar os mais de 280 sensores espalhados pelo seu avião e consegue cruzar estes dados e saber se aquele avião que está a 4 horas de seu destino precisa fazer uma parada em um aeroporto mais perto para uma manutenção ou então é possível esperar ele chegar a seu destino. muitos até associam a conquista da copa do mundo do brasil pela alemanha devido a uma grande plataforma de dados que eles utilizaram. a aplicação destas técnicas é muito ampla, sendo possível encontrar a necessidade de seu cenário e então utilizar estas tecnologias para facilitar a aplicação e a tomada de decisão. quais tecnologias posso usar sem custo? o hadoop é uma plataforma open source, que roda em cima do servidor apache em distribuições linux. não entendeu nada? o hadoop é o nome do núcleo principal de uma plataforma pra trabalhar com bigdata, este núcleo pode ser executado em um servidor de internet chamado apache, que é responsável por executar e controlar o ambiente que o hadoop está trabalhando. por sua vez, o apache é uma ferramenta que trabalha em cima do sistema operacional linux, famoso por ser gratuito e também por possuir muitas empresas trabalhando para adequar as funcionalidades para chegar a um trabalho cada vez mais profissional. o hadoop sozinho não faz muita coisa, ele precisa de apis (application programming interface), programas que interagem através de troca de informação com o núcleo principal, satélites que ajudam nas principais tarefas de uma plataforma. existem apis que se encarregam de fazer o trabalho para movimentar dados entre uma base de dados que você possui e o hadoop. tem api que trabalha no âmbito de aprendizado de máquina e pode ajudar na sua tomada de decisão, aprendendo com métodos estatísticos o comportamento dos seus usuários. outra api que é amplamente utilizada é responsável por agendamento de tarefas, que podem processar os dados que são inseridos durante o dia na plataforma de bigdata. é possível implementar bigdata sem uma equipe de ti focada? sim, mas pode dar um trabalho extra e você precisará aprender algumas coisas de ti para isso. hoje, grandes provedores de serviços na internet oferecem plataformas prontas para se trabalhar com bigdata utilizando seus serviços. a amazon possui uma plataforma que é comercializada através do amazon web services; a microsoft possui sua plataforma que se chama windows azure; e o google tem o google big query. cada fornecedor possui suas peculiaridades, e também variam de preço e recursos. em alguns o esforço é maior, em outros, é menor. vale a pena investigar as ofertas do mercado e ver o que melhor se encaixa na sua necessidade e budget. mas você precisa ter bigdata no seu negócioempresa? é muito comum com o modismo as empresas implantarem um sistema ou tecnologia sem saber o que querem… assim como qualquer tecnologia, você precisa saber se o seu negócio está preparado, se de fato isso vai ajudar a sua empresa… essa é a típica solução que sozinha não dará nada! ou seja, pense muito bem para não gastar uma fortuna com mais um sistema na sua empresa. outro cuidado grande esta relacionado a preocupação ou não com a essência do bigdata. o que isso quer dizer: esqueça se você está fazendo bigdata, bi, ou o que quiser chamar. o que importa é você investir o tempo em algo que de fato fará a diferença no seu negócio! às vezes o mais simples já te entrega mais valor e muitas vezes o complicado… só é complicado! alexandre tarifa é diretor de tecnologia do minha vida e escreveu esse artigo em parceria com diego nogare, especialista de bi e bigdata. por anna adami oriundo do termo de tecnologia da informação, o conceito de bigdata é focado no gigantesco armazenamento de dados, com enorme velocidade. o bigdata é baseado no conceito de 5v: valor, veracidade, variedade, volume e velocidade. o bigdata é tido por muitos, como a solução de eventuais situações problemáticas da economia. e devido ao modelo economico adotado pela globalização, o termo just in time, totalmente dependente da necessidade de uma expansão virtual, se tornou a palavra de ordem das negociações e forçou a ampliação de estrutura para armazenamento de dados. neste quesito, de acordo com a ibm, até o ano de 2008 já tinham sido produzidos mais de 2,5 quintilhões de bytes, sendo que aproximadamente 90% das informações armazenadas em centrais, foram produzidas nos últimos dois anos, fato este devido a inserção das empresas no meio online (internet), além da difusão de dispositivos móveis por exemplo. a diferença entre um bigdata e o chamado armazém de dados data warehouse, é basicamente que o segundo se baseia em um conjunto de dados, com variação de tempo e a opção de auxiliar nas decisões de negócios; enquanto o bigdata se baseia em grande volume de dados integrados, porém com mais velocidade. outra diferenciação é o software, que faz uma varredura de todos os dados fornecidos por uma empresa e os separa para que sejam utilizados em outra ocasião, tornandoo assim mais fácil de ser utilizado. a utilização do bigdata é tão promissora que a ibm criou a bigdata university, com o objetivo de formar o novo profissional denominado cientista de dados, com a responsabilidade de estudar matérias como matemática, ciência da computação, além de estatística e se tornar apto a operar este sistema. algumas aplicações do bigdata podem ser pontuadas com a utilização em alguns segmentos da tecnologia tais quais: empresas de tecnologia, que utilizam sat]elites próprios e conseguem ler informações em tempo real sobre a disponibilidade de vagas em estacionamentos, ou até o trânsito em determinada rua e horário, por exemplo. por uma tecnologia proposta pela ibm, um hospital no canadá monitorava a situação dos bebês que nasceram prematuros, o que possibilitou aos médicos um melhor atendimento e a antecipação de eventuais problemas. outra utilização é no comércio, onde as empresas podem integrar a tecnologia em carrinhos de supermercados, onde é possível controlar e tornar mais eficaz a experiência de compra dos usuários, pois monitora a combinação de produtos colocados dentro dele. com a ajuda feita pela distribuição de 2 milhões de chips sim, foi possível auxiliar nas buscas das vítimas do terremoto que atingiu o haiti. além de outros avanços proporcionados pelo bigdata, podemos citar o descobrimento do présal, pela alta velocidade de envio e processamento de informações e captações de dados sismicos. a função e atuação fundamental do bigdata é justamente de ser capaz de trabalhar com muitas variáveis simultaneamente, além de leitura e reinderização de imagens, em tempo mínimo e muita eficácia. a extraordinária inteligência por trás do bigdata da emc. o poder do bigdata analytics pode ser surpreendente. mas há um ditado que diz: também existe o componente humano no bigdata. na emc, você encontrará uma grande diferença. gostaríamos de apresentar algumas pessoas para que você veja o que elas já fazem e o que podem fazer por você. você também pode conhecer nossas soluções de bigdata. pedro desouza — gerente sênior de consultoria, bigdata e lógica analítica, emc “quando não estou envolvido com projetos de algoritmos, modelagem de dados ou visualizações de lógica analítica, gosto de esquiar”. saiba mais cientista de dados pedro desouza gerente sênior de consultoria, bigdata e lógica analítica, emc sempre começo com um entendimento profundo do setor e dos negócios exclusivos do cliente. assim que passa a existir uma sincronia dos negócios, explico o conceito. saiba mais voltar pedro desouza — gerente sênior de consultoria, bigdata e lógica analítica, emc cientistade dados pedro desouza gerente sênior de consultoria, bigdata e lógica analítica, emc + linkedin sempre começo com um entendimento profundo do setor e dos negócios exclusivos do cliente. assim que passa a existir uma sincronia dos negócios, explico o conceito e as possibilidades da lógica analítica e do bigdata com base em suas necessidades. analisamos uma variedade de “casos de uso”, quais são as oportunidades ou os desafios que eles apresentam e examinamos qual deles deveremos buscar. juntos, começamos uma pequena implementação que permite que eles percebam os resultados rapidamente. depois de executar nosso primeiro projeto, geralmente trabalho em parceria com meu cliente a fim de ajudálo a expandir o valor de seu primeiro projeto, fazendo demonstrações para sua organização que mostram exatamente o que nós podemos fazer, por que e como. muitos clientes dizem que eu faço com que “aproveitar o bigdata” seja muito mais simples do que eles pensavam que seria. “quando não estou envolvido com projetos de algoritmos, modelagem de dados ou visualizações de lógica analítica, gosto de esquiar”. tweetar isso principais conquistas um cliente conseguiu economizar dezenas de milhões de dólares. analisamos os sinais de cdr de cinco bilhões de usuários de celulares por dia. executando as análises, identificamos quem estava realmente com problemas de serviço. antes disso, milhares de clientes estavam recebendo trabalhos de reparo dispendiosos e desnecessários. outro excelente resultado foi um algoritmo churn orientado por dados que ajudou a prever e evitar encerramentos de contas em um banco. o desgaste diminuiu 30%. por fim, ajudei a reduzir os custos com bigdata analytics de us$ 10 milhões para us$ 100 mil por ano. o cliente ficou impressionado. foi uma simples mudança na tecnologia que ninguém sabia que era possível. saiba mais sobre nossas soluções de bigdata steve jones — vp global, bigdata e lógica analítica “no bigdata, uma viagem de mais de 1.600 km começa com apenas uma etapa. meu trabalho é saber para onde estamos indo e saber exatamente como chegar lá”. saiba mais vp global, bigdata e lógica analítica steve jones capgemini, parceiro da emc meu trabalho é acompanhado de muita pressão. basicamente, sou responsável pelo sucesso de um cliente com o bigdata. nós solucionamos algo e conseguimos obter sucesso ou não? gosto dessa pressão principalmente porque amo o bigdata. saiba mais voltar steve jones — vp global, bigdata e lógica analítica vp global, bigdata e lógica analítica steve jones capgemini, parceiro da emc + linkedin + twitter + blog meu trabalho é acompanhado de muita pressão. basicamente, sou responsável pelo sucesso de um cliente com o bigdata. nós solucionamos algo e conseguimos obter sucesso ou não? gosto dessa pressão principalmente porque amo o bigdata. se feito do jeito certo, ele pode cumprir todas as promessas. meu trabalho é fazer com que isso aconteça. os clientes fornecem seus dados a nós, e sou responsável por retornálos a eles como um “data lake corporativo”, pronto para ser usado e agregar excelente valor. é evidente que estou envolvido em tudo. na estratégia. na tecnologia. no software. na compilação. na aparência da solução, no modo como ela é percebida e como funciona. tudo. “no bigdata, uma viagem de mais de 1.600 km começa com apenas uma etapa. meu trabalho é saber para onde estamos indo e saber exatamente como chegar lá”. tweetar isso principais conquistas criar o 1^o “data lake corporativo” foi realmente animador. obtivemos um enorme avanço na ciência de bigdata, transformandoo em um grande ativo de negócios. foi uma grande mudança. o data lake sempre foi muito interessante e bem conceituado, mas nunca foi totalmente explorado. havia limitações. ele não estava preparado para fazer o que as empresas desejavam. agrupamos tudo, trabalhamos com as dificuldades e fornecemos a ele recursos de nível empresarial. fizemos com que ele se tornasse rápido, seguro, preparado para estar em conformidade, controlável e muito valioso. durante os anos em que fui “a pessoa responsável pelo sucesso do cliente”, trabalhei muito para realizar um bom trabalho. não há dúvidas que a criação do “data lake corporativo” fez com que esse trabalho fosse muito mais fácil. saiba mais sobre nossas soluções de bigdata michael foley — diretor, laboratório de ciências de marketing, emc “em outra vida, trabalhei como músico. acho que a arte mostra como é importante criar visualizações de dados bem apresentáveis para as pessoas”. saiba mais diretor de ciência de dados michael foley diretor, laboratório de ciências de marketing, emc saiba mais voltar michael foley — diretor, laboratório de ciências de marketing, emc diretor de ciência de dados michael foley diretor, laboratório de ciências de marketing, emc + linkedin + twitter trabalho no que você pode chamar de tanque de pensamentos sobre big data da emc. nós exploramos, pesquisamos e aplicamos ideias e lógica analítica de bigdata em uma enorme variedade de iniciativas, desde modelagem preditiva de consumidores até análises de população em países inteiros. quanto a nosso laboratório de ciências de marketing, este consiste em uma equipe de cientistas de dados que trabalham em uma plataforma unificada de lógica analítica. com ele, podemos analisar e solucionar problemas ou aproveitar oportunidades, usando dados estruturados e não estruturados. (fale isso rápido 10 vezes). minha equipe e eu somos responsáveis por fazer reuniões com clientes e parceiros para mostrar como o laboratório de ciências de marketing pode ajudálos a aplicar a lógica analítica preditiva a fim de respaldar as diversas iniciativas que eles têm com foco em marketing. “em outra vida, trabalhei como músico. acho que a arte mostra como é importante criar visualizações de dados bem apresentáveis para as pessoas.” tweetar isso principais conquistas montamos o laboratório de ciências de marketing da emc e nosso sistema de bigdata analytics em menos de seis meses. os clientes gostam de saber que, como ele comprova o aproveitamento, o bigdata não precisa ser um enorme transtorno ou demorar uma eternidade. tivemos uma campanha chamada the human face of bigdata que ofereceu outro excelente resultado. encontramos um modo de usar grandes volumes de dados não estruturados e totalmente brutos para ajudar um país inteiro a entender melhor seus habitantes. uma de minhas iniciativas favoritas envolveu o uso do bigdata para realizar um sonho e gerar mudanças. criamos visualizações de dados para a parker antarctica expedition, liderada por um jovem cientista de aventuras de 19 anos. as visualizações eram maravilhosas e impactantes. elas proporcionaram a um jovem uma voz muito forte para divulgar o trabalho que ele estava fazendo quanto ao aquecimento global. como muitos dizem, o bigdata pode mudar o mundo. saiba mais sobre nossas soluções de bigdata john cardente — bigdata, ciência de dados, aprendizado de máquina, emc “todos os clientes têm um mecanismo de bigdata. gosto de me aprofundar e mostrar a eles onde está o turbo”. saiba mais engenheiro john cardente bigdata, ciência de dados, aprendizado de máquina, emc saiba mais voltar john cardente — bigdata, ciência de dados, aprendizado de máquina, emc engenheiro john cardente bigdata, ciência de dados, aprendizado de máquina, emc + linkedin + twitter em minha função, faço muitas consultorias com o cliente, nas quais analiso sua arquitetura e crio estratégias quanto aos objetivos dos negócios. depois, faço reflexões inovadoras. meu objetivo é sempre triplo. atender às necessidades do cliente. atender a uma necessidade que o cliente não sabia que tinha. e dedicarme totalmente para criar a solução. adoro criar. também gosto muito de tornar operacionais as iniciativas piloto que os clientes iniciam, mas que não conseguem usar. incluo os recursos corporativos de que eles precisam: segurança, conformidade e relatórios. podese dizer que minha especialidade é “fazer com que o bigdata funcione”. “todos os clientes têm um mecanismo de bigdata. gosto de aprofundarme e mostrar a eles onde está o turbocompressor”. tweetar isso principais conquistas um projeto que adorei foi criar um “data lake climático”. ele analisa grandes volumes de dados de ciências aparentemente não relacionados. ele gera percepções e modelos preditivos em que jamais alguém pensaria. com ele, estamos próximos de entender as mudanças climáticas e possivelmente lidar com elas. outro projeto favorito surgiu quando estava julgando uma competição da emc. eu calculava números sobre candidatos, sexo e idade. mas percebi algo. criei um modelo que pudesse identificar os jovens que quisessem ser “inovadores”. ele foi implementado no rh e funcionou. fiquei impressionado. o bigdata consegue aumentar a autorrealização do ser humano e possivelmente salvar o planeta. não conheço nada mais que consiga fazer essas duas coisas. saiba mais sobre nossas soluções de bigdata srivatsan ramanujam — cientista de dados principal, pivotal, emc federation “a demonstração do poder do bigdata é 10 vezes mais importante que sua descrição”. saiba mais cientista de dados srivatsan ramanujam cientista de dados principal, pivotal, emc federation saiba mais voltar srivatsan ramanujam — cientista de dados principal, pivotal, emc federation cientistade dados srivatsan ramanujam cientista de dados principal, pivotal, emc federation + linkedin + twitter + blog grande parte do que faço é criar “simuladores de solução” que permitam que os clientes tenham contato com uma solução de bigdata e vejam o que ela pode fazer por seus negócios. ferramentas práticas, aplicativos e visualizações são disponibilizados em um painel de controle com o qual eles podem interagir. são usados seus próprios dados, então, é possível executar lógica analítica real, obter percepções reais e ver tudo o que realmente é possível. os clientes adoram o quanto tudo isso é concreto. e, para mim, é muito recompensador ver a empolgação deles quando percebem quanto podem fazer e como isso pode ser fácil. “a demonstração do poder do bigdata é 10 vezes mais importante que sua descrição”. tweetar isso principais conquistas no momento, dois projetos destacamse como meus favoritos. um cliente da área de agricultura estava tentando compreender flutuações de commodity e não conseguia chegar a nenhuma conclusão com os relatórios de dados oficiais. então, procuramos uma fonte de dados muito inesperada. o twitter! as indicações de mlp de commodity de mais alto valor estavam nos tweets. escrevemos algoritmos, criamos um modelo preditivo e pronto! problema solucionado. no entanto, meu projeto favorito foi ter trabalhado em um “data lake climático”. ele coleta grandes volumes de dados sobre mudanças climáticas e gera percepções altamente precisas. a melhor parte é que praticamente qualquer pessoa consegue adicionar dados, e não somente cientistas e phds. as mudanças climáticas afetam a todos. por esse motivo, criamos uma forma de permitir que todos ajudem a encontrar uma solução. saiba mais sobre nossas soluções de bigdata bill schmarzo — cto, lógica analítica e gerenciamento de informações corporativas, emc “o bigdata mostra que é possível obter sucesso se fizer as coisas de maneira correta”. bigdata: uma fonte de poder? informação é poder, logo, se uma empresa souber como utilizar os dados que tem em mãos, saberá também como melhorar um produto, criar uma estratégia de marketing mais eficiente, produzir mais, superar concorrentes, enfim, será o bigdata uma fonte de poder? bigdata é bem amplo e ainda não existe um consenso comum em sua definição. porém, bigdata pode ser resumidamente definido como o processamento analítico de grande volumes de dados complexos produzidos por várias aplicações, ou seja, a mineração de enormes volumes de dados estruturados e não estruturados. exemplos de aplicações no contexto big data varia bastante, como aplicações científicas e de engenharias, redes sociais, redes de sensores, dados de web click, dados médicos e biológicos, transações de comércio eletrônico e financeiros, entre inúmeras outras. três fatores influenciaram o grande aumento de volume de dados sendo coletados e armazenados para posterior análise: difusão e barateamento dos dispositivos de captação de dados (sensores, gps, smartphones), capacidade de armazenamento na ordem de petabytes e aumento de velocidade de transmissão nas redes. estas tecnologias atuais permitiram e permitem aumentar exponencialmente a quantidade de informações no mundo. empresas, governos e outras instituições precisam saber lidar com esta explosão de dados. o bigdata se propõe a ajudar nesta tarefa, uma vez que as ferramentas computacionais usadas até então para gestão de dados, por si só, já não podem fazêlo satisfatoriamente. simplificando, podemos definir o conceito de bigdata como sendo conjuntos de dados não estruturados, extremamente grandes e que necessitam de ferramentas especialmente preparadas para lidar com grandes volumes, de forma que toda e qualquer informação nestes meios possa ser encontrada, analisada e aproveitada em tempo hábil. informação é poder, logo, se uma empresa souber como utilizar os dados que tem em mãos, poderá saber como melhorar um produto, como criar uma estratégia de marketing mais eficiente, como cortar gastos, como produzir mais, como evitar o desperdício de recursos, como superar um concorrente, como disponibilizar um serviço a um cliente de maneira satisfatória e assim por diante. a proposta de uma solução de bigdata é a de oferecer uma abordagem ampla no tratamento cada vez mais caótico dos dados, para tornar as informações mais eficientes e precisas. para tanto, o conceito considera não somente grande quantidade de dados, a velocidade de análise e a disponibilização destes, como também a relação entre eles. os vs do bigdata: volume, velocidade, variedade, veracidade e valor. no intuito de deixar a ideia de bigdata mais clara, alguns especialistas passaram a resumir o assunto em aspectos que conseguem descrever satisfatoriamente a base do conceito: os cincos vs – primeiramente volume, velocidade e variedade, e posteriormente agregados, os fatores veracidade e valor. volume é a quantidade de dados realmente grandes, que crescem exponencialmente e que, não raramente, são subutilizados justamente por estarem nestas condições. velocidade (velocity) – a identificação dos dados (obtenção, gravação, atualização, enfim) deve ser feito em tempo hábil muitas vezes em tempo real. se o tamanho do banco de dados for um fator limitante para a velocidade de entrega, o negócio pode ser prejudicado: imagine, por exemplo, o transtorno que uma operadora de cartão de crédito teria e causaria se demorasse horas para aprovar um transação de um cliente pelo fato de o seu sistema de segurança não conseguir analisar rapidamente todos os dados que podem indicar uma fraude. variedade (variety) é outro aspecto importante. os volume de dados que temos hoje são consequência também da diversidade de informações. temos dados em formato estruturados, isto é, armazenados nos bancos de dados, e dados não estruturados oriundos de inúmeras fontes, como documentos, imagens, áudios, vídeos e assim por diante. é necessário saber tratar a variedade como parte de um todo um tipo de dado pode ser inútil se não for associado a outros. veracidade (veracity) não adianta muita coisa lidar com a combinação volume + velocidade + variedade se houver dados não confiáveis. é necessário que haja processos que garantam o máximo possível a consistência dos dados. voltando ao exemplo da operadora de cartão de crédito, imagine o problema que a empresa teria se o seu sistema bloqueasse uma transação genuína por analisar dados não condizentes com a realidade. valor (value) – são os resultados e benefícios significativos que justificam a afirmação que informação é poder, é patrimônio. a combinação volume + velocidade + variedade + veracidade, que caracteriza a solução bigdata deve apresentar valor para seu investimento. é claro que estes cinco aspectos não precisam ser tomados como a definição perfeita. há quem acredite, por exemplo, que a combinação volume + velocidade + variedade seja suficiente para transmitir uma noção aceitável do bigdata. sob esta óptica, os aspectos da veracidade e do valor seriam desnecessários, porque já estão implícitos no negócio qualquer entidade séria sabe que precisa de dados consistentes; nenhuma entidade toma decisões e investe se não houver expectativa de retorno. resumindo: bigdata é um conceito, no qual o foco é o grande armazenamento de dados e maior velocidade, baseado em 5v’s volume, velocidade, variedade, veracidade e valor. bigdata impõe novas questões éticas em pesquisas científicas na internet estados emocionais podem ser transferidos a outros via contágio, induzindo essas pessoas a experimentar as mesmas emoções sem que tenham consciência. logo a primeira frase de um estudo liderado pelo facebook mostra por que críticos da rede reclamaram do experimento, uma vez que usuários tiveram suas emoções contagiadas a partir de mudanças em suas linhas do tempo, sem saberem. ao todo, 689.003 perfis de usuários de língua inglesa serviram de cobaias sem consentimento expresso de seus donos –cerca de 1 em cada 2.500 participantes da rede. feito em janeiro de 2012, o estudo consistiu em apresentar a algumas pessoas, durante determinado período, apenas conteúdo positivo. outra parte da amostra teve acesso só a conteúdo negativo. os testes deram base a um artigo no periódico científico pnas (em bit.lyestudofb). apesar de brasileiros não terem sido incluídos na pesquisa, já que foram selecionados apenas falantes de língua inglesa, esse tipo de experimento feriria as regras específicas do país. desde 1996, com a resolução 196, o conselho nacional de saúde determina que pesquisas com seres humanos precisam de autorização livre de vícios (simulação, fraude ou erro), dependência, subordinação ou intimidação. também deve haver explicação completa e pormenorizada sobre a natureza da pesquisa, seus objetivos, métodos, benefícios previstos, potenciais riscos e o incômodo que esta possa acarretar. mas o bigdata impõe novos desafios para os pesquisadores, afirma christian dunker, professor livredocente de psicologia na usp. ele explica que, enquanto grandes quantidades de dados possibilitam pesquisas antes impossíveis, são colocadas questões éticas que antes não existiam. esse estudo exemplifica o problema. o facebook tem uma divisão responsável por esse tipo de teste desde novembro de 2007, a data science team –equipe de ciência de dados, em português–, que na época da pesquisa era liderada pelo cientista da computação cameron marlow, doutor pelo mit (instituto de tecnologia de massachusetts). antes de deixar a empresa, ele publicou artigos demonstrando descobertas feitas a partir de sua base de dados. é a primeira vez que o mundo vê essa escala e quantidade de dados sobre comunicação humana, disse, em 2012, à revista mit technology review. introdução obeservando o mercado digital ao longo do tempo sempre conseguimos identificar algum tema que se destaca frente aos demais. a própria linguagem de mercado os define como: trend, hot topics ou buzz word. o processo que elege esses temas segue sempre uma mesma fórmula. primeiramente gurus e evangelizadores de mercado propõem uma infinidade de buzz words, extraindo conteúdo desde estudos de vanguarda do mit até romances de isaac asimov. os termos que implacam são abraçados por agências e departamentos de marketing de todos os tamanhos que os elevam aos mais diferentes status: meta para o ano, produto a ser vendido, temática de workshops e assim vai. no entorno dessas ações existe toda uma comunidade que passa a discutir a nova tendência, amplificando sua relevância e tornando o tópico uma necessidade de mercado. o conceito de ‘bigdata’ começou a ser discutido a cerca de 70 anos, a produção escrita da humanidade crescia a taxas exponenciais e o acesso à informação enfrentava grandes desafios devido ao seu volume. essa discussão restringiase ao universo da filosofia, já que a tecnologia da informação ainda estava em uma etapa embrionária. o termo ‘bigdata’, no entanto, foi criado há 17 anos referindose � impossibilidade de armazenamento de grandes volumes de informação em data warehouses únicos, já que o armazenamento digital ainda não era tão eficiente como hoje em dia. em 2001, o problema de armazenamento já não era um grande fator limitante e grandes empresas ‘ponto com’ como amazon, ebay e walmart já acumulavam seus primeiros petabytes de informação. naquele ano, uma importante empresa de tecnologia (gartner, na época meta group) definiu ‘bigdata’ pela primeira vez no formato que discutimos hoje em dia. nos anos seguintes, a utilização do termo começou a se popularizar. foi em 2012 que barak obama desenvolveu a ‘bigdata research and development initiative’, projeto que aplicava grandes quantidades de dados para soluções dos mais diversos problemas de seu governo. também foi utilizando, no mesmo ano, inteligência de análise em ‘bigdata’ que obama conseguiu se eleger para um segundo mandato. esses últimos eventos eram o que faltava para criar o novo trend. as buscas pelo termo ‘bigdata’ no google triplicaram e no ano seguinte todos os evangelizadores falavam de ‘bigdata’, as empresas precisavam de ‘bigdata’ e as agências e consultorias o ofereciam como serviço em seus portfólios. definição a definição mais aceita de ‘bigdata’ é aquela que a gartner propôs, como sendo um conjunto de dados com o comportamento definido por volume, velocidade e variedade (os três vs). volume: gigas, teras, petabytes de informações são geradas por funcionários, clientes, forncedores e máquinas em qualquer empresa todos os dias. essa é a dimensão mais imediata quando se pensa em ‘big data’ e traz desafios de armazenamento, transmissão e processamento ao mesmo tempo. velocidade: o volume de informação gerado é crescente e a janela de tempo para a tomada de decisão é cada vez menor. o desafio é conseguir atender as demandas esperadas de entrega de dados no tempo ideal. no limite, estamos falando de volumes imensos de dados alimentados em servidores em tempo real. variedade: os tipos de informação são mais complexos e diversos a cada dia: emails, posts, sons, vídeos, imagens, dados de gps, páginas web, etc. o desafio é grande para armazenálos e muito maior para interpretálos e analisálos. na prática, ‘bigdata’ apenas define informações de uma natureza específica, ‘bigdata’ não fala sobre como utilizar essa informação, com que agilidade ela deve ser manipulada ou que tratamentos estatísticos ela deve receber. o termo define uma problemática, mas não uma solução. por isso não faz sentido um projeto de ‘bigdata’, mas sim projetos que resolvam pontos específicos desse universo. para entender quais pontos são esses, vamos dividir o universo de uma forma mais estruturada. soluções de bigdata quando falamos de soluções de ‘bigdata’ normalmente pensamos apenas em tratamentos algorítmicos complexos, inteligência artificial e análises semânticas, mas nem sempre é esse o problema. ‘bigdata’ é a definição da complexidade de dados que você possui e, pela definição, poderíamos dizer que saber a receita hora a hora de uma grande franquia de supermercados se encaixaria diretamente nesse conceito. os problemas podem ser de diversas naturezas, mas o framework de soluções é bem conhecido: etl de dados, procedimentos estatísticos e relatórios e visualização de dados. vamos discutílos em maiores detalhes. etl (extracttransformload) este é o nome que se dá ao processo de extração e processamento de dados para disponibilizálos para uma utilização final. o trabalho realizado nessa etapa varia muito de acordo com o volume e complexidade das fontes de dados: enquanto é muito direto armazenar ids de clientes ou receitas de transações, é muito dispendioso o armazenamento de textos de redes sociais ou chamadas telefônicas de sacs. a variedade de dados é um problema enfrentado não apenas no armazenamento, mas também na sua aquisição. quando temos muitas origens de dados diferentes precisamos, também, de um grande esforço de integração ou extração. para bancos de dados locais podemos fazer uma conexão diretas para análise, caso em que o limitante é essencialmente o volume. mas frequentemente precisamos de informações de bancos de dados de terceiros e cada serviço diferente possui um protocolo de extração diferente. são os chamados webservices. para extrair dados de fontes como google analytics, facebook, twitter, ferramentas de email marketing e de alguns publicadores de conteúdo precisase programar um cliente que extraia dados via webservice de cada uma delas. para várias dessas conexões é possível encontrar extratores já programados por empresas de intergração de dados, caso contrário o desenvolvimento do webservixce deverá entrar para a conta do ‘bigdata’. não apenas o volume e variedade são críticos no processo de etl, mas também a velocidade de disponibilização do bd para utilização final. a arquitetura do banco deve responder em tempo compatível com as demandas de consulta direta, demandas de relatórios e demandas de alimentação de processos estatísticos. o etl é periódico e a disponibilização depende de todas as variáveis de performance da infraestrutura. a pressão é cada vez maior para que os dados estejam disponíveis em real time, mas muitas decisões podem ser tomadas com dados em d1 (atualizados até o dia anterior), a depender das necessidades de negócio do projeto. tratamento algorítmico (estatístico ou matemático) uma vez que os dados já estão todos armazenados e disponíveis de forma adequada, passamos para a etapa de tratamento e enriquecimento. a matéria de tratamento algorítmico abrange: criação de índices (como modelagem de ltv, payback e cohorts por cliente), aplicação estatística indutiva (análise de comportamento e clusters), modelagem preditiva (estimativa resultados futuros) e de algoritmos relativos a natureza de dados (processamento de imagens, análise semântica de textos, etc). esses processos têm grande dependência do resultado final que se deseja. cada empresa possui uma necessidade eou uma capacidade técnica de aplicar alguns ou vários dos métodos citados. as habilidades necessárias nessa etapa se dividem sobretudo entre conhecimentos de economia (econometria), computação, matemática e estatística. como se pode imaginar é muito difícil que uma empresa possua uma equipe que domine todas essa técnicas, tanto mais difícil é encontrar um profissional que, sozinho, consiga resolver todas elas. o padrão no mercado é tercerizar projetos com empresas especializadas que já acumulam expertise nas soluções desejadas. vamos listar aqui algumas das técnicas mais procuradas hoje em dia para que se possa ter referência do que buscar: – análise semântica: com a indiscutível relevância das redes sociais, a análise de posts, comentários e tweets desperta muito interesse nesse tópico. a idéia é indexar, segmentar e responder comentários das pessoas de acordo com o conteúdo de seus textos, mapear o humor dos clientes sobre uma marca e ser proativo em soluções de problemas. no entanto é argumentável que a análise semântica, sobretudo em português, ainda não produz resultados inteiramente satisfatórios, sendo necessário intervenção humana para correção e garantia de qualidade. outro método amplamente praticado é a análise 100% humana dos textos, onde pessoas realizam uma leitura (parcial ou total) dos textos, mapeam o que se pretende mapear e fazem as devidas segmentações. ambos os casos entregam bons resultados, mas que podem não ser satisfatórios no pilar da velocidade. – análise preditiva: tratase, por exemplo, de descobrir qual será o comportamento de vendas de um produto de acordo com suas características, ou a projeção de vendas de uma empresa de acordo com o histórico atual e indicadoreschave. existem métodos de aprendizagem de máquina (redes neurais) e outros algorítmos de inteligência artificial dão bons resultados para esse tipo de previsão, mas normalmente exigem um processamento pesado e, as vezes, não compatível com o contexto de ‘bigdata’. soluções alternativas para predição envolvem estatística preditiva (regressões lineares, quadráticas e exponenciais) que são simples e já ajudam a levantar previsões de resultados com margem de erro satisfatórias. um bom exemplo de aplicação dessas técnicas é para a análise de lifetime value de um cliente em 24 meses; a projeção é necessária, uma vez que o cliente ainda não realizou suas compras futuras. – análise de cluster: essa modalidade de análise guarda dois elementos de complexidade importantes. primeiramente existe vários métodos de clusterização (centróide, conectivo ou de densidade, para nomear alguns) que permitirão unir em um mesmo grupo jovens mulheres de são paulo e homens de meia idade de minas gerais, de acordo com semelhantes padrões de comportamento. esses métodos são ótimos para que se ofereçam ofertas adequadas para uma base de email marketing de acordo com seu padrão de compras, ou mesmo oferecer produtos matadores para clientes durante seu processo de navegação do site. novamente, existem empresas e ferramentas que já possuem bons cases de aplicação desse tipo de tecnologia no mercado. o segundo ponto importante que a segmentação de cluster levanta: é possível ver o comportamento de um cluster e com poucos cliques passar a ver o comportamento de outro? ou ainda, com mais alguns cliques construir seu próprio cluster cutomizado de análise? com esse questionamento, também pertinente a ‘bigdata’, passamos a discutir o último tópico desse artigo. relatórios e visualização de dados business intelligence (bi) é um conjunto de teoria, metodologias, arquiteturas e tecnologias que conecta as bases de dados brutas aos usuários finais da informação, da forma que eles precisam. há ferramentas desenvolvidas para atender necessidades de bi, bem como workframes de trabalho já consolidados e aplicados em todo o mundo. vamos chamar essa ponte entre a extração e a leitura de dados de modelo de “bi clássico”. no ‘bi clássico’ um dos pilares mais importante é como dispor a informação ao usuário final. compilar informações de vendas ao longo dos meses é simples com um gráfico de barras; para adicionar na análise a categoria de produtos vendidos podemos utilizar um gráfico de bolhas; mas e se quisermos adicionar uma quarta dimensão? ou uma quinta? como manter a legibilidade e a aparência dos gráficos? o conteúdo de um relatório é imprenscindível, mas a facilidade de compreensão desse conteúdo, mesmo para pessoas menos analíticas, é fundamental. vários estudos se propõem a equacionar estética, simplicidade e legibilidade de informações para falicitar a rápida consulta e tomada de decisão. essa é disciplina de bi conhecida como ‘data visualization’ e é estudada em universidades e empresas respeitadas que buscam criar e aprimorar formas de visualização de dados. a ‘data visualization’ trata da democratização do entendimento dos dados presentes em relatórios, mas existe uma segunda necessidade de democratização importante em bi: a das criações de perguntas que serão respondidas nos relatórios. quem nunca viu um determinado relatório analítico e disse: ‘interessante esse resultado, mas agora eu quero ver os mesmos números para são paulo’. e a resposta ouvida foi: ‘tudo bem, vou precisar de mais 5 dias para isso’. neste caso o analista de bi, ou mesmo alguém de ti, teria que voltar e alterar queries, reprocessar os dados e gerar o relatório todo novamente. a flexibilidade que o ‘modelo clássico’ permite não é compatível com as perguntas mais numerosas e complexas que precisam ser respondidas diariamente para manter as empresas competitivas. a resposta para isso é o ‘bi em memória’. para simplificar a distinção, imagine o ‘modelo clássico’ como um bibliotecário que sabe com precisão onde está armazenada cada informação em sua biblioteca, toda pergunta terá sua resposta, mas antes será necessário caminhar até a estante que contém a informação em questão, abrir um livro e consultálo. já o “bi em memória” é como se fosse um grande estudioso que sabe todas as informações sem precisar abrir nenhum livro para responder a uma pergunta, tudo está na ponta da língua. muito mais ágil e eficiente, esse modelo vem tomando espaço. ele retira o time de ti e os analistas técnicos de bi de vários dos passos da geração do relatórios, dando poder ao usuário final de responder muitas de suas perguntas sozinho (chamamos isso de ‘selfservice bi’). os relatórios passam a ser um ambiente onde qualquer um pode perguntar o que deseja saber, alterar as visões variando regiões, cluster de usuários, criar cluster de acordo com a receita, analisar e segmentar times de venda por desempenho, etc. com uma navegaçação mais ágil e ampla um grande universo de novas análises e descobertas ficam ao alcance de todos (chamamos isso de ‘data discovery’) para referência, os maiores representantes de ‘bi em memória’ e ‘data discovery’ são as ferramentas qlikview e tableau, mas outras gigantes ja estão se posicionando no segmento. vale lembrar que essas ferramentas se posicionam na ponta final do que estamos entendendo como ‘bigdata’, mas nem elas são capazes de resolver todo o problema sozinhas. importante lembrar que a etl e análise estatística já devem estar bem resolvidas nos passos que antecedem o momento de visualização da informação. conclusão ‘bigdata’ tornouse um buzz word bastante popular para o qual tentamos dar mais significado nesse texto. é uma questão multifacetada e ter necessidade de soluções de ‘bigdata’ significa entender com mais precisão em qual segmento você precisa de ações (etl, estatística, visualização de informações, etc). buscar contratação de uma solução ‘bigdata’ envolverá a equipe interna que já opera com os dados, mas certamente envolverá contratações de ferramentas e fornecedores serviço com knowhow específico na solução que você precisa. e ainda, solucionar um problema de ‘bigdata’ não significa solucionar os outros possíveis problemas do mesmo universo. escopos bem definidos e uma boa gestão de projetos é indispensável para entender e atender toda as necessidades. no entanto, um projeto de ‘bigdata’ tratará de um universo de informações nunca antes trabalhado com seu devido rigor, o que significa que o potencial de insights e otimização de negócios é gigantesca, e consequentemente a economia gerada e a lucratividade alcançada crescerá em igual proporção. o termo bigdata está cada vez mais popular, embora ainda esteja mal compreendido. observo em muitas palestras que não existe consenso quanto a que realmente é bigdata e quais as tecnologias fundamentais que o sustentam. e mais ainda, existem muitas dúvidas de como tangibilizar o conceito, ou seja, como sair do conceitual e criar soluções de negócio que agreguem valor para as companhias. eliminar estas dúvidas é essencial e o primeiro passo para as empresas se aventurarem em projetos bigdata. imagem para colocarmos o termo em contexto, bigdata vem chamando atenção pela acelerada escala em que volumes cada vez maiores de dados são criados pela sociedade. já falamos comumente em petabytes de dados gerados cada dia, e zetabytes começa a ser uma escala real e não mais imaginária e futurista. o que era futuro há uma década, terabytes, hoje nós já temos nas nossas próprias casas. as tecnologias que sustentam bigdata podem ser analisadas sob duas óticas: as envolvidas com analytics, tendo hadoop e mapreduce como nomes principais e as tecnologias de infraestrutura, que armazenam e processam os petabytes de dados. neste aspecto, destacamse os bancos de dados nosql (no, significa not only sql). por que estas tecnologias? por que bigdata é a simples constatação prática que o imenso volume de dados gerados a cada dia excede a capacidade das tecnologias atuais de os tratarem adequadamente. começando pelo início. o que é bigdata? outro dia escrevi um post com uma fórmula simples para conceitualizálo. bigdata = volume + variedade + velocidade. hoje adiciono mais dois “v”s: veracidade e valor. vamos detalhar estes tópicos um pouco mais. volume está claro. geramos petabytes de dados a cada dia. e estimase que este volume dobre a cada 18 meses. variedade também, pois estes dados vêm de sistemas estruturados (hoje minoria) e não estruturados (a imensa maioria), gerados por emails, mídias sociais (facebook, twitter, youtube e outros), documentos eletrônicos, apresentações estilo powerpoint, mensagens instântaneas, sensores, etiquetas rfid, câmeras de vídeo, etc. velocidade porque muitas vezes precisamos agir praticamente em tempo real sobre este imenso volume de dados, como em um controle automático de tráfego nas ruas. veracidade porque precisamos ter certeza que os dados fazem sentido e são autênticos. e valor porque é absolutamente necessário qua a organização que implementa projetos de bigdata obtenha retorno destes investimentos. um exemplo poderia ser a área de seguros, onde a análise de fraudes poderia ser imensamente melhorada, minimizandose os riscos, utilizandose, por exemplo, de análise de dados que estão fora das bases estruturadas das seguradoras, como os dados que estão circulando diariamente nas mídias sociais. falamos que as tecnologias atuais de tratamento de dados não são mais adequadas. por que? vejamos o modelo relacional, proposto pelo pesquisador da ibm, edgar f. codd, em 1969. quando foi proposto, a demanda era acessar dados estruturados, gerados pelos sistemas internos das corporações. não foi desenhado para dados não estruturados (futurologia na época) e nem para volumes na casa dos petabytes de dados (inimaginável na época). precisavase sim de um modelo que categorizasse e normalizasse dados com facilidade. e o modelo relacional foi muito bem sucedido nisso, tanto que é o modelo de dados mais usado atualmente. para tratar dados na escala de volume, variedade e velocidade do big data precisamos de outros modelos. surgem os softwares de banco de dados nosql, desenhados para tratar imensos volumes de dados estruturados e não estruturados. existem diversos modelos como sistemas colunares como o big table, usado internamente pelo google (é a base de dados sob o google app engine),o modelo keyvalue como dynamodb da amazon, o modelo “document database” baseado no conceito proposto pelo lotus notes da ibm e aplicado em softwares como mongodb, e o modelo baseado em grafos como o neo4j. em resumo, não faltam opções... interessante lembrar que antes do modelo relacional já existia um software de banco dados que lidava com grandes volumes que é o ims da ibm, modelo hierárquico, criado para suportar o projeto apollo de conquista da lua e que ainda hoje é base da maioria das transações financeiras que circulam pelo mundo. por outro lado, esta diversidade de alternativas demanda que os líderes dos projetos de bigdata escolham a mais adequada ou mesmo demandem mais de uma opção, de acordo com as necessidades específicas. depois da infraestrutura é necessário atenção aos componentes de analytics, pois estes é que transformam os dados em algo de valor para o negócio. bigdata analytics não signfica eliminar os tradicionais sistemas de bi que existem hoje, mas pelo contrário, devem coexistir. recomendo enfáticamente a leitura do livro “competing on analytics: the new science of winning”, de thomas h. davenport, publicado pela harvard business schoool press. um bom exemplo de uso de hadoop para analytics é o biginsights da ibm. aliás, ao lado destas alternativas surgem outras opções, como o uso de appliances, como o netezza da ibm, que embarcam em um hardware adaptado todos os softwares necessários para criar projetos de bigdata. os appliances queimam etapas nos projetos de bigdata. quanto ao aspecto velocidade o conceito de stream processing permite tratamento em tempo real de dados. concretamente, o infosphere streams da ibm é um exemplo muito interessante. a ideia de stream computing é fantástica. um novo paradigma. no modelo de data mining tradicional uma empresa filtra dados dos seus vários sistemas e após criar um data warehouse, dispara “queries”. na prática fazse garimpagem em cima de dados estáticos, que não refletem o momento, mas sim o contexto de horas, dias ou mesmo semanas atrás. com stream computing esta garimpagem é efetuada em tempo real. em vez de disparar queries em cima de uma base de dados estática, colocase uma corrente contínua de dados (streaming data) atravessando um conjunto de queries. podemos pensar em inúmeras aplicações, sejam estas em finanças, saúde e mesmo manufatura. vamos ver este último exemplo: um projeto em desenvolvimento com uma empresa de fabricação de semicondutores pode monitorar em tempo real o processo de deteção e classificação de falhas. com stream computing as falhas nos chips sendo fabricados são detetados em minutos e não horas ou mesmo semanas. os wafers defeituosos podem ser reprocessados e, mais importante ainda, podese fazer ajustes em tempo real nos próprios processos de fabricação. adicionalmente, podemos pensar que a computação em nuvem é também um impulsionador para bigdata, pois podese usar nuvens públicas para suportar imensos volumes de dados e as caraterísticas de elasticidade das nuvens permitem que acionemos servidores virtuais sob demanda, aprenas no momento de tratar estes dados. enfim, bigdata já está batendo nas nossas portas. seu potencial ainda não está sendo plenamente reconhecido, mas já vemos sinais claros desta importância quando lemos relatórios como o “bigdata, big impact: new possibilities for international development”, publicado pelo world economic forum. este relatório mostra como a sociedade mundial pode usufruir do imenso volume de dados gerado por ela para ajudar a resolver problemas diversos como questões sócioeconômicas e mesmo prevenção de epidemias. quanto às empresas, bigdata abre um novo e ainda inexplorado território. carecemos de conhecimentos, experiências e mesmo de expertise profissional. começase a se falar em novas funções como “data scientists” (escrevi sobre isso em post anterior), mas é inevitável que os cios tenham que colocar bigdata na tela dos seus radares. as oportunidades que os cinco “v”s trazem não podem e nem devem ser desperdiçados.  vou fazer uma pausa nos artigos sobre gestão de projetos de bigdata para falar um pouco sobre aprendizagem de máquina e sua relação com big data. com isso pretendo mesclar conteúdos mais gerenciais com algumas situações mais práticas deste assunto. participei em setembro de 2014 de uma conferência sobre bigdata nos estados unidos. tive o prazer de conhecer o prof. sunil sabat, especialista em machine learning e bigdata. ele possui um blog cuja leitura é recomendada pelos que se interessam no assunto: http:bigdataknowhow.weebly.com. a aprendizagem de máquina (machine learning) é uma área da computação e da estatística que lida com a construção de sistemas que são capazes de aprender com os dados e eventualmente até com suas próprias decisões. este tipo de sistema é capaz de tomar decisões baseadas nos dados disponíveis e as decisões tomadas pelo sistema podem realimentar a base de dados. desta forma o sistema não segue apenas a lógica imposta pelo desenvolvedor e sim se ajusta sem a intervenção humana. você pode imaginar que este assunto é novo, mas na realidade esta definição existe desde o final da década de 1950. é natural concluir que, com o advento do bigdata as possibilidades de criar modelos deste tipo sejam bastante ampliadas. e a assertividade das previsões também. quanto mais dados, melhores as previsões. falando em previsão, acho importante deixar clara a diferença básica entre machine learning e data mining. os dois conceitos se complementam, mas também se sobrepõem. o foco principal do machine learning é realizar previsões baseadas em dados conhecidos e utilizados para “treinar” o algoritmo. o foco principal do data mining é a descoberta de propriedades dos dados que antes não eram conhecidos. por este motivo o machine learning se utiliza do data mining para aprimorar a acuracidade do treinamento e avaliação do modelo (vide abaixo). o prof. sunil cita em seu blog os seguintes passos para adoção e desenvolvimento do processo de machine learning: 1. data selection: a identificação dos dados que serão utilizados para atingir o objetivo é fundamental para o sucesso do projeto. este processo envolve a limpeza, seleção e adequação dos dados que serão utilizados. se você não tem os dados adequados, não há como tentar fazer previsões. 2. feature selection: selecionar as características dos dados utilizados é um passo muito importante. devese escolher os dados menos sensíveis a ruídos e que sejam mais fáceis de serem manipulados. neste momento é feita a divisão entre os dados que serão utilizados para treinamento do modelo e os dados para realização dos testes. 3. model selection: devese iniciar por modelos mais simples e aumentar a complexidade se necessário. este modelo é uma parte de uma realidade passada que você tem total controle sobre aquilo que aconteceu. desta forma você poderá realizar as fases seguintes de treinamento e testes identificando se o seu algoritmo será capaz de prever com o maior nível de assertividade. 4. learning: a fase de treinamento é extremamente importante para que o processo seja concluído com êxito. identifique os parâmetros adequados que minimize o erro do algoritmo. entenda que seu algoritmo precisa destes parâmetros e dos resultados para saber como se comportar nas fases posteriores. 5. evaluation: esta é a fase dos testes. se o algoritmo apresentar um erro muito grande fatalmente será necessário rever o modelo e realizar novamente a fase 4. 6. application: aplicar o modelo com dados que você não sabe o resultado. nesta fase você prevê, espera acontecer e analisa se o resultado previsto bate ou não com a realidade. se deu certo (ou próximo à realidade), passo 7. do contrário, volte ao passo 5. 7. production: modelo validado e aplicado com sucesso, chega a hora de colocar tudo em produção. simples, certo? infelizmente não. os resultados normalmente são muito interessantes quando se chega no último passo. porém, até lá isso pode demorar um pouco (ou muito). a vantagem é que este processo é possível de se colocar em prática. tendo acesso aos dados, conhecimento da técnica, do negócio e um objetivo claro em mente você também será capaz de ter sucesso neste processo. dos quatro elementos citados no parágrafo anterior, provavelmente o mais difícil seja o “objetivo claro”. você só terá um objetivo claro se souber fazer a pergunta certa. e a pergunta certa para bigdata será o tema do meu próximo post. até lá! escritórios de advocacia e departamentos jurídicos armazenam, diariamente, um grande número de dados oriundos de processos, arquivos internos, documentação de clientes etc. em outras palavras, isso significa bigdata. bigdata jurdico isso existe ter muitas informações pode passar a sensação de que sua empresa está ‘bem informada’. mas elas [as informações] se tornam apenas dados dispersos e supérfluos caso seu negócio não consiga organizálas, analisálas e convertêlas em visão de negócio ou novas oportunidades. é a partir daí que bigdata começa a funcionar. o conceito sugere ferramentas e tecnologias capazes de segmentar essas informações, sistematizandoas e encontrando padrões. sendo assim, o bigdata é capaz de transformar dados brutos em informações úteis para tomadas de decisões estratégicas. o físico alemão andres weigend, uma das maiores autoridades mundiais sobre o tema, vai além. diz que “é o bigdata quem irá tomar as decisões pela empresa”. ao nos aprofundarmos um pouco mais em bigdata, encontraremos também uma definição do termo através dos 5 vs: valor, veracidade, variedade, volume e velocidade; que fundamenta os critérios do bigdata na prática. mas não é necessário ir adiante. afinal, já desvendamos o que verdadeiramente importa ao universo jurídico a essência do bigdata, que podemos traduzir na coleta, análise e organização de informações que se transformam em estratégias de negócio. em virtude do fluxo de dados ser ‘big’ e recorrente, o correto seria a empresa ou o escritório investirem em ferramentas de b. i (business intelligence). um software jurídico é um bom exemplo. com ele, podese ter acesso a panoramas financeiros e desempenho dos profissionais em tempo real, através de relatórios. com estes indicadores, é possível tomar atitudes de negócio: reter algum tipo de gasto, verificar que algum profissional não está sendo produtivo ou que é mais produtivo realizando determinada função. a lista de informações e conclusões que um sistema jurídico pode oferecer é ampla. podese segmentar, por exemplo, o faturamento da empresa por cliente, por natureza, por caso; além de indicadores como provisionamento do contencioso, honorários, contratos que estão prestes a vencer e outros já apresentados em matérias anteriores desta edição. o sistema também é flexível o suficiente para empresas e escritórios analisarem seus resultados de maneira personalizada e a partir daí direcionarem novas abordagens de negócio ou identificar alguma aptidão. ou seja, a informação não é apenas registrada, mas ganha consciência e utilidade para a organização. o universo jurídico ainda pode se apropriar das práticas do bigdata para se tornar um grande gestor de conteúdo – e aqui o auxílio de um software jurídico transcende as necessidades de uma empresa e de um escritório de advocacia e atinge, também, os autônomos. ao se produzir um documento de caráter jurídico (uma tese, um parecer, uma ata ou uma defesa) ou até mesmo documentos de caráter administrativo do departamento jurídico (contratos, declarações, relatórios) você está produzindo um conhecimento. e é importante que você o tenha ao alcance sempre quando precisar. isso fica mais evidente no segundo caso [documentos administrativos], já que a empresa precisa criar diretrizes para quando vai, por exemplo, contratar um escritório terceirizado. ela precisa ter um modelo de contrato à mão sempre que precisar contratar um novo escritório. seguindo a lógica de arquivar documentos e organizálos para eventuais necessidades ou até mesmo para aprimorálos, gerenciar conteúdo também é um benefício aos escritórios e autônomos. digamos que neste exato momento você esteja atendendo uma demanda muito semelhante com alguma que viu há alguns meses atrás, de outro cliente. perceba a vantagem de, de modo prático, poder encontrar no seu sistema documentos que auxiliem você a trabalhar em cima deste processo. diante dos dois cenários que vimos, é importante que comecemos a prestar atenção no bigdata e no que ele tem a ver com as atividades jurídicas da sua empresa ou do seu escritório. afinal, não se trata de ‘estar informado’, mas do que fazer com as informações. bigdata: muita calma nessa hora a maioria das empresas está se preparando para implantar projetos de bigdata. uma pesquisa recente do gartner mostra que 73% das organizações já investiram ou planejam investir nesta tecnologia nos próximos dois anos. 73% das organizações já investiram ou planejam investir em bigdata em 2 anos. foto: mikko lemolashutterstock. watson é o ponta de lança da ibm sonda: r$ 1 mi em app baseado em bigdata tim importa técnicos de bigdata mas, será que sua empresa está entre elas? e se estiver, tem consciência sobre todas as etapas que envolvem uma estratégia de sucesso neste sentido? não é à toa que o mesmo estudo tenha apresentado um número de apenas 13% das organizações com projetos de bigdata em produção, em 2014. diferentemente de business intelligence (bi), o bigdata não é um processo tradicional, de armazenar os dados em um local específico e compartilhálos. a maioria dos projetos de bigdata tende ao fracasso, por não se atentar ao fato: não basta aplicar tecnologias de bigdata em um grande volume de dados para se obter sucesso com as oportunidades de negócios. as empresas precisar estar atentas aos passos chave para a construção de uma estratégia vencedora de bigdata. ela inclui: a qualidade dos dados – o processo vai gerar um modelo no final, você vai armazenar os dados, recuperar e projetar o que há por vir. mas, quem disse que essa projeção será correta? o grande impacto na qualidade dos seus modelos é a qualidade dos dados. se os modelos forem bons, a expectativa de sucesso é maior. ter os dados necessários – por exemplo, se tivéssemos, hipoteticamente, todas as informações sobre uma urna de sorteio da mega sena, sobre o vapor que circula dentro dela, dos movimentos possíveis das bolas e o peso preciso de cada uma delas, o tempo exato em que o vapor sopra dentro da urna, conseguiríamos prever as bolas sorteadas. maravilha! mas isso não é possível, pois não possuímos esses dados. com os dados desestruturados e estruturados que sua empresa dispõe pode ocorrer o mesmo. infraestrutura para alto volume de processamento – muito se fala sobre o hadoop, hoje em dia, mas, quantas empresas conhecemos que possuem 50 servidores disponíveis para, na próxima semana, implantar uma estrutura hadoop e “rodar” altíssimo volume de dados? dificilmente haverá tais condições e estrutura ociosa e preparada para tal tarefa, rapidamente. profissionais adequados à oportunidade – são necessários diversos perfis de profissionais, que tenham expertise, tanto em técnicas e metodologias quanto em termos de negócios. atualmente, há uma supervalorização da tecnologia, mas é preciso primeiro reconhecer e compreender as oportunidades de bigdata para melhorar o negócio e, depois, identificar a solução mais adequada para o problema. confidencialidade dos dados – dependendo do setor de atuação da empresa, a confidencialidade dos dados é um ponto inalterável. nestes casos, a disponibilidade dos dados será reduzida e será preciso trabalhar com outras oportunidades de bigdata. uma empresa de telecomunicações, por exemplo, não pode simplesmente utilizar os dados de tráfego ou de acesso dos seus clientes, vendelos ou depois usálos a fim de obter insightsde negócios. momento de “go” e “no go” – saber quando executar a oportunidade de bigdata ou não é um ponto crítico. a hora em que se detectam várias oportunidades e entendese bem o que é bigdata é essencial, tem que existir um momento de refletir se a empresa atende a todos os “requisitos” anteriormente explicados. isto pode, muitas vezes, culminar na decisão de não realização de uma iniciativa que não será bem sucedida. a empresa pode realizar um workshop de bigdata que traga reflexão sobre o assunto para a equipe de ti e para as áreas de negócios, onde se detecte onde estão as grandes oportunidades. depois, podese falar de estruturação de bigdata dentro da organização, disseminar a informação para que as oportunidades sejam enxergadas, tratar da otimização da equipe e, então, fazer a escolha da tecnologia a ser empregada. fazer a análise dos cenários da empresa é essencial para obter sucesso nas iniciativas envolvendo bigdata. bigdata: desafios e oportunidades para o varejo poucos segmentos de negócio tiveram seus processos, estratégias, e resultados afetados por novas tecnologias, especialmente aquelas relacionadas à aplicações analíticas e bigdata, como o varejo. segundo estimativa do mckinsey global institute (mgi), em 2009, quase todos os setores da economia dos eua possuíam, em média, 200 terabytes de dados armazenados por empresa com mais de mil empregados. esse volume de dados é equivalente a 2 vezes o tamanho do data warehouse do walmart, maior rede de varejo americana, em 1999. nesse estudo fica evidente que, na primeira década do século xxi, as empresas e pessoas produziram dados em um ritmo muito acelerado comparado com qualquer outro período da história da humanidade. esse ritmo levou muitas companhias de médio porte a acumular um volume de dados superior à quantidade de informação existente (10 anos antes) nos repositórios centralizados de grandes empresas. certamente, ao mesmo tempo em que seus concorrentes de menor porte aumentavam seu portfólio de dados e aplicações, o walmart não se acomodou nem tão pouco diminuiu sua estratégia em transformar dados em informação e conhecimento relevante para tomada de decisão. essa atitude foi fundamental para aumentar sua produtividade, rentabilidade, e eficiência em seus processos comerciais, o que levou esta companhia a se tornar um ícone no varejo em todo o mundo. no final de 2008, a companhia contratou a hewlett packard para construir um data warehouse capaz de armazenar 4 petabytes (ou 4.000 terabytes), volume de dados aproximadamente igual a 40 vezes à quantidade armazenada em sua primeira infraestrutura. seu ambicioso projeto tinha por objetivo não apenas armazenar, mas também identificar padrões e perfis de consumo baseados em mais de 267 milhões de transações diárias realizadas em cada um dos seus mais de 6.000 pontos de venda. para isso, o walmart contratou também especialistas em análise e mineração de dados para implementar modelos e aplicações baseados em algoritmos de aprendizado de máquina que também tinham por objetivo avaliar a eficácia de suas estratégias de preço e campanhas de marketing, bem como contribuir para uma melhor gestão do seu inventário de produtos e de sua cadeia de suprimentos. as características do projeto e o sucesso da estratégia de bigdata do walmart (antes mesmo do termos bigdata se tornar conhecido na sociedade de um modo geral) acabaram influenciando outras companhias (não apenas de varejo) a seguir o mesmo caminho. uma constatação disso pode ser verificada em recente estudo realizado pelo idg enterprise, também relacionado ao mercado americano, indicando que 80% das grandes empresas e 63% das empresas pequenas e médias estão implementando ou têm a intenção de implementar soluções de bigdata no ano de 2015. a partir da análise de pesquisas como a do idg é possível inferir que, apesar do aumento do volume, da variedade, e da velocidade com que os dados são produzidos, cada vez mais empresas estão investindo na implementação de soluções de bigdata, mesmo com orçamentos bem mais modestos que o walmart. existem algumas explicações para essa aparente contradição, uma vez que para cenários mais complexos e com maior volume de dados seria esperado um maior investimento das empresas em plataformas de armazenamento, gerência, e análise de dados. a primeira explicação para um maior número das empresas, em especial do varejo, investir na implementação de soluções analíticas está relacionada ao que foi conhecido como lei de kryder, que estima uma relação cada vez mais favorável para o mercado consumidor entre o preço de dispositivos de armazenamento digital e sua respectiva capacidade de armazenar dados. os avanços tecnológicos que têm permitido as empresas acumular e tornar acessível mais dados aos seus executivos e analistas também podem ser observados na arquitetura de computadores que atualmente viabilizam o uso de capacidade de processamento várias ordens de magnitude superior ao que era possível utilizar em um passado recente pagando o mesmo preço. a segunda explicação está relacionada a pontos que já mencionamos em outros artigos neste espaço. o advento de plataformas analíticas de data discovery, com demandas de investimento significativamente inferiores às plataformas tradicionais de bi, que permitem o uso de soluções analíticas avançadas diretamente por gestores e analistas de negócio, tem sido um fator muito relevante para expandir o alcance dos projetos de bigdata em todos os segmentos de negócio. no varejo, como em qualquer outro tipo de negócio, a partir do momento em que a tecnologia proporciona a obtenção de respostas de forma fácil, completa, e eficaz para as questões relevantes para a gestão de cada processo, fazer as perguntas certas passa a ser o grande desafio das organizações. as perguntas mais frequentes na gestão desse tipo de negócio envolvem: (1) definição de política comercial com base em análise de preços e elasticidade de demanda, (2) seleção dos produtos e plano de abastecimento adequados para cada tipo de canal, considerando insights de mídias sociais, relatórios de mercado, dados internos de venda, e padrões de consumo de clientes, e (3) estimativa de níveis de estoque adequados em ponto de venda e centro de distribuição com base em análise de sentimento do cliente e efeito esperado de promoções que possam servir de alerta para antecipar demanda futura. no brasil, além das questões relevantes que direcionam as ações e estratégias de praticamente todas as empresas de varejo, o ano de 2015 será particularmente desafiador em função de ajustes macroeconômicos que possivelmente terão algum efeito negativo sobre a demanda, especialmente no primeiro semestre do ano. neste sentido, gerenciar e, bem mais importante, tirar proveito do grande volume de dados (públicos e internos) passou a a ter uma relevância ainda maior para as empresas de varejo no que se refere à competitividade e à capacidade de superar com tranquilidade eventuais reduções na demanda provocados por fatores externos. para essas empresas, não há tempo a perder: o tempo do big data já chegou. o que ainda se configura como diferencial competitivo, logo se tornará fator de sobrevivência para o varejo. tags analytics, bigdata, business intelligence, retail, varejo [pinmask2.png] compartilhar renilton oliveira sobre renilton oliveira 5 mitos sobre bigdata samuel arbesman, matemático e cientista de redes, professor da ewing marion kauffman foundation e autor do livro the halflife of facts, publicou na semana passada um artigo no washington post sobre o que é e o que não é bigdata. segundo o prof. arbesman, o tema inicia com a promessa do uso de grandes quantidades de informação para nos ajudar a entender melhor o mundo, mas termina com hiperboles. e ele gostaria de esvaziar um pouco a bola dos que discutem o assunto sem muita profundidade, mostrando 5 mitos que perpassam a discussão: 1 “bigdata” tem uma definição clara. o termo, lembra o professor, está em circulação pelo menos desde a década de 1990, quando acreditase ter originado no vale do silício. a ibm oferece uma definição aparentemente simples: bigdata é caracterizada por quatro vs: volume, variedade, velocidade e veracidade. mas o termo é jogado pra lá e pra cá em tantos contextos ciência, marketing, política, esportes que o seu significado tornouse vago e ambíguo. ninguém discute que classificar por relevância todas as página da internet ou pesquisar os registros de todos os telefones dos clientes da verizon nos eua qualificamse como aplicações de “bigdata”. mas será que implica na necessidade de envolver mais informações do que pode ser processado por um único computador doméstico? se for assim, análises de marketing não se qualificam, nem a maioria do trabalho feito pelo facebook. o fato é que há muita confusão e os especialistas da indústria e os cientistas muitas vezes acabam falando apenas uns para os outros. 2 “bigdata” é novo. é verdade, lembra também o professor, que atualmente podemos extrair grandes quantidades de dados – textuais, sociais, científicos e de outros – usando algoritmos complexos e de energia do computador. as ciências utilizam grandes volumes de dados há bastante tempo. no início dos anos 1600, johannes kepler usou o conjunto de dados astronômico detalhado de tycho brahe para elucidar certas leis do movimento planetário. pergunte aos estatísticos, e eles vão dizer que analisam grandes volumes de dados há séculos. para eles, “bigdata” não passa de uma versão mais sexy da boa e velha estatística, com algumas novas ferramentas que nos permitem pensar mais amplamente sobre o que os dados podem ser e como gerálos. 3 “bigdata” é revolucionário. se você está buscando mais publicidade, tudo bem, admite o professor, então “bigdata” é revolucionário. no geral, porém, é provável que tenha um impacto modesto e gradual em nossas vidas. quando um fenômeno ou um efeito é grande, normalmente não precisa de grandes quantidades de dados para reconhecêlo (e a ciência tem se concentrado tradicionalmente sobre esses grandes efeitos). quando as coisas são mais sutis, um grande volume de dados ajuda. ele pode nos levar a pequenas peças de conhecimento: como adaptar um produto ou como tratar uma doença um pouco melhor. se essas peças podem ajudar muita gente, o efeito pode ser grande. mas revolucionário para um indivíduo? provavelmente não. 4 mais é melhor. no campo científico, algumas análises alucinantes de grandes dados estão sendo feitas. e, no mundo dos negócios, as empresas estão sendo orientadas a abraçar bigdata antes de seus concorrentes. mas, alerta o professor, dispor de grandes volumes de dados não é automaticamente melhor. na verdade, pode ser uma bagunça. a menos que os pesquisadores e analistas consigam reduzir o número de variáveis e tornar os dados mais gerenciáveis, o que teremos é quantidade sem qualidade. 5 bigdata significa o fim das teorias científicas. chris anderson argumentou em um ensaio publicado na wired em 2008, que grandes volumes de dados tornarão o método científico obsoleto: jogue dados suficientes em uma avançada “learning machine”, e todas as correlações e relacionamentos vão simplesmente aparecer. vamos entender tudo. mas você não pode simplesmente ir pescar correlações e esperar que elas expliquem o mundo, comenta o professor arbesman. se não tiver cuidado, você vai acabar com correlações espúrias. ainda mais importante: para lidar com o por que das coisas, ainda precisamos de ideias, hipóteses e teorias. se você não tem boas perguntas, os seus resultados podem ser bobos e sem sentido. por que a internet das coisas será alavanca de bigdata e analytics tecnologia 09 de outubro de 2015 às 16h40 cada vez mais, todo tipo de equipamento passará a ter a capacidade de gerar dados que alimentarão ambientes computacionais anderson figueiredo todos os artigos publicados, eventos realizados e discussões promovidas no campo da tecnologia da informação e de telecom (tic) nos últimos cinco anos não conseguiram se dissociar de quatro temas. na opinião geral, esses tópicos vêm norteando e por algum tempo (não sei dimensionar qual a duração temporal disso) continuarão a ser os principais direcionadores da transformação digital que assistimos nesse período. estou me referindo à mobilidade, que considero o grande motor dessa transformação; de computação em nuvem, que proporciona a viabilização dessa nova realidade; da explosão de dados e do ferramental denominado bigdataanalytics, que cada vez mais são os grandes habilitadores na conversão desses dados em informações úteis às pessoas e às corporações; e finalmente, das redes sociais (ou melhor dizendo, do social business), com sua capacidade quase imensurável de alimentar instantaneamente toda a infraestrutura de ti e telecom com os mais diversificados tipos e modelos de dados. a grande dúvida que paira sobre a mente da grande maioria dos gestores de ti é como incorporar da melhor maneira possível as benesses dessas novas vertentes tecnológicas para as próprias áreas de ti e, principalmente, no alinhamento cada vez mais necessário para atender às estratégias de negócio das organizações. existe a necessidade de desenvolver aplicações móveis, estabelecer políticas e procedimentos para atender às demandas cada vez mais constantes de byod (bring your own device), contratar equipamentos e softwares no modelo de cloud, pagando apenas pelo que se consome, e ainda buscar nos dados gerados pelas redes sociais, as informações que sejam úteis para o negócio e por aí vai... esse breve preâmbulo nos apresenta um cenário complexo e que vem pressionando constantemente os executivos de ti para apresentar inovações e propor transformações, ao mesmo tempo em que devem manter suas operações em funcionamento. essa situação agravada pela evolução constante e ininterrupta da tecnologia que ao propor novos produtos e novas soluções a todo o momento aumenta a complexidade desse cenário, gerando novas possibilidades e oportunidades. um bom exemplo é a chamada internet das coisas (iot), que desde 2014 começa a ocupar espaço e ver aumentada a sua importância na agenda de gestores de tic. a conexão entre iot e um dos quatro pilares acima apresentados, bigdataanalytics, é o que exploraremos a seguir. os impactos da internet das coisas em um conceito bem amplo, iot referese à integração “machinetomachine” por meio de sensores instalados em diversos objetos comuns de nosso diaadia que se conectam com sistemas complexos de ti (hardware e software) que possuam alta capacidade de armazenamento e processamento. cada vez mais, turbinas de avião, relógios, óculos, roupas, automóveis e todo tipo de equipamento passa a ter a capacidade de gerar dados que alimentarão esses ambientes computacionais para posterior utilização por parte de empresas e organizações, independentes de seus portes, de suas localizações ou do segmento da economia em que atuem. o grande desafio passa a ser o provimento de ambientes e tecnologias computacionais de ponta que possibilitem o atendimento ao crescimento contínuo do ecossistema móvel, extraindo o valor potencial dos dados gerados através da conexão segura e confiável de bilhões de dispositivos. se olharmos esse desafio por um prisma diferente a partir da inclusão da internet das coisas ao cenário, podemos constatar uma tendência extremamente favorável para que as empresas possam finalmente se beneficiar da enorme quantidade de ferramentas de bigdataanalytics existentes no mercado. o que iot traz de diferente para o cenário que justifique essa afirmação sobre um cenário positivo para bigdataanalytics? se big dataanalytics é um conceito que não teve a expansão prevista nos últimos cinco anos, como acreditar nessa previsão? a resposta a essas e outras questões de teor equivalente se apoia em um “pequeno” detalhe, que em minha opinião faz toda a diferença. como sabemos, os dados digitais apresentam crescimento anual de 150%, ou seja, nos próximos 12 meses teremos algo ao redor de 1,5 zettabytes de novos dados sendo armazenados em nossos ambientes de ti. de acordo com as mais respeitadas consultorias dos mercados de ti e telecom, cerca de 90% desses dados são não estruturados e isso cria uma dificuldade imensa em se transformar esses dados para o tradicional formato das atuais bases de dados relacionais utilizadas pelas empresas. por isso, temos um mercado que não atinge as expectativas de crescimento de receitas, praticamente não temos casos expressivos de sucesso de aplicação de bigdataanalytics e assistimos a uma dissonância entre os discursos do benefício das ofertas e os resultados práticos da utilização dessas ferramentas. quando falamos de dados gerados através de “coisas”, devemos incluílos nos 10% restantes desses 1,5 zettabytes que são estruturados; afinal de contas toda mensagem enviada por cada um dos sensores desses objetos possui um layout definido e, portanto, não há a necessidade de se desenvolver softwares ou aplicações específicas para a transformação dos dados coletados como ocorre com o tratamento a dados não estruturados. dessa forma, os dados podem ser incorporados mais rapidamente às bases de dados atuais, o desenvolvimento de algoritmos que transformem esses dados em informações úteis e relacionadas à inteligência de negócios fica mais eficaz e aí sim podemos utilizar os dados em sua plenitude e num tempo alinhado à velocidade que o mercado exige. como afirmei no início do parágrafo anterior, os 10% correspondentes aos dados estruturados (ou algo próximo de 150 exabytes) tem tudo para representar um alto valor para as empresas quando tratados por algoritmos bem elaborados e se avaliarmos as expectativas de crescimento exponencial para internet das coisas com a consequente geração de dados estruturados oriundos dos bilhões de sensores espalhados pelo mundo, podemos sim chegar à conclusão que o título do artigo está muito mais próximo da realidade que podíamos prever. esse contexto se tornará realidade uma vez que o advento da internet das coisas e seus dados estruturados irá representar o grande provocador da expansão e adoção definitiva de produtos e soluções de bigdataanalytics por parte dos gestores de ti, em uma parceria tecnológica de sucesso garantido. isso porque, dados só são importantes quando podem ser transformados em informações úteis. melhor então se pudermos trabalhar com uma imensidão de dados de formato conhecido (iot e bigdata) que venham a nos proporcionar informações qualificadas (analytics) e no tempo adequado às necessidades dos nossos negócios. a importância do bigdata na detecção de fraudes estudos apontam que, no brasil, empresas perdem cerca de 5% do seu lucro com fraudes. de um lado estão os cibercriminosos cada vez mais sofisticados e acompanhando a evolução tecnológica e do outro as instituições que são obrigadas a ampliar esforços na proteção dos dados de seus clientes e demais informações confidenciais. e é a análise de dados que fará com que as empresas consigam combater a ação desses fraudadores. melhor ainda se essa base de dados for construída e estruturada em hadoop. a combinação do hadoop com outras tecnologias ajuda aos cientistas de dados a transformarem o bigdata em conhecimento e fatos palpáveis ao permitir que as empresas consigam extrair insights de seu negócio de forma mais rápida e com maior precisão possível, assim reduzindo riscos e melhorando a compreensão dos negócios. carlos5_bx151005_173257 a utilização do bigdata para análise de fraudes no brasil é praticamente inexistente. nenhuma empresa do setor financeiro, por exemplo, trabalha base hadoop no país, e o principal motivo é a falta de informação sobre o tema. é necessário que as empresas saibam lidar com o enorme volume de dados gerados, pois é certo que eles irão aumentar cada vez mais. elas precisam olhar para o futuro e imaginar todos os dispositivos que estarão conectados por seus clientes. calculase que até 2020, 30 bilhões de dispositivos estejam conectados, contra 10 bilhões em 2013. quanto mais dados gerados, maior a possibilidade de se perder nessas informações e não identificar o que realmente interessa. o próximo passo é agregar informações, identificar o perfil do cliente, utilizar as ferramentas necessárias e estar preparado para receber e analisar essas informações. a combinação ideal de várias fontes de dados e a melhoria da qualidade dos processos de análise dos mesmos são outros desafios para as companhias. é nesse contexto que a participação de um cientista de dados tornase ainda mais essencial. ele terá o conhecimento necessário para analisar os resultados gerados e trabalhar dentro da prevenção à fraude com análises aprofundadas. indústrias como de varejo e ecommerce já conseguem realizar boas análises de seus dados. mas o mercado financeiro ainda carece de conhecimento das ferramentas e técnicas que poderiam ser usadas em favor dos negócios e até mesmo dos clientes. a utilização do bigdata para a prevenção de fraudes é uma tendência natural e indispensável. as tecnologias existentes hoje são suficientes para analisar os dados gerados atualmente, mas o futuro ainda é um ambiente desconhecido e é importante que as companhias conheçam os benefícios que essas tecnologias trarão para seus negócios para incentivarem a exploração dessas técnicas. é possível ter um olhar completo de todos os canais conectados pelos clientes que serão vistos de forma única, independente da conexão. mais informações serão geradas para traçar o perfil do fraudador e tratar o cliente de maneira diferenciada. novas informações serão agregadas ao processo de prevenção a fraudes e a velocidade na identificação dessas atividades será aumentada, gerando benefícios financeiros para ambos os lados. mas, para que tudo isso aconteça, a infraestrutura de base de dados da empresa precisa suportar a base hadoop, tendo um objetivo claro e específico e definindo um projeto que esteja alinhado à estratégia corporativa.  estratégia também impulsiona oportunidades para a inovação 40% das empresas acredita que bigdata é essencial aos negócios mais de um terço das empresas (38%) acredita que o bigdata é essencial aos negócios e outros 21% acreditam que essa é o melhor caminho para obter vantagem competitiva. isso é o que aponta uma pesquisa realizada pela teradata em parceria com a mckinsey. a pesquisa aponta também que o bigdata impulsiona oportunidades para a inovação em três áreas principais: criação de novos modelos de negócios (54%), descoberta de novas ofertas de produtos (52%) e monetização de dados a empresas externas (40%). apesar dos bons frutos que podem ser colhidos com a adoção da estratégia orientada a dados, os desafios culturais como recompensar o uso de dados e fomentar a experimentação e criatividade por meio da análise de dados podem prejudicar as iniciativas em bigdata e ainda há espaço para melhorias, de acordo com coo de mercados de consumo da mckinsey, matt ariker. mas a boa notícia é que o inverso também é verdadeiro: melhorar a forma como a empresa promove a cultura e a mentalidade que recompensa o uso da experimentação de dados pode ajudar as iniciativas de análise de dados a ganhar dinamismo e força, ressalta. a pesquisa foi realizada com 316 tomadores de decisão das áreas de tecnologia e informação, com base em um questionário derivado da forbes insights. o relatório revela o impacto das iniciativas de bigdata sobre as práticas e cultura organizacional. algar tech cria tecnologia para integrar service desk e bigdata a algar tech, integradora de soluções de tic e bpo, desenvolveu uma solução com base em bigdata que permite mais eficiência do service desk e conveniência do usuário. o objetivo é identificar, no momento do registro do chamado pelo usuário, possíveis soluções automatizadas e atender à demanda do cliente por meio de autosserviço. gustavo santarém, especialista em gestão de portfólio de ti na algar tech, diz que foi possível chegar a essas soluções por meio do uso de releases previamente cadastrados e combinados com uma análise de big data da base de soluções conhecidas. o portal para registro de chamados identifica a melhor solução e o usuário executa a release (autosserviço). após validação do usuário, o chamado registrado é encerrado automaticamente e a pesquisa de satisfação é enviada. “conseguimos disponibilizar no autosserviço instalações, como lync (skype for business), antivírus e itunes, por exemplo, além de reparos como acesso à internet e limpeza do sistema operacional, além de configurações, a exemplo de mapeamento de unidades de rede, certificado para utilização de wifi e instalação de impressora”, destaca santarém. o executivo acrescenta que como estratégia, a empresa integra soluções que possam trazer cada vez mais qualidade e produtividade aos clientes. “aliar análise de bigdata, monitoramento do comportamento do usuário e soluções de autosserviço traz resultados tanto para a equipe de ti, quanto para os usuários finais”, completa.  o bigdata promete dar fim ao arco e flecha no recrutamento recomende compartilhar no twitter compartilhar no google+ compartilhar no linkedin 1.621 views salvar notícia germano ludersexame trainees da votorantim trainees da votorantim: convite sob medida para participar do programa de revista exame são paulo — assim como milhares de universitários recémformados, os jovens da foto acima inscreveramse em dezenas de programas de trainee. foi uma surpresa quando, no meio do caminho, receberam um email do grupo industrial votorantim informando que seu perfil tinha tudo a ver com o que a companhia estava buscando e convidandoos a participar de seu programa de trainee. o email da votorantim não foi enviado ao acaso. é parte da estratégia da 99 jobs, uma empresa de recrutamento recémcriada. a 99 jobs reúne informações sobre empresas, como missão, cultura e histórico; e sobre candidatos, como objetivos, prioridades e valores. tem 430 000 inscritos. quando um candidato e uma empresa combinam, são apresentados. além disso, a 99 jobs varre as redes sociais atrás de pessoas ideais para determinados cargos. “com os dados disponíveis na rede, fica mais fácil selecionar o candidato certo para o emprego certo”, diz eduardo migliano, da 99 jobs. além da votorantim, ele já contratou para o banco itaú, para a empresa de tecnologia microsoft e para a varejista magazine luiza. grandes empresas de recrutamento, como korn ferry, heidrick & struggles e odgers berndtson, dominaram o mercado mundial graças aos vastos bancos de dados construídos ao longo de décadas. seus executivos sabiam quem procurar e tinham experiência para ver que tipo de profissional se encaixava em cada vaga. mas, com a proliferação das redes sociais, as informações deixaram de ser segredo. atento a isso, um grupo de empresas está virando o mercado de recrutamento de cabeça para baixo. a principal ferramenta são os milhares de dados disponíveis — o bigdata. a era dos algoritmos quem começou a mudança foi o linkedin, rede profissional que em 12 anos soma 350 milhões de cadastros em todo o mundo. mas a novidade agora são empresas como a 99 jobs, que analisam um enorme volume de informações — nem sempre profissionais — para preencher uma vaga. as mais promissoras estão nos estados unidos. a gild, criada em 2011 em são francisco, já contratou para o facebook e o tripadvisor rastreando postagens feitas pelos candidatos. o diferencial da entelo, também californiana, que atende empresas como a american express e a montadora tesla, é reconhecer, pelos vestígios deixados online, as pessoas que estão mais propensas a trocar de emprego. já a paulistana pin people segue a lógica de sites de namoro, como o eharmony, para juntar pessoas e empresas com interesses em comum. por trás do sucesso dessas companhias está uma insatisfação com o modelo tradicional de seleção. os recrutadores cobram caro — até 30% do salário anual do executivo contratado — para apresentar soluções padronizadas. os alvos costumam ser profissionais de empresas similares e gente formada nas melhores universidades. mas tal prática vem matando a diversidade de ideias dentro das empresas e não abre espaço para os geniozinhos fora do padrão. essa é a tese da americana lauren rivera, autora do livro pedigree: how elite students get elite jobs (“pedigree: por que estudantes de elite conseguem vagas de elite”, numa tradução livre). de acordo com lauren, parte do problema é que, nas entrevistas de emprego, os recrutadores preferem candidatos com os quais têm afinidade pessoal, e não necessariamente os mais preparados para a vaga em questão. isso vale, segundo ela, tanto para estagiários quanto para altos executivos. pressionadas, as empresas de recrutamento começam a usar cada vez mais tecnologia em seus processos. mais de 80% das contratações da randstad, recrutadora holandesa presente em 39 países, utilizam ferramentas digitais. em paralelo, elas dependem cada vez menos da contratação. a americana korn ferry, líder global com cerca de 1 bilhão de dólares de receita, diminuiu, na última década, a dependência do recrutamento de 90% para 50%. na heidrick & struggles, a fatia corresponde a 75%. os novos serviços incluem programas de sucessão, consultoria e treinamento. “continuaremos decisivos, especialmente nos altos cargos. mas queremos participar de todas as questões envolvendo pessoal”, diz sérgio averbach, presidente da korn ferry na américa latina. bemvindo à era dos algoritmos. as instituições financeiras na europa vão enfrentar regras mais rígidas que regem a sua utilização de bigdata, devido a uma nova investigação pelos reguladores financeiros. focandose nas “oportunidades e desafios” associados ao bigdata, o novo inquérito visa determinar se são necessárias novas medidas regulamentares ou de supervisão, de acordo com um comunicado conjunto publicado esta segundafeira pela european securities and markets authority, european banking authority e european insurance and occupational pensions authority. em particular, vai concentrarse no uso dos dados pessoais dos consumidores pelas instituições financeiras para fins de criação de perfis pessoais, bem como para identificar padrões de consumo para fazer ofertas direccionadas. tais actividades “levantam questões” sobre “comportamentos esperados” das empresas e outras “obrigações”. também planeado para 2016 é o continuado trabalho pela comissão mista numa iniciativa lançada no início deste ano que se concentra nos algoritmos. o objectivo é avaliar “o fenómeno da interacção humana entre os consumidores e as instituições financeiras sendo cada vez mais substituído por algoritmos que fornecem aconselhamento ou outras formas de recomendações”, com um foco especial nos riscos e benefícios e qualquer necessidade de regulamentação ou de outras ações. os resultados da análise aos algoritmos serão incluídos num documento de discussão este outono e depois nas recomendações de políticas para 2016.  qual o futuro do armazenamento bigdata? a dell e a microsoft lançaram no mercado brasileiro um appliance desenvolvido especialmente para atender as necessidades dos projetos de bigdata e de bi (business intelligence) que envolvam grandes cargas de trabalho. a solução foi desenvolvida para oferecer uma plataforma completa e econômica para as organizações que precisam gerenciar e analisar volumes massivos de dados. “a solução realiza processamento de consulta paralela, armazenamento de dados escalável, integração com hadoop e transferência de dados em redes de alta velocidade. os resultados são queries até 100 vezes mais rápidas quando comparadas com bancos de dados tradicionais”, garantem as provedoras. o microsoft analytics platform system by dell inclui software sql server parallel data warehouse (pdw) e opcional hdinsight para apache hadoop em uma oferta que já inclui hardware, componentes de rede e ferramentas robustas para agregar alta capacidade de processamento e gestão de informações. a plataforma é baseada em servidores poweredge de 13ª geração, com gabinetes que suportam até nove nós e capacidade de armazenamento em disco que varia de 21tb a 1,2pb – ou até 6pb de dados comprimidos. a ferramenta também provê integração nativa com a plataforma de bi da microsoft, permitindo a análise de dados relacionais e não relacionais com ferramentas conhecidas como o excel, report builder e power view para criar para criar visualizações convincentes para tomada de decisão de negócios. “um dos diferenciais [do produto] está no fato de que os clientes adquirem a solução completa já testada e pronta para usar e passam a contar com um único ponto de contato para os serviços de treinamento, consultoria e suporte, fornecidos pela dell”, informam as companhias. bigdata: o que airbnb, starbucks e sonic têm a ensinar o momento é de aceleração no uso de ferramentas de bigdata. o movimento vem à reboque dos primeiros casos públicos de real extração de valor a partir da aplicação do conceito em diversas indústrias. para a maior parte das organizações, contudo, conseguir um grande acerto muitas vezes requer uma série de erros prévios. muitas empresas preferem uma abordagem de pequenas vitórias em vez de uma abordagem que pode ser considerada a cartada definitiva. são medidas para tornar sua cadeia de suprimentos um pouco mais eficiente ou contratar profissionais melhores mais rapidamente que começam a criar massa crítica dentro da organização e gabaritam uma companhia a pensar algo maior ou mesmo expandir lentamente o uso das ferramentas. especialistas defendem que progressos incrementais podem ser mais importantes do que uma abordagem em busca de uma grande vitória. portanto, em outras palavras, se seu objetivo for abrangente e vago – do tipo “vamos dominar o mercado mundial de tecnologia” – provavelmente será uma abordagem que não dará assim tão certo. dessa maneira, talvez seja mais adequado criar pequenos diferenciais que o tornem melhor que seus rivais. depois de atingir essa meta, ganhe confiança, assimile conhecimentos, e parta rumo a uma nova empreitada. a seguir, trazemos alguns exemplos do que empresas como airbnb, starbucks e sonic têm feito para conseguirem suas vitórias e como têm empilhado blocos para ganhar massa crítica, tornando os objetivos mais palpáveis. 1. uma imagem vale mais que… muitas startups acreditam que, utilizando bigdata, derrubarão líderes de mercado como cisco, google ou apple. elas acreditam que conectarão suas ferramentas de análise de dados a bolas de crista e descobrirão segredos que magicamente a catapultarão a posição de grandes vencedores. pois saiba que isso raramente acontece, se é que acontece. histórias de sucesso envolvendo bigdata tipicamente começam com pequenas perguntas. qual é o melhor quarteirão para instalar ma nova loja? como podemos tornar a escolha das localizações em um processo sistemático? o que fazer para time de vendas convencer os clientes em ligações telefônicas? como mudar a abordagem nas ofertas de varejo, em tempo real, para alinhálas as preferências dos consumidores? peguemos o exemplo de um dos maiores expoentes da economia de compartilhamento. o airbnb precisou de um bom tempo para construir bases sólidas e isso ocorreu quando descobriu que o seu principal obstáculo era prevenirse que pessoas escolhessem ficar em hotéis no lugar de contratar seus serviços. riley newman, líder de analytics e cientista de dados da empresa, conduziu um processo de regressão para determinar as características mais impactantes no fechamento de uma reserva. ele descobriu algo que hoje soa trivial: apartamentos cujas fotos não eram bonitas não eram alugadosreservados. simples assim. com base na descoberta, o airbnb passou a enviar fotógrafos profissionais a vários apartamentos para refazer imagens. os resultados foram surpreendentes, com ganhos no número de reservas e na confiança dos usuárioslocatários. 2. em busca da localização perfeita o mantra do bom negócio no mercado imobiliário é “localização, localização e localização”, mas nem sempre isso é tão simples de ser compreendido. a nossa segunda lição sobre bigdata vem de um gigante do varejo que descobriu um processo para melhor determinar onde abrir suas lojas. em tempos de internet, muitas empresas direcionam negócios fortemente para a estratégia puramente digital, ignorando que, nos estados unidos, o ecommerce ainda corresponde por apenas 17% das vendas do varejo norteamericano. trocando em miúdos: grande parte do dinheiro ainda passa na frente da vitrine e entra em espaços físicos. quando empresas de cimento e tijolo pensam em expandir operações para capturar a maior fatia desse segmento multibilionário, um dos maiores desafios reside em descobrir exatamente onde posicionar a nova loja. no passado, donos dessas empresas direcionariam o investimento a áreas que parecem ser uma boa aposta medindo o fluxo de tráfego, o número de pedestres por hora ou comparando os empreendimentos existentes na região. agora, apenas porque um espaço amplo parece uma boa localização para instalar uma loja não significa que, de fato, seja. aliás, pode ser um poço de prejuízo. pior, um outro ponto, a poucas centenas de metros de distância pode ser mais adequado sem que você se dê conta. por essa razão que o starbucks confia em análise de ddos para guiar o processo de abertura de cafeterias, indo tão longe quanto a construção de uma plano de mercado e aplicações para desenvolvimento de lojas em um sistema chamado atlas. a melhor maneira de explicar o atlas é como uma ferramenta de análise de grandes volumes de dados que possui, acima, uma camada de softwares de mapas e informações geográficas. com ele, a rede de cafeteria consegue avaliar um volume elevado de variaveis que podem contribuir com o sucesso das lojas, visualizandoas nos mapas e procurando pontos similares em outras localidades. no ano passado, em uma conferência, patrick ohagan, gerente de estratégia do starbucks apresentou a ferramenta colocando o mapa de uma cidade chinesa de dois milhões de habitantes que já tem 80 localizações da rede. ele moveu diversas camadas para visualizar no mapa o que influencia cada uma das lojas a partir de dados como áreas de negócios, informações demográficas, volume de tráfego, disponibilidade de transporte público. com base nas informações, o o’hagan dentificou um ponto onde três novas torres de escritórios seriam inauguradas dentro de dois meses, representando uma localização com potencial promissor. uma vez que a localidade é encontrada, um fluxo de telas surgem como pop ups, guiando o processo de aprovação da abertura da noval loja junto a corporação, seguindo normas para o lançamento do novo empreedimento. mas o starbucks não para por aí. nos estados unidos, com um mercado saturado de cafeterias, a empresa usa o atlas para ajudar no desenvolvimento de novas ideias de produtos, como a oferta de cerveja em algumas lojas, por exemplo. com base nisso, consegue fazer projetospiloto para validar a iniciativa. aprender com dados e mapas não garante o sucesso dos esforços, mas o processo assegura redução drástica dos riscos associados ao lançamento de umano va loja. 3. ajustando o menu já vimos esse filme antes: um lugar com rostos amáveis dentro de um ambiente economicamente favorável que gera o encanto. a consequência do sucesso, normalmente, é um aumento de preço, filas, confusão nos processos que culmina com a destruição do que havia feito o charme do estabelecimento. a rede de fast food sonic não quer cair nessa armadilha. com mais de 3,5 mil lanchonetes espalhadas por 43 estados norteamericanos transformou seu modelo de drivein em um serviço de vantagem competitiva. a empresa concorre em um segment de margens apertadas. para manter o rumo, compreendeu que precisaria encontrar novas formas de manter custos sem impactar os preços aos clientes. apesar de ver potencial na vasta oferta de dados armazenada, executivos da companhia ficavam frustrados com as limitações de desempenho das ferramentas que utilizavam. a empresa procurava uma forma mais rápida de extrair mais valor dos insights na mesma medida que relutava em investir em uma solução mais complexa e cara para tratar a questão. depois de rejeitar algumas ferramentas baeadas em hadoop e outras que demandavam misturar ou combinar componentes de diversos fonecedores, a sonic adotou uma ferramenta de analytics da 1010data, que não era construída sobre um banco de dados relacional e não pedia trabalhos paralelos para compensar a limitação de arquiteturas legadas. com a tecnologia, a rede pode processar dados não estruturados e obteve efetividade a partir de uma interface de visualização mais amigável a usuários não técnicos, que ganharam liberdade para se aprofundar na ferramenta. 4. compartilhar conhecimento em nuvem para a sonic, o sucesso inicial de seu programa de bigdata inspirou um sentimento na companhia para que buscasse outras áreas onde soluções analíticas tivessem bom uso e trouxessem resultado. o plano agora é estender a tecnologia utilizada para sua rede de franquias. colocar os dados na nuvem permitirá que a companhia simplifique o compartilhamento de informações com sua rede, bem como permitirá que a companhia mantenha o controle sobre informações sensíveis. por lisandro sciutto se você é como a maioria dos líderes de negócios, você gela só de ouvir falar em bigdata. embora coletar, analisar e tirar vantagem de informações dos clientes seja a preocupação de 72% dos empresários e líderes da área de ti, apenas 44% tomam a atitude de falar a respeito, de acordo com a 6ª pesquisa anual de qi digital da pwc. para superar esse gap, os profissionais de marketing precisam transmitir aos diretores como os insights dos clientes, compilados do bigdata, podem ser usados para aumentar as vendas, conduzir tomadas de decisões estratégicas nos departamentos econômicos ajudar os negócios a ganhar vantagem competitiva. por que muitos negócios estão hesitantes? com a quantidade massiva de dados de clientes vindos de diferentes fontes, incluindo websites, email, redes sociais, celular, atendimento ao consumidor, armazéns de dados (data warehouses) e outros, coletar e usar esses dados pode parecer impossível de lidar. além disso, existe um aumento assustador de dados desestruturados não apenas das redes sociais como também do crescente volume de áudio e textos físicos que tem sido digitalizados em um ritmo sem precedentes, adicionado ao desafio de determinar como organizar os dados de forma que sejam úteis. sem mencionar o fato de ter que descobrir como incorporar os dados a diferentes canais, incluindo celular, para obter uma visão 360 graus do cliente. coletar, analisar e usar dados dos clientes de forma inteligente é definitivamente um desafio. ninguém tem isso completamente definido e não existe uma única resposta como solução. no entanto, para os publicitários é decisivo entrar no jogo agora ou arriscar ficar muito atrás de sua concorrência em termos de oferecer aos clientes experiências completas e personalizadas. por que os profissionais de marketing precisam tirar proveito das informações de forma efetiva? existem várias razões pelas quais os profissionais de marketing precisam obter informações relevantes dos clientes. abaixo cinco motivos para adotar (para ontem) o gerenciamento e análise de dados na gestão de marketing: 1. aumente complexidade de navegação, incluindo a proliferação de canais e pontos de contato, na mudança para um ciclo de compra não linear e as demandas de um serviço de atendimento ao consumidor 24x7. 2. aplique recursos avançados de marketing, incluindo personalização em tempo real e automação de marketing. 3. fale a língua da diretoria, usando dados para embasar estratégias e planejamento, bem como para demonstrar resultados quantificáveis. de acordo com a harvard business review, artigo que cita um estudo de 2012, publicitários ainda contam muito com a intuição, levantando dados para apenas 11% das decisões relacionadas aos clientes. 4. ganhe vantagem competitiva por tomar decisões estratégicas com insights dos clientes. de acordo com a pwc, 65% dos gerentes de negócios acreditam que o bigdata vai lhes trazer vantagens. 5. entenda com mais precisão o retorno em investimentos para um conjunto completo de táticas de marketing e otimizar a mistura com marketing e mídia modelagem mix. em 6 de maio de 2010, a bolsa de valores americana teve a pior queda diária de sua história, quase 10%, um prejuízo de cerca de us$ 1 trilhão. por sorte, essa tragédia financeira durou apenas 36 minutos e recebeu o apelido de flash crash (quebra relâmpago). cinco anos depois do episódio, o departamento de justiça dos estados unidos disse ter encontrado o culpado: um operador britânico de 36 anos chamado navinder singh sarao. até o final de maio, sarao estava detido na inglaterra, enfrentando um processo de extradição para os eua. sarao é acusado de spoofing, uma espécie de blefe com os robôs que hoje dominam boa parte das operações com ações. segundo seus acusadores, sarao postou ordens de compra no valor de us$ 200 milhões, apenas para cancelálas em seguida. os robôs, focados em reagir instantaneamente a qualquer oscilação de preços, aceleraram suas operações, criando uma bolha que em seguida estourou. sarao teria saído da brincadeira com us$ 40 milhões. este é um exemplo do tipo de problema que a economia moderna tem de enfrentar: como lidar com a complexidade, e até que ponto sistemas complexos não podem ser manipulados. no campo da tomada de decisões, duas fortes escolas se digladiam. a primeira propõe combater complexidade com complexidade. é a ideia de usar computadores e modelos estatísticos para analisar a multitude de dados. exemplos em que isso dá certo incluem a análise de dados dos jogadores de beisebol exposta no filme o homem que mudou o jogo (moneyball), sobre o treinador que levou um time medíocre às finais; o algoritmo da loja target, que previu a gravidez de uma adolescente antes dos pais; ou as previsões meteorológicas. mas há a tendência oposta: simplicidade. no livro o poder da intuição, o alemão gerd gigerenzer cita estudos como a comparação entre modelos complexos para determinar se uma empresa iria dar bons resultados e uma simples enquete com transeuntes (os transeuntes acertaram mais que os especialistas). o mais recente pesopesado a defender a teoria da simplicidade é o professor donald sull, da escola de negócios sloan, do mit. no livro simple rules (“regras simples”), lançado em abril, ele defende que regras simples deram aos jesuítas a flexibilidade que os tornou tão bemsucedidos em ambientes diversos e adversos; que a formulação das rotas mais eficientes para construir o sistema de transportes de tóquio foi feita por fungos (os pesquisadores representaram tóquio e 36 cidades vizinhas com farelos de aveia e observaram os caminhos que os fungos criaram); ou que o nobel de economia harry markowitz, idealizador de um complicado modelo para maximizar investimentos, na vida pessoal usava a simples regra de dividir os fundos igualmente entre ações e títulos. a batalha entre análise de dados e intuição é mais ou menos como o embate entre o campeão de xadrez garry kasparov e o computador deep blue, da ibm. em 1996, kasparov venceu por 4 a 2. no ano seguinte, deep blue venceu por 3,5 a 2,5. kasparov pediu um tirateima. o computador foi frio e calculista: saiu de campo. o método a adotar depende muito da situação. o operador britânico sarao, por exemplo. autoridades americanas dizem que ele usou sistemas complexos para criar uma bolha. ele jura que usou a intuição. ‘bigdata’ rouba espaço do instinto no varejo os diretores de vendas de poderosas varejistas, que já foram celebrados por sua capacidade de detectar tendências, estão descobrindo que sua intuição está sendo substituída por algoritmos. as empresas estão cada vez mais dependendo de processamento de números do que do instinto de um grande profissional do setor para tentar combater a queda nas vendas e as mudanças no comportamento dos consumidores. conduzindo esta tendência estão ferramentas de processamento de grande volume de dados, o chamado “bigdata”, popularizadas por varejistas online que desconsideram as suposições sobre o ato de comprar. “no passado, era como ‘eu gosto de laranja, então os consumidores gostarão de laranja’”, diz andrew dubin, executivo veterano da área de vendas que até junho era o diretor de vendas da marca de sapatos e acessórios cole haan. hoje, segundo ele, “muito mais está incluído na decisão de compra”, incluindo software que o ajuda a medir o desempenho de produtos em suas prateleiras em comparação com aqueles nas lojas concorrentes. a dominância crescente dos dados está transformando os papéis do setor. depois de procurar por um diretor de vendas durante 14 meses, a kohl’s corp. kss 2.13 % deu o cargo para o seu diretor de marketing. a target corp. tgt 0.47 % recentemente dividiu os cargos de diretor de vendas e de cadeia de suprimentos, que eram ocupados pela mesma pessoa. em novembro, o walmart stores inc. wmt 1.79 % decidiu não preencher a posição depois que seu diretor de vendas saiu. agora, os executivos encarregados de categorias como alimentos e vestuário estão reportando diretamente para o diretorpresidente do walmart nos estados unidos. o diretor de vendas é frequentemente o segundo executivo da cadeia de comando e visto como o provável sucessor do diretorpresidente. o cargo envolve ajudar a construir uma a percepção de moda do varejista, seja a fórmula chique e barata do target ou a de roupas clássicas e formais da j.crew. mas junto com a criatividade do “lado direito do cérebro”, os diretores de venda precisam ser mestres em capacidades analíticas usando o “lado esquerdo do cérebro”. o walmart começou a usar dados do google googl 2.86 % analytics este ano para identificar os alimentos mais consumidos em datas especiais, os alimentos procurados e receitas por estado para ajudar a guiar as decisões sobre quais alimentos estocar em cada parte do país nos próximos meses. depois que os dados mostraram aumento nas buscas por “totchos” e “tachos” — nachos que usam tater tots (batatas raladas e fritas) em vez da batata chips —, a equipe de compras do walmart decidiu estocar mais tater tots e destacar o prato em um guia de entretenimento, disse um portavoz. os dados definem a forma que os produtos ocuparão os espaços mais nobres no fim dos corredores das lojas e nos emails que o walmart envia aos clientes com promoções ou receitas, diz ele. o diretorpresidente da rede de lojas de departamento j.c. penney co. jcp 3.97 % , marvin ellison, disse recentemente a analistas que vai se concentrar mais na “ciência do varejo” para apresentar, distribuir e repor mercadorias. “para um varejista, o mais difícil é ter o produto certo, o estilo certo e a quantidade certa”, disse. nem todo mundo é a favor do papel mais importante que os números estão desempenhando. gwen manto, exdiretora de vendas da sports authority, um dos maiores varejistas esportivos dos eua, lembra da primeira vez que viu uma câmera gopro gpro 8.17 % em uma feira de negócios em 2010. ela soube que seria um sucesso e comprou todo o estoque do fabricante na hora. seu instinto provouse correto. manto disse que se ela fosse tomar uma decisão de compra similar hoje, teria primeiro que analisar uma imensidão de dados para determinar quais câmeras parecidas estão sendo vendidas e a que preço. “você agora precisa de tantos dados antes de tomar uma decisão que as oportunidades podem acabar passando”, diz manto, que saiu da sports authority em 2012 e hoje é diretora de inovação de produtos na aloha.com, uma empresa de saúde e bemestar. a consolidação do setor varejista acabou gerando redes tão grandes que a compra por instinto não é mais uma opção. mas a escala tem o seu preço. “as lojas estão começando a ficar iguais”, diz paula rosenblum, analista da rsr research. “os varejistas se esquecem da arte de selecionar produtos que são interessantes para os consumidores.” rosenblum diz que os chamados “baby boomers” — a geração nascida depois do fim da segunda guerra — se baseavam mais no instinto, mas eles estão se aposentando e sendo substituídos por uma geração mais nova que cresceu com dados. nos últimos anos, os chamados software de otimização de preço se tornaram uma ferramenta comum. em vez de ter uma pessoa da área de vendas para decidir quando reduzir o preço das mercadorias, “o computador resolve o problema”, diz ela. o bigdata está deixando de ser um tópico discutido pela indústria e começará a ser efetivamente aplicado como prática padrão pelas corporações nos próximos dois anos. tanto é assim que 75% das empresas estão investindo ou planejam investir em bigdata até o final de 2017, revela estudo do gartner. outro ponto importante do estudo: os cios não estão mais lidarando os projetos. esse ano há uma forte equivalência com os chefes de unidades de negócios. em 2014, os gestores de ti responderam por 37% dos projetos de bigdata e os chefes de unidades de negócios por 25%. esse ano, esse percentual passou para 32% a 31%. para nick heudecker, diretor de pesquisas do gartner, com as soluções de bigdata sendo amplamente utilizadas, tópicos que antes definiam o assunto, como grande volume de dados, fontes de dados díspares e novas tecnologias estão se tornando algo familiar às equipes de ti. o bigdata está sendo usado para melhorar a experiência do usuário (ux), agilizar processos existentes, alcançar mercadosalvo ou reduzir custos. e essa tendência deverá permanecer, sendo 64% dos projetos de bigdata com foco em ux. outros 47% buscam mais eficiência para os processos, especialmente, os das áreas de marketing. segurança também se torna um ponto crítico para empresas e melhorar as capacidades de proteção entram em pauta nos projetos de 23% das empresas. bigdata abre espaço para um uber na saúde digital os modelos disruptivos da economia digital, como o uber e o airbnb, tendem a chegar também à medicina. startups do vale do silício começam a desafiar os modelos da área de saúde em pelo menos duas áreas – sensores e genômica – e estabelecem a batizada medicina digital. segundo bernardo peixoto, gerente de novos negócios da eco sistemas, a medicina atual age mais nas áreas de diagnóstico e terapêutica de forma reativa, mas os avanços tecnológicos envolvendo captura em larga escala de dado digital contribuem para alterar o cenário da cadeia de valor em saúde. o especialista participou de painel sobre saúde digital, no rio info 2015. “os maiores avanços ocorrem na área de sensores vestíveis (wearables), injetáveis (injetables) e ingeríveis (ingestables) e na genômica, que avança na mesma velocidade da lei de moore em relação aos microprocessadores. desde 2001, quando foi publicado o primeiro genoma humano, mais de 250 mil genomas foram mapeados, lidos e analisados em diversos laboratórios ao redor do mundo. a expectativa é de que, nos próximos 10 anos, serão 2 bilhões de sequenciamentos feitos com um quarto da população, o que vai permitir a tão sonhada medicina personalizada”, descreve peixoto. ele conta que o custo para o mapeamento genômico caiu cinco ordens de grandeza em 15 anos e um sequenciamento pode ser executado ao custo de us$ 15. isso tem viabilizado novos negócios e muitas empresas de nanotecnologia vêm desenvolvendo soluções para que o processo de sequenciamento seja mais rápido. um exemplo é a ilumina, startup que recebeu uma oferta pública hostil da roche no valor de us$ 62 bilhões e conseguiu rejeitála convencendo os acionistas de seu imenso potencial de mercado. hoje é avaliada em us$ 100 bilhões. a empresa vai oferecer um serviço semelhante à applestore para que a indústria crie soluções a partir das informações genômicas. outra classe de empresas são as direct to consumer companies (dtc) como a 23andme que envia ao consumidor um kit para ele colher material genético como a saliva e envia de volta para a empresa executar a análise de mais de 100 doenças que a pessoa possa vir a desenvolver. “isso gerou uma reação corporativista da associações de classe da área de saúde que denunciaram a empresa à fda (food and drug administration), a agência reguladora americana para a área de saúde. a agência analisou esta e outras dtcs e mandou encerrar o serviço de análise clínica até que haja um entendimento da indústria”, informou peixoto. ele diz que o potencial de análise se eleva sobretudo quando se junta às informações genômicas as postagens em redes social. não por acaso a 23andme comprou a rede social de pacientes together. “o que se assiste hoje é uma mudança de paradigma na cadeia da saúde. o modelo de negócios se baseia na oferta de serviços de genoma na nuvem. muitos suportam crowdfunding e opt in. em relação aos sensores, empresas de equipamentos como a philips estão criando linhas de serviços de monitoramento. de 30 a 40% de parâmetros de análise clinica podem ser medidos por sensores. mas há desafios de interoperabilidade e modelo de negócios”, concluiu. bigdata não é apenas tecnologia um tema que realmente está entre os top 3 para os cios e profissionais de ti é bigdata. por isso, volta e meia retorno ao assunto. bigdata é muito mais que um imenso volume de dados. por isso o nome não me parece muito adequado. o valor do bigdata vem da sua dinâmica, provocada pela análise dos dados; ou seja, dos dados falarem por sim mesmo. dados armazenados por si só não têm valor. bigdata não é apenas tecnologia. tentar simplificar vendendo a ideia de que bigdata se materializa na empresa simplesmente comprando tecnologias do fornecedor a ou b não cria valor para o negócio, apenas gera frustrações. o bigdata embute mudanças na maneira de pensarmos dados. por exemplo, vamos olhar a variável que nos parece mais simples, que é volume. quando saímos do pensamento baseado na escassez para a abundância de dados, devemos pensar diferente. pela dificuldade e limitação tecnológica, nós acabamos construindo um modelo mental de escassez de dados. com isso, refinamos uma série de práticas como análises estatísticas por amostragem. a partir de uma pequena amostra de dados, extrapolamos para um cenário mais amplo. com o tempo refinamos os modelos e hoje eles são bastante confiáveis. entretanto, existem algumas lacunas, como uma precisão que depende muito da amostragem. por exemplo, uma pesquisa de opinião baseada em uma amostra randômica de usuários de telefones fixos embute um viés: se a coleta for feita no horário de trabalho, quem vai atender não necessariamente representa a opinião das pessoas que trabalham fora. podem ter um ponto de vista bem diferente das que podem atender o telefone doméstico durante o dia. além disso, se quisermos detalhar um pouco mais a pesquisa, um universo de amostras pequeno, como fazemos hoje, não terá representatividade estatística. um exemplo? as pesquisas de intenção de voto. geralmente pegase umas duas mil pessoas e temse um quadro geral. mas se quisermos detalhar ao ponto de queremos saber a intenção dos jovens entre 18 e 25 anos do estado da paraíba, a amostragem será insuficiente. estamos presos às perguntas iniciais e não podemos sair delas. mas com volumes grandes o pensamento é outro. quando a variável passa a ser “ n=todos”, podemos fazer granularizações inimagináveis no modelo de escassez. podemos identificar tendências e descobrir correlações não pensadas antes. podemos fazer novas perguntas e descer a novos níveis de segmentação. saímos para um “mind set” mais oportunístico, ou seja, aproveitamos oportunidades de fazer perguntas não pensadas antes de analisar os dados. outra característica interessante que afeta nossa maneira de olhar os dados é que volumes grandes não demandam precisão extra de cada dado. aliás, já fazemos isso hoje. pensemos em um número grande como o pib de um país. não detalhamos os centavos, mas ficamos restritos aos grandes números e as tendências que eles apontam. recomendo ler o paper “if you have too much data, then “good enough” is good enough“. ele mostra a mudança na maneira de pensar a exatidão dos dados, versus a tendência que os dados nos apontam. o exemplo típico é a conceituação do hadoop. ao usálo, podemos aceitar que os dados manuseados não serão 100% exatos, mas o volume será grande o suficiente para apontar tendências. claro, não se imagina substituir o banco de dados relacional que lida com dados precisos e exatos como nossa conta corrente bancária pelo hadoop, mas mostra que podemos (de forma complementar), trabalhar com as diversas tecnologias; cada uma no seu espaço. outra grande oportunidade que o bigdata nos abre é conseguirmos fazer correlações entre dados, à primeira vista, sem aparente conexões. um exemplo tradicional é o da amazon e sua estratégia de recomendações, baseada na análise de quem compra determinado livro tenderá a comprar outros. como isso é feito? vale a pena dar uma olhada no algoritmo básico usado pela amazon, conhecido como “itemtoitem collaborative filtering”. na prática, a adoção deste modelo revolucionou o ecommerce e algoritmos similares passaram a fazer parte do cerne de qualquer sistema de comércio eletrônico que se preze. o princípio básico é conhecer o “que” e não o “porque”. com correlações nós passamos a trabalhar não mais com certezas, mas com probabilidades. com volumes muito grandes, as possibilidades de acerto tornamse bem mais significativas. há uma mudança de pensar neste conceito. saímos do modelo “hypothesisdriven”, onde tentamos provar nossa hipótese analisando dados específicos com perguntas específicas, para “datadriven”, onde submetemos um imenso e variado volume de dados a algoritmos de correlação. neste último podemos encontrar resultados inesperados e a partir deles nos inspirarmos a formular novas perguntas. o fator chave passa a ser fazer perguntas certas a cada nova análise. um cuidado a evitar é o fenômeno que chamamos de “big noise”, com volumes de dados muito grandes, mas que não nos trazem correlações efetivas. um outro exemplo de uso de correlação de dados é o produto university pages do linkedin, que propõe analisar como carreiras e universidades se interconectam. por exemplo, se você quiser seguir determinada carreira, qual seria a melhor universidade a cursar? recomendo ver o texto sobre o projeto, inclusive com detalhes das tecnologias. correlacionando dados, podemos desenvolver algoritmos preditivos, que buscam identificar eventos antes que eles aconteçam. um exemplo de uso é a manutenção de equipamentos como aeronaves, automóveis ou turbinas de aviões. o princípio básico é que quando as coisas acontecem (ou quebram) não são de imediato, mas o problema evolui gradualmente com o tempo. coletando dados de sensores podemos fazer análises correlacionais para identificar determinados padrões que sinalizam futuros problemas. quanto mais cedo uma provável anormalidade é detectada, mais eficiente é o processo de manutenção. muito mais eficiente que a manutenção preventiva que nos indica uma troca de óleo cada 5 mil quilômetros. mas a maneira de dirigir, as estradas que o veículo trafega e as temperaturas a que está exposto afetam de forma significativa este tempo. com algoritmos preditivos podese identificar que um determinado veículo deve trocar o óleo a 4 mil quilômetros e o outro a 6,5 mil quilômetros. bigdata traz uma outra mudança fundamental em seu bojo. a substituição do modelo baseado em intuição por “datadriven”. a intuição funciona (e não vai deixar de existir) mas é baseado na ideia que existe causalidade em tudo. muitas vezes acreditamos que tal efeito é devido a uma determinada causa, pelo simples fato que não tinhamos outras variáveis para analisar. hoje temos e provavelmente muitas das nossas ideias de causaefeito, que nos guiavam, não serão mais válidas. se quisermos ter sucesso em bigdata não devemos começar pela tecnologia. o primeiro passo é identificar as oportunidades de valor, ter as expertises necessárias, saber quais e onde estão os dados e só então selecionar a tecnologia. e é um processo contínuo e evolutivo. novas correlações de dados surgirão e sempre faremos novas e instigantes perguntas. afinal é assim que a sociedade evolui: sendo curiosa e explorando novos caminhos. tecnologia bigdata bigdata o emprego da tecnologia bigdata permite transformar quantidades massivas de dados em conhecimento, oferecendo às empresas a possibilidade de extrair, através dos dados que geram, informações valiosas sobre seus clientes, produtos e serviços, lhes permitindo anteciparse às tendencias de mercado. essas tecnologias oferecem a base para produtos analíticos avançados como bidoop layer, capazes de realizar análises complexas sobre grandes quantidades de dados, independente de sua natureza ou estrutura. desafios as principais limitações associadas ao tratamento e análise de grandes volumes de dados encontramse reunidas no denominado “modelo dos 3 vs”, já apontado em 2001 por dough laney, industry analyst & information innovation agenda manager en garner. de acordo com este modelo, são considerados como principais desafios do bigdata os siguientes atributos: velocidade: o incremento na velocidade do processamento de informação permitiu enfrentar o desafio de transformar grandes fluxos de informação em conhecimento em tempo real, respondendo de forma mais rápida às necessidades específicas de cada negócio. variedade: a multiplicação das fontes geradoras de informação (emails, redes sociais, imagens, vídeos, logs, etc.) implicou em um aumento na complexidade de análise de dados. volume: na medida em que o volume de dados processados pelas companhias cresce exponencialmente, tornouse imprescindível desenvolver modelos analíticos capazes de detectar correlações entre dados de diversas fontes de informação. os novos modelos contemplam outros fatores a levar em consideração, como o alto índice de variabilidade dos dados, a necessidade de comprovar sua veracidade, assim como a importância de que sejam visualizáveis através de quadros de controle dinâmicos que facilitem a realização de relatórios e a toma de decisões de negócio. hadoop apache hadoop é uma plataforma open source indicada para o armazenamento e processamento de dados em grande escala. se caracteriza por sua flexibilidade para armazenar qualquer tipo de informação, por sua capacidade para processar dados complexos e por seu caráter econômico, por não requerer licença de uso. hadoop está inspirado nas tecnologias map&reduce e google file system (gfs), implantadas originalmente por google. com esta ferramenta algumas companhias mais representativas do mundo conseguiram otimizar a eficiência e qualidade da sua informação aumentando seus benefícios. amazon, yahoo, telefónica e linkedin são alguns exemplos. qual a diferença entre bi e bigdata? o trabalho remoto já é realidade na empresa em que você trabalha? este infográfico aponta dados de pesquisa realizada com organizações sobre os motivos financeiros e colaborativos que levam à implementação do trabalho remoto em suas empresas.confira o custo benefício gerado às empresas ao adotarem esta prática. aproveitar ao máximo os benefícios que a tecnologia proporciona é o desejo – e, acreditamos, o plano – de 10 em cada 10 empresas. afinal, qual companhia não quer entregar os melhores serviços e produtos, encantar o cliente, ser competitiva, transparente, ágil e lucrativa? a tecnologia, ainda que não consiga atingir sozinha todos esses objetivos, ajuda os executivos a definirem qual o melhor caminho. e, em busca de apoiar cada vez mais as empresas na superação dos desafios, a ti está em constante evolução. essa evolução – conhecida como “ondas da tecnologia” – causa grande impacto no mundo corporativo ao propor modelos de negócio inovadores, romper paradigmas, criar novas formas de relacionamento e permitir a tomada de decisão de forma cada vez mais rápida e assertiva. porém, nem sempre o mercado está maduro o bastante para absorver os conceitos no momento em que eles surgem, podendo causar, inclusive, uma confusão entre as novas tecnologias e algumas já amplamente utilizadas. esse é o cenário que encontramos hoje quando falamos sobre bigdata e bi (business intelligence). não é difícil entender o que gera essa dúvida, uma vez que ambas as tecnologias trabalham com captura e interpretação de dados, com objetivo de permitir que as empresas tenham acesso a detalhes de suas operações, interações com clientes e eventos que acontecem no seu ambiente. a intenção é que, com isso, elas possam identificar comportamento e tomar ações estratégicas. porém, uma das principais diferenças entre eles é que, no bi, as informações analisadas em geral refletem apenas o passado e depois de extraídas do local em que são geradas, posteriormente são aplicadas em relatórios e dashboards– a solução, sozinha, não tem inteligência e precisa que profissionais interpretem e tomem as decisões. quando olhamos para bigdata, recursos de predição devem ser intrínsecos ao conjunto da tecnologia, para melhor interpretar os dados e antecipar possíveis comportamentos, permitindo assim insights mais rápidos. ou seja, mais do que um bi aprimorado, a evolução que o big data propõe é a inclusão da inteligência nas soluções com base em análise de grandes volumes de dados diversos e em movimento. para que as diferenças entre o bi e o bigdata sejam percebidas com mais facilidade, antes de tudo, é importante entender o que realmente se caracteriza como bigdata. uma dica é observar os cinco vs. explicando: para ser caracterizado como bigdata, os dados precisam, necessariamente, reunir cinco características: volume, variedade, velocidade, veracidade e valor: volume – o primeiro passo para começarmos a falar sobre bigdata é a existência de um grande volume de dados para ser analisado; variedade – além do alto volume, os dados precisam ter variedade, ou seja, trazer informações sobre diferentes vertentes de uma mesma operação, enriquecendo assim a análise e permitindo assertividade na tomada de decisão. por exemplo, quando falamos sobre interação com um cliente, é preciso levar em conta dados estruturados como cadastro, histórico de pedidos, compras realizadas, cobranças, grau de satisfação, problemas já reportados, interesses, etc. além de dados não estruturados como comentários em redes sociais (tweets, curtidas, etc.) e logs de interação. velocidade – além de dados estáticos (cadastros, tabelas, datamarts, etc.) é preciso levar em conta dados em movimento, em geral eventos que podem acontecer em qualquer momento e etapa dos processos. veracidade – os dados precisam ser confiáveis e os modelos de análise precisos. caso contrário, os resultados obtidos não representam a realidade. valor – todos os esforços na implantação de uma cultura de big data nas empresas devem ter por objetivo a geração de valor, seja na retenção de clientes, aumento da eficiência operacional, aumento das vendas e melhoria da percepção da marca da empresa (branding). mais lidas campus sp google inaugura espaço para empreendedores em são paulo microsoft hq microsoft oferece ferramenta grátis para programar em linguagem r pressao está cada vez mais complicado ser gerente de ti negociação sindicato patronal oferece 4% de reajuste salarial aos profissionais de ti bigdata quinze soluções de bigdata e analytics que você deveria observar de perto quando as informações atendem às premissas acima, estamos diante de um caso de bigdata – um conceito que, apesar de novo, vem revolucionando o cenário tecnológico mundial. aplicando a inteligência correta ao big data, as empresas podem obter informações e vantagens de negócio que são atualmente impossíveis de se obter apenas com o bi. imagine por exemplo o valor que a previsão correta de uma tendência de volume de vendas em tempo real pode ter para sua operação? bigdata 3 frentes em que a análise de dados cria valor no mercado imobiliário as concessões de crédito imobiliário estão em queda no brasil. de acordo com o banco central, após avanço na casa dos 95% de 2011 a 2013, registrouse uma baixa de 2,2% entre os meses de junho de 2013 e 2014. a boa notícia é que a tecnologia está ajudando o segmento a agregar valor e a driblar essa desaceleração. james obrien, articulista do portal mashable, aponta algumas iniciativas em que as empresas e profissionais que trabalham com vendas de imóveis já estão se utilizando da análise inteligente de dados não estruturados (bigdata) para driblar a baixa nas procuras, analisando enormes quantidades de informações vindas de diferentes lugares e formatos, inclusive fornecidas voluntariamente pelo públicoalvo. a seguir, veja as três frentes, apontadas por obrien, em que o uso estratégico do bigdata está contribuindo para melhorias no mercado imobiliário: 1 democratização da informação a partir de inúmeros bancos de dados, já surgem serviços como a plataforma zillow, criada com a proposta de “gerar mais transparência das informações do mercado imobiliário americano”. com ela, o potencial comprador pode comparar preços e, assim, diminuir o caminho entre a pesquisa e a compra. e mais: a partir das informações coletadas dos consumidores, a ferramenta se propõe a gerar conteúdo e traçar tendências de valores em regiões específicas, oferecendo resultados por bairro ou código postal. no brasil, o projeto mesegura também oferece ao consumidor de seguros (dentre eles o residencial) fácil e rápido acesso a cotações, agindo como uma ponte entre os corretores e os potenciais segurados. a mecânica da plataforma reúne os dados coletados dos usuários e os distribui entre as seguradoras cadastradas, de acordo com as preferências ou necessidades do cliente. 2 prospecção de acordo com o perfil comunitário bigdata – 3 frentes em que a análise de dados cria valor no mercado imobiliário mjv tecnologia & inovação com soluções de bigdata também é possível analisar, a partir da imensa quantidade de dados não estruturados, a evolução e o planejamento comunitário, oferecendo aos potenciais compradores imóveis que se encaixem em seus valores individuais e comunitários. um exemplo é o projeto hudson yards (foto), em manhattan, um dos endereços mais caros do mundo. pesquisadores da universidade de nova york estão equipando os espaços planejados com sensores que monitoram a qualidade do ar, tráfego, uso de energia e água. com as informações coletadas, os corretores de imóveis conseguem prospectar com propriedade, utilizando como argumentos de venda fatores como qualidade de vida, eficiência energética e sustentabilidade, entre outros pontos. a ideia é utilizar este tipo de ação em outros empreendimentos ou até em imóveis individuais, fornecendo ao potencial cliente a chance de escolher com rapidez, de acordo com o cruzamento de inúmeras informações. 3 reconhecimento do potencial dos imóveis por outro lado, grandes imobiliárias e bancos também utilizam bigdata para entender o potencial de determinados imóveis. eles analisam o comportamento do consumidor a partir de informações coletadas de diferentes bancos diretamente relacionados com a região, por exemplo. com isso, se certificam de que não estão vendendo com preço aquém do que vale ou muito acima do que o mercado consegue suportar. o bigdata e o desafio dos cios mjv tecnologia & inovação por paulo cesar alves, diretor de delivery da mjv se há poucos anos as empresas tinham dificuldade para conseguir feedbacks e gastavam muito dinheiro com pesquisas para entender os anseios de seus consumidores, agora elas se veem diante de outro dilema: a dificuldade de lidar com a quantidade excessiva de dados gerados diariamente em ambientes digitais. a ampliação significativa da capacidade de armazenamento com a cloud computing, bem como as facilidades para aquisição de equipamentos e sistemas e a mobilidade também contribuem para a dificuldade de lidar com a crescente geração de dados. o que já se sabe é que as empresas com as melhores estratégias para capturar, ordenar e transformar dados em informações relevantes têm uma vantagem competitiva muito grande. fazer o cruzamento de dados sóciodemográficos, portfólio de produtos, comportamentos transacionais, pontos de contato etc., para mapear a jornada do consumidor, requer mais do que tecnologia. requer um pensamento estratégico e uma cultura analítica. e isso é bom para os cios, além, é claro de ser um grande desafio. está sobre os ombros deles a incumbência de encontrar ferramentas, formar parcerias com fornecedores e montar equipes internas que os ajudem a transformar dados em informações de valor. além disso, os cios enfrentam o desafio de construir as estruturas de apoio para que suas equipes construam e alimentem um pensamento mais estratégico nas organizações. saber tudo sobre a técnica já não é mais suficiente. é preciso minerar os dados e distribuílos estrategicamente para que os departamentos possam utililzálos. se a estratégia é atingir um determinado segmento de mercado, como o cio pode ajudar a equipe de vendas a encontrar informações substanciais que apóiem suas ações? outro grande desafio é a mensuração dos resultados em análise de dados. estabelecer métricas para calcular o retorno sobre investimento (roi) em ferramentas e serviços não é tarefa fácil, mas precisa ser feita. os modelos atuais se comportam como modelos preditivos e que são muitas vezes alcançados por conta do esforço e da coparticipação das áreas de negócio juntamente com a área de ti. se baseiam na análise histórica dos dados que as corporações possuem. a evolução desse processo será para os modelos prescritivos que ajudarão no direcionamento das ações estratégicas das empresas e não somente para mostrar tendências ou análises. a boa notícia é que as empresas brasileiras estão na vanguarda na américa latina quando se trata da adoção de tecnologias para análise de dados. de acordo com a idc, o país deve encerrar 2014 com investimentos na casa dos 426 milhões de dólares entre hardwares, softwares e serviços para tratamento de bigdata. bigdata é um termo impróprio. enquanto o campo é relativamente jovem, o termo já foi largamente criticado, particularmente em como nós não podemos igualar a escala de dados dada a diversidade do mundo em que vivemos. de olho nisso e em nome desta diversidade, vou agora olhar para o bigdata a partir do ângulo do sul global, afinal, a maioria da população do mundo reside fora do ocidente. quando nós prestamos atenção para os debates sobre vigilância, privacidade e neutralidade da rede e procuramos por modelos e práticas alternativas para sustentar a esfera digital, eles abordam principalmente preocupações ocidentais, contextos e comportamentos do usuário a partir desses domínios privilegiados. isso, sem dúvida, oferece uma visão equivocada da internet. há uma década até talvez fosse legítimo argumentar que grande parte desta demografia marginalizada não estava conectada ao mundo digital e, portanto, não deveria ser incorporada ao debate contemporâneo, ficando, assim, relegada ao discurso do digital gap dos especialistas na área de estudos de desenvolvimento. porém, com o crescimento exponencial das tecnologias móveis (celulares especialmente), mesmo nos contextos mais desfavorecidos, acompanhado de políticas de liberalização e dos compromissos do setor públicoprivado de fornecer conectividade para nivelar áreas rurais do sul global, isto já não é um argumento válido. por exemplo: atualmente não são apenas os habituais suspeitos como china e índia que aumentam seu domínio digital, mas também regiões como a arábia saudita e recentemente myanmar, onde a mudança foi de mero 1% de sua população online há alguns anos para um aumento previsto de quase 50% até o final deste ano. a previsão é de que até 2020 a maioria dos dados digitais geolocalizados virá de economias emergentes. claro que ninguém argumenta que esta será uma tarefa fácil. o fato é que a maioria dessa população continua a viver com menos de dois dólares por dia e possui distintas tradições culturais, muitas dos quais permanecem como uma incógnita para os acadêmicos mais experientes e público em geral. c.k. prahalad, um guru neoliberal e uma figura influente nesta área cunhou o termo base da pirâmide (bdp) para encapsular estas cerca de 4 bilhões de pessoas. ele argumentou que era hora de reformular esta população como consumidores em vez de beneficiários, afastandose de perspectivas póscoloniais muito estabelecidas por culpa branca e paternalismo. vêlos como consumidores, seria uma solução ganhaganha tanto para o mercado quanto para o estado, onde o bem comum encontrase lado a lado com fins lucrativos. este ponto de vista ganhou um novo impulso com o surgimento de tecnologias web 2.0 e com a mudança cultural na percepção de usuários como cocriadores e massas de inteligência e sabedoria coletiva. parece que finalmente chegou o momento onde podemos vislumbrar os pobres como futuros consumidores e agentes de mudança digitais. no entanto, vale a pena perguntar se, ao adotar a perspectiva da base da pirâmide (bdp) dos pobres como consumidores empoderados, estaríamos na verdade marketizando os pobres. hoje as economias da bdp estão em ascensão. várias corporações vêem a virtude dessa perspectiva e estão experimentando vigorosamente com o fazer o bem e, simultaneamente, ganhando vantagem ao serem os primeiros entre esta base de futuros consumidores. em nome do capitalismo inclusivo, o anteriormente inutilizável pobre se tornou um mercado viável. suas economias informais foram integradas por esta inclinada neoliberal. a literatura sobre marketing já comprovou que, uma vez que você muda o comportamento dos consumidores em um determinado domínio, você está bem posicionado para ganhar sua lealdade através de um leque de produtos. isso não é diferente na adoção da internet. a plataforma do facebook, ao permitir o acesso livre para determinados sites a uma série de economias emergentes, se tornou a internet para esta substancial base de usuários. neutralidade da rede aqui, evidentemente, ficou em segundo plano em nome do fazer o bem e deu ao facebook a vantagem singular sobre a base de dados de comportamentos desta população bdp. por outro lado, o bigdata tem ajudado a criar plataformas de crowdsourcing interessantes, como a ushahidi. ela foi projetada para transformar, em tempo real, dados de diferentes canais em mapas de crise que possam ajudar nos esforços de socorro humanitário. a ushahidi lançou um mapa de crise no prazo de quatro dias após o terremoto no haiti em 2010, por exemplo. também podemos destacar o nextdrop, um aplicativo de crowdsourcing que permite que pessoas de baixa renda sejam notificadas sobre onde obter água potável, um auxílio importante para momentos de escassez crônica de água que tem prevalecido em grande parte do sul global. enquanto estes são esforços louváveis, precisamos reconhecer que estes são também modelos de negócios que se apoiam em falhas do estado. a longevidade destes exemplos de empreendedorismo social reside na fé de que o estado vai continuar a decepcionar seus cidadãos. neste contexto, as zonas de marginalização tornamse zonas de inovação. quando olhamos para a base da pirâmide de dados, não há dúvida de que este dilúvio de informações que tem origem no sul global terá um grande impacto sobre o futuro da internet. é por isso que precisamos questionar a forma com que tudo isto será tratado, de preferência se abstendo do risco de tratar este público como exótico e sim permitindo a utilização de dados pessoais para ferramentas de capacitação em economias emergentes, fortalecendo ao mesmo tempo suas instituições, criando modos alternativos de inclusão, e ir além da abordagem neoliberal padrão de marketização dos pobres. atualmente vivemos em um mar cada vez maior de dados à velocidade da resposta, da rapidez de processos e do tempo real. todas, características cada vez mais intrínsecas ao cotidiano. pensando nisso, as empresas de serviços financeiros estão implantando sistemas para pagamentos mais rápidos, incluindo transferências de fundos em tempo real. como em outras áreas o benefício dessas implementações trazem problemas, no caso é o aumento das fraudes financeiras conforme os mecanismos de pagamentos em tempo real tornamse mais populares entre os consumidores. assim, para cada nova forma de pagamento que surge, os criminosos financeiros criam novos padrões de ataque, e os pagamentos online em tempo real não fogem dessa realidade. a melhor forma de defesa para as instituições financeiras é combinar e traçar os perfis de comportamentais detectados através de anomalias observadas no sistema, classificando e implantando novas defesas contra ataques emergentes. nesse ponto, mecanismos como bigdata e a análise preditiva podem ajudar. tais ferramentas que realizam análise preditiva e comportamental a partir dos dados recolhidos pelo bigdata, possibilitam as instituições adaptarem suas estratégias de combate a fraudes, permitindo ao cfo e sua equipe obter insights imediatos de uma perspectiva de controle interno, liquidez e previsões financeiras, blindando as vulnerabilidades dos sistemas. os cfos conhecem os riscos financeiros e compreendem a necessidade de detecção de fraudes através da análise de indícios em tempo real, transformando dados em decisões, obtendo vantagem sobre os riscos. para além, com o bigdata é possível reduzir os processos manuais, simplificar a integração de dados e eliminar riscos, tornando as decisões mais diretas, eficientes e eficazes. expandese assim o papel do cfo, que se torna um parceiro estratégico na tomada de decisões do ceo. as infinitas possibilidades do bigdata a tecnologia está a serviço das necessidades cotidianas e empresariais. o bigdata é um avanço da tecnologia da informação que atende a essa lógica, pois capta, analisa e transforma as informações disponíveis de forma não estruturada – na internet, em redes sociais e outras fontes – em estatísticas úteis aos mais variados segmentos do mercado. grande parte das informações que obtemos hoje, mesmo que não seja perceptível a primeira vista, são frutos de análises de gráficos e dados estatísticos a cerca da vida comum. dentre essas estão as informações fornecidas pelas prefeituras de grandes cidades sobre transporte, segurança, clima, trânsito e o comportamento da população. a aplicação prática dessas informações pode partir de empresas privadas que criam soluções para o usuário de transporte público, por exemplo, ou do próprio governo ao utilizar os dados estatísticos para agir preventivamente em uma região com alto índice de criminalidade. países europeus e o japão já apresentam um bom índice de efetividade ao diminuírem a criminalidade a partir da prevenção dos crimes em regiões apontadas por meio dessas soluções. as aplicações do bigdata são infinitas e podem melhorar a vida em comunidade ao redor do mundo. como seria se pudéssemos prever crimes como brigas de torcidas organizadas através da análise de mensagens em redes sociais? e essa é apenas uma das aplicações da tecnologia big data. para tanta informação disponível e a vasta possibilidade de utilização desses dados o limite é nossa criatividade para usálas. através dessas soluções podemos não resolver todos os problemas, mas com certeza podemos melhorar qualquer cenário. bigdata lab é o começo que interrompe muita gente? a citação geralmente atribuída a um anônimo é a que devemos ter em mente quando pensamos em iniciar um projeto. seja pesquisando para comprar um carro novo ou buscando motivação para voltar a jogar tênis, o passo mais difícil é sempre o primeiro. para a ti corporativa, projetos de bigdata sofrem do clássico começo difícil. as empresas se assustam quando planejam demais e insistem em manter os planos. bigdata não se adapta a esquemas passoapasso e uma linha de chegada prédeterminada, de acordo com phil simon, autor do livro “too big to ignore? the business case for bigdata”. hadoop e outras soluções de bigdata representam uma abordagem fundamentalmente mais flexível, ad hoc e orgânica ao modelo de dados. atender a necessidade do negócio é mais importante do que seguir modelos prédefinidos. __________________________________________________________________ não é preciso começar com o fim em mente quando falamos em projetos e iniciativas de bigdata é comum pensar em mega projetos que incluem diversas fontes de dados e um modelo estatístico complexo para a manipulação e processamento dos dados. acontece que muitas vezes, e na maior parte dos casos, o ideal é começar pequeno. os primeiros passos com bigdata devem ser dados de maneira cautelosa, porém sem medo de errar. pequenos projetos nos dão a possibilidade de testar os desafios e experimentar os benefícios desta prática. __________________________________________________________________ o bigdata lab o bigdata lab da datastorm é o ambiente perfeito para que você experimente o bigdata. provemos toda a infraestrutura básica necessária, tecnologia e expertise para os seus projetos. algumas características do bigdata lab: hadoop, mongodb, e toda a infraestrutura básica necessária, como serviço. uma avaliação dos seus dados internos disponíveis. possíveis fontes públicas de enriquecimento de seus data sets. uma visão geral do seu negócio para a identificação de iniciativas e projetos piloto em bigdata. mobilidade, bigdata e segurança: áreas mais quentes de ti quando se fala em crescimento do mercado de tecnologia da informação, a área digital aparece em relevância quando comparada às áreas de ti que já existem desde o início do século. a convergência de “olhares” para o mundo digital ocorre, em parte, porque diversas corporações têm explorado cada vez mais as opções de conectividade em tempo real, além de suportes que possam prover a máxima velocidade e integração dos processos informacionais. e é em meio a essa escalada por um ambiente corporativo cada vez mais integrado que o profissional da tecnologia da informação surge como um mediador das melhores possibilidades móveis para os sistemas de uma empresa. indo um pouco além: ele atua como um verdadeiro fomentador de soluções que podem abranger bigdata, segurança e cloud computing. mobilidade, bigdata e segurança: áreas mais quentes de ti volume, variedade e velocidade ou, três “vês” como são conhecidos os pilares do bigdata, uma área da tecnologia da informação que lida com dados não estruturados que representam 85% das informações com as quais as corporações trabalham atualmente. e exatamente por funcionar como um conjunto de soluções tecnológicas que permite analisar em tempo real qualquer tipo de informação digital, o mercado de bigdata crescerá, em média, 40% até 2015. nesse panorama, o especialista em bigdata assume o papel de “cientista” de dados que se ocupa dos tratamentos estatísticos e cria projetos de programas para transformar as informações em verdadeiros insights e auxiliar nas tomadas de decisões. confidencialidade e integridade a segurança computacional tem se revelado como uma das áreas mais promissoras da tecnologia da informação. isso, devido à necessidade cada vez mais emergente de profissionais que consigam idealizar sistemas capazes de manter a confidencialidade e integridade das informações. as carreiras para o especialista com enfoque em segurança podem ser construídas em âmbitos jurídicos, criminais – com a computação forense, por exemplo – e dentro de grandes empresas, atuando em gestão e desenvolvimento de estratégias de confidencialidade. o universo em uma “nuvem” por fim, o cloud computing, ou em tradução literal, computação em nuvem, tem despontado como uma das principais tendências para as áreas de tecnologia da informação no brasil. segundo dados levantados pela frost & sullivan a necessidade de transformar investimentos em infraestrutura (capex) em gastos recorrentes com serviços (opex) está impulsionando cada vez mais a adoção ao cloud computing. o especialista em tecnologia da informação que quiser atuar na área, deve estar atento aos fatores como segurança, disponibilidade de serviço, gestão de contratos, dentre outros pontos essenciais para uma estratégia corporativa que integre a computação em nuvem de forma realmente efetiva para a empresa. bigdata tanto a pesquisa do setor quanto a experiência mundial real demonstram que cerca de 80% do trabalho em um projeto de bigdata envolve integração e qualidade de dados. as soluções comercializadas pela tgv tecnologia incluem o mais amplo conjunto de recursos de qualidade e integração de dados disponível no hadoop para ganhos quintuplicados de produtividade, transformando mais dados em análises mais inteligentes e precisas, em menos tempo. o bigdata, ou em português megadados, referese a um conjunto de soluções tecnológicas que são capazes de lidar com dados digitais em volume, variedade e velocidade. na prática, a tecnologia permite analisar qualquer tipo de informação digital em tempo real, tornandose, cada vez mais, ferramenta fundamental para tomada de decisões nas organizações. as organizações que investem em tecnologias com o bigdata só tendem a dar um passo a frente em relação aos seus concorrentes visto que o fator tecnológico é claramente visto como um fator de diferenciação competitiva. as soluções de bigdata podem reduzir em 10 vezes os custos gerais de infraestrutura de armazenamento e processamento de dados. fast data: a mais recente tendência da tecnologia de dados imagine se você você capaz de saber o que está acontecendo em cada um dos milhões de automóveis que circulam pela cidade de são paulo. as condições do motor, o nível de desgaste do pneu, a quantidade de combustível no tanque e por aí vai... seria uma quantidade gigantesca de dados. só que esses são dados chamados estruturados. ou seja, eles podem ser medidos e são relativamente organizados. a quantidade combustível, para ficar no exemplo, é medida em litros. agora imagine conseguir ouvir o que cada um dos motoristas e passageiros está falando ou pensando quando está dentro dos seus carros. uma montanha de dados ainda maior. só que, para piorar as coisas, esses dados não têm estrutura – não dá para medir o conteúdo da fala das pessoas. no máximo, dá para tentar identificar padrões. nesse caso, é o que os técnicos chamam de dados desestruturados. o exemplo do carro serve para o mundo virtual, onde dados estruturados e dados desestruturados se misturam. dá para imaginar a quantidade de dados gerada em apenas 1 minuto na internet, por exemplo? recolher e analisar esses dados se tornou obsessão para a indústria de tecnologia. isso porque a capacidade de tirar algum sentido deles vale dinheiro. muito dinheiro. dito assim, de modo geral, esse é o conceito do bigdata que você talvez já tenha ouvido falar. agora, graças a computadores e softwares mais e mais poderosos, o desafio é compreender esses dados em tempo real. nada de esperar pelo resultado da análise. o barato da vez é tirar conclusões ao mesmo tempo em que tudo acontece. a nova tendência foi batizada de fast data. ferramentas de fast data devem se tornar fundamentais para as estratégias de marketing de empresas de diferentes setores; para citar alguns exemplos, não é difícil imaginar ações utilizando informações sobre o comportamento de seus clientes em tempo real para empresas de telecomunicação, operadoras móveis, call centers e ecommerces. um banco, por exemplo, poderia identificar quando um cliente estivesse utilizando seus serviços online, determinar seu comportamento e, em tempo real, fazer uma oferta específica para aquela pessoa. uma operadora de cartão de crédito, ao identificar que um consumidor está utilizando o cartão em um shopping, também poderia enviar imediatamente para o celular ofertas de outras lojas parceiras ao seu redor usando sua geolocalização. a análise de informações em tempo real se dá em dois momentos: no primeiro, o sistema já entende o contexto daquela informação e cria uma análise comportamental com base nas informações da sua solução de big data. um dos maiores ecommerce do brasil já usa o fast data há algum tempo; o usuário navega na loja online e consulta diversos modelos de tênis. em um segundo momento, quando ele retornar ao site, a solução de big data já sabe quem é aquele usuário e quais produtos ele procurou da última vez. a ação de fast data entra quando – em questão de segundos, enquanto a página ainda carrega, o site mostra ofertas de pelo menos três modelos que provavelmente vão interessar àquele cliente. a tecnologia ainda é extremamente nova, mas a gente deve começar a ouvir falar cada vez mais sobre fast data; e, ainda assim, já existe uma série de soluções sendo usadas mundo afora. outro exemplo bem interessante de aplicação de fast data foi utilizado durante muito tempo pelo governo dos estados unidos. com uma base de dados de bigdata sobre conversas telefônicas de terroristas após os atentados de 2001, uma ferramenta de uso exclusive do fbi analisava em tempo real milhares de conversas telefônicas e emitia um alerta caso aquela chamada fosse identificada como suspeita de terrorismo. hoje esta tecnologia é aberta para inúmeras aplicações mais próximas da nossa realidade. se 2014 foi o ano do bigdata; 2015 é o ano do fast data. muita velocidade, análise em tempo real e tomada de decisões praticamente instantâneas. não deixe de acompanhar os capítulos dessa história aqui no olhar digital. bigdata não é uma tecnologia” luciana sodré costa e marcos cavalcanti bigdata é um assunto que tem interessado um numero cada vez maior de pessoas. uma simples pesquisa do termo no google trends confirma essa tendência. no entanto, isso não quer dizer que tenhamos uma compreensão apropriada do termo. se perguntadas, a maioria das pessoas dirá que bigdata é uma tecnologia. outros dirão que é uma ferramenta ou um grande banco de dados. nada de errado associar big data a essas palavras, mas precisamos saber que essas associações isoladas não são capazes de descrever a sua essência. a maneira mais simples de explicar o que é bigdata é através de uma analogia. imagine a quantidade de dados que você utiliza para decidir se pode atravessar uma rua com segurança: dados já armazenados de experiências anteriores e dados que você recolhe naquele momento, como a velocidade do carro, a distância que ele está de você e a distância para o outro lado da rua. consideramos ainda nosso estado físico naquele momento, o sapato que estamos usando, as condições do piso, a cultura local e outra infinidade de fatores impossíveis de serem listados, não por falta de espaço, mas por total desconhecimento de tudo o que de fato consideramos antes de tomar essa “simples” decisão. quanto maior a quantidade, variedade e confiabilidade dos dados analisados, maiores as nossas chances de sucesso. captamos dados do mundo através dos nossos sensores chamados de sentidos. mas a quantidade e variedade de dados por si só não nos garante a melhor decisão. é preciso analisar tudo isso. relacionamos dados uns com os outros dados, formulamos hipóteses e testamos a sua eficácia tentando chegar com vida do outro lado. tudo isso tem que ser feito num espaço de tempo razoável. a demora na análise dos dados pode nos levar a um atraso na tomada de decisão. então, ou você perde a oportunidade da travessia, ou age com atraso, o que pode ser fatal. quando tomamos a decisão do melhor momento para atravessar a rua, partimos de algumas certezas sobre o futuro como, por exemplo: o carro não chegará antes que eu alcance o outro lado da rua. com esse tênis dá pra correr. nesse piso escorregadio, se eu correr, eu caio. os carros não avançarão o sinal vermelho. esse vislumbre do futuro é uma habilidade que vamos aprimorando com o acúmulo de mais dados e mais experiências que vão sendo incorporados à nossa capacidade de apreender o mundo. já viram uma mãe tirar um copo de vidro da beira da mesa onde um filho pequeno está comendo? ou um filho dizendo que não vai pedir aquele brinquedo agora porque o pai está zangado e vai responder “não”? são modelos preditivos por excelência, baseados na experiência. além de usar dados e experiência para tomar decisões, usamos nosso conhecimento para interferir no ambiente de modo a facilitar e aumentar a taxa de sucesso desse processo. instalar faixas de segurança e sinais de trânsito são exemplos disso.tudo o que sabemos do mundo vem da observação e da correlação de observações. toda nossa interferência no meio vem do nosso desejo de controlar fenômenos que ameaçam nossa sobrevivência. dados digitais: quantidade (volume) e variedade e o que tudo isso tem a ver com bigdata? simples. bigdata é tudo isso, só que em formato digital. é a representação do mundo real em códigos que podem ser guardados, compartilhados, correlacionados, confrontados e analisados de modo objetivo e racional, aumentando em proporções incalculáveis nossa capacidade cognitiva. como toda representação da realidade é incompleta, mas nos permite um salto de qualidade na interpretação e análise da realidade à nossa volta. comecemos pelos dados. estamos progressivamente e irreversivelmente migrando para o digital nossas relações pessoais, comerciais e com o meio ambiente. está cada vez mais difícil imaginar algo que não possa ser feito em um processo digital. ao contrário, cada vez mais portas não digitais são definitivamente fechadas. experimente por exemplo entregar sua declaração de renda, tirar passaporte ou fazer uma ligação telefônica fora do ambiente digital.esse movimento garante de uma só vez a quantidade e variedade de dados tão alardeada pelos entusiastas do bigdata. outra grande parte dessa digitalização da vida é feita por sensores que captam informações como ruído, volume, peso, temperatura, localização, deslocamento, luminosidade, umidade etc. os sensores digitais são responsáveis pela digitalização de grande parte das informações das condições físicas de pessoas, animais, plantas e objetos assim como das relações entre eles e o meio ambiente. tem mais: todo movimento com o mouse ou teclado é registrado digitalmente deixando uma espécie de pegadas da nossa navegação pela internet. esses dados são chamados de rastros de navegação. numa simples observação da quantidade e variedade dos dados digitais citados acima podemos imaginar quanta informação podemos obter do mundo em que vivemos. como as pessoas se comunicam? como escolhem o que comprar? por quais assuntos se interessam? o que pensam disso ou daquilo? qual o movimento de uma população quando a temperatura cai? e quando sobe? como se deslocam as pessoas? como fatores de luminosidade e umidade interferem na produtividade de uma plantação? será possível visualizar muito processo que antes parecia impossível de ser rastreado, encontrar relação entre muitas coisas que antes pareciam desconectadas e identificar muitos fatores que contribuem para um determinado fenômeno, que antes nos eram invisíveis. dados digitais: veracidade e velocidade nada disso seria possível se não pudéssemos confiar nesses dados, mas a pressuposição da veracidade dos dados em bigdata tem fundamentos sólidos. mais da metade deles têm origem em rastros de navegação e sensores de todo tipo como o gps. ou seja, a maior parte dos dados digitais é fornecida de modo involuntário, portanto livre de erros de registro e interpretação e de ruídos na comunicação, tão comuns em dados captados de outro modo. outra grande parte é fornecida de modo voluntário em transações comerciais e financeiras, consulta em sites de busca e troca de mensagens, gerando dados igualmente autênticos. não bastassem as três dimensões já citadas, volume, variedade e veracidade, os dados digitais em bigdata apresentam mais uma característica imprescindível para a tomada de decisão: a velocidade. essa quarta dimensão se manifesta em pelo menos três momentos: na captação, na disponibilização e na resposta da analítica dos dados. a mobilidade da comunicação explica a velocidade na captação e disponibilização dos dados. atualmente os dados são captados por aparatos digitais munidos de tecnologia de comunicação móvel permitindo a digitalização de informações em tempo real. as transações comerciais e as comunicações pessoais, por exemplo, podem ser feitas de aparelhos celulares ou tabletes e computadores conectados à internet por wifi, que dataficam essas relações com muito mais fidedignidade. isso porque, além do registro da transação feita, e dos rastro de navegação, são dataficados também hora e local da transação, informação de grande relevância no estudo do comportamento social. sensores que captam informações de objetos, animais, plantas e condições ambientais também dispõem de tecnologia de comunicação wireless possibilitando que os dados, tão logo sejam captados, estejam disponíveis para utilização. a chamada computação em nuvem responde pela velocidade da capacidade analítica. por estarem sempre disponíveis para utilização, o tempo entre a coleta dos dados, a analítica digital e a disponibilização dos insights gerados tem sido cada vez menor, o que é de grande valor no processo de tomada de decisão. ciência das redes complexas a possibilidade de entender, modelar e predizer comportamentos através de dados digitais é garantida pela ciência das redes complexas. tratase de um campo novo de estudo que estuda as relações entre os nós de sistemas complexos, identificando sua arquitetura, topologia e propriedades, permitindo que seja feita uma governança eficaz desses sistemas. nos últimos quatro séculos, usamos o método científico para construir o conhecimento que tem transformado o mundo e a humanidade. olhando para fora de nós fomos capazes de identificar quase todas as partes que compõem o universo. descobrimos novas espécies, novas partículas e elementos químicos e novos planetas e galáxias. olhando para dentro, descobrimos todos os órgãos e seus componentes, todas as substâncias que compõem o corpo humano, todas as partes de uma célula e sequenciamos todo o genoma humano. esse avanço do conhecimento foi resolvendo alguns problemas e trazendo novos desafios, novas zonas de sombra e ignorância. se em algum momento achávamos que íamos descobrir a explicação definitiva do universo, a vida rapidamente se encarregava de nos colocar novos problemas, bem mais complexos. sempre foi assim e, provavelmente, continuará a sêlo. imagine o nosso conhecimento como algo contido em um círculo. a circunferência seria a nossa fronteira com o desconhecido. cada vez que aumentamos nosso conhecimento, aumentamos esse círculo e consequentemente a nossa ignorância. este é o paradoxo do conhecimento: quanto mais conhecemos, mais aumenta a consciência de nossa ignorância. parafraseando sócrates, quanto mais eu sei, mais me dou conta que nada sei... a ampliação do nosso conhecimento cientifico nos últimos quatro séculos nos levou ao seguinte desafio: conhecemos as mínimas partes de todo sistema que estudamos, mas temos cada vez mais problemas sem solução. a ciência das redes traz novo oxigênio ao campo das ciências complementando o método cientifico reducionista que chegou ao seu limite. conhecer as partes nos possibilitou muito conhecimento e inovação, mas garantiu a solução apenas daqueles problemas que têm a sua gênese no entendimento das partes do sistema, e não na relação entre estas partes. o melhor exemplo disso é o projeto genoma que reduziu o dna humano às suas partes sem causar o impacto que se imaginava em novos tratamentos para doenças. para que isso aconteça, erá preciso colocar as partes do sistema juntas de novo e observálas em funcionamento com as outras partes e com outros sistemas. ou seja, precisamos estudar o potencial das redes. o próprio projeto genoma é exemplo também desse potencial. o trabalho foi desenvolvido por milhares de pesquisadores de todo o mundo que, de forma colaborativa e em rede, desenvolveram e compartilharam seus conhecimentos e descobertas. na mesma época foi criada uma empresa privada, a celera genomics, que pretendia patentear a descoberta e cobrar royalties. seu modelo de produção de conhecimento era o tradicional: apostava na força das partes, seus cientistas altamente especializados, e desprezava a importância da rede. um modelo hierárquico e cartesiano. outro exemplo da força das redes na geração do conhecimento se deu na astronomia. um avanço extraordinário foi identificado quando a comunidade cientifica tradicional passou a aceitar a colaboração de milhares de cosmologistas amadores em todo o mundo. o resultado deste confronto de modelos talvez tenha sido a primeira grande comprovação de que a rede pode ser a maneira mais eficiente e eficaz de se resolver problemas complexos. a rede de pesquisadores sequenciou o genoma humano antes da celera que trabalhou sozinha. a astronomia reconhece e se beneficia do trabalho de milhares de pessoas que observam o espaço por diletantismo e que agora fazem parte de uma rede de conhecimento.temos ainda a wikipedia que, com um modelo de registro e disponibilização de conhecimento em rede, superou a enciclopédia britânica que tinha um modelo de produção baseado em notáveis especialistas trabalhando isoladamente. um ponto em comum em todos esses exemplos é a rede complexa que os sustenta. por complexidade entendemos diversidade e nos exemplos dados essa diversidade se dá por diferentes domínios do conhecimento. as redes não são formadas apenas por especialistas no problema, mas por pessoas de diversas áreas que se interessam pelo problema. portanto, a busca de soluções inovadoras para problemas complexos deve ter como pressupostos básicos a cooperação e a multidisciplinaridade. esta abordagem em rede para a resolução de problemas, que reúne as melhores ideias de diferentes disciplinas, aproximandose de um problema a partir de diferentes perspectivas é uma evolução da metodologia científica. ela parte de uma premissa básica: em problemas complexos não existe uma resposta única e definitiva. diversos autores (edgar morin, fritjof capra, adam kahane, dentre outros) desenvolveram esta visão mais complexa (sistêmica, holística) da realidade. saber que o mundo é complexo e reconhecer as limitações dos métodos existentes já era um grande avanço, mas aí surgiu a internet e os dados digitais. a ciência das redes surgiu com a experiência do cientista albertlaszló barabasi, uma das maiores referências mundiais no estudo de redes complexas. barabási foi o primeiro a utilizar dados digitais para tentar compreender o comportamento das pessoas na internet. ao encontrar padrões em rastros de navegação, concluiu que redes complexas possuem propriedades e que essas propriedades podem ser aplicadas no conhecimento e gestão de outros sistemas complexos como um organismo, uma célula ou a própria sociedade. além disso, a descoberta de padrões em redes até então consideradas randômicas ou caóticas mostra que com dados suficientes é possível explicar o funcionamento dos sistemas complexos e mais que isso, se é possível explicar, é possível governar. entender e controlar crises financeiras, disseminação endêmica de doenças, surgimento e evolução de doenças ainda incuráveis, comportamentos sociais não desejados como a violência, processos de aprendizagem, comportamentos de consumo, entre outros, são os fenômenos para os quais os métodos reducionistas não encontraram soluções. a complexidade dada pela alta interconectividade desses sistemas impedem que um olhar especialista, reduzido e linear possa vislumbrar as causas e trazer soluções efetivas para esses problemas. conclusão conhecer e controlar os fenômenos complexos são as promessas do big data que têm mobilizado as pessoas em torno do tema. entusiastas e críticos desprendem grandes esforços para entender as possibilidades e consequências dessa nova plataforma de geração do conhecimento que estamos começando a explorar. estamos construindo em torno do planeta uma rede digital que ilumina a complexidade dos sistemas naturais, incluindo a sociedade, permitindo não apenas a sua visualização (analítica descritiva), mas também sua compreensão (analítica diagnóstica) e antecipação do seu comportamento (analítica preditiva). toda essa capacidade analítica da complexidade levará a uma capacidade elevada de governança no mundo dos negócios, na ciência e entre os seres humanos. tudo indica que bigdata será a maior plataforma de inovação deste século, nos levando a um novo patamar de conhecimento da realidade à nossa volta. diante dessa constatação, definir bigdata como tecnologia, banco de dados ou ferramenta, seria passar bem longe da sua verdadeira essência e do seu potencial. preferimos definilo como um ecossistema digital. toda complexidade do universo sendo gradativamente digitalizada, onde buscaremos grande parte do conhecimento que ainda nos falta. em recente evento com cios, quase que naturalmente nas conversas, surgiu o assunto bigdata. observei que pelo menos a maioria dos cios tem plena consciência da importância dos dados e que muito provavelmente seu uso vai mudar as próprias regras dos negócios. aliás, reconhecer a importância dos dados não é novidade. o fundador da fedex, fred smith disse em 1978 : “a informação sobre o pacote é tão importante quanto o pacote em si” e a partir deste insight criou os sistemas de rastreamento de pacotes em tempo real. os dados estão se multiplicando de forma exponencial, pelo crescente uso da mobilidade, sensores, redes sociais e outras fontes. o institute for the future prevê mudanças profundas na forma como a tecnologia transformará o mundo dentro de dez anos: “há claros sinais de um movimento na direção de um mundo no qual praticamente todo elemento da vida estará ligado a dados”. a questão é que usar este imenso oceano de dados ainda é um desafio e a maioria das empresas ainda está na fase de colocar o dedo na água para saber a temperatura. na conversa com vários cios, identifiquei que, na percepção deles, em tempos de crise econômica, bigdata tende ficar em segundo plano. mas, podese ganhar dinheiro analisandose dados. os fundos de hedge já fazem isso. recente artigo no wsj (“fundos fazem arrastão no mar de dados para negociar ações“) mostra isso. então, porque não pensarmos de forma diferente? em vez de deixar para depois, olhar bigdata sob uma ótica mais urgente? bigdata não apenas gera valor para o negócio atual mas também pode criar novos negócios. o google por exemplo, criou todo um multibilionário negócio com algo que poucos pensavam que pudesse gerar dinheiro: palavras. o serviço adwords analisa as palavras inseridas no seu motor de busca e vende propaganda direcionada, baseada nestas palavras. por que não “bigdata as a business”? muitas empresas já possuem um imenso volume de dados e podem gerar novas receitas com seu uso e comercialização. vejam alguns setores que possuem imenso volume de dados: financeiro, telecomunicações, seguros e varejo. não poderiam gerar novos negócios com este imenso volume de dados que já está dentro de casa? claro que existe a questão da privacidade, mas um banco pode criar um novo negócio tratando milhões de transações eletrônicas, eliminando as informações que permitam identificar um indivíduo, analisar seu conteúdo e vender os insights gerados para outras empresas para os quais estas informações podem ser valiosíssimas. aliás, muito bancos estrangeiros já fazem isso: http:www.blinklane.comblogbanksselldata#.vtvqayfviko. um varejista também pode entrar no negócio de dados. um exemplo é a dunnhumby, unidade de negócios da varejista tesco, que vende análises e insights sobre comportamento dos consumidores para o mercado. tornando os dados anônimos, para não identificar clientes, a dunnhumby vende informações sobre hábitos de compra em determinada zona postal, identificando, inclusive o potencial de compras, por região, para determinados tipos de produtos. e operadoras de telecomunicações? um caso é a precision market insights, da verizon, que oferece acesso anônimo aos milhões de registros que a empresa tem sobre seus clientes, como localização e comportamentos. com esta informação é possível saber se uma pessoa passando em frente a um anuncio, entra na loja anunciada, medindo a eficácia do anuncio. adicionalmente é possível pensar também em criar um negócio em parceria com outra fonte geradora de dados, criando valor adicional aos dados que a corporação possui. um exemplo interessante é o “payasyougo auto insurance” oferecido pela parceria entre a gm (e o seu sistema de navegação onstar) e a seguradora americana national general insurance. o serviço utiliza dados de distância percorridos pelo segurado para oferecer descontos a quem utiliza menos o veículo. como vemos, já aparecem, aqui e ali, experiências de criação de novos negócios baseados na analítica de dados. claro que existem alguns prérequisitos. antes de mais nada é necessário que a empresa tenha um modelo de governança de dados, para reduzir riscos de perda de privacidade ou uso indevido de dados. é também essencial criar uma cultura de uso de dados na organização. apesar do tsunami de dados que já inunda (e seguirá inundando) o mundo no futuro previsível (em 2020, segundo gartner e idc ,serão gerados 44 zettabytes de dados ou 44 trilhões de gigabytes), ainda pouco se sabe como lidar com esse contexto. mas, não dá para esperar passar a crise econômica. quando o jogo fica difícil, o negócio é mudar o jogo! bigdata para resolver um problema que não tem a ver com tecnologia o artigo beer maker uses bigdata and graphics chips to create a better brew” da venture beat (http:goo.glqrzbpn) mostra uma startup que utiliza bigdata para dar a volta por cima de um problema que não tem nada a ver com tecnologia. através de algoritmos de inteligência artificial e modelagem matemática, o programa ajuda pequenas cervejarias a melhorar a qualidade do seu produto e identifica problemas nos lotes produzidos usando técnicas de análise sensorial. foi necessário utilizar também criatividade para acelerar os cálculos através de hardware de processamento gráfico. as análises dão ao mestre cervejeiro em segundos as informações de que ele precisa para decidir se deve ou não carregar o caminhão com a sua última produção. quando se fala em data science e bigdata, pode parecer que só quem tem grandes cientistas e especialistas no assunto pode se beneficiar. ledo engano. esse novo diferencial competitivo pode ser obtido através de recursos bem mais acessíveis. o cientista de dados ainda é um “unicórnio púrpura”, um perfil super raro. encontrar alguém com experiência comprovada não é raro: é praticamente lendário. a alternativa, então, é montar uma equipe mista, com especialistas em áreas como estatística, business intelligence e tecnologia de informação. ao juntar matemática com conhecimento de negócio e tecnologia, temos a combinação mínima para sair do lugar. a computação em nuvem é o ingrediente que dá a infraestrutura necessária para manipular grandes volumes de dados. há também ferramentas “estado da arte” a um click do mouse, que anos atrás estavam acessíveis apenas no meio acadêmico ou através de softwares altamente especializados (e extremamente caros). como o artigo mostra, é possível encontrar soluções inovadoras nos contextos mais inesperados, como melhorar qualidade de cervejarias artesanais através de análise sensorial, e com uma equipe muito mais junior a equipe da analytical flavor system é composta de estudantes e formandos de faculdade. outros contextos podem aparecer, como descobrir tendências de compra com segmentação dos clientes de um ecommerce, ou com base na análise estatística das últimas transações bancárias identificar quais os clientes mais propensos a contratar um financiamento. desta maneira estamos dando um salto na transformação digital. em vez de pequenos incrementos, podemos conseguir impactos ainda mais surpreendentes nos modelos de negócio alavancados com big data e analytics. que tal transformar essa cerveja quente em um chopp de primeira? o que é bigdata? conheça essa tecnologia de monitoramento redes sociais, gps, telefones celulares e a popularização dos mais diversos dispositivos móveis foram o estopim para o início desse serviço. o bigdata é uma tecnologia que reúne uma quantidade inimaginável de dados digitais e os cruza, aumentando a possibilidade de ganhos com o uso dessas informações. de acordo com especialistas, o bigdata analisa informações em variedade, volume e velocidade como nunca antes se viu. com bigdata, empresas podem cruzar dados e ter maior eficiência (foto: divulgação) com bigdata, empresas podem cruzar dados e ter maior eficiência (foto: reprodução) a grande novidade da tecnologia bigdata é trabalhar com dados nãoestruturados, que dependem de um contexto para serem entendidos. esse tipo de informações são tweets, comentários no facebook e vídeos, por exemplo, e representam 85% das informações com as quais as organizações lidam atualmente. em reportagem do jornal o globo, o executivo de operações da emc, pat gelsinger, afirmou que o mercado global de bigdata já movimenta us$ 70 bilhões por ano, e a tendência é que tenha um crescimento de quase 40% até 2015. no fórum econômico mundial, em davos, na suíça, pesquisadores publicaram um artigo em que acreditavam que esse tipo de software pode ajudar a solucionar problemas econômicos, justamente porque o bigdata traz eficiência às empresas. aliás, a tecnologia chega cada vez com mais força também no brasil. a loja de departamento renner usa a tecnologia para monitorar o fluxo de mercadorias de suas filiais em todo o país, o que é feito em tempo real. com o bigdata é possível cruzar os dados de localização dos caminhões com o nível de estoque das lojas e ainda reorganizar a mercadoria entre as lojas com base em dados meteorológicos, por exemplo. além de acompanhar os comentários sobre seus produtos nas redes sociais. o bigdata permite analisar qualquer tipo de informação digital em tempo real. atualmente circulam pela rede cerca de 1,8 zettabyte, a previsão é que em 2015 esse número chegue a incríveis 7,9 zettabytes. um zettabyte é igual a 1.000.000.000.000.000.000.000 bytes – isso mesmo, um número inimaginável! tecnologia bigdata reúne e analisa em tempo real enorme quantidade de dados digitais (foto: divulgação) tecnologia bigdata reúne e analisa em tempo real enorme quantidade de dados digitais (foto: reprod.) fundamental para a tomada de decisões, esse tipo de software poderia até evitar assaltos, já que são capazes de analisar imagens. assim, o bigdata poderia monitorar as câmeras da cidade, entender padrões que antecedem assaltos e outros crimes e chamar a polícia antes que os bandidos cometam de fato o delito. apesar desse cenário à la “minority report”, patrícia florissi, da emc, diz que ainda falta bastante tempo para que a tecnologia seja usada dessa forma. a própria emc está construindo no parque tecnológico da ufrj um centro de pesquisa exclusivamente para o desenvolvimento de bigdata. a companhia promete investir r$ 100 milhões nos próximos dois anos. a previsão é que a unidade fique pronto em 2014, empregando 35 pesquisadores. com polêmicas cada vez mais recentes sobre privacidade na internet, através do bigdata já há empresas cruzando dados para descobrir que há maior probabilidade do consumidor de gatorade comprar laxante, por exemplo. isso ajuda as corporações a se organizarem, mas também tira a privacidade do consumidor – mas isso é outro assunto. bigdata e as interações sociais identificar comportamentos, criar insights a partir dos dados dos clientes, realizar ações publicitárias assertivas, calcular os riscos e falhas da comunicação... a lista de possibilidades que a ferramenta de bigdata oferece às empresas parece infinda, não é mesmo? assim como o volume e a variedade de informações geradas em tempo real sobre a sua marca. por isso, o monitoramento desses dados, que inclui as interações nas redes sociais, pode fazer toda a diferença quanto ao posicionamento do seu negócio, quanto às estratégias que lhe trarão vantagens competitivas. já sabemos que cerca de 80% das informações do planeta geradas nos últimos dois anos estão desestruturadas. e grande parte delas vêm das mídias sociais. os outros apenas 20% estão estruturados, prontos para serem analisados por meio de ferramentas tradicionais de tecnologia. isso quer dizer que as organizações têm um mar de desafios a serem explorados. perguntas como o que trabalhar diante desses múltiplos dados?, como trabalhálos? e por aí vai são cada vez mais frequentes. por isso, fazse necessário investigar aquilo que é mais relevante dentro de determinado contexto, o que exigirá profissionais habilitados para tanto, e usálo para tomar as melhores decisões. as ferramentas de bigdata possibilitam a coleta e armazenamento de grandes volumes de dados, mas como já dissemos aqui no blog, são os processos de análise que as envolvem é que possibilitarão a compreensão e obtenção de valor dos dados. em breve, a mjv promoverá um webinar sobre bigdata com um de nossos especialistas sobre o tema. acompanhe o nosso blog, para saber mais. maior desafio do bigdata é cultural estratégia de bigdata transpor as barreiras culturais é o maior desafio para o desenvolvimento do conceito de bigdata no mundo. apesar de a busca pelo termo ter crescido exponencialmente nos sites de busca por países como estados unidos, índia e brasil, os investimentos em bigdata têm se mostrado pouco expressivos: valor médio de us$ 10 milhões por empresa. é o que revelou uma pesquisa feita pela tata consultancy services (tcs) sobre as tendências globais de bigdata. na opinião de executivos, o principal fator que dificulta a implementação dessa solução é o cultural, seguido pelo tecnológico e por como interpretar os dados e aplicar os resultados nas decisões de negócio. mas para se gerar grandes resultados é preciso ser certeiro quanto à pergunta que deve ser feita diante de um volume enorme de dados gerados em milissegundos. confira o post bigdata: saiba fazer a pergunta certa. encontrar talentos capazes de analisar com inteligência cargas massivas de dados pode ajudar a quebrar o possível medo em aplicar o bigdata como uma real solução de negócio, independente do seu segmento. somente profissionais altamente qualificados conseguem enxergar além dos números, agregando valor em diversos aspectos. a arma poderosa de bigdata se baseia em uma sólida modelagem de dados. por isso, as organizações precisam se concentrar na ciência de dados, conforme alertou o diretor estratégico de business intelligence da mjv jorge mendes no webinar desmistificando o bigdata. para ele, quatro qualificações caracterizam um cientista de dados: conhecimento técnico, curiosidade, habilidade de usar os dados para contar uma história de forma eficiente e inteligência para analisar criativamente um problema por vários ângulos. o bigdata implicará um investimento maçico nos próximos dois anos, em todo o mundo, anunciou o gartner group, respeitável consultoria na área de tecnologia. já são movimentados cerca de $ 70 bilhões por ano no mercado global de bigdata, e a tendência é que haja um crescimento de quase 40% até 2015. o grupo norteamericano prevê ainda que, em 2015, 4,4 milhões de empregos serão criados em torno do bigdata. já de acordo com analistas da mckinsey, líder mundial no mercado de consultoria empresarial, os estados unidos podem enfrentar, em 2018, uma escassez de 140 mil a 190 mil profissionais com profundas habilidades analíticas, bem como 1,5 milhão de gerentes e analistas com o knowhow para usar a análise de bigdata na tomada de decisões eficazes.