<file=0>  


o que é e por que é importante?

   bigdata é o termo que descreve o imenso volume de dados – estruturados
   e não estruturados – que impactam os negócios no dia a dia. mas o
   importante não é a quantidade de dados. e sim o que as empresas fazem
   com os dados que realmente importam. bigdata pode ser analizado para a
   obtenção de insights que levam a melhores decisões e direções
   estratégicas de negócio.
      história
     
      importância
     
      quem utiliza
     
      como funciona

a história do bigdata e considerações atuais

   embora o termo bigdata seja relativamente novo, o ato de recolher e
   armazenar grandes quantidades de informações para eventual análise de
   dados é bem antigo. o conceito ganhou força no início dos anos 2000,
   quando um analista famoso deste setor, doug laney, articulou a
   definição de bigdata como os três vs:

   volume. organizações coletam dados de uma grande variedade de fontes,
   incluindo transações comerciais, redes sociais e informações de
   sensores ou dados transmitidos de máquina a máquina. no passado,
   armazenar tamanha quantidade de informações teria sido um problema –
   mas novas tecnologias (como o hadoop) têm aliviado a carga.

   velocidade. os dados fluem em uma velocidade sem precedentes e devem
   ser tratados em tempo hábil. tags de rfid, sensores, celulares e
   contadores inteligentes estão impulsionado a necessidade de lidar com
   imensas quantidades de dados em tempo real, ou quase real.

   variedade. os dados são gerados em todos os tipos de formatos  de
   dados estruturados, dados numéricos em bancos de dados tradicionais,
   até documentos de texto não estruturados, email, vídeo, áudio, dados
   de cotações da bolsa e transações financeiras.

   no sas, consideramos duas dimensões adicionais quando falamos sobre big
   data:

   variabilidade. além da velocidade e variedade de dados cada vez
   maiores, os fluxos de dados podem ser altamente incosistentes com picos
   periódicos. existe algo em tendência nas redes sociais? diariamente,
   picos de dados sazionais ou picos gerados com base em eventos podem ser
   um desafio de gerenciar. ainda mais quando falamos de dados não
   estruturados.

   complexidade. os dados de hoje vem de várias fontes, o que torna
   difícil estabelecer uma relação, corresponder, limpar e transformar
   dados entre diferentes sistemas. no entanto, para que seus dados não
   saiam rapidamente de controle, é necessário ligar e correlacionar
   relações, hierarquias e as várias ligações de dados.

o grande potencial do bigdata

   a quantidade de dados que está sendo criada e armazenada em um nível
   global é quase inconcebível. e esta quantidade só continua aumentando.
   isso significa que há ainda mais potencial para extrair insights de
   negócios provenientes destas informações – mesmo que apenas uma pequena
   porcentagem destes dados é realmente analizada. o que isso significa
   para as empresas? como elas podem utilizar melhor as informações que
   fluem para dentro de suas organizações todos os dias?

por que bigdata é importante?

   a importância do bigdata não gira em torno da quantidade de dados que
   você tem, mas em torno do que você faz com eles. você pode analisar
   dados de qualquer fonte para encontrar respostas que permitam 1)
   redução de custos, 2) redução de tempo, 3) desenvolvimento de novos
   produtos e ofertas otimizadas, 4) decisões mais inteligentes. quando
   você combina bigdata com a alta potência do analytics, você pode
   realizar tarefas relacionadas a negócios, tais como:
      determinar a causa raiz de falhas, problemas e defeitos em tempo
       quase real;
      gerar cupons no ponto de venda com base em hábitos de compra dos
       clientes;
      recalcular carteiras de risco inteiras, em questão de minutos;
      detectar comportamentos fraudulentos antes que eles afetem sua
       organização.


bigdata no mundo moderno

bigdata – e a maneira como as organizações gerenciam e extraem insights
disso – está mudando a maneira como o mundo utiliza informações de negócios.
saiba mais sobre o impacto do bigdata.


visa implementa analytics

   analisando grandes quantidades de dados (bigdata analytics), a
   companhia de cartão de crédito melhorou a experiência do cliente e
   reduziu transações fraudulentas de débito e crédito.


playbook de bigdata para não geeks

   este paper examina como um profissional não geek, porém técnicamente
   experiente, pode entender como utilizar hadoop  e como esta nova
   técnica afetará ambientes de dados corporativos nos próximos anos.
   leia uma síntese
   book

bigdata e data mining

   o especialista em mineração de dados, jared dean, explica em seu livro
   como maximizar o seu programa analítico utilizando capacidade
   computacional de alta performance e análises avançadas (advanced
   analytics).

   
quem utiliza bigdata?

bigdata afeta organizações em praticamente todas as indústrias. veja como
cada uma pode se beneficiar deste ataque devastador de informações.

banco

   com grandes quantidades de informações fluindo partir inúmeras fontes,
   os bancos são desafiados a encontrar maneiras novas e inovadoras de
   gerenciar bigdata. ao mesmo tempo em que bigdata é importante para
   compreender os clientes e aumentar sua satisfação, é igualmente
   importante para minimizar os riscos e fraudes enquanto mantém uma
   conformidade regulatória. bigdata traz ótimos insights, mas também
   exige que as instituições financeiras estejam um passo à frente neste
   jogo, com análises avançadas.

ensino

   educadores armados com uma visão orientada a dados podem ter um impacto
   significativo sobre os sistemas escolares, estudantes e currículos.
   analisando bigdata, eles podem identificar alunos em risco, assegurar
   que os estudantes estão progredindo de forma adequada, e podem
   implementar um sistema melhor de avaliação e apoio aos professores e
   diretores.

governo

   quando as organizações governamentais são capazes de aproveitar e
   aplicar analytics em bigdata, elas progridem significativamente quando
   se trata de gerenciar serviços públicos, lidar com o congestionamento
   ou a previnir a criminalidade. mas, enquanto existem muitas vantagens
   com o uso de bigdata, os governos também devem abordar as questões de
   transparência e privacidade das informações.

saúde

   registros de pacientes. planos de tratamento. informações de
   prescrição. quando se trata de cuidados com a saúde, tudo precisa ser
   feito rapidamente, com precisão e, em alguns casos, com suficiente
   transparência para satisfazer as regulamentações rigorosas desta
   indústria. quando grandes quantidades de dados são geridas de forma
   eficaz, os prestadores de cuidados de saúde podem descobrir insights
   escondidos que melhoram o atendimento ao paciente.

manufatura

   armados com uma visão que bigdata pode fornecer, os fabricantes podem
   aumentar a qualidade e a produção, minimizando o desperdício 
   processos que são fundamentais no mercado altamente competitivo de
   hoje. mais e mais fabricantes estão trabalhando em uma cultura baseada
   em análise de dados, o que significa que eles podem resolver problemas
   mais rapidamente e tomar decisões de negócios mais ágeis.

varejo

   a construção de relacionamento com o cliente é fundamental para o setor
   de varejo  e a melhor maneira de gerenciar este relacionamento é
   gerenciando bigdata. os varejistas precisam saber a melhor maneira de
   vender aos clientes, a maneira mais eficaz de lidar com transações, e a
   maneira mais estratégica de aumentar o número de negócios repetidos.
   bigdata permanece no coração de todas essas coisas.

bigdata em ação: ups

   como uma empresa com muitos ativos e encomendas constantemente em
   movimento, a ups armazena grandes quantidades de dados  sendo que
   muitos deles vem de sensores em seus veículos. estes dados não somente
   monitoram o desempenho diário, mas também desencadeiam uma grande
   reformulação de estruturas nas rotas&nbsp; dos motoristas da ups. a
   iniciativa foi chamada de orion (onroad integration optimization and
   navigation), e é discutível que o chamemos de um dos maiores projetos
   de pesquisa operacional do mundo. este projeto dependeu fortemente dos
   dados de mapas online para reconfigurar em tempo real as cargas e
   descargas dos motoristas.

   o projeto levou a uma economia de mais de 8,4 milhões de litros de
   combustível, cortando 85 milhões de milhas de rotas diárias. a ups
   estima que economizando apenas uma milha por dia de cada motorista,
   economiza us $30 milhões para a companhia, portanto as economias
   financeiras são substanciais.

     é importante lembrar que o valor principal de bigdata não vem dos
     dados em sua forma bruta, mas do processamento e análise destes
     dados e os insights, produtos e serviços que surgem desta análise.
     as mudanças radicais nas tecnologias e abordagens de gerenciamento
     de bigdata devem ser acompanhadas, de forma semelhante, por
     mudanças dramáticas na forma como os dados suportam decisões e geram
     inovação de produtos e serviços.


como isso funciona?


antes de descobrir como bigdata pode favorecer o seu negócio, você deve
primeiro entender de onde isso vem. as fontes de bigdata geralmente caem em
uma das três categorias:

   transmissão de dados (streaming data)
   esta categoria inclui dados que chegam aos seus sistemas de ti a partir
   de uma rede de dispositivos conectados. você pode analisar esses dados
   ao ponto em que eles chegam e tomar decisões sobre quais dados você
   deve manter, não manter e quais requerem uma análise posterior mais
   aprofundada.

   dados de redes sociais
   os dados sobre interações sociais são um conjunto cada vez mais
   atraente de informação, particularmente para marketing, vendas e
   funções de apoio. são muitas vezes capturados de formas não estruturada
   ou semiestruturada, por isso representam um desafio único quando se
   trata de consumo e análise.

   fontes publicamente disponíveis
   enormes quantidades de dados estão disponíveis por meio de canais
   públicos como o dados.gov.br do governo federal brasileiro, o livro de
   fatos da cia (world factbook) ou o portal de dados abertos da união
   européia.


após identificar todas as potenciais fontes de dados, considere as decisões
que você precisará tomar uma vez que você começar a fazer uso destas
informações. estas incluem:

   como armazenar e gerenciar
   embora o armazenamento de dados teria sido um problema anos atrás,
   agora há opções de baixo custo para armazenamento de dados caso esta
   seja a melhor estratégia para seu negócio.

   quanto se deve analisar
   algumas organizações não excluem quaisquer dados de suas análises, o
   que é possível com as tecnologias atuais de alto desempenho, como a
   computação em grade (grid computing) ou análises em memória (inmemory
   analytics). outra abordagem é determinar antecipadamente quais dados
   são relevantes antes de analisálos.

   como utilizar os insights descobertos
   quanto mais conhecimento você tiver, mais confiante você estará para
   tomar suas decisões de negócio. é importante ter uma estratégia
   desenhada para quando você tiver uma abundância de informações em mãos.


o passo final para fazer bigdata trabalhar a favor do seu negócio é procurar
tecnologias que o ajudarão a tirar melhor proveito da enorme quantidade de
informações e das análises de bigdata. considere:

      armazenamento barato de grandes quantidades de dados;
      processadores mais rápidos;
      open source acessível e plataformas distribuidas de bigdata, como
       o hadoop;
      processamento paralelo, clusterização, mpp, virtualização, grandes
       ambientes de grid, alta conectividade e altas taxas de
       transferência;
      computação em nuvem (cloud computing) e outros arranjos de alocação
       flexível de recursos.


<file=1>
   
transforme os dados e a análise em uma vantagem competitiva

   três coisas que você deve fazer…
   para transformar seu negócio com bigdata & analytics:


   1. construir uma cultura para difundir a análise em todas as áreas da
   empresa. permitir que todos os funcionários tomem decisões baseadas em
   dados, ao invés de confiar no instinto e em experiências prévias.


   2. ser proativo com a privacidade, segurança e governança.
   certificarse da segurança e precisão dos dados analisados.


   3. investir em uma plataforma bigdata & analytics ajustada à tarefa de
   lidar com todo tipo de dados e análises, independentemente de sua forma
   ou função.


   conquiste, some e retenha clientes
   80% os ceos acreditam que fornecem uma experiência superior ao cliente,
   mas somente 80% de seus clientes concordam.

   quem são seus melhores clientes e como você pode mantêlos satisfeitos?
   onde você pode encontrar mais clientes como esses?
   bigdata sabe quem são os seus clientes e suas motivações. a análise de
   bigdata pode lhe ajudar a descobrir formas de melhorar o
   relacionamento com seus clientes, acrescentar valor e construir
   relações duradouras.

  
   otimize operações e combata a fraude e as ameaças
   os dados gerados por máquinas aumentarão de 11% em 2005 para 43% de
   todos os dados até 2020

   seus processos e sistemas operacionais atingem a máxima eficiência?
   você poderia reduzir as perdas e a fraude se pudesse ver o seu negócio
   em tempo real?
   adotar uma estratégia bigdata & analytics pode ajudar você a planejar
   e administrar melhor as operações, as cadeias de suprimento e o uso de
   ativos de infraestrutura. obtenha os conhecimentos necessários para
   reduzir custos, aumentara eficiência, a produtividade, e limitar as
   ameaças.

  
   transforme os processos de administração
   88% dos cfos dizem que suas empresas estão constando com consultoria
   financeira na seleção dos principais indicadores de desempenho

   você tem acesso em tempo real a informação confiável sobre todos os
   aspectos de seu negócio?
   você tem a visão, o insight e o controle para medir o seu desempenho
   financeiro, monitorar e definir melhor seus resultados de negócio?
   analisar todos os seus dados, até bigdata, pode impulsionar a
   agilidade empresarial e lhe fornecer os conhecimentos necessários para
   tomar melhores decisões sobre a estratégia de negócio e o gerenciamento
   do capital humano.

  
   gerencie o risco
   os riscos estratégicos causam 68% das recusas graves de capitalização
   de mercado

   como você pode mitigar riscos financeiros e operacionais que poderiam
   ser devastadores para sua organização?
   como você pode gerenciar a mudança regulatória e reduzir o risco de
   nãoconformidade normativa?
   identificar, entender e gerenciar de forma proativa o risco financeiro
   e operacional pode permitir uma tomada de decisão mais consciente e
   mais segura.

  
   crie novos modelos de negócio
   os líderes em desempenho são inovadores mais ousados e é mais provável
   que eles inovem com seus parceiros do que as organizações de desempenho
   inferior

   seus concorrentes estão dando passos mais largos do que você para mudar
   a indústria ou gerar novos mercados?
   a cultura de sua organização promove o pensamento inovador e a
   exploração?
   explore opções estratégicas para crescer o seu negócio, utilizando
   novas perspectivas adquiridas com bigdata & analytics.

   
   maximize a visão, garanta a confiança e melhore a economia de ti
   estimase que até 2020 poderá haver quatro vezes mais dados digitais do
   que o número de todos os grãos de areia que há na terra.

   pode sua atual infraestrutura de ti dar os conhecimentos necessários
   aos tomadores de decisões?
   você está fazendo o suficiente para proteger seu centro de dados e seus
   dados de potenciais atividades criminosas ou fraudulentas?
   lidere a criação de novo valor e nova agilidade para seu negócio
   otimizando bigdata & análises para um insight mais rápido a menor
   custo.


<file=2>
  

introdução

   você já parou para pensar na quantidade e variedade de dados que
   geramos e armazenamos a cada dia? bancos, companhias aéreas, operadoras
   de telefonia, serviços de busca online e redes varejistas são apenas
   alguns dos inúmeros exemplos de empresas que convivem diariamente com
   grandes volumes de informações. mas apenas ter dados não basta: é
   importante conseguir e saber usálos. é aí que o conceito de bigdata
   entra em cena.

   neste texto, você verá o que é bigdata, entenderá o porquê de este
   nome estar cada vez mais presente no vocabulário dos ambientes de
   tecnologia da informação (ti) e compreenderá os motivos que levam o
   conceito a contribuir para o cotidiano de empresas, governos e demais
   instituições.

o conceito de bigdata

   a princípio, podemos definir o conceito de bigdata como sendo
   conjuntos de dados extremamente amplos e que, por este motivo,
   necessitam de ferramentas especialmente preparadas para lidar com
   grandes volumes, de forma que toda e qualquer informação nestes meios
   possa ser encontrada, analisada e aproveitada em tempo hábil.

   de maneira mais simplista, a ideia também pode ser compreendida como a
   análise de grandes quantidades de dados para a geração de resultados
   importantes que, em volumes menores, dificilmente seriam alcançados.

   bigdata não é difícil entender o cenário em que o conceito se aplica:
   trocamos milhões de emails por dia; milhares de transações bancárias
   acontecem no mundo a cada segundo; soluções sofisticadas gerenciam a
   cadeia de suprimentos de várias fábricas neste exato momento;
   operadoras registram a todo instante chamadas e tráfego de dados do
   crescente número de linhas móveis no mundo todo; sistemas de erp
   coordenam os setores de inúmeras companhias. enfim, exemplos não faltam
    se te perguntarem, você certamente será capaz de apontar outros sem
   fazer esforço.

   informação é poder, logo, se uma empresa souber como utilizar os dados
   que tem em mãos, poderá entender como melhorar um produto, como criar
   uma estratégia de marketing mais eficiente, como cortar gastos, como
   produzir mais em menos tempo, como evitar o desperdício de recursos,
   como superar um concorrente, como disponibilizar serviços para a um
   cliente especial de maneira satisfatória e assim por diante.

   perceba, estamos falando de fatores que podem inclusive ser decisivos
   para o futuro de uma companhia. mas, bigdata é um nome relativamente
   recente (ou, ao menos, começou a aparecer na mídia recentemente). isso
   significa que somente nos últimos anos é que as empresas descobriram a
   necessidade de fazer melhor uso de seus grandes bancos de dados?

   pode ter certeza que não. há tempos que departamentos de ti contemplam
   aplicações de data mining, business intelligence e crm (customer
   relationship management), por exemplo, para tratar justamente de
   análise de dados, tomadas de decisões e outros aspectos relacionados ao
   negócio.

   a proposta de uma solução de bigdata é a de oferecer uma abordagem
   ampla no tratamento do aspecto cada vez mais caótico dos dados para
   tornar as referidas aplicações e todas as outras mais eficientes e
   precisas. para tanto, o conceito considera não somente grandes
   quantidades de dados, a velocidade de análise e a disponibilização
   destes, como também a relação com e entre os volumes.

   o facebook é um exemplo de empresa que se beneficia de bigdata
   o facebook é um exemplo de empresa que se beneficia de bigdata: as
   bases de dados do serviço aumentam todo dia
   e são utilizadas para determinar relações, preferências e
   comportamentos dos usuários

por que bigdata é tão importante?

   lidamos com dados desde os primórdios da humanidade. acontece que, nos
   tempos atuais, os avanços computacionais nos permitem guardar,
   organizar e analisar dados muito mais facilmente e com frequência muito
   maior.

   este panorama está longe de deixar de ser crescente. basta imaginar,
   por exemplo, que vários dispositivos em nossas casas  geladeiras, tvs,
   lavadoras de roupa, cafeteiras, entre outros  deverão estar conectados
   à internet em um futuro não muito distante. esta previsão está dentro
   do que se conhece como internet das coisas.

   se olharmos para o que temos agora, já veremos uma grande mudança em
   relação às décadas anteriores: tomando como base apenas a internet,
   pense na quantidade de dados que são gerados diariamente somente nas
   redes sociais; repare na imensa quantidade de sites na web; perceba que
   você é capaz de fazer compras online por meio até do seu celular,
   quando o máximo de informatização que as lojas tinham em um passado não
   muito distante eram sistemas isolados para gerenciar os seus
   estabelecimentos físicos.

   as tecnologias atuais nos permitiram  e permitem  aumentar
   exponencialmente a quantidade de informações no mundo e, agora,
   empresas, governos e outras instituições precisam saber lidar com esta
   explosão de dados. o bigdata se propõe a ajudar nesta tarefa, uma
   vez que as ferramentas computacionais usadas até então para gestão de
   dados, por si só, já não podem fazêlo satisfatoriamente.

   a quantidade de dados gerada e armazenada diariamente chegou a tal
   ponto que, hoje, uma estrutura centralizada de processamento de dados
   já não faz mais sentido para a maioria absoluta das grandes entidades.
   o google, por exemplo, possui vários data centers para dar conta de
   suas operações, mas trata todos de maneira integrada. este
   particionamento estrutural, é bom destacar, não é uma barreira para o
   bigdata  em tempos de computação nas nuvens, nada mas trivial.

os vs do bigdata: volume, velocidade, variedade, veracidade e valor

   no intuito de deixar a ideia de bigdata mais clara, alguns
   especialistas passaram a resumir o assunto em aspectos que conseguem
   descrever satisfatoriamente a base do conceito: os cincos vs 
   volume, velocidade e variedade, com os fatores veracidade e valor
   aparecendo posteriormente.

   o aspecto do volume (volume) você já conhece. estamos falando de
   quantidades de dados realmente grandes, que crescem exponencialmente e
   que, não raramente, são subutilizados justamente por estarem nestas
   condições.

   velocidade (velocity) é outro ponto que você já assimilou. para dar
   conta de determinados problemas, o tratamento dos dados (obtenção,
   gravação, atualização, enfim) deve ser feito em tempo hábil  muitas
   vezes em tempo real. se o tamanho do banco de dados for um fator
   limitante, o negócio pode ser prejudicado: imagine, por exemplo, o
   transtorno que uma operadora de cartão de crédito teria  e causaria 
   se demorasse horas para aprovar um transação de um cliente pelo fato de
   o seu sistema de segurança não conseguir analisar rapidamente todos os
   dados que podem indicar uma fraude.

   variedade (variety) é outro aspecto importante. os volume de dados que
   temos hoje são consequência também da diversidade de informações. temos
   dados em formato estruturados, isto é, armazenados em bancos como
   postgresql e oracle, e dados não estruturados oriundos de inúmeras
   fontes, como documentos, imagens, áudios, vídeos e assim por diante. é
   necessário saber tratar a variedade como parte de um todo  um tipo de
   dado pode ser inútil se não for associado a outros.

   o ponto de vista da veracidade (veracity) também pode ser considerado,
   pois não adianta muita coisa lidar com a combinação volume +
   velocidade + variedade se houver dados não confiáveis. é necessário
   que haja processos que garantam o máximo possível a consistência dos
   dados. voltando ao exemplo da operadora de cartão de crédito, imagine o
   problema que a empresa teria se o seu sistema bloqueasse uma transação
   genuína por analisar dados não condizentes com a realidade.

   informação não é só poder, informação também é patrimônio. a combinação
   volume + velocidade + variedade + veracidade, além de todo e qualquer
   outro aspecto que caracteriza uma solução de bigdata, se mostrará
   inviável se o resultado não trouxer benefícios significativos e que
   compensem o investimento. este é o ponto de vista do valor (value).

   é claro que estes cinco aspectos não precisam ser tomados como a
   definição perfeita. há quem acredite, por exemplo, que a combinação
   volume + velocidade + variedade seja suficiente para transmitir uma
   noção aceitável do bigdata. sob esta óptica, os aspectos da veracidade
   e do valor seriam desnecessários, porque já estão implícitos no negócio
    qualquer entidade séria sabe que precisa de dados consistentes;
   nenhuma entidade toma decisões e investe se não houver expectativa de
   retorno.

   o destaque para estes dois pontos talvez seja mesmo desnecessário por
   fazer referência ao que parece óbvio. por outro lado, a sua
   consideração pode ser relevante porque reforça os cuidados necessários
   a estes aspectos: uma empresa pode estar analisando redes sociais para
   obter uma avaliação da imagem que os clientes têm de seus produtos, mas
   será que estas informações são confiáveis ao ponto de não ser
   necessário a adoção de procedimentos mais criteriosos? será que não se
   faz necessário um estudo mais profundo para diminuir os riscos de um
   investimento antes de efetuálo?

   de qualquer forma, os três primeiros vs  volume, velocidade e
   variedade  podem até não oferecer a melhor definição do conceito, mas
   não estão longe de fazêlo. entendese que bigdata trata apenas de
   enormes quantidades de dados, todavia, você pode ter um volume não
   muito grande, mas que ainda se encaixa no contexto por causa dos
   fatores velocidade e variedade.

soluções de bigdata

   além de lidar com volumes extremamente grandes de dados dos mais
   variados tipos, soluções de bigdata também precisam trabalhar com
   distribuição de processamento e elasticidade, isto é, suportar
   aplicações com volumes de dados que crescem substancialmente em pouco
   tempo.

   o problema é que os bancos de dados tradicionais, especialmente
   aqueles que exploram o modelo relacional, como o mysql, o postgresql e
   o oracle, não se mostram adequados a estes requisitos, já que são menos
   flexíveis.

   isso acontece porque bancos de dados relacionais normalmente se baseiam
   em quatro propriedades que tornam a sua adoção segura e eficiente,
   razão pela qual soluções do tipo são tão populares: atomicidade,
   consistência, isolamento e durabilidade. esta combinação é conhecida
   como acid, sigla para o uso destes termos em inglês: atomicity,
   consistency, isolation e durability. vejamos uma breve descrição de
   cada uma:
      atomicidade: toda transação deve ser atômica, isto é, só pode ser
       considerada efetivada se executada completamente;
      consistência: todas as regras aplicadas ao banco de dados devem ser
       seguidas;
      isolamento: nenhuma transação pode interferir em outra que esteja
       em andamento ao mesmo tempo;
      durabilidade: uma vez que a transação esteja concluída, os dados
       consequentes não podem ser perdidos.

   o problema é que este conjunto de propriedades é por demais restritivo
   para uma solução de bigdata. a elasticidade, por exemplo, pode ser
   inviabilizada pela atomicidade e pela consistência. é neste ponto que
   entra em cena o conceito de nosql, denominação que muitos atribuem à
   expressão em inglês not only sql, que em tradução livre significa
   não apenas sql (sql  structured query language  é, em poucas
   palavras, uma linguagem própria para se trabalhar com bancos de dados
   relacionais).

   o nosql faz referência às soluções de bancos de dados que possibilitam
   armazenamento de diversas formas, não se limitando ao modelo relacional
   tradicional. bancos do tipo são mais flexíveis, sendo inclusive
   compatíveis com um grupo de premissas que compete com as propriedades
   acid: a base (basically available, soft state, eventually consistency 
   basicamente disponível, estado leve, eventualmente consistente).

   não é que bancos de dados relacionais tenham ficado ultrapassados 
   eles são e continuarão por muito tempo sendo úteis a uma série de
   aplicações. o que acontece é que, geralmente, quanto maior um banco de
   dados se torna, mais custoso e trabalhoso ele fica: é preciso otimizar,
   acrescentar novos servidores, empregar mais especialistas em sua
   manutenção, enfim.

   via de regra, escalar (tornálo maior) um bancos de dados nosql é mais
   fácil e menos custoso. isso é possível porque, além de contar com
   propriedades mais flexíveis, bancos do tipo já são otimizados para
   trabalhar com processamento paralelo, distribuição global (vários data
   centers), aumento imediato de sua capacidade e outros.

   além disso, há mais de uma categoria de banco de dados nosql, fazendo
   com que soluções do tipo possam atender à grande variedade de dados que
   existe, tanto estrurados, quanto não estruturados: bancos de dados
   orientados a documentos, bancos de dados chavevalor, bancos de dados
   de grafos, enfim.

   exemplos de bancos de dado nosql são o cassandra, o mongodb, o hbase, o
   couchdb e o redis. mas, quando o assunto é bigdata, apenas um banco de
   dados do tipo não basta. é necessário também contar com ferramentas que
   permitam o tratamento dos volumes. neste ponto, o hadoop é, de longe, a
   principal referência.

   exemplos de bancos de dados nosql: cassandra, mongodb, hbase, couchdb e
   redis
   exemplos de bancos de dados nosql: cassandra, mongodb, hbase, couchdb e
   redis

o que é hadoop?

   o hadoop é uma plataforma open source desenvolvida especialmente para
   processamento e análise de grandes volumes de dados, sejam eles
   estruturados ou não estruturados. o projeto é mantido pela apache
   foundation, mas conta com a colaboração de várias empresas, como
   yahoo!, facebook, google e ibm.

   podese dizer que o projeto teve início em meados de 2003, quando o
   google criou um modelo de programação que distribui o processamento a
   ser realizado entre vários computadores para ajudar o seu mecanismo de
   busca a ficar mais rápido e livre da necessidades de servidores
   poderosos (e caros). esta tecnologia recebeu o nome de mapreduce.

   alguns meses depois, o google apresentou o google file system (gfs), um
   sistema de arquivos especialmente preparado para lidar com
   processamento distribuído e, como não poderia deixar de ser no caso de
   uma empresa como esta, grandes volumes de dados (em grandezas de
   terabytes ou mesmo petabytes).

   em poucas palavras, o sistema de arquivos é um conjunto de instruções
   que determina como os dados devem ser guardados, acessados, copiados,
   alterados, nomeados, eliminados e assim por diante.

   em 2004, uma implementação open source do gfs foi incorporada ao nutch,
   um projeto de motor de busca para a web. o nutch enfrentava problemas
   de escala  não conseguia lidar com um volume grande de páginas  e a
   variação do gfs, que recebeu o nome nutch distributed filesystem
   (ndfs), se mostrou como uma solução. no ano seguinte, o nutch já
   contava também com uma implementação do mapreduce.

   na verdade, o nutch fazia parte de um projeto maior: uma biblioteca
   para indexação de páginas chamada lucene. os responsáveis por estes
   trabalhos logo viram que o que tinham em mãos também poderia ser usado
   em aplicações diferentes das buscas na web. esta percepção motivou a
   criação de outro projeto que engloba características do nutch e do
   lucene: o hadoop, cuja implementação do sistema de arquivos recebeu o
   nome de hadoop distributed file system (hdfs).

   o hadoop é tido como uma solução adequada para bigdata por vários
   motivos:

    é um projeto open source, como já informado, fato que permite a sua
   modificação para fins de customização e o torna suscetível a melhorias
   constantes graças à sua rede de colaboração. por causa desta
   característica, vários projetos derivados ou complementares foram  e
   ainda são  criados;

    proporciona economia, já que não exige o pagamento de licenças e
   suporta hardware convencional, permitindo a criação de projetos com
   máquinas consideravelmente mais baratas;

    o hadoop conta, por padrão, com recursos de tolerância a falhas, como
   replicação de dados;

    o hadoop é escalável: havendo necessidade de processamento para
   suportar maior quantidade de dados, é possível acrescentar computadores
   sem necessidade de realizar reconfigurações complexas no sistema.

   é claro que o hadoop pode ser usado em conjunto com bancos de dados
   nosql. a própria apache foundation mantém uma solução do tipo que é uma
   espécie de subprojeto do hadoop: o já mencionado banco de dados hbase,
   que funciona atrelado ao hdfs.

   logotipo do hadoop
   a denominação hadoop tem uma origem inusitada: este é o nome que o
   filho de doug cutting, principal nome por
   trás do projeto, deu ao seu elefante de pelúcia amarelo

   o hadoop, é bom frisar, é a opção de maior destaque, mas não é a única.
   é possível encontrar outras soluções compatíveis com nosql ou que são
   baseadas em massively parallel processing (mpp), por exemplo.


   não podemos considerar as soluções de bigdata como um arsenal
   computacional perfeito: sistemas do tipo são complexos, ainda
   desconhecidos por muitos gestores e profissionais de ti e a sua própria
   definição ainda é passível de discussão.

   o fato é que a ideia de bigdata reflete um cenário real: há, cada vez
   mais, volumes de dados gigantescos e que, portanto, exigem uma
   abordagem capaz de aproveitálos ao máximo. apenas para dar uma noção
   deste desafio, a ibm divulgou no final de 2012 que, de acordo com as
   suas estimativas, 90% dos dados disponíveis no mundo foram gerados
   apenas nos dois anos anteriores. até o final de 2015, este volume todo
   terá aumentado pelo menos duas vezes. diante deste ponto de vista, é um
   tanto precipitado encarar a expressão bigdata como uma mero termo
   da moda.

  
<file=3>
   
bigdata: descubra o que é e como usar na sua empresa

 
   o que é bigdata?

   o termo bigdata  é relativamente novo e ao mesmo tempo velho, surgindo
   por volta de 2005 com o google e recebeu uma alavancada em 2008 com o
   pessoal do yahoo que transformou a plataforma hadoop em open source.

   quando pensamos em bigdata, é comum fazermos uma tradução literária do
   texto e imaginamos “grandes dados”, relacionado à grande quantidade de
   dados a ser analisado. mas o termo é um pouco mais abrangente, levando
   como base os 3 vs do bigdata. mas o que são os 3 “v’s”?

   volume, que está relacionado à grande quantidade de dados que possuímos
   dentro e fora da empresa; o segundo é a velocidade, pois a cada segundo
   muitos dados novos são criados na internet, e alguns destes dados podem
   ser interessantes para sua empresa; o terceiro e ultimo está
   relacionado à variedade, sendo que o dado pode ser um compartilhamento
   de um texto em uma rede social, um post no blog, um review em um
   ecommerce.

   juntando estes três pilares, é possível analisar praticamente tudo que
   está público, envolvendo dados estruturados, no caso de nós conhecermos
   a estrutura de armazenamento daquele contexto, e também os dados não
   estruturados, como imagens, vídeos, áudios e documentos.

   como aplicar em seu cenário?

   a aplicação de técnicas de bigdata é particular para cada cenário.
   pode ser que seu caso seja um portal de saúde e bem estar que consegue
   cruzar dados comuns de idade, altura, peso, sexo e localização de 10
   milhões de usuários por mês, e inferir qual região tem mais propensão �
   determinada doença; ou então você é uma empresa de fabricação de aviões
   e não quer virar manchete por causa de uma queda de suas aeronaves,
   então consegue analisar os mais de 280 sensores espalhados pelo seu
   avião e consegue cruzar estes dados e saber se aquele avião que está a
   4 horas de seu destino precisa fazer uma parada em um aeroporto mais
   perto para uma manutenção ou então é possível esperar ele chegar a seu
   destino. muitos até associam a conquista da copa do mundo do brasil
   pela alemanha devido a uma grande plataforma de dados que eles
   utilizaram.

   a aplicação destas técnicas é muito ampla, sendo possível encontrar a
   necessidade de seu cenário e então utilizar estas tecnologias para
   facilitar a aplicação e a tomada de decisão.

   quais tecnologias posso usar sem custo?

   o hadoop é uma plataforma open source, que roda em cima do servidor
   apache em distribuições linux. não entendeu nada? o hadoop é o nome do
   núcleo principal de uma plataforma pra trabalhar com bigdata, este
   núcleo pode ser executado em um servidor de internet chamado apache,
   que é responsável por executar e controlar o ambiente que o hadoop está
   trabalhando. por sua vez, o apache é uma ferramenta que trabalha em
   cima do sistema operacional linux, famoso por ser gratuito e também por
   possuir muitas empresas trabalhando para adequar as funcionalidades
   para chegar a um trabalho cada vez mais profissional.

   o hadoop sozinho não faz muita coisa, ele precisa de apis (application
   programming interface), programas que interagem através de troca de
   informação com o núcleo principal, satélites que ajudam nas principais
   tarefas de uma plataforma. existem apis que se encarregam de fazer o
   trabalho para movimentar dados entre uma base de dados que você possui
   e o hadoop. tem api que trabalha no âmbito de aprendizado de máquina e
   pode ajudar na sua tomada de decisão, aprendendo com métodos
   estatísticos o comportamento dos seus usuários. outra api que é
   amplamente utilizada é responsável por agendamento de tarefas, que
   podem processar os dados que são inseridos durante o dia na plataforma
   de bigdata.

   é possível implementar bigdata sem uma equipe de ti focada?

   sim, mas pode dar um trabalho extra e você precisará aprender algumas
   coisas de ti para isso. hoje, grandes provedores de serviços na
   internet oferecem plataformas prontas para se trabalhar com bigdata
   utilizando seus serviços. a amazon possui uma plataforma que é
   comercializada através do amazon web services; a microsoft possui sua
   plataforma que se chama windows azure; e o google tem o google big
   query. cada fornecedor possui suas peculiaridades, e também variam de
   preço e recursos. em alguns o esforço é maior, em outros, é menor. vale
   a pena investigar as ofertas do mercado e ver o que melhor se encaixa
   na sua necessidade e budget.

   mas você precisa ter bigdata no seu negócioempresa?

   é muito comum com o “modismo” as empresas implantarem um sistema ou
   tecnologia sem saber o que querem… assim como qualquer tecnologia, você
   precisa saber se o seu negócio está preparado, se de fato isso vai
   ajudar a sua empresa… essa é a típica solução que sozinha não dará
   nada! ou seja, pense muito bem para não gastar uma fortuna com “mais um
   sistema” na sua empresa.

   outro cuidado grande esta relacionado a preocupação ou não com a
   essência do bigdata. o que isso quer dizer: esqueça se você está
   fazendo bigdata, bi, ou o que quiser chamar. o que importa é você
   investir o tempo em algo que de fato fará a diferença no seu negócio!
   às vezes o mais simples já te entrega mais valor e muitas vezes o
   complicado… só é complicado!

   alexandre tarifa é diretor de tecnologia do minha vida e escreveu esse
   artigo em parceria com diego nogare, especialista de bi e bigdata.

 
<file=4>
   
   com a evolução das aplicações e a necessidade do ser humano pelas
   informações, mais e mais aplicações vem surgindo, deixando o homem cada
   vez mais refém da informação. para isso basta lembrarnos da evolução
   da relação homemcomputador em que num passado existiam muitas pessoas
   para uma máquina (como o mainframe), em seguida uma pessoa por máquina
   (o caso do computador pessoal) e nos tempos atuais em que cada pessoa
   possui várias máquinas (notebook, ultrabook, pc, tablet, smartphone, no
   futuro óculos, geladores, etc.). com tantos aplicativos surgindo, as
   informações são geradas exponencialmente, com isso a capacidade de
   gerenciar tantas informações se torna primordial para as aplicações
   atuais. esse mesmo crescimento de dados acontece nos aplicativos
   empresariais com crescimento anual de 60%. estimase que uma empresa
   com mil funcionários gera anualmente 1000 terabytes, sem falar que essa
   quantidade tende a aumentar cinquenta vezes até 2020.

   com o recém surgimento do bigdata, a primeira dificuldade é encontrar o
   seu conceito. é possível vêlo de maneiras totalmente divergentes em
   cada blog que se lê, ou seja, se você ler 10 materiais sobre bigdata,
   provavelmente cada um trará conceitos diferentes. dentre as matérias,
   ao se tirar um mínimo comum se verá que o bigdata, na sua raiz, fala em
   tratar um grande volume de dados com grande velocidade. no entanto, se
   repara que essa definição é bastante abstrata pelo simples fato de que
   para uma pessoa a, por exemplo, um grande volume seja um gigabyte e
   para uma pessoa b um grande volume seja um terabyte e o mesmo pode
   acontecer ao se referenciar a velocidade e o tempo de resposta de uma
   requisição.

   assim, o grande desafio do bigdata é estar administrando um grande
   volume de dados e minerando informações em um menor tempo de
   requisição. com o grande volume de dados, fazer com que a aplicação
   cresça à medida que é necessário é uma ótima estratégia, assim, uma
   escalabilidade vertical (em que se aumenta o poder do hardware, como
   aumento de memória e de processamento de uma única máquina) ou
   horizontal (em que se aumenta a quantidade de máquinas) deve ser
   analisada. apesar de ser mais complexa, a escalabilidade horizontal
   acaba sendo muito barata, sem falar de ser mais fácil de crescer ou
   diminuir os recursos por demanda.

   para armazenar as informações com a escalabilidade horizontal, os
   bancos nosql são uma ótima estratégia. vale lembrar que o banco nosql
   significa não apenas not only e não sql. uma diferença entre os bancos
   nosql e sql é que o primeiro possui uma grande variedade de bancos e
   cada um com características diferentes. em termo de arquitetura, os
   bancos nosql podem ser distribuídos ou não, embora sejam mais populares
   do tipo distribuído. sua forma de armazenamento pode ser apenas em
   memória, apenas em disco rígido ou configurável (vale apena lembrar que
   banco apenas na memória são muito rápidos, no entanto são volúveis, já
   os somente no hd tem informações permanentes, porém o io é muito
   alto). outra característica divergente entre os bancos nosql está na
   forma do armazenamento que são: chavevalor, documento, família de
   coluna e grafos. os bancos nosql costumam ser muito rápidos na leitura
   e na escrita, no entanto, possuem uma grande deficiência por parte das
   buscas. estas normalmente são feitas apenas pela chave, para isso usar
   um serviço para terceirizar o serviço pode ser uma boa ideia, como o
   framework lucene.

   mesmo realizando estratégias de buscas terceirizadas ou buscando pelo
   id, se a informação não estiver na memória principal pode haver uma
   demora para recuperar essa informação. assim, ter um dispositivo de
   acesso rápido pode ser uma melhor opção, entra aqui o uso do cache. ao
   se optar pelo cache devese levar em conta os dois maiores desafios:
      ter informação: o ato de esquentar a informação é extremamente
       importante para esse mecanismo, já que não adianta existir um cache
       se o mesmo não possuir nenhuma informação. para isso ele pode ser
       esquentado de várias formas (ao iniciar uma aplicação, por demanda,
       por sessão do usuário) que deve ser definido com o aplicativo em
       questão.
      matar o cache: para o cache é necessário que existam apenas
       informações atuais, assim é importante que os dados antigos sejam
       mortos e trocados por informações mais atuais.

   um outro aspecto no bigdata, que não é muito tratado, está relacionado
   à velocidade da modelagem além da velocidade no desenvolvimento de
   software. um exemplo muito interessante é o twitter que viu muito
   usuários usando a hashtag (o # adicionado com uma palavra) e em pouco
   tempo teve que realizar pesquisas através dos mesmos.

   assim podemos verificar que o bigdata não apenas está relacionado
   apenas à velocidade de requisição, mas também em desenvolvimento, então
   conhecer bem o negócio além de várias ferramentas poderá ser
   extremamente importante. na linguagem java, conhecer o java ee 6, muito
   em breve o java 7, além do jdk 7 trará velocidade de desenvolvimento,
   produtividade e um melhor gerenciamento de memória.

   assim podese concluir que o conceito do bigdata é relativamente muito
   fácil, mesmo sendo divergente em várias fontes, que é gerenciar um
   grande volume de memória em alta velocidade. o mais difícil certamente
   é chegar nesse objetivo, já que para isso é necessário conhecer uma
   gama de ferramentas, frameworks, metodologias, tipos de bancos como
   nosql, sql e newsql, cache, serviço de indexação de buscas, tipos de
   escalabilidades, etc. apesar de ainda ser muito discutida nas
   universidades, a normalização foi desenvolvida em 1970 (vale lembrar
   que os servidores da época possuíam 16kb de memória principal e 800kb
   de armazenamento e os celulares atuais são muitas vezes mais rápidos
   que estes servidores), ou seja, não é certo afirmar que os aplicativos,
   os hardwares, as necessidades de hoje são os mesmos daquela época, e
   com isso entender que esse padrão nem sempre é válido.

<file=5>
   
o que é bigdata e como usar na sua pequena empresa


   o que é bigdata? o termo bigdata é relativamente novo e ao mesmo
   tempo velho, surgindo por volta de 2005 com o google e recebeu uma
   alavancada em 2008 com o pessoal do yahoo que transformou a plataforma
   hadoop em open source.

   quando pensamos em bigdata, é comum fazermos uma tradução literária do
   texto e imaginamos “grandes dados”, relacionado à grande quantidade de
   dados a ser analisado. mas o termo é um pouco mais abrangente, levando
   como base os 3 vs do bigdata. mas o que são os 3 vs?

   volume, que está relacionado à grande quantidade de dados que possuímos
   dentro e fora da empresa; o segundo é a velocidade, pois a cada segundo
   muitos dados novos são criados na internet, e alguns destes dados podem
   ser interessantes para sua empresa; o terceiro e ultimo está
   relacionado à variedade, sendo que o dado pode ser um compartilhamento
   de um texto em uma rede social, um post no blog, um review em um
   ecommerce.

   juntando estes três pilares, é possível analisar praticamente tudo que
   está público, envolvendo dados estruturados, no caso de nós conhecermos
   a estrutura de armazenamento daquele contexto, e também os dados não
   estruturados, como imagens, vídeos, áudios e documentos.

   como aplicar em seu cenário?

   a aplicação de técnicas de bigdata é particular para cada cenário.
   pode ser que seu caso seja um portal de saúde e bem estar que consegue
   cruzar dados comuns de idade, altura, peso, sexo e localização de 10
   milhões de usuários por mês, e inferir qual região tem mais propensão �
   determinada doença; ou então você é uma empresa de fabricação de aviões
   e não quer virar manchete por causa de uma queda de suas aeronaves,
   então consegue analisar os mais de 280 sensores espalhados pelo seu
   avião e consegue cruzar estes dados e saber se aquele avião que está a
   4 horas de seu destino precisa fazer uma parada em um aeroporto mais
   perto para uma manutenção ou então é possível esperar ele chegar a seu
   destino.

   muitos até associam a conquista da copa do mundo do brasil pela
   alemanha devido a uma grande plataforma de dados que eles utilizaram. a
   aplicação destas técnicas é muito ampla, sendo possível encontrar a
   necessidade de seu cenário e então utilizar estas tecnologias para
   facilitar a aplicação e a tomada de decisão.

   quais tecnologias posso usar sem custo?

   o hadoop é uma plataforma open source, que roda em cima do servidor
   apache em distribuições linux. não entendeu nada? o hadoop é o nome do
   núcleo principal de uma plataforma pra trabalhar com bigdata, este
   núcleo pode ser executado em um servidor de internet chamado apache,
   que é responsável por executar e controlar o ambiente que o hadoop está
   trabalhando. por sua vez, o apache é uma ferramenta que trabalha em
   cima do sistema operacional linux, famoso por ser gratuito e também por
   possuir muitas empresas trabalhando para adequar as funcionalidades
   para chegar a um trabalho cada vez mais profissional.

   o hadoop sozinho não faz muita coisa, ele precisa de apis (application
   programming interface), programas que interagem através de troca de
   informação com o núcleo principal, satélites que ajudam nas principais
   tarefas de uma plataforma. existem apis que se encarregam de fazer o
   trabalho para movimentar dados entre uma base de dados que você possui
   e o hadoop.

   tem api que trabalha no âmbito de aprendizado de máquina e pode ajudar
   na sua tomada de decisão, aprendendo com métodos estatísticos o
   comportamento dos seus usuários. outra api que é amplamente utilizada é
   responsável por agendamento de tarefas, que podem processar os dados
   que são inseridos durante o dia na plataforma de bigdata.

   é possível implementar bigdata sem uma equipe de ti focada?

   sim, mas pode dar um trabalho extra e você precisará aprender algumas
   coisas de ti para isso. hoje, grandes provedores de serviços na
   internet oferecem plataformas prontas para se trabalhar com bigdata
   utilizando seus serviços. a amazon possui uma plataforma que é
   comercializada através do amazon web services; a microsoft possui sua
   plataforma que se chama windows azure; e o google tem o google big
   query. cada fornecedor possui suas peculiaridades, e também variam de
   preço e recursos. em alguns o esforço é maior, em outros, é menor. vale
   a pena investigar as ofertas do mercado e ver o que melhor se encaixa
   na sua necessidade e budget.

   mas você precisa ter bigdata no seu negócioempresa?

   é muito comum com o modismo as empresas implantarem um sistema ou
   tecnologia sem saber o que querem… assim como qualquer tecnologia, você
   precisa saber se o seu negócio está preparado, se de fato isso vai
   ajudar a sua empresa… essa é a típica solução que sozinha não dará
   nada! ou seja, pense muito bem para não gastar uma fortuna com mais um
   sistema na sua empresa.

   outro cuidado grande esta relacionado a preocupação ou não com a
   essência do bigdata. o que isso quer dizer: esqueça se você está
   fazendo bigdata, bi, ou o que quiser chamar. o que importa é você
   investir o tempo em algo que de fato fará a diferença no seu negócio!
   às vezes o mais simples já te entrega mais valor e muitas vezes o
   complicado… só é complicado!

   alexandre tarifa é diretor de tecnologia do minha vida e escreveu esse
   artigo em parceria com diego nogare, especialista de bi e bigdata.

  
<file=6>
  
    por anna adami

   oriundo do termo de tecnologia da informação, o conceito de bigdata é
   focado no gigantesco armazenamento de dados, com enorme velocidade. o
   bigdata é baseado no conceito de 5v: valor, veracidade, variedade,
   volume e velocidade.  o bigdata é tido por muitos, como a solução de
   eventuais situações problemáticas da economia. e devido ao modelo
   economico adotado pela globalização, o termo just in time, totalmente
   dependente da necessidade de uma expansão virtual, se tornou a palavra
   de ordem das negociações e forçou a ampliação de estrutura para
   armazenamento de dados.

   neste quesito, de acordo com a ibm, até o ano de 2008 já tinham sido
   produzidos mais de 2,5 quintilhões de bytes, sendo que aproximadamente
   90% das informações armazenadas em centrais, foram produzidas nos
   últimos dois anos, fato este devido a inserção das empresas no meio
   online (internet), além da difusão de dispositivos móveis por exemplo.

   a diferença entre um bigdata e o chamado armazém de dados data
   warehouse, é basicamente que o segundo se baseia em um conjunto de
   dados, com variação de tempo e a opção de auxiliar nas decisões de
   negócios; enquanto o bigdata se baseia em grande volume de dados
   integrados, porém com mais velocidade. outra diferenciação é o
   software, que faz uma varredura de todos os dados fornecidos por uma
   empresa e os separa para que sejam utilizados em outra ocasião,
   tornandoo assim mais fácil de ser utilizado.

   a utilização do bigdata é tão promissora que a ibm criou a bigdata
   university, com o objetivo de formar o novo profissional denominado
   cientista de dados, com a responsabilidade de estudar matérias como
   matemática, ciência da computação, além de estatística e se tornar apto
   a operar este sistema.

   algumas aplicações do bigdata podem ser pontuadas com a utilização em
   alguns segmentos da tecnologia tais quais: empresas de tecnologia, que
   utilizam sat]elites próprios e conseguem ler informações em tempo real
   sobre a disponibilidade de vagas em estacionamentos, ou até o trânsito
   em determinada rua e horário, por exemplo. por uma tecnologia proposta
   pela ibm, um hospital no canadá monitorava a situação dos bebês que
   nasceram prematuros, o que possibilitou aos médicos um melhor
   atendimento e a antecipação de eventuais problemas. outra utilização é
   no comércio, onde as empresas podem integrar a tecnologia em carrinhos
   de supermercados, onde é possível controlar e tornar mais eficaz a
   experiência de compra dos usuários, pois monitora a combinação de
   produtos colocados dentro dele. com a ajuda feita pela distribuição de
   2 milhões de chips sim, foi possível auxiliar nas buscas das vítimas do
   terremoto que atingiu o haiti. além de outros avanços proporcionados
   pelo bigdata, podemos citar o descobrimento do présal, pela alta
   velocidade de envio e processamento de informações e captações de dados
   sismicos.

   a função e atuação fundamental do bigdata é justamente de ser capaz de
   trabalhar com muitas variáveis simultaneamente, além de leitura e
   reinderização de imagens, em tempo mínimo e muita eficácia.


<file=7>


a extraordinária inteligência por trás do bigdata da emc.
       o poder do bigdata analytics pode ser surpreendente. mas há um
       ditado que diz: também existe o componente humano no bigdata. na
       emc, você encontrará uma grande diferença. gostaríamos de
       apresentar algumas pessoas para que você veja o que elas já fazem e
       o que podem fazer por você. você também pode conhecer nossas
       soluções de bigdata.
       pedro desouza — gerente sênior de consultoria, bigdata e lógica
       analítica, emc
       “quando não estou envolvido com projetos de algoritmos, modelagem
       de dados ou visualizações de lógica analítica, gosto de esquiar”.
       saiba mais

cientista de dados
       pedro desouza
       gerente sênior de consultoria, bigdata e lógica analítica, emc
       sempre começo com um entendimento profundo do setor e dos negócios
       exclusivos do cliente. assim que passa a existir uma sincronia dos
       negócios, explico o conceito.
       saiba mais
       voltar
       pedro desouza — gerente sênior de consultoria, bigdata e lógica
       analítica, emc
       cientistade dados
       pedro desouza
       gerente sênior de consultoria, bigdata e lógica analítica, emc
          + linkedin
       sempre começo com um entendimento profundo do setor e dos negócios
       exclusivos do cliente.
       assim que passa a existir uma sincronia dos negócios, explico o
       conceito e as possibilidades da lógica analítica e do bigdata com
       base em suas necessidades. analisamos uma variedade de “casos de
       uso”, quais são as oportunidades ou os desafios que eles apresentam
       e examinamos qual deles deveremos buscar. juntos, começamos uma
       pequena implementação que permite que eles percebam os resultados
       rapidamente.
       depois de executar nosso primeiro projeto, geralmente trabalho em
       parceria com meu cliente a fim de ajudálo a expandir o valor de
       seu primeiro projeto, fazendo demonstrações para sua organização
       que mostram exatamente o que nós podemos fazer, por que e como.
       muitos clientes dizem que eu faço com que “aproveitar o bigdata”
       seja muito mais simples do que eles pensavam que seria.
       “quando não estou envolvido com projetos de algoritmos, modelagem
       de dados ou visualizações de lógica analítica, gosto de esquiar”.
       tweetar isso
       principais conquistas
       um cliente conseguiu economizar dezenas de milhões de dólares.
       analisamos os sinais de cdr de cinco bilhões de usuários de
       celulares por dia. executando as análises, identificamos quem
       estava realmente com problemas de serviço. antes disso, milhares de
       clientes estavam recebendo trabalhos de reparo dispendiosos e
       desnecessários.
       outro excelente resultado foi um algoritmo churn orientado por
       dados que ajudou a prever e evitar encerramentos de contas em um
       banco. o desgaste diminuiu 30%.
       por fim, ajudei a reduzir os custos com bigdata analytics de us$
       10 milhões para us$ 100 mil por ano. o cliente ficou impressionado.
       foi uma simples mudança na tecnologia que ninguém sabia que era
       possível.
       saiba mais sobre nossas soluções de bigdata
       steve jones — vp global, bigdata e lógica analítica
       “no bigdata, uma viagem de mais de 1.600 km começa com apenas uma
       etapa. meu trabalho é saber para onde estamos indo e saber
       exatamente como chegar lá”.
       saiba mais

vp global, bigdata e lógica analítica
       steve jones
       capgemini, parceiro da emc
       meu trabalho é acompanhado de muita pressão. basicamente, sou
       responsável pelo sucesso de um cliente com o bigdata. nós
       solucionamos algo e conseguimos obter sucesso ou não? gosto dessa
       pressão principalmente porque amo o bigdata.
       saiba mais
       voltar
       steve jones — vp global, bigdata e lógica analítica
       vp global, bigdata e lógica analítica
       steve jones
       capgemini, parceiro da emc
          + linkedin
          + twitter
          + blog
       meu trabalho é acompanhado de muita pressão. basicamente, sou
       responsável pelo sucesso de um cliente com o bigdata. nós
       solucionamos algo e conseguimos obter sucesso ou não? gosto dessa
       pressão principalmente porque amo o bigdata. se feito do jeito
       certo, ele pode cumprir todas as promessas. meu trabalho é fazer
       com que isso aconteça.
       os clientes fornecem seus dados a nós, e sou responsável por
       retornálos a eles como um “data lake corporativo”, pronto para ser
       usado e agregar excelente valor. é evidente que estou envolvido em
       tudo. na estratégia. na tecnologia. no software. na compilação. na
       aparência da solução, no modo como ela é percebida e como funciona.
       tudo.
       “no bigdata, uma viagem de mais de 1.600 km começa com apenas uma
       etapa. meu trabalho é saber para onde estamos indo e saber
       exatamente como chegar lá”.
       tweetar isso
       principais conquistas
       criar o 1^o “data lake corporativo” foi realmente animador.
       obtivemos um enorme avanço na ciência de bigdata, transformandoo
       em um grande ativo de negócios.
       foi uma grande mudança. o data lake sempre foi muito interessante e
       bem conceituado, mas nunca foi totalmente explorado. havia
       limitações. ele não estava preparado para fazer o que as empresas
       desejavam.
       agrupamos tudo, trabalhamos com as dificuldades e fornecemos a ele
       recursos de nível empresarial. fizemos com que ele se tornasse
       rápido, seguro, preparado para estar em conformidade, controlável e
       muito valioso. durante os anos em que fui “a pessoa responsável
       pelo sucesso do cliente”, trabalhei muito para realizar um bom
       trabalho. não há dúvidas que a criação do “data lake corporativo”
       fez com que esse trabalho fosse muito mais fácil.
       saiba mais sobre nossas soluções de bigdata
       michael foley — diretor, laboratório de ciências de marketing, emc
       “em outra vida, trabalhei como músico. acho que a arte mostra como
       é importante criar visualizações de dados bem apresentáveis para as
       pessoas”.
       saiba mais

diretor de ciência de dados
       michael foley
       diretor, laboratório de ciências de marketing, emc
       saiba mais
       voltar
       michael foley — diretor, laboratório de ciências de marketing, emc
       diretor de ciência de dados
       michael foley
       diretor, laboratório de ciências de marketing, emc
          + linkedin
          + twitter
       trabalho no que você pode chamar de tanque de pensamentos sobre big
       data da emc. nós exploramos, pesquisamos e aplicamos ideias e
       lógica analítica de bigdata em uma enorme variedade de
       iniciativas, desde modelagem preditiva de consumidores até análises
       de população em países inteiros.
       quanto a nosso laboratório de ciências de marketing, este consiste
       em uma equipe de cientistas de dados que trabalham em uma
       plataforma unificada de lógica analítica. com ele, podemos analisar
       e solucionar problemas ou aproveitar oportunidades, usando dados
       estruturados e não estruturados. (fale isso rápido 10 vezes).
       minha equipe e eu somos responsáveis por fazer reuniões com
       clientes e parceiros para mostrar como o laboratório de ciências de
       marketing pode ajudálos a aplicar a lógica analítica preditiva a
       fim de respaldar as diversas iniciativas que eles têm com foco em
       marketing.
       “em outra vida, trabalhei como músico. acho que a arte mostra como
       é importante criar visualizações de dados bem apresentáveis para as
       pessoas.”
       tweetar isso
       principais conquistas
       montamos o laboratório de ciências de marketing da emc e nosso
       sistema de bigdata analytics em menos de seis meses. os clientes
       gostam de saber que, como ele comprova o aproveitamento, o bigdata
       não precisa ser um enorme transtorno ou demorar uma eternidade.
       tivemos uma campanha chamada the human face of bigdata que
       ofereceu outro excelente resultado. encontramos um modo de usar
       grandes volumes de dados não estruturados e totalmente brutos para
       ajudar um país inteiro a entender melhor seus habitantes.
       uma de minhas iniciativas favoritas envolveu o uso do bigdata para
       realizar um sonho e gerar mudanças. criamos visualizações de dados
       para a parker antarctica expedition, liderada por um jovem
       cientista de aventuras de 19 anos. as visualizações eram
       maravilhosas e impactantes. elas proporcionaram a um jovem uma voz
       muito forte para divulgar o trabalho que ele estava fazendo quanto
       ao aquecimento global. como muitos dizem, o bigdata pode mudar o
       mundo.
       saiba mais sobre nossas soluções de bigdata
       john cardente — bigdata, ciência de dados, aprendizado de máquina,
       emc
       “todos os clientes têm um mecanismo de bigdata. gosto de me
       aprofundar e mostrar a eles onde está o turbo”.
       saiba mais

engenheiro
       john cardente
       bigdata, ciência de dados, aprendizado de máquina, emc
       saiba mais
       voltar
       john cardente — bigdata, ciência de dados, aprendizado de máquina,
       emc
       engenheiro
       john cardente
       bigdata, ciência de dados, aprendizado de máquina, emc
          + linkedin
          + twitter
       em minha função, faço muitas consultorias com o cliente, nas quais
       analiso sua arquitetura e crio estratégias quanto aos objetivos dos
       negócios. depois, faço reflexões inovadoras. meu objetivo é sempre
       triplo. atender às necessidades do cliente. atender a uma
       necessidade que o cliente não sabia que tinha. e dedicarme
       totalmente para criar a solução. adoro criar.
       também gosto muito de tornar operacionais as iniciativas piloto que
       os clientes iniciam, mas que não conseguem usar. incluo os recursos
       corporativos de que eles precisam: segurança, conformidade e
       relatórios. podese dizer que minha especialidade é “fazer com que
       o bigdata funcione”.
       “todos os clientes têm um mecanismo de bigdata. gosto de
       aprofundarme e mostrar a eles onde está o turbocompressor”.
       tweetar isso
       principais conquistas
       um projeto que adorei foi criar um “data lake climático”. ele
       analisa grandes volumes de dados de ciências aparentemente não
       relacionados. ele gera percepções e modelos preditivos em que
       jamais alguém pensaria. com ele, estamos próximos de entender as
       mudanças climáticas e possivelmente lidar com elas.
       outro projeto favorito surgiu quando estava julgando uma competição
       da emc. eu calculava números sobre candidatos, sexo e idade. mas
       percebi algo. criei um modelo que pudesse identificar os jovens que
       quisessem ser “inovadores”. ele foi implementado no rh e funcionou.
       fiquei impressionado. o bigdata consegue aumentar a
       autorrealização do ser humano e possivelmente salvar o planeta. não
       conheço nada mais que consiga fazer essas duas coisas.
       saiba mais sobre nossas soluções de bigdata
       srivatsan ramanujam — cientista de dados principal, pivotal, emc
       federation
       “a demonstração do poder do bigdata é 10 vezes mais importante que
       sua descrição”.
       saiba mais

cientista de dados
       srivatsan ramanujam
       cientista de dados principal, pivotal, emc federation
       saiba mais
       voltar
       srivatsan ramanujam — cientista de dados principal, pivotal, emc
       federation
       cientistade dados
       srivatsan ramanujam
       cientista de dados principal, pivotal, emc federation
          + linkedin
          + twitter
          + blog
       grande parte do que faço é criar “simuladores de solução” que
       permitam que os clientes tenham contato com uma solução de bigdata
       e vejam o que ela pode fazer por seus negócios. ferramentas
       práticas, aplicativos e visualizações são disponibilizados em um
       painel de controle com o qual eles podem interagir. são usados seus
       próprios dados, então, é possível executar lógica analítica real,
       obter percepções reais e ver tudo o que realmente é possível.
       os clientes adoram o quanto tudo isso é concreto. e, para mim, é
       muito recompensador ver a empolgação deles quando percebem quanto
       podem fazer e como isso pode ser fácil.
       “a demonstração do poder do bigdata é 10 vezes mais importante que
       sua descrição”.
       tweetar isso
       principais conquistas
       no momento, dois projetos destacamse como meus favoritos.
       um cliente da área de agricultura estava tentando compreender
       flutuações de commodity e não conseguia chegar a nenhuma conclusão
       com os relatórios de dados oficiais. então, procuramos uma fonte de
       dados muito inesperada. o twitter! as indicações de mlp de
       commodity de mais alto valor estavam nos tweets. escrevemos
       algoritmos, criamos um modelo preditivo e pronto! problema
       solucionado.
       no entanto, meu projeto favorito foi ter trabalhado em um “data
       lake climático”. ele coleta grandes volumes de dados sobre mudanças
       climáticas e gera percepções altamente precisas. a melhor parte é
       que praticamente qualquer pessoa consegue adicionar dados, e não
       somente cientistas e phds. as mudanças climáticas afetam a todos.
       por esse motivo, criamos uma forma de permitir que todos ajudem a
       encontrar uma solução.
       saiba mais sobre nossas soluções de bigdata
       bill schmarzo — cto, lógica analítica e gerenciamento de
       informações corporativas, emc
       “o bigdata mostra que é possível obter sucesso se fizer as coisas
       de maneira correta”.
       

<file=8>
    
bigdata: uma fonte de poder?

informação é poder, logo, se uma empresa souber como utilizar os dados que
tem em mãos, saberá também como melhorar um produto, criar uma estratégia de
marketing mais eficiente, produzir mais, superar concorrentes, enfim, será o
bigdata uma fonte de poder?

  
   bigdata é bem amplo e ainda não existe um consenso comum em sua
   deﬁnição. porém, bigdata pode ser resumidamente deﬁnido como o
   processamento analítico de grande volumes de dados complexos produzidos
   por várias aplicações, ou seja, a mineração de enormes volumes de dados
   estruturados e não estruturados. exemplos de aplicações no contexto big
   data varia bastante, como aplicações cientíﬁcas e de engenharias, redes
   sociais, redes de sensores, dados de web click, dados médicos e
   biológicos, transações de comércio eletrônico e ﬁnanceiros, entre
   inúmeras outras.

   três fatores inﬂuenciaram o grande aumento de volume de dados sendo
   coletados e armazenados para posterior análise: difusão e barateamento
   dos dispositivos de captação de dados (sensores, gps, smartphones),
   capacidade de armazenamento na ordem de petabytes e aumento de
   velocidade de transmissão nas redes.

   estas tecnologias atuais permitiram  e permitem  aumentar
   exponencialmente a quantidade de informações no mundo. empresas,
   governos e outras instituições precisam saber lidar com esta explosão
   de dados. o bigdata se propõe a ajudar nesta tarefa, uma vez que as
   ferramentas computacionais usadas até então para gestão de dados, por
   si só, já não podem fazêlo satisfatoriamente.

   simplificando, podemos definir o conceito de bigdata como sendo
   conjuntos de dados não estruturados, extremamente grandes e que
   necessitam de ferramentas especialmente preparadas para lidar com
   grandes volumes, de forma que toda e qualquer informação nestes meios
   possa ser encontrada, analisada e aproveitada em tempo hábil.

   informação é poder, logo, se uma empresa souber como utilizar os dados
   que tem em mãos, poderá saber como melhorar um produto, como criar uma
   estratégia de marketing mais eficiente, como cortar gastos, como
   produzir mais, como evitar o desperdício de recursos, como superar um
   concorrente, como disponibilizar um serviço a um cliente de maneira
   satisfatória e assim por diante.

   a proposta de uma solução de bigdata é a de oferecer uma abordagem
   ampla no tratamento cada vez mais caótico dos dados, para tornar as
   informações mais eficientes e precisas. para tanto, o conceito
   considera não somente grande quantidade de dados, a velocidade de
   análise e a disponibilização destes, como também a relação entre eles.


   os vs do bigdata: volume, velocidade, variedade, veracidade e valor.

   no intuito de deixar a ideia de bigdata mais clara, alguns
   especialistas passaram a resumir o assunto em aspectos que conseguem
   descrever satisfatoriamente a base do conceito: os cincos vs –
   primeiramente volume, velocidade e variedade, e posteriormente
   agregados, os fatores veracidade e valor.

   volume  é a quantidade de dados realmente grandes, que crescem
   exponencialmente e que, não raramente, são subutilizados justamente por
   estarem nestas condições.

   velocidade (velocity) – a identificação dos dados (obtenção, gravação,
   atualização, enfim) deve ser feito em tempo hábil  muitas vezes em
   tempo real. se o tamanho do banco de dados for um fator limitante para
   a velocidade de entrega, o negócio pode ser prejudicado: imagine, por
   exemplo, o transtorno que uma operadora de cartão de crédito teria  e
   causaria  se demorasse horas para aprovar um transação de um cliente
   pelo fato de o seu sistema de segurança não conseguir analisar
   rapidamente todos os dados que podem indicar uma fraude.

   variedade (variety) é outro aspecto importante. os volume de dados que
   temos hoje são consequência também da diversidade de informações. temos
   dados em formato estruturados, isto é, armazenados nos bancos de dados,
   e dados não estruturados oriundos de inúmeras fontes, como documentos,
   imagens, áudios, vídeos e assim por diante. é necessário saber tratar a
   variedade como parte de um todo  um tipo de dado pode ser inútil se
   não for associado a outros.

   veracidade (veracity)  não adianta muita coisa lidar com a combinação
   volume + velocidade + variedade se houver dados não confiáveis. é
   necessário que haja processos que garantam o máximo possível a
   consistência dos dados. voltando ao exemplo da operadora de cartão de
   crédito, imagine o problema que a empresa teria se o seu sistema
   bloqueasse uma transação genuína por analisar dados não condizentes com
   a realidade.

   valor (value) – são os resultados e benefícios significativos que
   justificam a afirmação que informação é poder, é patrimônio. a
   combinação volume + velocidade + variedade + veracidade, que
   caracteriza a solução bigdata deve apresentar valor para seu
   investimento.

   é claro que estes cinco aspectos não precisam ser tomados como a
   definição perfeita. há quem acredite, por exemplo, que a combinação
   volume + velocidade + variedade seja suficiente para transmitir uma
   noção aceitável do bigdata. sob esta óptica, os aspectos da veracidade
   e do valor seriam desnecessários, porque já estão implícitos no negócio
    qualquer entidade séria sabe que precisa de dados consistentes;
   nenhuma entidade toma decisões e investe se não houver expectativa de
   retorno.

   resumindo: bigdata é um conceito, no qual o foco é o grande
   armazenamento de dados e maior velocidade, baseado em 5v’s  volume,
   velocidade, variedade, veracidade e valor.

<file=9>
  
         
bigdata impõe novas questões éticas em pesquisas científicas na internet

   
   estados emocionais podem ser transferidos a outros via contágio,
   induzindo essas pessoas a experimentar as mesmas emoções sem que tenham
   consciência.

   logo a primeira frase de um estudo liderado pelo facebook mostra por
   que críticos da rede reclamaram do experimento, uma vez que usuários
   tiveram suas emoções contagiadas a partir de mudanças em suas linhas
   do tempo, sem saberem.

   ao todo, 689.003 perfis de usuários de língua inglesa serviram de
   cobaias sem consentimento expresso de seus donos –cerca de 1 em cada
   2.500 participantes da rede.

   feito em janeiro de 2012, o estudo consistiu em apresentar a algumas
   pessoas, durante determinado período, apenas conteúdo positivo. outra
   parte da amostra teve acesso só a conteúdo negativo.

   os testes deram base a um artigo no periódico científico pnas (em
   bit.lyestudofb).

   apesar de brasileiros não terem sido incluídos na pesquisa, já que
   foram selecionados apenas falantes de língua inglesa, esse tipo de
   experimento feriria as regras específicas do país.

   desde 1996, com a resolução 196, o conselho nacional de saúde determina
   que pesquisas com seres humanos precisam de autorização livre de
   vícios (simulação, fraude ou erro), dependência, subordinação ou
   intimidação.

   também deve haver explicação completa e pormenorizada sobre a natureza
   da pesquisa, seus objetivos, métodos, benefícios previstos, potenciais
   riscos e o incômodo que esta possa acarretar.

   mas o bigdata impõe novos desafios para os pesquisadores, afirma
   christian dunker, professor livredocente de psicologia na usp.

   ele explica que, enquanto grandes quantidades de dados possibilitam
   pesquisas antes impossíveis, são colocadas questões éticas que antes
   não existiam. esse estudo exemplifica o problema.

   o facebook tem uma divisão responsável por esse tipo de teste desde
   novembro de 2007, a data science team –equipe de ciência de dados,
   em português–, que na época da pesquisa era liderada pelo cientista da
   computação cameron marlow, doutor pelo mit (instituto de tecnologia de
   massachusetts).

   antes de deixar a empresa, ele publicou artigos demonstrando
   descobertas feitas a partir de sua base de dados. é a primeira vez que
   o mundo vê essa escala e quantidade de dados sobre comunicação humana,
   disse, em 2012, à revista mit technology review.

  
<file=10>
  
introdução

   obeservando o mercado digital ao longo do tempo sempre conseguimos
   identificar algum tema que se destaca frente aos demais. a própria
   linguagem de mercado os define como: trend, hot topics ou buzz word.

   o processo que elege esses temas segue sempre uma mesma fórmula.
   primeiramente gurus e evangelizadores de mercado propõem uma infinidade
   de buzz words, extraindo conteúdo desde estudos de vanguarda do mit até
   romances de isaac asimov. os termos que implacam são abraçados por
   agências e departamentos de marketing de todos os tamanhos que os
   elevam aos mais diferentes status: meta para o ano, produto a ser
   vendido, temática de workshops e assim vai.

   no entorno dessas ações existe toda uma comunidade que passa a discutir
   a nova tendência, amplificando sua relevância e tornando o tópico uma
   necessidade de mercado.

   o conceito de ‘bigdata’ começou a ser discutido a cerca de 70 anos, a
   produção escrita da humanidade crescia a taxas exponenciais e o acesso
   à informação enfrentava grandes desafios devido ao seu volume. essa
   discussão restringiase ao universo da filosofia, já que a tecnologia
   da informação ainda estava em uma etapa embrionária.

   o termo ‘bigdata’, no entanto, foi criado há 17 anos referindose �
   impossibilidade de armazenamento de grandes volumes de informação em
   data warehouses únicos, já que o armazenamento digital ainda não era
   tão eficiente como hoje em dia.

   em 2001, o problema de armazenamento já não era um grande fator
   limitante e grandes empresas ‘ponto com’ como amazon, ebay e walmart já
   acumulavam seus primeiros petabytes de informação. naquele ano, uma
   importante empresa de tecnologia (gartner, na época meta group) definiu
   ‘bigdata’ pela primeira vez no formato que discutimos hoje em dia. nos
   anos seguintes, a utilização do termo começou a se popularizar.

   foi em 2012 que barak obama desenvolveu a ‘bigdata research and
   development initiative’, projeto que aplicava grandes quantidades de
   dados para soluções dos mais diversos problemas de seu governo. também
   foi utilizando, no mesmo ano, inteligência de análise em ‘bigdata’ que
   obama conseguiu se eleger para um segundo mandato.

   esses últimos eventos eram o que faltava para criar o novo trend. as
   buscas pelo termo ‘bigdata’ no google triplicaram e no ano seguinte
   todos os evangelizadores falavam de ‘bigdata’, as empresas precisavam
   de ‘bigdata’ e as agências e consultorias o ofereciam como serviço em
   seus portfólios.

definição

   a definição mais aceita de ‘bigdata’ é aquela que a gartner propôs,
   como sendo um conjunto de dados com o comportamento definido por
   volume, velocidade e variedade (os três vs).

   volume: gigas, teras, petabytes de informações são geradas por
   funcionários, clientes, forncedores e máquinas em qualquer empresa
   todos os dias. essa é a dimensão mais imediata quando se pensa em ‘big
   data’ e traz desafios de armazenamento, transmissão e processamento ao
   mesmo tempo.

   velocidade: o volume de informação gerado é crescente e a janela de
   tempo para a tomada de decisão é cada vez menor. o desafio é conseguir
   atender as demandas esperadas de entrega de dados no tempo ideal. no
   limite, estamos falando de volumes imensos de dados alimentados em
   servidores em tempo real.

   variedade: os tipos de informação são mais complexos e diversos a cada
   dia: emails, posts, sons, vídeos, imagens, dados de gps, páginas web,
   etc. o desafio é grande para armazenálos e muito maior para
   interpretálos e analisálos.

   na prática, ‘bigdata’ apenas define informações de uma natureza
   específica, ‘bigdata’ não fala sobre como utilizar essa informação,
   com que agilidade ela deve ser manipulada ou que tratamentos
   estatísticos ela deve receber. o termo define uma problemática, mas não
   uma solução. por isso não faz sentido um projeto de ‘bigdata’, mas sim
   projetos que resolvam pontos específicos desse universo.

   para entender quais pontos são esses, vamos dividir o universo de uma
   forma mais estruturada.

soluções de bigdata

   quando falamos de soluções de ‘bigdata’ normalmente pensamos apenas em
   tratamentos algorítmicos complexos, inteligência artificial e análises
   semânticas, mas nem sempre é esse o problema. ‘bigdata’ é a definição
   da complexidade de dados que você possui e, pela definição, poderíamos
   dizer que saber a receita hora a hora de uma grande franquia de
   supermercados se encaixaria diretamente nesse conceito.

   os problemas podem ser de diversas naturezas, mas o framework de
   soluções é bem conhecido: etl de dados, procedimentos estatísticos e
   relatórios e visualização de dados. vamos discutílos em maiores
   detalhes.

   etl (extracttransformload)

   este é o nome que se dá ao processo de extração e processamento de
   dados para disponibilizálos para uma utilização final. o trabalho
   realizado nessa etapa varia muito de acordo com o volume e complexidade
   das fontes de dados: enquanto é muito direto armazenar ids de clientes
   ou receitas de transações, é muito dispendioso o armazenamento de
   textos de redes sociais ou chamadas telefônicas de sacs.

   a variedade de dados é um problema enfrentado não apenas no
   armazenamento, mas também na sua aquisição. quando temos muitas origens
   de dados diferentes precisamos, também, de um grande esforço de
   integração ou extração. para bancos de dados locais podemos  fazer uma
   conexão diretas para análise, caso em que o limitante é essencialmente
   o volume. mas frequentemente precisamos de informações de bancos de
   dados de terceiros e cada serviço diferente possui um protocolo de
   extração diferente. são os chamados webservices.

   para extrair dados de fontes como google analytics, facebook, twitter,
   ferramentas de email marketing e de alguns publicadores de conteúdo
   precisase programar um cliente que extraia dados via webservice de
   cada uma delas. para várias dessas conexões é possível encontrar
   extratores já programados por empresas de intergração de dados, caso
   contrário o desenvolvimento do webservixce deverá entrar para a conta
   do ‘bigdata’.

   não apenas o volume e variedade são críticos no processo de etl, mas
   também a velocidade de disponibilização do bd para utilização final. a
   arquitetura do banco deve responder em tempo compatível com as demandas
   de consulta direta, demandas de relatórios e demandas de alimentação de
   processos estatísticos.

   o etl é periódico e a disponibilização depende de todas as variáveis de
   performance da infraestrutura. a pressão é cada vez maior para que os
   dados estejam disponíveis em real time, mas muitas decisões podem ser
   tomadas com dados em d1 (atualizados até o dia anterior), a depender
   das necessidades de negócio do projeto.

   tratamento algorítmico (estatístico ou matemático)

   uma vez que os dados já estão todos armazenados e disponíveis de forma
   adequada, passamos para a etapa de tratamento e enriquecimento.

   a matéria de tratamento algorítmico abrange: criação de índices (como
   modelagem de ltv, payback e cohorts por cliente), aplicação estatística
   indutiva (análise de comportamento e clusters), modelagem preditiva
   (estimativa resultados futuros) e de algoritmos relativos a natureza de
   dados (processamento de imagens, análise semântica de textos, etc).

   esses processos têm grande dependência do resultado final que se
   deseja. cada empresa possui uma necessidade eou uma capacidade técnica
   de aplicar alguns ou vários dos métodos citados.

   as habilidades necessárias nessa etapa se dividem sobretudo entre
   conhecimentos de economia (econometria), computação, matemática e
   estatística. como se pode imaginar é muito difícil que uma empresa
   possua uma equipe que domine todas essa técnicas, tanto mais difícil é
   encontrar um profissional que, sozinho, consiga resolver todas elas. o
   padrão no mercado é tercerizar projetos com empresas especializadas que
   já acumulam expertise nas soluções desejadas.

   vamos listar aqui algumas das técnicas mais procuradas hoje em dia para
   que se possa ter referência do que buscar:

   – análise semântica: com a indiscutível relevância das redes sociais, a
   análise de posts, comentários e tweets desperta muito interesse nesse
   tópico. a idéia é indexar, segmentar e responder comentários das
   pessoas de acordo com o conteúdo de seus textos, mapear o humor dos
   clientes sobre uma marca e ser proativo em soluções de problemas.

   no entanto é argumentável que a análise semântica, sobretudo em
   português, ainda não produz resultados inteiramente satisfatórios,
   sendo necessário intervenção humana para correção e garantia de
   qualidade.

   outro método amplamente praticado é a análise 100% humana dos textos,
   onde pessoas realizam uma leitura (parcial ou total) dos textos, mapeam
   o que se pretende mapear e fazem as devidas segmentações.

   ambos os casos entregam bons resultados, mas que podem não ser
   satisfatórios no pilar da velocidade.

   – análise preditiva: tratase, por exemplo, de descobrir qual será o
   comportamento de vendas de um produto de acordo com suas
   características, ou a projeção de vendas de uma empresa de acordo com o
   histórico atual e indicadoreschave.

   existem métodos de aprendizagem de máquina (redes neurais) e outros
   algorítmos de inteligência artificial dão bons resultados para esse
   tipo de previsão, mas normalmente exigem um processamento pesado e, as
   vezes, não compatível com o contexto de ‘bigdata’.

   soluções alternativas para predição envolvem estatística preditiva
   (regressões lineares, quadráticas e exponenciais) que são simples e já
   ajudam a levantar previsões de resultados com margem de erro
   satisfatórias.

   um bom exemplo de aplicação dessas técnicas é para a análise de
   lifetime value de um cliente em 24 meses; a projeção é necessária, uma
   vez que o cliente ainda não realizou suas compras futuras.

   – análise de cluster: essa modalidade de análise guarda dois elementos
   de complexidade importantes.

   primeiramente existe vários métodos de clusterização (centróide,
   conectivo ou de densidade, para nomear alguns) que permitirão unir em
   um mesmo grupo jovens mulheres de são paulo e homens de meia idade de
   minas gerais, de acordo com semelhantes padrões de comportamento. esses
   métodos são ótimos para que se ofereçam ofertas adequadas para uma base
   de email marketing de acordo com seu padrão de compras, ou mesmo
   oferecer produtos matadores para clientes durante seu processo de
   navegação do site.

   novamente, existem empresas e ferramentas que já possuem bons cases de
   aplicação desse tipo de tecnologia no mercado.

   o segundo ponto importante que a segmentação de cluster levanta: é
   possível ver o comportamento de um cluster e com poucos cliques passar
   a ver o comportamento de outro? ou ainda, com mais alguns cliques
   construir seu próprio cluster cutomizado de análise?

   com esse questionamento, também pertinente a ‘bigdata’, passamos a
   discutir o último tópico desse artigo.

   relatórios e visualização de dados

   business intelligence (bi) é um conjunto de teoria, metodologias,
   arquiteturas e tecnologias que conecta as bases de dados brutas aos
   usuários finais da informação, da forma que eles precisam. há
   ferramentas desenvolvidas para atender necessidades de bi, bem como
   workframes de trabalho já consolidados e aplicados em todo o mundo.
   vamos chamar essa ponte entre a extração e a leitura de dados de modelo
   de “bi clássico”.

   no ‘bi clássico’ um dos pilares mais importante é como dispor a
   informação ao usuário final. compilar informações de vendas ao longo
   dos meses é simples com um gráfico de barras; para adicionar na análise
   a categoria de produtos vendidos podemos utilizar um gráfico de bolhas;
   mas e se quisermos adicionar uma quarta dimensão? ou uma quinta? como
   manter a legibilidade e a aparência dos gráficos?

   o conteúdo de um relatório é imprenscindível, mas a facilidade de
   compreensão desse conteúdo, mesmo para pessoas menos analíticas, é
   fundamental. vários estudos se propõem a equacionar estética,
   simplicidade e legibilidade de informações para falicitar a rápida
   consulta e tomada de decisão. essa é disciplina de bi conhecida como
   ‘data visualization’ e é estudada em universidades e empresas
   respeitadas que buscam criar e aprimorar formas de visualização de
   dados.

   a ‘data visualization’ trata da democratização do entendimento dos
   dados presentes em relatórios, mas existe uma segunda necessidade de
   democratização importante em bi: a das criações de perguntas que serão
   respondidas nos relatórios.

   quem nunca viu um determinado relatório analítico e disse:
   ‘interessante esse resultado, mas agora eu quero ver os mesmos números
   para são paulo’. e a resposta ouvida foi: ‘tudo bem, vou precisar de
   mais 5 dias para isso’.

   neste caso o analista de bi, ou mesmo alguém de ti, teria que voltar e
   alterar queries, reprocessar os dados e gerar o relatório todo
   novamente. a flexibilidade que o ‘modelo clássico’ permite não é
   compatível com as perguntas mais numerosas e complexas que precisam ser
   respondidas diariamente para manter as empresas competitivas.

   a resposta para isso é o ‘bi em memória’.

   para simplificar a distinção, imagine o ‘modelo clássico’ como um
   bibliotecário que sabe com precisão onde está armazenada cada
   informação em sua biblioteca, toda pergunta terá sua resposta, mas
   antes será necessário caminhar até a estante que contém a informação em
   questão, abrir um livro e consultálo. já o “bi em memória” é como se
   fosse um grande estudioso que sabe todas as informações sem precisar
   abrir nenhum livro para responder a uma pergunta, tudo está na ponta da
   língua.

   muito mais ágil e eficiente, esse modelo vem tomando espaço. ele retira
   o time de ti e os analistas técnicos de bi de vários dos passos da
   geração do relatórios, dando poder ao usuário final de responder muitas
   de suas perguntas sozinho (chamamos isso de ‘selfservice bi’).

   os relatórios passam a ser um ambiente onde qualquer um pode perguntar
   o que deseja saber, alterar as visões variando regiões, cluster de
   usuários, criar cluster de acordo com a receita, analisar e segmentar
   times de venda por desempenho, etc. com uma navegaçação mais ágil e
   ampla um grande universo de novas análises e descobertas ficam ao
   alcance de todos (chamamos isso de ‘data discovery’)

   para referência, os maiores representantes de ‘bi em memória’ e ‘data
   discovery’ são as ferramentas qlikview e tableau, mas outras gigantes
   ja estão se posicionando no segmento. vale lembrar que essas
   ferramentas se posicionam na ponta final do que estamos entendendo como
   ‘bigdata’, mas nem elas são capazes de resolver todo o problema
   sozinhas. importante lembrar que a etl e análise estatística já devem
   estar bem resolvidas nos passos que antecedem o momento de visualização
   da informação.

conclusão

   ‘bigdata’ tornouse um buzz word bastante popular para o qual tentamos
   dar mais significado nesse texto. é uma questão multifacetada e ter
   necessidade de soluções de ‘bigdata’ significa entender com mais
   precisão em qual segmento você precisa de ações (etl, estatística,
   visualização de informações, etc).

   buscar contratação de uma solução ‘bigdata’ envolverá a equipe interna
   que já opera com os dados, mas certamente envolverá contratações de
   ferramentas e fornecedores serviço com knowhow específico na solução
   que você precisa.

   e ainda, solucionar um problema de ‘bigdata’ não significa solucionar
   os outros possíveis problemas do mesmo universo. escopos bem definidos
   e uma boa gestão de projetos é indispensável para entender e atender
   toda as necessidades.

   no entanto, um projeto de ‘bigdata’ tratará de um universo de
   informações nunca antes trabalhado com seu devido rigor, o que
   significa que o potencial de insights e otimização de negócios é
   gigantesca, e consequentemente a economia gerada e a lucratividade
   alcançada crescerá em igual proporção.

 
<file=11>
    

   o termo bigdata está cada vez mais popular, embora ainda esteja mal
   compreendido. observo em muitas palestras que não existe consenso
   quanto a que realmente é bigdata e quais as tecnologias fundamentais
   que o sustentam. e mais ainda, existem muitas dúvidas de como
   tangibilizar o conceito, ou seja, como sair do conceitual e criar
   soluções de negócio que agreguem valor para as companhias.

   eliminar estas dúvidas é essencial e o primeiro passo para as empresas
   se aventurarem em projetos bigdata.

   imagem para colocarmos o termo em contexto, bigdata vem chamando
   atenção pela acelerada escala em que volumes cada vez maiores de dados
   são criados pela sociedade. já falamos comumente em petabytes de dados
   gerados cada dia, e zetabytes começa a ser uma escala real e não mais
   imaginária e futurista. o que era futuro há uma década, terabytes, hoje
   nós já temos nas nossas próprias casas.

   as tecnologias que sustentam bigdata podem ser analisadas sob duas
   óticas: as envolvidas com analytics, tendo hadoop e mapreduce como
   nomes principais e as tecnologias de infraestrutura, que armazenam e
   processam os petabytes de dados. neste aspecto, destacamse os bancos
   de dados nosql (no, significa not only sql). por que estas tecnologias?
   por que bigdata é a simples constatação prática que o imenso volume de
   dados gerados a cada dia excede a capacidade das tecnologias atuais de
   os tratarem adequadamente.

   começando pelo início. o que é bigdata? outro dia escrevi um post com
   uma fórmula simples para conceitualizálo. bigdata = volume +
   variedade + velocidade. hoje adiciono mais dois “v”s: veracidade e
   valor. vamos detalhar estes tópicos um pouco mais.

   volume está claro. geramos petabytes de dados a cada dia. e estimase
   que este volume dobre a cada 18 meses. variedade também, pois estes
   dados vêm de sistemas estruturados (hoje minoria) e não estruturados (a
   imensa maioria), gerados por emails, mídias sociais (facebook,
   twitter, youtube e outros), documentos eletrônicos, apresentações
   estilo powerpoint, mensagens instântaneas, sensores, etiquetas rfid,
   câmeras de vídeo, etc.

   velocidade porque muitas vezes precisamos agir praticamente em tempo
   real sobre este imenso volume de dados, como em um controle automático
   de tráfego nas ruas. veracidade porque precisamos ter certeza que os
   dados fazem sentido e são autênticos. e valor porque é absolutamente
   necessário qua a organização que implementa projetos de bigdata
   obtenha retorno destes investimentos. um exemplo poderia ser a área de
   seguros, onde a análise de fraudes poderia ser imensamente melhorada,
   minimizandose os riscos, utilizandose, por exemplo, de análise de
   dados que estão fora das bases estruturadas das seguradoras, como os
   dados que estão circulando diariamente nas mídias sociais.

   falamos que as tecnologias atuais de tratamento de dados não são mais
   adequadas. por que? vejamos o modelo relacional, proposto pelo
   pesquisador da ibm, edgar f. codd, em 1969. quando foi proposto, a
   demanda era acessar dados estruturados, gerados pelos sistemas internos
   das corporações. não foi desenhado para dados não estruturados
   (futurologia na época) e nem para volumes na casa dos petabytes de
   dados (inimaginável na época). precisavase sim de um modelo que
   categorizasse e normalizasse dados com facilidade. e o modelo
   relacional foi muito bem sucedido nisso, tanto que é o modelo de dados
   mais usado atualmente.

   para tratar dados na escala de volume, variedade e velocidade do big
   data precisamos de outros modelos. surgem os softwares de banco de
   dados nosql, desenhados para tratar imensos volumes de dados
   estruturados e não estruturados. existem diversos modelos como sistemas
   colunares como o big table, usado internamente pelo google (é a base de
   dados sob o google app engine),o modelo keyvalue como dynamodb da
   amazon, o modelo “document database” baseado no conceito proposto pelo
   lotus notes da ibm e aplicado em softwares como mongodb, e o modelo
   baseado em grafos como o neo4j. em resumo, não faltam opções...
   interessante lembrar que antes do modelo relacional já existia um
   software de banco dados que lidava com grandes volumes que é o ims da
   ibm, modelo hierárquico, criado para suportar o projeto apollo de
   conquista da lua e que ainda hoje é base da maioria das transações
   financeiras que circulam pelo mundo.

   por outro lado, esta diversidade de alternativas demanda que os líderes
   dos projetos de bigdata escolham a mais adequada ou mesmo demandem
   mais de uma opção, de acordo com as necessidades específicas.

   depois da infraestrutura é necessário atenção aos componentes de
   analytics, pois estes é que transformam os dados em algo de valor para
   o negócio. bigdata analytics não signfica eliminar os tradicionais
   sistemas de bi que existem hoje, mas pelo contrário, devem coexistir.
   recomendo enfáticamente a leitura do livro “competing on analytics: the
   new science of winning”, de thomas h. davenport, publicado pela harvard
   business schoool press. um bom exemplo de uso de hadoop para analytics
   é o biginsights da ibm.

   aliás, ao lado destas alternativas surgem outras opções, como o uso de
   appliances, como o netezza da ibm, que embarcam em um hardware adaptado
   todos os softwares necessários para criar projetos de bigdata. os
   appliances queimam etapas nos projetos de bigdata.

   quanto ao aspecto velocidade o conceito de stream processing permite
   tratamento em tempo real de dados. concretamente, o infosphere streams
   da ibm é um exemplo muito interessante. a ideia de stream computing é
   fantástica. um novo paradigma. no modelo de data mining tradicional uma
   empresa filtra dados dos seus vários sistemas e após criar um data
   warehouse, dispara “queries”. na prática fazse garimpagem em cima de
   dados estáticos, que não refletem o momento, mas sim o contexto de
   horas, dias ou mesmo semanas atrás. com stream computing esta
   garimpagem é efetuada em tempo real. em vez de disparar queries em cima
   de uma base de dados estática, colocase uma corrente contínua de dados
   (streaming data) atravessando um conjunto de queries. podemos pensar em
   inúmeras aplicações, sejam estas em finanças, saúde e mesmo manufatura.
   vamos ver este último exemplo: um projeto em desenvolvimento com uma
   empresa de fabricação de semicondutores pode monitorar em tempo real o
   processo de deteção e classificação de falhas. com stream computing as
   falhas nos chips sendo fabricados são detetados em minutos e não horas
   ou mesmo semanas. os wafers defeituosos podem ser reprocessados e, mais
   importante ainda, podese fazer ajustes em tempo real nos próprios
   processos de fabricação.

   adicionalmente, podemos pensar que a computação em nuvem é também um
   impulsionador para bigdata, pois podese usar nuvens públicas para
   suportar imensos volumes de dados e as caraterísticas de elasticidade
   das nuvens permitem que acionemos servidores virtuais sob demanda,
   aprenas no momento de tratar estes dados.

   enfim, bigdata já está batendo nas nossas portas. seu potencial ainda
   não está sendo plenamente reconhecido, mas já vemos sinais claros desta
   importância quando lemos relatórios como o “bigdata, big impact: new
   possibilities for international development”, publicado pelo world
   economic forum. este relatório mostra como a sociedade mundial pode
   usufruir do imenso volume de dados gerado por ela para ajudar a
   resolver problemas diversos como questões sócioeconômicas e mesmo
   prevenção de epidemias.

   quanto às empresas, bigdata abre um novo e ainda inexplorado
   território. carecemos de conhecimentos, experiências e mesmo de
   expertise profissional. começase a se falar em novas funções como
   “data scientists” (escrevi sobre isso em post anterior), mas é
   inevitável que os cios tenham que colocar bigdata na tela dos seus
   radares. as oportunidades que os cinco “v”s trazem não podem e nem
   devem ser desperdiçados.
   
<file=12>
   ﻿

   vou fazer uma pausa nos artigos sobre gestão de projetos de bigdata
   para falar um pouco sobre aprendizagem de máquina e sua relação com big
   data. com isso pretendo mesclar conteúdos mais gerenciais com algumas
   situações mais práticas deste assunto.

   participei em setembro de 2014 de uma conferência sobre bigdata nos
   estados unidos. tive o prazer de conhecer o prof. sunil sabat,
   especialista em machine learning e bigdata. ele possui um blog cuja
   leitura é recomendada pelos que se interessam no assunto:
   http:bigdataknowhow.weebly.com.

   a aprendizagem de máquina (machine learning) é uma área da computação e
   da estatística que lida com a construção de sistemas que são capazes de
   aprender com os dados e eventualmente até com suas próprias decisões.
   este tipo de sistema é capaz de tomar decisões baseadas nos dados
   disponíveis e as decisões tomadas pelo sistema podem realimentar a base
   de dados. desta forma o sistema não segue apenas a lógica imposta pelo
   desenvolvedor e sim se ajusta sem a intervenção humana.

   você pode imaginar que este assunto é novo, mas na realidade esta
   definição existe desde o final da década de 1950.

   é natural concluir que, com o advento do bigdata as possibilidades de
   criar modelos deste tipo sejam bastante ampliadas. e a assertividade
   das previsões também. quanto mais dados, melhores as previsões.

   falando em previsão, acho importante deixar clara a diferença básica
   entre machine learning e data mining. os dois conceitos se
   complementam, mas também se sobrepõem. o foco principal do machine
   learning é realizar previsões baseadas em dados conhecidos e utilizados
   para “treinar” o algoritmo. o foco principal do data mining é a
   descoberta de propriedades dos dados que antes não eram conhecidos. por
   este motivo o machine learning se utiliza do data mining para aprimorar
   a acuracidade do treinamento e avaliação do modelo (vide abaixo).

   o prof. sunil cita em seu blog os seguintes passos para adoção e
   desenvolvimento do processo de machine learning:
    1. data selection: a identificação dos dados que serão utilizados para
       atingir o objetivo é fundamental para o sucesso do projeto. este
       processo envolve a limpeza, seleção e adequação dos dados que serão
       utilizados. se você não tem os dados adequados, não há como tentar
       fazer previsões.
    2. feature selection: selecionar as características dos dados
       utilizados é um passo muito importante. devese escolher os dados
       menos sensíveis a ruídos e que sejam mais fáceis de serem
       manipulados. neste momento é feita a divisão entre os dados que
       serão utilizados para treinamento do modelo e os dados para
       realização dos testes.
    3. model selection: devese iniciar por modelos mais simples e
       aumentar a complexidade se necessário. este modelo é uma parte de
       uma realidade passada que você tem total controle sobre aquilo que
       aconteceu. desta forma você poderá realizar as fases seguintes de
       treinamento e testes identificando se o seu algoritmo será capaz de
       prever com o maior nível de assertividade.
    4. learning: a fase de treinamento é extremamente importante para que
       o processo seja concluído com êxito. identifique os parâmetros
       adequados que minimize o erro do algoritmo. entenda que seu
       algoritmo precisa destes parâmetros e dos resultados para saber
       como se comportar nas fases posteriores.
    5. evaluation: esta é a fase dos testes. se o algoritmo apresentar um
       erro muito grande fatalmente será necessário rever o modelo e
       realizar novamente a fase 4.
    6. application: aplicar o modelo com dados que você não sabe o
       resultado. nesta fase você prevê, espera acontecer e analisa se o
       resultado previsto bate ou não com a realidade. se deu certo (ou
       próximo à realidade), passo 7. do contrário, volte ao passo 5.
    7. production: modelo validado e aplicado com sucesso, chega a hora de
       colocar tudo em produção.

   simples, certo? infelizmente não. os resultados normalmente são muito
   interessantes quando se chega no último passo. porém, até lá isso pode
   demorar um pouco (ou muito).

   a vantagem é que este processo é possível de se colocar em prática.
   tendo acesso aos dados, conhecimento da técnica, do negócio e um
   objetivo claro em mente você também será capaz de ter sucesso neste
   processo.

   dos quatro elementos citados no parágrafo anterior, provavelmente o
   mais difícil seja o “objetivo claro”. você só terá um objetivo claro se
   souber fazer a pergunta certa. e a pergunta certa para bigdata será o
   tema do meu próximo post.

   até lá!

<file=13>

   
   escritórios de advocacia e departamentos jurídicos armazenam,
   diariamente, um grande número de dados oriundos de processos, arquivos
   internos, documentação de clientes etc. em outras palavras, isso
   significa bigdata.

   bigdata jurdico isso existe

   ter muitas informações pode passar a sensação de que sua empresa está
   ‘bem informada’. mas elas [as informações] se tornam apenas dados
   dispersos e supérfluos caso seu negócio não consiga organizálas,
   analisálas e convertêlas em visão de negócio ou novas oportunidades.
   é a partir daí que bigdata começa a funcionar. o conceito sugere
   ferramentas e tecnologias capazes de segmentar essas informações,
   sistematizandoas e encontrando padrões. sendo assim, o bigdata é
   capaz de transformar dados brutos em informações úteis para tomadas de
   decisões estratégicas. o físico alemão andres weigend, uma das maiores
   autoridades mundiais sobre o tema, vai além. diz que “é o bigdata quem
   irá tomar as decisões pela empresa”.

   ao nos aprofundarmos um pouco mais em bigdata, encontraremos também
   uma definição do termo através dos 5 vs: valor, veracidade, variedade,
   volume e velocidade; que fundamenta os critérios do bigdata na
   prática. mas não é necessário ir adiante. afinal, já desvendamos o que
   verdadeiramente importa ao universo jurídico  a essência do bigdata,
   que podemos traduzir na coleta, análise e organização de informações
   que se transformam em estratégias de negócio.

   em virtude do fluxo de dados ser ‘big’ e recorrente, o correto seria a
   empresa ou o escritório investirem em ferramentas de b. i (business
   intelligence). um software jurídico é um bom exemplo. com ele, podese
   ter acesso a panoramas financeiros e desempenho dos profissionais em
   tempo real, através de relatórios. com estes indicadores, é possível
   tomar atitudes de negócio: reter algum tipo de gasto, verificar que
   algum profissional não está sendo produtivo ou que é mais produtivo
   realizando determinada função.

   a lista de informações e conclusões que um sistema jurídico pode
   oferecer é ampla. podese segmentar, por exemplo, o faturamento da
   empresa por cliente, por natureza, por caso; além de indicadores como
   provisionamento do contencioso, honorários, contratos que estão prestes
   a vencer e outros já apresentados em matérias anteriores desta edição.
   o sistema também é flexível o suficiente para empresas e escritórios
   analisarem seus resultados de maneira personalizada e a partir daí
   direcionarem novas abordagens de negócio ou identificar alguma aptidão.
   ou seja, a informação não é apenas registrada, mas ganha consciência e
   utilidade para a organização.

   o universo jurídico ainda pode se apropriar das práticas do bigdata
   para se tornar um grande gestor de conteúdo – e aqui o auxílio de um
   software jurídico transcende as necessidades de uma empresa e de um
   escritório de advocacia e atinge, também, os autônomos.

   ao se produzir um documento de caráter jurídico (uma tese, um parecer,
   uma ata ou uma defesa) ou até mesmo documentos de caráter
   administrativo do departamento jurídico (contratos, declarações,
   relatórios) você está produzindo um conhecimento. e é importante que
   você o tenha ao alcance sempre quando precisar. isso fica mais evidente
   no segundo caso [documentos administrativos], já que a empresa precisa
   criar diretrizes para quando vai, por exemplo, contratar um escritório
   terceirizado. ela precisa ter um modelo de contrato à mão sempre que
   precisar contratar um novo escritório.

   seguindo a lógica de arquivar documentos e organizálos para eventuais
   necessidades ou até mesmo para aprimorálos, gerenciar conteúdo também
   é um benefício aos escritórios e autônomos. digamos que neste exato
   momento você esteja atendendo uma demanda muito semelhante com alguma
   que viu há alguns meses atrás, de outro cliente. perceba a vantagem de,
   de modo prático, poder encontrar no seu sistema documentos que auxiliem
   você a trabalhar em cima deste processo.

   diante dos dois cenários que vimos, é importante que comecemos a
   prestar atenção no bigdata e no que ele tem a ver com as atividades
   jurídicas da sua empresa ou do seu escritório. afinal, não se trata de
   ‘estar informado’, mas do que fazer com as informações.


<file=14>

   
bigdata: muita calma nessa hora

   
   a maioria das empresas está se preparando para implantar projetos de
   bigdata. uma pesquisa recente do gartner mostra que 73% das
   organizações já investiram ou planejam investir nesta tecnologia nos
   próximos dois anos.

   73% das organizações já investiram ou planejam investir em bigdata em
   2 anos. foto: mikko lemolashutterstock.
      watson é o ponta de lança da ibm
      sonda: r$ 1 mi em app baseado em bigdata
      tim importa técnicos de bigdata

   mas, será que sua empresa está entre elas? e se estiver, tem
   consciência sobre todas as etapas que envolvem uma estratégia de
   sucesso neste sentido? não é à toa que o mesmo estudo tenha apresentado
   um número de apenas 13% das organizações com projetos de bigdata em
   produção, em 2014.

   diferentemente de business intelligence (bi), o bigdata não é um
   processo tradicional, de armazenar os dados em um local específico e
   compartilhálos. a maioria dos projetos de bigdata tende ao fracasso,
   por não se atentar ao fato: não basta aplicar tecnologias de bigdata
   em um grande volume de dados para se obter sucesso com as oportunidades
   de negócios.

   as empresas precisar estar atentas aos passos chave para a construção
   de uma estratégia vencedora de bigdata. ela inclui:


    a qualidade dos dados – o processo vai gerar um modelo no final, você
   vai armazenar os dados, recuperar e projetar o que há por vir. mas,
   quem disse que essa projeção será correta? o grande impacto na
   qualidade dos seus modelos é a qualidade dos dados. se os modelos forem
   bons, a expectativa de sucesso é maior.


    ter os dados necessários – por exemplo, se tivéssemos,
   hipoteticamente, todas as informações sobre uma urna de sorteio da mega
   sena, sobre o vapor que circula dentro dela, dos movimentos possíveis
   das bolas e o peso preciso de cada uma delas, o tempo exato em que o
   vapor sopra dentro da urna, conseguiríamos prever as bolas sorteadas.
   maravilha! mas isso não é possível, pois não possuímos esses dados. com
   os dados desestruturados e estruturados que sua empresa dispõe pode
   ocorrer o mesmo.


    infraestrutura para alto volume de processamento – muito se fala
   sobre o hadoop, hoje em dia, mas, quantas empresas conhecemos que
   possuem 50 servidores disponíveis para, na próxima semana, implantar
   uma estrutura hadoop e “rodar” altíssimo volume de dados? dificilmente
   haverá tais condições e estrutura ociosa e preparada para tal tarefa,
   rapidamente.


    profissionais adequados à oportunidade – são necessários diversos
   perfis de profissionais, que tenham expertise, tanto em técnicas e
   metodologias quanto em termos de negócios. atualmente, há uma
   supervalorização da tecnologia, mas é preciso primeiro reconhecer e
   compreender as oportunidades de bigdata para melhorar o negócio e,
   depois, identificar a solução mais adequada para o problema.


    confidencialidade dos dados – dependendo do setor de atuação da
   empresa, a confidencialidade dos dados é um ponto inalterável. nestes
   casos, a disponibilidade dos dados será reduzida e será preciso
   trabalhar com outras oportunidades de bigdata. uma empresa de
   telecomunicações, por exemplo, não pode simplesmente utilizar os dados
   de tráfego ou de acesso dos seus clientes, vendelos ou depois usálos
   a fim de obter insightsde negócios.


    momento de “go” e “no go” – saber quando executar a oportunidade de
   bigdata ou não é um ponto crítico. a hora em que se detectam várias
   oportunidades e entendese bem o que é bigdata é essencial, tem que
   existir um momento de refletir se a empresa atende a todos os
   “requisitos” anteriormente explicados. isto pode, muitas vezes,
   culminar na decisão de não realização de uma iniciativa que não será
   bem sucedida.


   a empresa pode realizar um workshop de bigdata que traga reflexão
   sobre o assunto para a equipe de ti e para as áreas de negócios, onde
   se detecte onde estão as grandes oportunidades.

   depois, podese falar de estruturação de bigdata dentro da
   organização, disseminar a informação para que as oportunidades sejam
   enxergadas, tratar da otimização da equipe e, então, fazer a escolha da
   tecnologia a ser empregada. fazer a análise dos cenários da empresa é
   essencial para obter sucesso nas iniciativas envolvendo bigdata.

   
<file=15>
  

bigdata: desafios e oportunidades para o varejo

   
   poucos segmentos de negócio tiveram seus processos, estratégias, e
   resultados afetados por novas tecnologias, especialmente aquelas
   relacionadas à aplicações analíticas e bigdata, como o varejo. segundo
   estimativa do mckinsey global institute (mgi), em 2009, quase todos os
   setores da economia dos eua possuíam, em média, 200 terabytes de dados
   armazenados por empresa com mais de mil empregados. esse volume de
   dados é equivalente a 2 vezes o tamanho do data warehouse do walmart,
   maior rede de varejo americana, em 1999. nesse estudo fica evidente
   que, na primeira década do século xxi, as empresas e pessoas produziram
   dados em um ritmo muito acelerado comparado com qualquer outro período
   da história da humanidade. esse ritmo levou muitas companhias de médio
   porte a acumular um volume de dados superior à quantidade de informação
   existente (10 anos antes) nos repositórios centralizados de grandes
   empresas.

   certamente, ao mesmo tempo em que seus concorrentes de menor porte
   aumentavam seu portfólio de dados e aplicações, o walmart não se
   acomodou nem tão pouco diminuiu sua estratégia em transformar dados em
   informação e conhecimento relevante para tomada de decisão. essa
   atitude foi fundamental para aumentar sua produtividade, rentabilidade,
   e eficiência em seus processos comerciais, o que levou esta companhia a
   se tornar um ícone no varejo em todo o mundo. no final de 2008, a
   companhia contratou a hewlett packard para construir um data warehouse
   capaz de armazenar 4 petabytes (ou 4.000 terabytes), volume de dados
   aproximadamente igual a 40 vezes à quantidade armazenada em sua
   primeira infraestrutura. seu ambicioso projeto tinha por objetivo não
   apenas armazenar, mas também identificar padrões e perfis de consumo
   baseados em mais de 267 milhões de transações diárias realizadas em
   cada um dos seus mais de 6.000 pontos de venda. para isso, o walmart
   contratou também especialistas em análise e mineração de dados para
   implementar modelos e aplicações baseados em algoritmos de aprendizado
   de máquina que também tinham por objetivo avaliar a eficácia de suas
   estratégias de preço e campanhas de marketing, bem como contribuir para
   uma melhor gestão do seu inventário de produtos e de sua cadeia de
   suprimentos.

   as características do projeto e o sucesso da estratégia de bigdata do
   walmart (antes mesmo do termos bigdata se tornar conhecido na
   sociedade de um modo geral) acabaram influenciando outras companhias
   (não apenas de varejo) a seguir o mesmo caminho. uma constatação disso
   pode ser verificada em recente estudo realizado pelo idg enterprise,
   também relacionado ao mercado americano, indicando que 80% das grandes
   empresas e 63% das empresas pequenas e médias estão implementando ou
   têm a intenção de implementar soluções de bigdata no ano de 2015.

   a partir da análise de pesquisas como a do idg é possível inferir que,
   apesar do aumento do volume, da variedade, e da velocidade com que os
   dados são produzidos, cada vez mais empresas estão investindo na
   implementação de soluções de bigdata, mesmo com orçamentos bem mais
   modestos que o walmart. existem algumas explicações para essa aparente
   contradição, uma vez que para cenários mais complexos e com maior
   volume de dados seria esperado um maior investimento das empresas em
   plataformas de armazenamento, gerência, e análise de dados.

   a primeira explicação para um maior número das empresas, em especial do
   varejo, investir na implementação de soluções analíticas está
   relacionada ao que foi conhecido como lei de kryder, que estima uma
   relação cada vez mais favorável para o mercado consumidor entre o preço
   de dispositivos de armazenamento digital e sua respectiva capacidade de
   armazenar dados. os avanços tecnológicos que têm permitido as empresas
   acumular e tornar acessível mais dados aos seus executivos e analistas
   também podem ser observados na arquitetura de computadores que
   atualmente viabilizam o uso de capacidade de processamento várias
   ordens de magnitude superior ao que era possível utilizar em um passado
   recente pagando o mesmo preço.

   a segunda explicação está relacionada a pontos que já mencionamos em
   outros artigos neste espaço. o advento de plataformas analíticas de
   data discovery, com demandas de investimento significativamente
   inferiores às plataformas tradicionais de bi, que permitem o uso de
   soluções analíticas avançadas diretamente por gestores e analistas de
   negócio, tem sido um fator muito relevante para expandir o alcance dos
   projetos de bigdata em todos os segmentos de negócio.

   no varejo, como em qualquer outro tipo de negócio, a partir do momento
   em que a tecnologia proporciona a obtenção de respostas de forma fácil,
   completa, e eficaz para as questões relevantes para a gestão de cada
   processo, fazer as perguntas certas passa a ser o grande desafio das
   organizações.  as perguntas mais frequentes na gestão desse tipo de
   negócio envolvem: (1) definição de política comercial com base em
   análise de preços e elasticidade de demanda, (2) seleção dos produtos e
   plano de abastecimento adequados para cada tipo de canal, considerando
   insights de mídias sociais, relatórios de mercado, dados internos de
   venda, e padrões de consumo de clientes, e (3) estimativa de níveis de
   estoque adequados em ponto de venda e centro de distribuição com base
   em análise de sentimento do cliente e efeito esperado de promoções que
   possam servir de alerta para antecipar demanda futura.

   no brasil, além das questões relevantes que direcionam as ações e
   estratégias de praticamente todas as empresas de varejo, o ano de 2015
   será particularmente desafiador em função de ajustes macroeconômicos
   que possivelmente terão algum efeito negativo sobre a demanda,
   especialmente no primeiro semestre do ano. neste sentido, gerenciar e,
   bem mais importante, tirar proveito do grande volume de dados (públicos
   e internos) passou a a ter uma relevância ainda maior para as empresas
   de varejo no que se refere à competitividade e à capacidade de superar
   com tranquilidade eventuais reduções na demanda provocados por fatores
   externos. para essas empresas, não há tempo a perder: o tempo do big
   data já chegou. o que ainda se configura como diferencial competitivo,
   logo se tornará fator de sobrevivência para o varejo.
   tags analytics, bigdata, business intelligence, retail, varejo
   [pinmask2.png] compartilhar
   renilton oliveira

sobre renilton oliveira

  
<file=16>
  
5 mitos sobre bigdata

   samuel arbesman, matemático e cientista de redes, professor da ewing
   marion kauffman foundation e autor do livro the halflife of facts,
   publicou na semana passada um artigo no washington post sobre o que é e
   o que não é bigdata. segundo o prof. arbesman, o tema inicia com a
   promessa do uso de grandes quantidades de informação para nos ajudar a
   entender melhor o mundo, mas termina com hiperboles. e ele gostaria de
   esvaziar um pouco a bola dos que discutem o assunto sem muita
   profundidade, mostrando 5 mitos que perpassam a discussão:

   1  “bigdata” tem uma definição clara. o termo, lembra o professor,
   está em circulação pelo menos desde a década de 1990, quando
   acreditase ter originado no vale do silício. a ibm oferece uma
   definição aparentemente simples: bigdata é caracterizada por quatro
   vs: volume, variedade, velocidade e veracidade. mas o termo é jogado
   pra lá e pra cá em tantos contextos  ciência, marketing, política,
   esportes  que o seu significado tornouse vago e ambíguo. ninguém
   discute que classificar por relevância todas as página da internet ou
   pesquisar os registros de todos os telefones dos clientes da verizon
   nos eua qualificamse como aplicações de “bigdata”. mas será que
   implica na necessidade de envolver mais informações do que pode ser
   processado por um único computador doméstico? se for assim, análises de
   marketing não se qualificam, nem a maioria do trabalho feito pelo
   facebook. o fato é que há muita confusão e os especialistas da
   indústria e os cientistas muitas vezes acabam falando apenas uns para
   os outros.

   2  “bigdata” é novo. é verdade, lembra também o professor, que
   atualmente podemos extrair grandes quantidades de dados – textuais,
   sociais, científicos e de outros – usando algoritmos complexos e de
   energia do computador. as ciências utilizam grandes volumes de dados há
   bastante tempo. no início dos anos 1600, johannes kepler usou o
   conjunto de dados astronômico detalhado de tycho brahe para elucidar
   certas leis do movimento planetário. pergunte aos estatísticos, e eles
   vão dizer que analisam grandes volumes de dados há séculos. para eles,
   “bigdata” não passa de uma versão mais sexy da boa e velha
   estatística, com algumas novas ferramentas que nos permitem pensar mais
   amplamente sobre o que os dados podem ser e como gerálos.

   3  “bigdata” é revolucionário. se você está buscando mais
   publicidade, tudo bem, admite o professor, então “bigdata” é
   revolucionário. no geral, porém, é provável que tenha um impacto
   modesto e gradual em nossas vidas. quando um fenômeno ou um efeito é
   grande, normalmente não precisa de grandes quantidades de dados para
   reconhecêlo (e a ciência tem se concentrado tradicionalmente sobre
   esses grandes efeitos). quando as coisas são mais sutis, um grande
   volume de dados ajuda. ele pode nos levar a pequenas peças de
   conhecimento: como adaptar um produto ou como tratar uma doença um
   pouco melhor. se essas peças podem ajudar muita gente, o efeito pode
   ser grande. mas revolucionário para um indivíduo? provavelmente não.

   4  mais é melhor. no campo científico, algumas análises alucinantes de
   grandes dados estão sendo feitas. e,  no mundo dos negócios, as
   empresas estão sendo orientadas a abraçar bigdata antes de seus
   concorrentes. mas, alerta o professor, dispor de grandes volumes de
   dados não é automaticamente melhor. na verdade, pode ser uma bagunça. a
   menos que os pesquisadores e analistas consigam reduzir o número de
   variáveis e tornar os dados mais gerenciáveis, o que teremos é
   quantidade sem qualidade.

   5  bigdata significa o fim das teorias científicas. chris anderson
   argumentou em um ensaio publicado na wired em 2008, que grandes volumes
   de dados tornarão o método científico obsoleto: jogue dados suficientes
   em uma avançada “learning machine”, e todas as correlações e
   relacionamentos vão simplesmente aparecer. vamos entender tudo.

   mas você não pode simplesmente ir pescar correlações e esperar que elas
   expliquem o mundo, comenta o professor arbesman. se não tiver cuidado,
   você vai acabar com correlações espúrias. ainda mais importante: para
   lidar com o por que das coisas, ainda precisamos de ideias, hipóteses
   e teorias. se você não tem boas perguntas, os seus resultados podem ser
   bobos e sem sentido.
   
<file=17>
   

por que a internet das coisas será alavanca de bigdata e analytics

   tecnologia  09 de outubro de 2015 às 16h40
   cada vez mais, todo tipo de equipamento passará a ter a capacidade de
   gerar dados que alimentarão ambientes computacionais
   anderson figueiredo 

   todos os artigos publicados, eventos realizados e discussões promovidas
   no campo da tecnologia da informação e de telecom (tic) nos últimos
   cinco anos não conseguiram se dissociar de quatro temas. na opinião
   geral, esses tópicos vêm norteando e por algum tempo (não sei
   dimensionar qual a duração temporal disso) continuarão a ser os
   principais direcionadores da transformação digital que assistimos nesse
   período.

   estou me referindo à mobilidade, que considero o grande motor dessa
   transformação; de computação em nuvem, que proporciona a viabilização
   dessa nova realidade; da explosão de dados e do ferramental denominado
   bigdataanalytics, que cada vez mais são os grandes habilitadores na
   conversão desses dados em informações úteis às pessoas e às
   corporações; e finalmente, das redes sociais (ou melhor dizendo, do
   social business), com sua capacidade quase imensurável de alimentar
   instantaneamente toda a infraestrutura de ti e telecom com os mais
   diversificados tipos e modelos de dados.

   a grande dúvida que paira sobre a mente da grande maioria dos gestores
   de ti é como incorporar da melhor maneira possível as benesses dessas
   novas vertentes tecnológicas para as próprias áreas de ti e,
   principalmente, no alinhamento cada vez mais necessário para atender às
   estratégias de negócio das organizações.

   existe a necessidade de desenvolver aplicações móveis, estabelecer
   políticas e procedimentos para atender às demandas cada vez mais
   constantes de byod (bring your own device), contratar equipamentos e
   softwares no modelo de cloud, pagando apenas pelo que se consome, e
   ainda buscar nos dados gerados pelas redes sociais, as informações que
   sejam úteis para o negócio e por aí vai...

   esse breve preâmbulo nos apresenta um cenário complexo e que vem
   pressionando constantemente os executivos de ti para apresentar
   inovações e propor transformações, ao mesmo tempo em que devem manter
   suas operações em funcionamento.

   essa situação agravada pela evolução constante e ininterrupta da
   tecnologia que ao propor novos produtos e novas soluções a todo o
   momento aumenta a complexidade desse cenário, gerando novas
   possibilidades e oportunidades.

   um bom exemplo é a chamada internet das coisas (iot), que desde 2014
   começa a ocupar espaço e ver aumentada a sua importância na agenda de
   gestores de tic. a conexão entre iot e um dos quatro pilares acima
   apresentados, bigdataanalytics, é o que exploraremos a seguir.

   os impactos da internet das coisas
   em um conceito bem amplo, iot referese à integração
   “machinetomachine” por meio de sensores instalados em diversos
   objetos comuns de nosso diaadia que se conectam com sistemas
   complexos de ti (hardware e software) que possuam alta capacidade de
   armazenamento e processamento.

   cada vez mais, turbinas de avião, relógios, óculos, roupas, automóveis
   e todo tipo de equipamento passa a ter a capacidade de gerar dados que
   alimentarão esses ambientes computacionais para posterior utilização
   por parte de empresas e organizações, independentes de seus portes, de
   suas localizações ou do segmento da economia em que atuem.

   o grande desafio passa a ser o provimento de ambientes e tecnologias
   computacionais de ponta que possibilitem o atendimento ao crescimento
   contínuo do ecossistema móvel, extraindo o valor potencial dos dados
   gerados através da conexão segura e confiável de bilhões de
   dispositivos.

   se olharmos esse desafio por um prisma diferente a partir da inclusão
   da internet das coisas ao cenário, podemos constatar uma tendência
   extremamente favorável para que as empresas possam finalmente se
   beneficiar da enorme quantidade de ferramentas de bigdataanalytics
   existentes no mercado.

   o que iot traz de diferente para o cenário que justifique essa
   afirmação sobre um cenário positivo para bigdataanalytics? se big
   dataanalytics é um conceito que não teve a expansão prevista nos
   últimos cinco anos, como acreditar nessa previsão?

   a resposta a essas e outras questões de teor equivalente se apoia em um
   “pequeno” detalhe, que em minha opinião faz toda a diferença. como
   sabemos, os dados digitais apresentam crescimento anual de 150%, ou
   seja, nos próximos 12 meses teremos algo ao redor de 1,5 zettabytes de
   novos dados sendo armazenados em nossos ambientes de ti.

   de acordo com as mais respeitadas consultorias dos mercados de ti e
   telecom, cerca de 90% desses dados são não estruturados e isso cria uma
   dificuldade imensa em se transformar esses dados para o tradicional
   formato das atuais bases de dados relacionais utilizadas pelas
   empresas.

   por isso, temos um mercado que não atinge as expectativas de
   crescimento de receitas, praticamente não temos casos expressivos de
   sucesso de aplicação de bigdataanalytics e assistimos a uma
   dissonância entre os discursos do benefício das ofertas e os resultados
   práticos da utilização dessas ferramentas.

   quando falamos de dados gerados através de “coisas”, devemos incluílos
   nos 10% restantes desses 1,5 zettabytes que são estruturados; afinal de
   contas toda mensagem enviada por cada um dos sensores desses objetos
   possui um layout definido e, portanto, não há a necessidade de se
   desenvolver softwares ou aplicações específicas para a transformação
   dos dados coletados como ocorre com o tratamento a dados não
   estruturados.

   dessa forma, os dados podem ser incorporados mais rapidamente às bases
   de dados atuais, o desenvolvimento de algoritmos que transformem esses
   dados em informações úteis e relacionadas à inteligência de negócios
   fica mais eficaz e aí sim podemos utilizar os dados em sua plenitude e
   num tempo alinhado à velocidade que o mercado exige.

   como afirmei no início do parágrafo anterior, os 10% correspondentes
   aos dados estruturados (ou algo próximo de 150 exabytes) tem tudo para
   representar um alto valor para as empresas quando tratados por
   algoritmos bem elaborados e se avaliarmos as expectativas de
   crescimento exponencial para internet das coisas com a consequente
   geração de dados estruturados oriundos dos bilhões de sensores
   espalhados pelo mundo, podemos sim chegar à conclusão que o título do
   artigo está muito mais próximo da realidade que podíamos prever.

   esse contexto se tornará realidade uma vez que o advento da internet
   das coisas e seus dados estruturados irá representar o grande
   provocador da expansão e adoção definitiva de produtos e soluções de
   bigdataanalytics por parte dos gestores de ti, em uma parceria
   tecnológica de sucesso garantido.

   isso porque, dados só são importantes quando podem ser transformados em
   informações úteis. melhor então se pudermos trabalhar com uma imensidão
   de dados de formato conhecido (iot e bigdata) que venham a nos
   proporcionar informações qualificadas (analytics) e no tempo adequado
   às necessidades dos nossos negócios.

  
<file=18>
   
a importância do bigdata na detecção de fraudes

   
   estudos apontam que, no brasil, empresas perdem cerca de 5% do seu
   lucro com fraudes. de um lado estão os cibercriminosos cada vez mais
   sofisticados e acompanhando a evolução tecnológica e do outro as
   instituições que são obrigadas a ampliar esforços na proteção dos dados
   de seus clientes e demais informações confidenciais. e é a análise de
   dados que fará com que as empresas consigam combater a ação desses
   fraudadores. melhor ainda se essa base de dados for construída e
   estruturada em hadoop. a combinação do hadoop com outras tecnologias
   ajuda aos cientistas de dados a transformarem o bigdata em
   conhecimento e fatos palpáveis ao permitir que as empresas consigam
   extrair insights de seu negócio de forma mais rápida e com maior
   precisão possível, assim reduzindo riscos e melhorando a compreensão
   dos negócios.

   carlos5_bx151005_173257 a utilização do bigdata para análise de
   fraudes no brasil é praticamente inexistente. nenhuma empresa do setor
   financeiro, por exemplo, trabalha base hadoop no país, e o principal
   motivo é a falta de informação sobre o tema. é necessário que as
   empresas saibam lidar com o enorme volume de dados gerados, pois é
   certo que eles irão aumentar cada vez mais.  elas precisam olhar para o
   futuro e imaginar todos os dispositivos que estarão conectados por seus
   clientes. calculase que até 2020, 30 bilhões de dispositivos estejam
   conectados, contra 10 bilhões em 2013. quanto mais dados gerados, maior
   a possibilidade de se perder nessas informações e não identificar o que
   realmente interessa.

   o próximo passo é agregar informações, identificar o perfil do cliente,
   utilizar as ferramentas necessárias e estar preparado para receber e
   analisar essas informações. a combinação ideal de várias fontes de
   dados e a melhoria da qualidade dos processos de análise dos mesmos são
   outros desafios para as companhias. é nesse contexto que a participação
   de um cientista de dados tornase ainda mais essencial. ele terá o
   conhecimento necessário para analisar os resultados gerados e trabalhar
   dentro da prevenção à fraude com análises aprofundadas.

   indústrias como de varejo e ecommerce já conseguem realizar boas
   análises de seus dados. mas o mercado financeiro ainda carece de
   conhecimento das ferramentas e técnicas que poderiam ser usadas em
   favor dos negócios e até mesmo dos clientes.

   a utilização do bigdata para a prevenção de fraudes é uma tendência
   natural e indispensável. as tecnologias existentes hoje são suficientes
   para analisar os dados gerados atualmente, mas o futuro ainda é um
   ambiente desconhecido e é importante que as companhias conheçam os
   benefícios que essas tecnologias trarão para seus negócios para
   incentivarem a exploração dessas técnicas. é possível ter um olhar
   completo de todos os canais conectados pelos clientes que serão vistos
   de forma única, independente da conexão. mais informações serão geradas
   para traçar o perfil do fraudador e tratar o cliente de maneira
   diferenciada. novas informações serão agregadas ao processo de
   prevenção a fraudes e a velocidade na identificação dessas atividades
   será aumentada, gerando benefícios financeiros para ambos os lados.
   mas, para que tudo isso aconteça, a infraestrutura de base de dados da
   empresa precisa suportar a base hadoop, tendo um objetivo claro e
   específico e definindo um projeto que esteja alinhado à estratégia
   corporativa.
   ﻿

   
<file=19>

   
estratégia também impulsiona oportunidades para a inovação

   40% das empresas acredita que bigdata é essencial aos negócios
   mais de um terço das empresas (38%) acredita que o bigdata é essencial
   aos negócios e outros 21% acreditam que essa é o melhor caminho para
   obter vantagem competitiva. isso é o que aponta uma pesquisa realizada
   pela teradata em parceria com a mckinsey.

   a pesquisa aponta também que o bigdata impulsiona oportunidades para a
   inovação em três áreas principais: criação de novos modelos de negócios
   (54%), descoberta de novas ofertas de produtos (52%) e monetização de
   dados a empresas externas (40%).

   apesar dos bons frutos que podem ser colhidos com a adoção da
   estratégia orientada a dados, os desafios culturais  como recompensar
   o uso de dados e fomentar a experimentação e criatividade por meio da
   análise de dados  podem prejudicar as iniciativas em bigdata e ainda
   há espaço para melhorias, de acordo com coo de mercados de consumo da
   mckinsey, matt ariker. mas a boa notícia é que o inverso também é
   verdadeiro: melhorar a forma como a empresa promove a cultura e a
   mentalidade que recompensa o uso da experimentação de dados pode ajudar
   as iniciativas de análise de dados a ganhar dinamismo e força,
   ressalta.

   a pesquisa foi realizada com 316 tomadores de decisão das áreas de
   tecnologia e informação, com base em um questionário derivado da forbes
   insights. o relatório revela o impacto das iniciativas de bigdata
   sobre as práticas e cultura organizacional.


<file=20>
  
  
algar tech cria tecnologia para integrar service desk e bigdata

   
   a algar tech, integradora de soluções de tic e bpo, desenvolveu uma
   solução com base em bigdata que permite mais eficiência do service
   desk e conveniência do usuário. o objetivo é identificar, no momento do
   registro do chamado pelo usuário, possíveis soluções automatizadas e
   atender à demanda do cliente por meio de autosserviço.

   gustavo santarém, especialista em gestão de portfólio de ti na algar
   tech, diz que foi possível chegar a essas soluções por meio do uso de
   releases previamente cadastrados e combinados com uma análise de big
   data da base de soluções conhecidas. o portal para registro de chamados
   identifica a melhor solução e o usuário executa a release
   (autosserviço). após validação do usuário, o chamado registrado é
   encerrado automaticamente e a pesquisa de satisfação é enviada.

   “conseguimos disponibilizar no autosserviço instalações, como lync
   (skype for business), antivírus e itunes, por exemplo, além de reparos
   como acesso à internet e limpeza do sistema operacional, além de
   configurações, a exemplo de mapeamento de unidades de rede, certificado
   para utilização de wifi e instalação de impressora”, destaca santarém.

   o executivo acrescenta que como estratégia, a empresa integra soluções
   que possam trazer cada vez mais qualidade e produtividade aos clientes.
   “aliar análise de bigdata, monitoramento do comportamento do usuário e
   soluções de autosserviço traz resultados tanto para a equipe de ti,
   quanto para os usuários finais”, completa.
   ﻿

  
<file=21>
<file=22>
   
o bigdata promete dar fim ao arco e flecha no recrutamento

   recomende compartilhar no twitter compartilhar no google+ compartilhar
   no linkedin
   1.621 views 
   salvar notícia
   germano ludersexame
   trainees da votorantim

   trainees da votorantim: convite sob medida para participar do programa
   de revista exame

   são paulo — assim como milhares de universitários recémformados, os
   jovens da foto acima inscreveramse em dezenas de programas de trainee.
   foi uma surpresa quando, no meio do caminho, receberam um email do
   grupo industrial votorantim informando que seu perfil tinha tudo a ver
   com o que a companhia estava buscando e convidandoos a participar de
   seu programa de trainee.

   o email da votorantim não foi enviado ao acaso. é parte da estratégia
   da 99 jobs, uma empresa de recrutamento recémcriada. a 99 jobs reúne
   informações sobre empresas, como missão, cultura e histórico; e sobre
   candidatos, como objetivos, prioridades e valores. tem 430 000
   inscritos. quando um candidato e uma empresa combinam, são
   apresentados.

   além disso, a 99 jobs varre as redes sociais atrás de pessoas ideais
   para determinados cargos. “com os dados disponíveis na rede, fica mais
   fácil selecionar o candidato certo para o emprego certo”, diz eduardo
   migliano, da 99 jobs. além da votorantim, ele já contratou para o banco
   itaú, para a empresa de tecnologia microsoft e para a varejista
   magazine luiza.

   grandes empresas de recrutamento, como korn ferry, heidrick & struggles
   e odgers berndtson, dominaram o mercado mundial graças aos vastos
   bancos de dados construídos ao longo de décadas. seus executivos sabiam
   quem procurar e tinham experiência para ver que tipo de profissional se
   encaixava em cada vaga.

   mas, com a proliferação das redes sociais, as informações deixaram de
   ser segredo. atento a isso, um grupo de empresas está virando o mercado
   de recrutamento de cabeça para baixo. a principal ferramenta são os
   milhares de dados disponíveis — o bigdata.

a era dos algoritmos

   quem começou a mudança foi o linkedin, rede profissional que em 12 anos
   soma 350 milhões de cadastros em todo o mundo. mas a novidade agora são
   empresas como a 99 jobs, que analisam um enorme volume de informações —
   nem sempre profissionais — para preencher uma vaga. as mais promissoras
   estão nos estados unidos.

   a gild, criada em 2011 em são francisco, já contratou para o facebook e
   o tripadvisor rastreando postagens feitas pelos candidatos. o
   diferencial da entelo, também californiana, que atende empresas como a
   american express e a montadora tesla, é reconhecer, pelos vestígios
   deixados online, as pessoas que estão mais propensas a trocar de
   emprego.

   já a paulistana pin people segue a lógica de sites de namoro, como o
   eharmony, para juntar pessoas e empresas com interesses em comum. por
   trás do sucesso dessas companhias está uma insatisfação com o modelo
   tradicional de seleção. os recrutadores cobram caro — até 30% do
   salário anual do executivo contratado — para apresentar soluções
   padronizadas.

   os alvos costumam ser profissionais de empresas similares e gente
   formada nas melhores universidades. mas tal prática vem matando a
   diversidade de ideias dentro das empresas e não abre espaço para os
   geniozinhos fora do padrão. essa é a tese da americana lauren rivera,
   autora do livro pedigree: how elite students get elite jobs (“pedigree:
   por que estudantes de elite conseguem vagas de elite”, numa tradução
   livre).

   de acordo com lauren, parte do problema é que, nas entrevistas de
   emprego, os recrutadores preferem candidatos com os quais têm afinidade
   pessoal, e não necessariamente os mais preparados para a vaga em
   questão. isso vale, segundo ela, tanto para estagiários quanto para
   altos executivos.

   pressionadas, as empresas de recrutamento começam a usar cada vez mais
   tecnologia em seus processos. mais de 80% das contratações da randstad,
   recrutadora holandesa presente em 39 países, utilizam ferramentas
   digitais. em paralelo, elas dependem cada vez menos da contratação.

   a americana korn ferry, líder global com cerca de 1 bilhão de dólares
   de receita, diminuiu, na última década, a dependência do recrutamento
   de 90% para 50%. na heidrick & struggles, a fatia corresponde a 75%. os
   novos serviços incluem programas de sucessão, consultoria e
   treinamento. “continuaremos decisivos, especialmente nos altos cargos.

   mas queremos participar de todas as questões envolvendo pessoal”, diz
   sérgio averbach, presidente da korn ferry na américa latina. bemvindo
   à era dos algoritmos.

   
<file=23>
   

   as instituições financeiras na europa vão enfrentar regras mais rígidas
   que regem a sua utilização de bigdata, devido a uma nova investigação
   pelos reguladores financeiros.

   focandose nas “oportunidades e desafios” associados ao bigdata, o
   novo inquérito visa determinar se são necessárias novas medidas
   regulamentares ou de supervisão, de acordo com um comunicado conjunto
   publicado esta segundafeira pela european securities and markets
   authority, european banking authority e european insurance and
   occupational pensions authority.

   em particular, vai concentrarse no uso dos dados pessoais dos
   consumidores pelas instituições financeiras para fins de criação de
   perfis pessoais, bem como para identificar padrões de consumo para
   fazer ofertas direccionadas. tais actividades “levantam questões” sobre
   “comportamentos esperados” das empresas e outras “obrigações”.

   também planeado para 2016 é o continuado trabalho pela comissão mista
   numa iniciativa lançada no início deste ano que se concentra nos
   algoritmos. o objectivo é avaliar “o fenómeno da interacção humana
   entre os consumidores e as instituições financeiras sendo cada vez mais
   substituído por algoritmos que fornecem aconselhamento ou outras formas
   de recomendações”, com um foco especial nos riscos e benefícios e
   qualquer necessidade de regulamentação ou de outras ações.

   os resultados da análise aos algoritmos serão incluídos num documento
   de discussão este outono e depois nas recomendações de políticas para
   2016.
   ﻿


<file=24>
  
   qual o futuro do armazenamento bigdata?
          
   a dell e a microsoft lançaram no mercado brasileiro um appliance
   desenvolvido especialmente para atender as necessidades dos projetos de
   bigdata e de bi (business intelligence) que envolvam grandes cargas de
   trabalho. a solução foi desenvolvida para oferecer uma plataforma
   completa e econômica para as organizações que precisam gerenciar e
   analisar volumes massivos de dados.

   “a solução realiza processamento de consulta paralela, armazenamento de
   dados escalável, integração com hadoop e transferência de dados em
   redes de alta velocidade. os resultados são queries até 100 vezes mais
   rápidas quando comparadas com bancos de dados tradicionais”, garantem
   as provedoras.

   o microsoft analytics platform system by dell inclui software sql
   server parallel data warehouse (pdw) e opcional hdinsight para apache
   hadoop em uma oferta que já inclui hardware, componentes de rede e
   ferramentas robustas para agregar alta capacidade de processamento e
   gestão de informações.

   a plataforma é baseada em servidores poweredge de 13ª geração, com
   gabinetes que suportam até nove nós e capacidade de armazenamento em
   disco que varia de 21tb a 1,2pb – ou até 6pb de dados comprimidos.

   a ferramenta também provê integração nativa com a plataforma de bi da
   microsoft, permitindo a análise de dados relacionais e não relacionais
   com ferramentas conhecidas como o excel, report builder e power view
   para criar para criar visualizações convincentes para tomada de decisão
   de negócios.

   “um dos diferenciais [do produto] está no fato de que os clientes
   adquirem a solução completa já testada e pronta para usar e passam a
   contar com um único ponto de contato para os serviços de treinamento,
   consultoria e suporte, fornecidos pela dell”, informam as companhias.


<file=25>
   
bigdata: o que airbnb, starbucks e sonic têm a ensinar


   o momento é de aceleração no uso de ferramentas de bigdata. o
   movimento vem à reboque dos primeiros casos públicos de real extração
   de valor a partir da aplicação do conceito em diversas indústrias. para
   a maior parte das organizações, contudo, conseguir um grande acerto
   muitas vezes requer uma série de erros prévios. muitas empresas
   preferem uma abordagem de pequenas vitórias em vez de uma abordagem que
   pode ser considerada a cartada definitiva.

   são medidas para tornar sua cadeia de suprimentos um pouco mais
   eficiente ou contratar profissionais melhores mais rapidamente que
   começam a criar massa crítica dentro da organização e gabaritam uma
   companhia a pensar algo maior ou mesmo expandir lentamente o uso das
   ferramentas.

   especialistas defendem que progressos incrementais podem ser mais
   importantes do que uma abordagem em busca de uma grande vitória.
   portanto, em outras palavras, se seu objetivo for abrangente e vago –
   do tipo “vamos dominar o mercado mundial de tecnologia” – provavelmente
   será uma abordagem que não dará assim tão certo.

   dessa maneira, talvez seja mais adequado criar pequenos diferenciais
   que o tornem melhor que seus rivais. depois de atingir essa meta, ganhe
   confiança, assimile conhecimentos, e parta rumo a uma nova empreitada.

   a seguir, trazemos alguns exemplos do que empresas como airbnb,
   starbucks e sonic têm feito para conseguirem suas vitórias e como têm
   empilhado blocos para ganhar massa crítica, tornando os objetivos mais
   palpáveis.

   1. uma imagem vale mais que…
   muitas startups acreditam que, utilizando bigdata, derrubarão líderes
   de mercado como cisco, google ou apple. elas acreditam que conectarão
   suas ferramentas de análise de dados a bolas de crista e descobrirão
   segredos que magicamente a catapultarão a posição de grandes
   vencedores.

   pois saiba que isso raramente acontece, se é que acontece. histórias de
   sucesso envolvendo bigdata tipicamente começam com pequenas perguntas.
   qual é o melhor quarteirão para instalar ma nova loja? como podemos
   tornar a escolha das localizações em um processo sistemático? o que
   fazer para time de vendas convencer os clientes em ligações
   telefônicas? como mudar a abordagem nas ofertas de varejo, em tempo
   real, para alinhálas as preferências dos consumidores?

   peguemos o exemplo de um dos maiores expoentes da economia de
   compartilhamento. o airbnb precisou de um bom tempo para construir
   bases sólidas e isso ocorreu quando descobriu que o seu principal
   obstáculo era prevenirse que pessoas escolhessem ficar em hotéis no
   lugar de contratar seus serviços.

   riley newman, líder de analytics e cientista de dados da empresa,
   conduziu um processo de regressão para determinar as características
   mais impactantes no fechamento de uma reserva. ele descobriu algo que
   hoje soa trivial: apartamentos cujas fotos não eram bonitas não eram
   alugadosreservados. simples assim.

   com base na descoberta, o airbnb passou a enviar fotógrafos
   profissionais a vários apartamentos para refazer imagens. os resultados
   foram surpreendentes, com ganhos no número de reservas e na confiança
   dos usuárioslocatários.

   2. em busca da localização perfeita
   o mantra do bom negócio no mercado imobiliário é “localização,
   localização e localização”, mas nem sempre isso é tão simples de ser
   compreendido. a nossa segunda lição sobre bigdata vem de um gigante do
   varejo que descobriu um processo para melhor determinar onde abrir suas
   lojas.

   em tempos de internet, muitas empresas direcionam negócios fortemente
   para a estratégia puramente digital, ignorando que, nos estados unidos,
   o ecommerce ainda corresponde por apenas 17% das vendas do varejo
   norteamericano. trocando em miúdos: grande parte do dinheiro ainda
   passa na frente da vitrine e entra em espaços físicos.

   quando empresas de cimento e tijolo pensam em expandir operações para
   capturar a maior fatia desse segmento multibilionário, um dos maiores
   desafios reside em descobrir exatamente onde posicionar a nova loja.

   no passado, donos dessas empresas direcionariam o investimento a áreas
   que parecem ser uma boa aposta medindo o fluxo de tráfego, o número de
   pedestres por hora ou comparando os empreendimentos existentes na
   região.

   agora, apenas porque um espaço amplo parece uma boa localização para
   instalar uma loja não significa que, de fato, seja. aliás, pode ser um
   poço de prejuízo. pior, um outro ponto, a poucas centenas de metros de
   distância pode ser mais adequado sem que você se dê conta.

   por essa razão que o starbucks confia em análise de ddos para guiar o
   processo de abertura de cafeterias, indo tão longe quanto a construção
   de uma plano de mercado e aplicações para desenvolvimento de lojas em
   um sistema chamado atlas.

   a melhor maneira de explicar o atlas é como uma ferramenta de análise
   de grandes volumes de dados que possui, acima, uma camada de softwares
   de mapas e informações geográficas. com ele, a rede de cafeteria
   consegue avaliar um volume elevado de variaveis que podem contribuir
   com o sucesso das lojas, visualizandoas nos mapas e procurando pontos
   similares em outras localidades.

   no ano passado, em uma conferência, patrick ohagan, gerente de
   estratégia do starbucks apresentou a ferramenta colocando o mapa de uma
   cidade chinesa de dois milhões de habitantes que já tem 80 localizações
   da rede. ele moveu diversas camadas para visualizar no mapa o que
   influencia cada uma das lojas a partir de dados como áreas de negócios,
   informações demográficas, volume de tráfego, disponibilidade de
   transporte público.

   com base nas informações, o o’hagan dentificou um ponto onde três novas
   torres de escritórios seriam inauguradas dentro de dois meses,
   representando uma localização com potencial promissor.

   uma vez que a localidade é encontrada, um fluxo de telas surgem como
   pop ups, guiando o processo de aprovação da abertura da noval loja
   junto a corporação, seguindo normas para o lançamento do novo
   empreedimento.

   mas o starbucks não para por aí. nos estados unidos, com um mercado
   saturado de cafeterias, a empresa usa o atlas para ajudar no
   desenvolvimento de novas ideias de produtos, como a oferta de cerveja
   em algumas lojas, por exemplo. com base nisso, consegue fazer
   projetospiloto para validar a iniciativa.

   aprender com dados e mapas não garante o sucesso dos esforços, mas o
   processo assegura redução drástica dos riscos associados ao lançamento
   de umano va loja.

   3. ajustando o menu
   já vimos esse filme antes: um lugar com rostos amáveis dentro de um
   ambiente economicamente favorável que gera o encanto. a consequência do
   sucesso, normalmente, é um aumento de preço, filas, confusão nos
   processos que culmina com a destruição do que havia feito o charme do
   estabelecimento.

   a rede de fast food sonic não quer cair nessa armadilha. com mais de
   3,5 mil lanchonetes espalhadas por 43 estados norteamericanos
   transformou seu modelo de drivein em um serviço de vantagem
   competitiva. a empresa concorre em um segment de margens apertadas.
   para manter o rumo, compreendeu que precisaria encontrar novas formas
   de manter custos sem impactar os preços aos clientes.

   apesar de ver potencial na vasta oferta de dados armazenada, executivos
   da companhia ficavam frustrados com as limitações de desempenho das
   ferramentas que utilizavam. a empresa procurava uma forma mais rápida
   de extrair mais valor dos insights na mesma medida que relutava em
   investir em uma solução mais complexa e cara para tratar a questão.

   depois de rejeitar algumas ferramentas baeadas em hadoop e outras que
   demandavam misturar ou combinar componentes de diversos fonecedores, a
   sonic adotou uma ferramenta de analytics da 1010data, que não era
   construída sobre um banco de dados relacional e não pedia trabalhos
   paralelos para compensar a limitação de arquiteturas legadas.

   com a tecnologia, a rede pode processar dados não estruturados e obteve
   efetividade a partir de uma interface de visualização mais amigável a
   usuários não técnicos, que ganharam liberdade para se aprofundar na
   ferramenta.

   4. compartilhar conhecimento em nuvem
   para a sonic, o sucesso inicial de seu programa de bigdata inspirou um
   sentimento na companhia para que buscasse outras áreas onde soluções
   analíticas tivessem bom uso e trouxessem resultado. o plano agora é
   estender a tecnologia utilizada para sua rede de franquias.

   colocar os dados na nuvem permitirá que a companhia simplifique o
   compartilhamento de informações com sua rede, bem como permitirá que a
   companhia mantenha o controle sobre informações sensíveis.


<file=26>
  
 por lisandro sciutto

   se você é como a maioria dos líderes de negócios, você gela só de ouvir
   falar em bigdata. embora coletar, analisar e tirar vantagem de
   informações dos clientes seja a preocupação de 72% dos empresários e
   líderes da área de ti, apenas 44% tomam a atitude de falar a respeito,
   de acordo com a 6ª pesquisa anual de qi digital da pwc. para superar
   esse gap, os profissionais de marketing precisam transmitir aos
   diretores como os insights dos clientes, compilados do bigdata, podem
   ser usados para aumentar as vendas, conduzir tomadas de decisões
   estratégicas nos departamentos econômicos ajudar os negócios a ganhar
   vantagem competitiva.

   por que muitos negócios estão hesitantes? com a quantidade massiva de
   dados de clientes vindos de diferentes fontes, incluindo websites,
   email, redes sociais, celular, atendimento ao consumidor, armazéns de
   dados (data warehouses) e outros, coletar e usar esses dados pode
   parecer impossível de lidar. além disso, existe um aumento assustador
   de dados desestruturados  não apenas das redes sociais como também do
   crescente volume de áudio e textos físicos que tem sido digitalizados
   em um ritmo sem precedentes, adicionado ao desafio de determinar como
   organizar os dados de forma que sejam úteis. sem mencionar o fato de
   ter que descobrir como incorporar os dados a diferentes canais,
   incluindo celular, para obter uma visão 360 graus do cliente.

   coletar, analisar e usar dados dos clientes de forma inteligente é
   definitivamente um desafio. ninguém tem isso completamente definido e
   não existe uma única resposta como solução. no entanto, para os
   publicitários é decisivo entrar no jogo agora ou arriscar ficar muito
   atrás de sua concorrência em termos de oferecer aos clientes
   experiências completas e personalizadas.

   por que os profissionais de marketing precisam tirar proveito das
   informações de forma efetiva? existem várias razões pelas quais os
   profissionais de marketing precisam obter informações relevantes dos
   clientes.  abaixo cinco motivos para adotar (para ontem) o
   gerenciamento e análise de dados na gestão de marketing:
    1. aumente complexidade de navegação, incluindo a proliferação de
       canais e pontos de contato, na mudança para um ciclo de compra não
       linear e as demandas de um serviço de atendimento ao consumidor
       24x7.
    2. aplique recursos avançados de marketing, incluindo personalização
       em tempo real e automação de marketing.
    3. fale a língua da diretoria, usando dados para embasar estratégias e
       planejamento, bem como para demonstrar resultados quantificáveis.
       de acordo com a harvard business review, artigo que cita um estudo
       de 2012, publicitários ainda contam muito com a intuição,
       levantando dados para apenas 11% das decisões relacionadas aos
       clientes.
    4. ganhe vantagem competitiva por tomar decisões estratégicas com
       insights dos clientes. de acordo com a pwc, 65% dos gerentes de
       negócios acreditam que o bigdata vai lhes trazer vantagens.
    5. entenda com mais precisão o retorno em investimentos para um
       conjunto completo de táticas de marketing e otimizar a mistura com
       marketing e mídia modelagem mix.

  
<file=27>
   
   em 6 de maio de 2010, a bolsa de valores americana teve a pior queda
   diária de sua história, quase 10%, um prejuízo de cerca de us$ 1
   trilhão. por sorte, essa tragédia financeira durou apenas 36 minutos e
   recebeu o apelido de flash crash (quebra relâmpago).

   cinco anos depois do episódio, o departamento de justiça dos estados
   unidos disse ter encontrado o culpado: um operador britânico de 36 anos
   chamado navinder singh sarao. até o final de maio, sarao estava detido
   na inglaterra, enfrentando um processo de extradição para os eua.

   sarao é acusado de spoofing, uma espécie de blefe com os robôs que hoje
   dominam boa parte das operações com ações. segundo seus acusadores,
   sarao postou ordens de compra no valor de us$ 200 milhões, apenas para
   cancelálas em seguida. os robôs, focados em reagir instantaneamente a
   qualquer oscilação de preços, aceleraram suas operações, criando uma
   bolha que em seguida estourou. sarao teria saído da brincadeira com us$
   40 milhões.

   este é um exemplo do tipo de problema que a economia moderna tem de
   enfrentar: como lidar com a complexidade, e até que ponto sistemas
   complexos não podem ser manipulados. no campo da tomada de decisões,
   duas fortes escolas se digladiam. a primeira propõe combater
   complexidade com complexidade. é a ideia de usar computadores e modelos
   estatísticos para analisar a multitude de dados. exemplos em que isso
   dá certo incluem a análise de dados dos jogadores de beisebol exposta
   no filme o homem que mudou o jogo (moneyball), sobre o treinador que
   levou um time medíocre às finais; o algoritmo da loja target, que
   previu a gravidez de uma adolescente antes dos pais; ou as previsões
   meteorológicas.

   mas há a tendência oposta: simplicidade. no livro o poder da intuição,
   o alemão gerd gigerenzer cita estudos como a comparação entre modelos
   complexos para determinar se uma empresa iria dar bons resultados e uma
   simples enquete com transeuntes (os transeuntes acertaram mais que os
   especialistas). o mais recente pesopesado a defender a teoria da
   simplicidade é o professor donald sull, da escola de negócios sloan, do
   mit. no livro simple rules (“regras simples”), lançado em abril, ele
   defende que regras simples deram aos jesuítas a flexibilidade que os
   tornou tão bemsucedidos em ambientes diversos e adversos; que a
   formulação das rotas mais eficientes para construir o sistema de
   transportes de tóquio foi feita por fungos (os pesquisadores
   representaram tóquio e 36 cidades vizinhas com farelos de aveia e
   observaram os caminhos que os fungos criaram); ou que o nobel de
   economia harry markowitz, idealizador de um complicado modelo para
   maximizar investimentos, na vida pessoal usava a simples regra de
   dividir os fundos igualmente entre ações e títulos.

   a batalha entre análise de dados e intuição é mais ou menos como o
   embate entre o campeão de xadrez garry kasparov e o computador deep
   blue, da ibm. em 1996, kasparov venceu por 4 a 2. no ano seguinte, deep
   blue venceu por 3,5 a 2,5. kasparov pediu um tirateima. o computador
   foi frio e calculista: saiu de campo.

   o método a adotar depende muito da situação. o operador britânico
   sarao, por exemplo. autoridades americanas dizem que ele usou sistemas
   complexos para criar uma bolha. ele jura que usou a intuição.

  
<file=28>
  

‘bigdata’ rouba espaço do instinto no varejo

  
   os diretores de vendas de poderosas varejistas, que já foram celebrados
   por sua capacidade de detectar tendências, estão descobrindo que sua
   intuição está sendo substituída por algoritmos.

   as empresas estão cada vez mais dependendo de processamento de números
   do que do instinto de um grande profissional do setor para tentar
   combater a queda nas vendas e as mudanças no comportamento dos
   consumidores. conduzindo esta tendência estão ferramentas de
   processamento de grande volume de dados, o chamado “bigdata”,
   popularizadas por varejistas online que desconsideram as suposições
   sobre o ato de comprar.

   “no passado, era como ‘eu gosto de laranja, então os consumidores
   gostarão de laranja’”, diz andrew dubin, executivo veterano da área de
   vendas que até junho era o diretor de vendas da marca de sapatos e
   acessórios cole haan. hoje, segundo ele, “muito mais está incluído na
   decisão de compra”, incluindo software que o ajuda a medir o desempenho
   de produtos em suas prateleiras em comparação com aqueles nas lojas
   concorrentes.

   a dominância crescente dos dados está transformando os papéis do setor.
   depois de procurar por um diretor de vendas durante 14 meses, a kohl’s
   corp. kss 2.13 % deu o cargo para o seu diretor de marketing. a target
   corp. tgt 0.47 % recentemente dividiu os cargos de diretor de vendas e
   de cadeia de suprimentos, que eram ocupados pela mesma pessoa. em
   novembro, o walmart stores inc. wmt 1.79 % decidiu não preencher a
   posição depois que seu diretor de vendas saiu. agora, os executivos
   encarregados de categorias como alimentos e vestuário estão reportando
   diretamente para o diretorpresidente do walmart nos estados unidos.

   o diretor de vendas é frequentemente o segundo executivo da cadeia de
   comando e visto como o provável sucessor do diretorpresidente. o cargo
   envolve ajudar a construir uma a percepção de moda do varejista, seja a
   fórmula chique e barata do target ou a de roupas clássicas e formais da
   j.crew. mas junto com a criatividade do “lado direito do cérebro”, os
   diretores de venda precisam ser mestres em capacidades analíticas
   usando o “lado esquerdo do cérebro”.

   o walmart começou a usar dados do google googl 2.86 % analytics este
   ano para identificar os alimentos mais consumidos em datas especiais,
   os alimentos procurados e receitas por estado para ajudar a guiar as
   decisões sobre quais alimentos estocar em cada parte do país nos
   próximos meses.

   depois que os dados mostraram aumento nas buscas por “totchos” e
   “tachos” — nachos que usam tater tots (batatas raladas e fritas) em vez
   da batata chips —, a equipe de compras do walmart decidiu estocar mais
   tater tots e destacar o prato em um guia de entretenimento, disse um
   portavoz. os dados definem a forma que os produtos ocuparão os espaços
   mais nobres no fim dos corredores das lojas e nos emails que o
   walmart envia aos clientes com promoções ou receitas, diz ele.

   o diretorpresidente da rede de lojas de departamento j.c. penney co.
   jcp 3.97 % , marvin ellison, disse recentemente a analistas que vai se
   concentrar mais na “ciência do varejo” para apresentar, distribuir e
   repor mercadorias. “para um varejista, o mais difícil é ter o produto
   certo, o estilo certo e a quantidade certa”, disse.

   nem todo mundo é a favor do papel mais importante que os números estão
   desempenhando.

   gwen manto, exdiretora de vendas da sports authority, um dos maiores
   varejistas esportivos dos eua, lembra da primeira vez que viu uma
   câmera gopro gpro 8.17 % em uma feira de negócios em 2010. ela soube
   que seria um sucesso e comprou todo o estoque do fabricante na hora.
   seu instinto provouse correto.

   manto disse que se ela fosse tomar uma decisão de compra similar hoje,
   teria primeiro que analisar uma imensidão de dados para determinar
   quais câmeras parecidas estão sendo vendidas e a que preço.

   “você agora precisa de tantos dados antes de tomar uma decisão que as
   oportunidades podem acabar passando”, diz manto, que saiu da sports
   authority em 2012 e hoje é diretora de inovação de produtos na
   aloha.com, uma empresa de saúde e bemestar.

   a consolidação do setor varejista acabou gerando redes tão grandes que
   a compra por instinto não é mais uma opção. mas a escala tem o seu
   preço. “as lojas estão começando a ficar iguais”, diz paula rosenblum,
   analista da rsr research. “os varejistas se esquecem da arte de
   selecionar produtos que são interessantes para os consumidores.”

   rosenblum diz que os chamados “baby boomers” — a geração nascida depois
   do fim da segunda guerra — se baseavam mais no instinto, mas eles estão
   se aposentando e sendo substituídos por uma geração mais nova que
   cresceu com dados. nos últimos anos, os chamados software de otimização
   de preço se tornaram uma ferramenta comum. em vez de ter uma pessoa da
   área de vendas para decidir quando reduzir o preço das mercadorias, “o
   computador resolve o problema”, diz ela.

   
<file=29>
                    

   o bigdata está deixando de ser um tópico discutido pela indústria e
   começará a ser efetivamente aplicado como prática padrão pelas
   corporações nos próximos dois anos. tanto é assim que 75% das empresas
   estão investindo ou planejam investir em bigdata até o final de 2017,
   revela estudo do gartner.
   outro ponto importante do estudo: os cios não estão mais lidarando os
   projetos. esse ano há uma forte equivalência com os chefes de unidades
   de negócios. em 2014, os gestores de ti responderam por 37% dos
   projetos de bigdata e os chefes de unidades de negócios por 25%. esse
   ano, esse percentual passou para 32% a 31%.
   para nick heudecker, diretor de pesquisas do gartner, com as soluções
   de bigdata sendo amplamente utilizadas, tópicos que antes definiam o
   assunto, como grande volume de dados, fontes de dados díspares e novas
   tecnologias estão se tornando algo familiar às equipes de ti.
   o bigdata está sendo usado para melhorar a experiência do usuário
   (ux), agilizar processos existentes, alcançar mercadosalvo ou reduzir
   custos. e essa tendência deverá permanecer, sendo 64% dos projetos de
   bigdata com foco em ux. outros 47% buscam mais eficiência para os
   processos, especialmente, os das áreas de marketing. segurança também
   se torna um ponto crítico para empresas e melhorar as capacidades de
   proteção entram em pauta nos projetos de 23% das empresas.


<file=30>
  

bigdata abre espaço para um uber na saúde digital

   
   os modelos disruptivos da economia digital, como o uber e o airbnb,
   tendem a chegar também à medicina. startups do vale do silício começam
   a desafiar os modelos da área de saúde em pelo menos duas áreas –
   sensores e genômica – e estabelecem a batizada medicina digital.
   segundo bernardo peixoto, gerente de novos negócios da eco sistemas, a
   medicina atual age mais nas áreas de diagnóstico e terapêutica de forma
   reativa, mas os avanços tecnológicos envolvendo captura em larga escala
   de dado digital contribuem para alterar o cenário da cadeia de valor em
   saúde. o especialista participou de painel sobre saúde digital, no rio
   info 2015.
   “os maiores avanços ocorrem na área de sensores  vestíveis
   (wearables), injetáveis (injetables) e ingeríveis (ingestables)  e na
   genômica, que avança na mesma velocidade da lei de moore em relação aos
   microprocessadores. desde 2001, quando foi publicado o primeiro genoma
   humano, mais de 250 mil genomas foram mapeados, lidos e analisados em
   diversos laboratórios ao redor do mundo. a expectativa é de que, nos
   próximos 10 anos, serão 2 bilhões de sequenciamentos feitos com um
   quarto da população, o que vai permitir a tão sonhada medicina
   personalizada”, descreve peixoto.
   ele conta que o custo para o mapeamento genômico caiu cinco ordens de
   grandeza em 15 anos e um sequenciamento pode ser executado ao custo de
   us$ 15. isso tem viabilizado novos negócios e muitas empresas de
   nanotecnologia vêm desenvolvendo soluções para que o processo de
   sequenciamento seja mais rápido. um exemplo é a ilumina, startup que
   recebeu uma oferta pública hostil da roche no valor de us$ 62 bilhões e
   conseguiu rejeitála convencendo os acionistas de seu imenso potencial
   de mercado. hoje é avaliada em us$ 100 bilhões. a empresa vai oferecer
   um serviço semelhante à applestore para que a indústria crie soluções a
   partir das informações genômicas.
   outra classe de empresas são as direct to consumer companies (dtc) como
   a 23andme que envia ao consumidor um kit para ele colher material
   genético como a saliva e envia de volta para a empresa executar a
   análise de mais de 100 doenças que a pessoa possa vir a desenvolver.
   “isso gerou uma reação corporativista da associações de classe da área
   de saúde que denunciaram a empresa à fda (food and drug
   administration), a agência reguladora americana para a área de saúde. a
   agência analisou esta e outras dtcs e mandou encerrar o serviço de
   análise clínica até que haja um entendimento da indústria”, informou
   peixoto.
   ele diz que o potencial de análise se eleva sobretudo quando se junta
   às informações genômicas as postagens em redes social. não por acaso a
   23andme comprou a rede social de pacientes together. “o que se assiste
   hoje é uma mudança de paradigma na cadeia da saúde. o modelo de
   negócios se baseia na oferta de serviços de genoma na nuvem. muitos
   suportam crowdfunding e opt in. em relação aos sensores, empresas de
   equipamentos como a philips estão criando linhas de serviços de
   monitoramento. de 30 a 40% de parâmetros de análise clinica podem ser
   medidos por sensores. mas há desafios de interoperabilidade e modelo de
   negócios”, concluiu.

<file=31>
  
              
bigdata não é apenas tecnologia

   
   um tema que realmente está entre os top 3 para os cios e profissionais
   de ti é bigdata. por isso, volta e meia retorno ao assunto. bigdata é
   muito mais que um imenso volume de dados. por isso o nome não me parece
   muito adequado. o valor do bigdata vem da sua dinâmica, provocada pela
   análise dos dados; ou seja, dos dados falarem por sim mesmo. dados
   armazenados por si só não têm valor.

   bigdata não é apenas tecnologia. tentar simplificar vendendo a ideia
   de que bigdata se materializa na empresa simplesmente comprando
   tecnologias do fornecedor a ou b não cria valor para o negócio, apenas
   gera frustrações. o bigdata embute mudanças na maneira de pensarmos
   dados. por exemplo, vamos olhar a variável que nos parece mais simples,
   que é volume. quando saímos do pensamento baseado na escassez para a
   abundância de dados, devemos pensar diferente. pela dificuldade e
   limitação tecnológica, nós acabamos construindo um modelo mental de
   escassez de dados. com isso, refinamos uma série de práticas como
   análises estatísticas por amostragem. a partir de uma pequena amostra
   de dados, extrapolamos para um cenário mais amplo. com o tempo
   refinamos os modelos e hoje eles são bastante confiáveis.

   entretanto, existem algumas lacunas, como uma  precisão que depende
   muito da amostragem. por exemplo, uma pesquisa de opinião baseada em
   uma amostra randômica de usuários de telefones fixos embute um viés: se
   a coleta for feita no horário de trabalho, quem vai atender não
   necessariamente representa a opinião das pessoas que trabalham fora.
   podem ter um ponto de vista bem diferente das que podem atender o
   telefone doméstico durante o dia. além disso, se quisermos detalhar um
   pouco mais a pesquisa, um universo de amostras pequeno, como fazemos
   hoje, não terá representatividade estatística. um exemplo? as pesquisas
   de intenção de voto. geralmente pegase umas duas mil pessoas e temse
   um quadro geral. mas se quisermos detalhar ao ponto de queremos saber a
   intenção dos jovens entre 18 e 25 anos do estado da paraíba, a
   amostragem será insuficiente. estamos presos às perguntas iniciais e
   não podemos sair delas. mas com volumes grandes o pensamento é outro.
   quando a variável passa a ser “ n=todos”, podemos fazer granularizações
   inimagináveis no modelo de escassez. podemos identificar tendências e
   descobrir correlações não pensadas antes. podemos fazer novas perguntas
   e descer a novos níveis de segmentação. saímos para um “mind set” mais
   oportunístico, ou seja, aproveitamos oportunidades de fazer perguntas
   não pensadas antes de analisar os dados.

   outra característica interessante que afeta nossa maneira de olhar os
   dados é que volumes grandes não demandam precisão extra de cada dado.
   aliás, já fazemos isso hoje. pensemos em um número grande como o pib de
   um país. não detalhamos os centavos, mas ficamos restritos aos grandes
   números e as tendências que eles apontam. recomendo ler o paper “if you
   have too much data, then “good enough” is good enough“. ele mostra a
   mudança na maneira de pensar a exatidão dos dados, versus a tendência
   que os dados nos apontam. o exemplo típico é a conceituação do hadoop.
   ao usálo, podemos aceitar que os dados manuseados não serão 100%
   exatos, mas o volume será grande o suficiente para apontar tendências.
   claro, não se imagina substituir o banco de dados relacional que lida
   com dados precisos e exatos como nossa conta corrente bancária pelo
   hadoop, mas mostra que podemos (de forma complementar), trabalhar com
   as diversas tecnologias; cada uma no seu espaço.

   outra grande oportunidade que o bigdata nos abre é conseguirmos fazer
   correlações entre dados, à primeira vista, sem aparente conexões.  um
   exemplo tradicional é o da amazon e sua estratégia de recomendações,
   baseada na análise de quem compra determinado livro tenderá a comprar
   outros. como isso é feito? vale a pena dar uma olhada no algoritmo
   básico usado pela amazon, conhecido como “itemtoitem collaborative
   filtering”. na prática, a adoção deste modelo revolucionou o ecommerce
   e algoritmos similares passaram a fazer parte do cerne de qualquer
   sistema de comércio eletrônico que se preze. o princípio básico é
   conhecer o “que” e não o “porque”. com correlações nós passamos a
   trabalhar não mais com certezas, mas com probabilidades. com volumes
   muito grandes, as possibilidades de acerto tornamse bem mais
   significativas. há uma mudança de pensar neste conceito. saímos do
   modelo “hypothesisdriven”, onde tentamos provar nossa hipótese
   analisando dados específicos com perguntas específicas, para
   “datadriven”, onde submetemos um imenso e variado volume de  dados a
   algoritmos de correlação. neste último podemos encontrar resultados
   inesperados e a partir deles nos inspirarmos a formular novas
   perguntas. o fator chave passa a ser fazer perguntas certas a cada nova
   análise. um cuidado a evitar é o fenômeno que chamamos de “big noise”,
   com volumes de dados muito grandes, mas que não nos trazem correlações
   efetivas.

   um outro exemplo de uso de correlação de dados é o produto university
   pages do linkedin, que propõe analisar como carreiras e universidades
   se interconectam. por exemplo, se você quiser seguir determinada
   carreira, qual seria a melhor universidade a cursar? recomendo ver o
   texto sobre o projeto, inclusive com detalhes das tecnologias.

   correlacionando dados, podemos desenvolver algoritmos preditivos, que
   buscam identificar eventos antes que eles aconteçam. um exemplo de uso
   é a manutenção de equipamentos como aeronaves, automóveis ou turbinas
   de aviões. o princípio básico é que quando as coisas acontecem (ou
   quebram) não são de imediato, mas o problema evolui gradualmente com o
   tempo. coletando dados de sensores podemos fazer análises
   correlacionais para identificar determinados padrões que sinalizam
   futuros problemas. quanto mais cedo uma provável anormalidade é
   detectada, mais eficiente é o processo de manutenção. muito mais
   eficiente que a manutenção preventiva que nos indica uma troca de óleo
   cada 5 mil quilômetros. mas a maneira de dirigir, as estradas que o
   veículo trafega e as temperaturas a que está exposto afetam de forma
   significativa este tempo. com algoritmos preditivos podese identificar
   que um determinado veículo deve trocar o óleo a 4 mil quilômetros e o
   outro a 6,5 mil quilômetros.

   bigdata traz uma outra mudança fundamental em seu bojo. a substituição
   do modelo baseado em intuição por “datadriven”. a intuição funciona (e
   não vai deixar de existir) mas é baseado na ideia que existe
   causalidade em tudo. muitas vezes acreditamos que tal efeito é devido a
   uma determinada causa, pelo simples fato que não tinhamos outras
   variáveis para analisar. hoje temos e provavelmente muitas das nossas
   ideias de causaefeito, que nos guiavam, não serão mais válidas.

   se quisermos ter sucesso em bigdata não devemos começar pela
   tecnologia. o primeiro passo é identificar as oportunidades de valor,
   ter as expertises necessárias, saber quais e onde estão os dados e só
   então selecionar a tecnologia. e é um processo contínuo e evolutivo.
   novas correlações de dados surgirão e sempre faremos novas e
   instigantes perguntas. afinal é assim que a sociedade evolui: sendo
   curiosa e explorando novos caminhos.

   
<file=32>
   
tecnologia bigdata

      bigdata
       o emprego da tecnologia bigdata permite transformar quantidades
       massivas de dados em conhecimento, oferecendo às empresas a
       possibilidade de extrair, através dos dados que geram, informações
       valiosas sobre seus clientes, produtos e serviços, lhes permitindo
       anteciparse às tendencias de mercado.  essas tecnologias oferecem
       a base para produtos analíticos avançados como bidoop layer,
       capazes de realizar análises complexas sobre grandes quantidades de
       dados, independente de sua natureza ou estrutura.
     

   desafios

   as principais limitações associadas ao tratamento e análise de grandes
   volumes de dados encontramse reunidas no denominado “modelo dos 3
   vs”, já apontado em 2001 por dough laney, industry analyst &
   information innovation agenda manager en garner. de acordo com este
   modelo, são considerados como principais desafios do bigdata os
   siguientes atributos:
      velocidade: o incremento na velocidade do processamento de
       informação permitiu enfrentar o desafio de transformar grandes
       fluxos de informação em conhecimento em tempo real, respondendo de
       forma mais rápida às necessidades específicas de cada negócio.
      variedade: a multiplicação das fontes geradoras de informação
       (emails, redes sociais, imagens, vídeos, logs, etc.) implicou em um
       aumento na complexidade de análise de dados.
      volume: na medida em que o volume de dados processados pelas
       companhias cresce exponencialmente, tornouse imprescindível
       desenvolver modelos analíticos capazes de detectar correlações
       entre dados de diversas fontes de informação.

   os novos modelos contemplam outros fatores a levar em consideração,
   como o alto índice de variabilidade dos dados, a necessidade de
   comprovar sua veracidade, assim como a importância de que sejam
   visualizáveis através de quadros de controle dinâmicos que facilitem a
   realização de relatórios e a toma de decisões de negócio.
    
      hadoop
       apache hadoop é uma plataforma open source indicada para o
       armazenamento e processamento de dados em grande escala. se
       caracteriza por sua flexibilidade para armazenar qualquer tipo de
       informação, por sua capacidade para processar dados complexos e por
       seu caráter econômico, por não requerer licença de uso.
       hadoop está inspirado nas tecnologias map&reduce e google file
       system (gfs), implantadas originalmente por google. com esta
       ferramenta algumas companhias mais representativas do mundo
       conseguiram otimizar a eficiência e qualidade da sua informação
       aumentando seus benefícios. amazon, yahoo, telefónica e linkedin
       são alguns exemplos.
    
<file=33>
   
    
qual a diferença entre bi e bigdata?

   o trabalho remoto já é realidade na empresa em que você trabalha?
          este infográfico aponta dados de pesquisa realizada com
          organizações sobre os motivos financeiros e colaborativos que
          levam à implementação do trabalho remoto em suas
          empresas.confira o custo benefício gerado às empresas ao
          adotarem esta prática.

         
   aproveitar ao máximo os benefícios que a tecnologia proporciona é o
   desejo – e, acreditamos, o plano – de 10 em cada 10 empresas. afinal,
   qual companhia não quer entregar os melhores serviços e produtos,
   encantar o cliente, ser competitiva, transparente, ágil e lucrativa? a
   tecnologia, ainda que não consiga atingir sozinha todos esses
   objetivos, ajuda os executivos a definirem qual o melhor caminho.

   e, em busca de apoiar cada vez mais as empresas na superação dos
   desafios, a ti está em constante evolução. essa evolução – conhecida
   como “ondas da tecnologia” – causa grande impacto no mundo corporativo
   ao propor modelos de negócio inovadores, romper paradigmas, criar novas
   formas de relacionamento e permitir a tomada de decisão de forma cada
   vez mais rápida e assertiva.

   porém, nem sempre o mercado está maduro o bastante para absorver os
   conceitos no momento em que eles surgem, podendo causar, inclusive, uma
   confusão entre as novas tecnologias e algumas já amplamente utilizadas.
   esse é o cenário que encontramos hoje quando falamos sobre bigdata e
   bi (business intelligence).

   não é difícil entender o que gera essa dúvida, uma vez que ambas as
   tecnologias trabalham com captura e interpretação de dados, com
   objetivo de permitir que as empresas tenham acesso a detalhes de suas
   operações, interações com clientes e eventos que acontecem no seu
   ambiente. a intenção é que, com isso, elas possam identificar
   comportamento e tomar ações estratégicas.

   porém, uma das principais diferenças entre eles é que, no bi, as
   informações analisadas em geral refletem apenas o passado e depois de
   extraídas do local em que são geradas, posteriormente são aplicadas em
   relatórios e dashboards– a solução, sozinha, não tem inteligência e
   precisa que profissionais interpretem e tomem as decisões.

   quando olhamos para bigdata, recursos de predição devem ser
   intrínsecos ao conjunto da tecnologia, para melhor interpretar os dados
   e antecipar possíveis comportamentos, permitindo assim insights mais
   rápidos. ou seja, mais do que um bi aprimorado, a evolução que o big
   data propõe é a inclusão da inteligência nas soluções com base em
   análise de grandes volumes de dados diversos e em movimento.

   para que as diferenças entre o bi e o bigdata sejam percebidas com
   mais facilidade, antes de tudo, é importante entender o que realmente
   se caracteriza como bigdata. uma dica é observar os cinco vs.
   explicando: para ser caracterizado como bigdata, os dados precisam,
   necessariamente, reunir cinco características: volume, variedade,
   velocidade, veracidade e valor:

    volume – o primeiro passo para começarmos a falar sobre bigdata é a
   existência de um grande volume de dados para ser analisado;

    variedade – além do alto volume, os dados precisam ter variedade, ou
   seja, trazer informações sobre diferentes vertentes de uma mesma
   operação, enriquecendo assim a análise e permitindo assertividade na
   tomada de decisão. por exemplo, quando falamos sobre interação com um
   cliente, é preciso levar em conta dados estruturados como cadastro,
   histórico de pedidos, compras realizadas, cobranças, grau de
   satisfação, problemas já reportados, interesses, etc. além de dados não
   estruturados como comentários em redes sociais (tweets, curtidas, etc.)
   e logs de interação.
    velocidade – além de dados estáticos (cadastros, tabelas, datamarts,
   etc.) é preciso levar em conta dados em movimento, em geral eventos que
   podem acontecer em qualquer momento e etapa dos processos.
    veracidade – os dados precisam ser confiáveis e os modelos de análise
   precisos. caso contrário, os resultados obtidos não representam a
   realidade.
    valor – todos os esforços na implantação de uma cultura de big
   data nas empresas devem ter por objetivo a geração de valor, seja na
   retenção de clientes, aumento da eficiência operacional, aumento das
   vendas e melhoria da percepção da marca da empresa (branding).

   mais lidas

      campus sp google inaugura espaço para empreendedores em são paulo
      microsoft hq microsoft oferece ferramenta grátis para programar em
       linguagem r
      pressao está cada vez mais complicado ser gerente de ti
      negociação sindicato patronal oferece 4% de reajuste salarial aos
       profissionais de ti
      bigdata quinze soluções de bigdata e analytics que você deveria
       observar de perto

   quando as informações atendem às premissas acima, estamos diante de um
   caso de bigdata – um conceito que, apesar de novo, vem revolucionando
   o cenário tecnológico mundial. aplicando a inteligência correta ao big
   data, as empresas podem obter informações e vantagens de negócio que
   são atualmente impossíveis de se obter apenas com o bi. imagine por
   exemplo o valor que a previsão correta de uma tendência de volume de
   vendas em tempo real pode ter para sua operação?

  
<file=34>
  

   bigdata  3 frentes em que a análise de dados cria valor no mercado
   imobiliário 

   as concessões de crédito imobiliário estão em queda no brasil. de
   acordo com o banco central, após avanço na casa dos 95% de 2011 a 2013,
   registrouse uma baixa de 2,2% entre os meses de junho de 2013 e 2014.

   a boa notícia é que a tecnologia está ajudando o segmento a agregar
   valor e a driblar essa desaceleração. james obrien, articulista do
   portal mashable, aponta algumas iniciativas em que as empresas e
   profissionais que trabalham com vendas de imóveis já estão se
   utilizando da análise inteligente de dados não estruturados (bigdata)
   para driblar a baixa nas procuras, analisando enormes quantidades de
   informações  vindas de diferentes lugares e formatos, inclusive
   fornecidas voluntariamente pelo públicoalvo.

   a seguir, veja as três frentes, apontadas por obrien, em que o uso
   estratégico do bigdata está contribuindo para melhorias no mercado
   imobiliário:

1  democratização da informação

   a partir de inúmeros bancos de dados, já surgem serviços como a
   plataforma zillow, criada com a proposta de “gerar mais transparência
   das informações do mercado imobiliário americano”. com ela, o potencial
   comprador pode comparar preços e, assim, diminuir o caminho entre a
   pesquisa e a compra. e mais: a partir das informações coletadas dos
   consumidores, a ferramenta se propõe a gerar conteúdo e traçar
   tendências de valores em regiões específicas, oferecendo resultados por
   bairro ou código postal.

   no brasil, o projeto mesegura também oferece ao consumidor de seguros
   (dentre eles o residencial) fácil e rápido acesso a cotações, agindo
   como uma ponte entre os corretores e os potenciais segurados. a
   mecânica da plataforma reúne os dados coletados dos usuários e os
   distribui entre as seguradoras cadastradas, de acordo com as
   preferências ou necessidades do cliente.

2  prospecção de acordo com o perfil comunitário

   bigdata – 3 frentes em que a análise de dados cria valor no mercado
   imobiliário  mjv tecnologia & inovação

   com soluções de bigdata também é possível analisar, a partir da imensa
   quantidade de dados não estruturados, a evolução e o planejamento
   comunitário, oferecendo aos potenciais compradores imóveis que se
   encaixem em seus valores individuais e comunitários. um exemplo é o
   projeto hudson yards (foto), em manhattan, um dos endereços mais caros
   do mundo. pesquisadores da universidade de nova york estão equipando os
   espaços planejados com sensores que monitoram a qualidade do ar,
   tráfego, uso de energia e água. com as informações coletadas, os
   corretores de imóveis conseguem prospectar com propriedade, utilizando
   como argumentos de venda fatores como qualidade de vida, eficiência
   energética e sustentabilidade, entre outros pontos.

   a ideia é utilizar este tipo de ação em outros empreendimentos ou até
   em imóveis individuais, fornecendo ao potencial cliente a chance de
   escolher com rapidez, de acordo com o cruzamento de inúmeras
   informações.

3  reconhecimento do potencial dos imóveis

   por outro lado, grandes imobiliárias e bancos também utilizam bigdata
   para entender o potencial de determinados imóveis. eles analisam o
   comportamento do consumidor a partir de informações coletadas de
   diferentes bancos diretamente relacionados com a região, por exemplo.
   com isso, se certificam de que não estão vendendo com preço aquém do
   que vale ou muito acima do que o mercado consegue suportar.

  
<file=35>
   

   o bigdata e o desafio dos cios  mjv tecnologia & inovação

   por paulo cesar alves, diretor de delivery da mjv

   se há poucos anos as empresas tinham dificuldade para conseguir
   feedbacks e gastavam muito dinheiro com pesquisas para entender os
   anseios de seus consumidores, agora elas se veem diante de outro
   dilema: a dificuldade de lidar com a quantidade excessiva de dados
   gerados diariamente em ambientes digitais.

   a ampliação significativa da capacidade de armazenamento com a cloud
   computing, bem como as facilidades para aquisição de equipamentos e
   sistemas e a mobilidade também contribuem para a dificuldade de lidar
   com a crescente geração de dados. o que já se sabe é que as empresas
   com as melhores estratégias para capturar, ordenar e transformar dados
   em informações relevantes têm uma vantagem competitiva muito grande.

   fazer o cruzamento de dados sóciodemográficos, portfólio de produtos,
   comportamentos transacionais, pontos de contato etc., para mapear a
   jornada do consumidor, requer mais do que tecnologia. requer um
   pensamento estratégico e uma cultura analítica.

   e isso é bom para os cios, além, é claro de ser um grande desafio. está
   sobre os ombros deles a incumbência de encontrar ferramentas, formar
   parcerias com fornecedores e montar equipes internas que os ajudem a
   transformar dados em informações de valor.

   além disso, os cios enfrentam o desafio de construir as estruturas de
   apoio para que suas equipes construam e alimentem um pensamento mais
   estratégico nas organizações. saber tudo sobre a técnica já não é mais
   suficiente. é preciso minerar os dados e distribuílos estrategicamente
   para que os departamentos possam utililzálos. se a estratégia é
   atingir um determinado segmento de mercado, como o cio pode ajudar a
   equipe de vendas a encontrar informações substanciais que apóiem suas
   ações?

   outro grande desafio é a mensuração dos resultados em análise de dados.
   estabelecer métricas para calcular o retorno sobre investimento (roi)
   em ferramentas e serviços não é tarefa fácil, mas precisa ser feita. os
   modelos atuais se comportam como modelos preditivos e que são muitas
   vezes alcançados por conta do esforço e da coparticipação das áreas de
   negócio juntamente com a área de ti. se baseiam na análise histórica
   dos dados que as corporações possuem. a evolução desse processo será
   para os modelos prescritivos que ajudarão no direcionamento das ações
   estratégicas das empresas e não somente para mostrar tendências ou
   análises.

   a boa notícia é que as empresas brasileiras estão na vanguarda na
   américa latina quando se trata da adoção de tecnologias para análise de
   dados. de acordo com a idc, o país deve encerrar 2014 com investimentos
   na casa dos 426 milhões de dólares entre hardwares, softwares e
   serviços para tratamento de bigdata.

  
<file=36>
    
     
   bigdata é um termo impróprio. enquanto o campo é relativamente jovem,
   o termo já foi largamente criticado, particularmente em como nós não
   podemos igualar a escala de dados dada a diversidade do mundo em que
   vivemos. de olho nisso e em nome desta diversidade, vou agora olhar
   para o bigdata a partir do ângulo do sul global, afinal, a maioria da
   população do mundo reside fora do ocidente.

   quando nós prestamos atenção para os debates sobre vigilância,
   privacidade e neutralidade da rede e procuramos por modelos e práticas
   alternativas para sustentar a esfera digital, eles abordam
   principalmente preocupações ocidentais, contextos e comportamentos do
   usuário a partir desses domínios privilegiados. isso, sem dúvida,
   oferece uma visão equivocada da internet.

   há uma década até talvez fosse legítimo argumentar que grande parte
   desta demografia marginalizada não estava conectada ao mundo digital e,
   portanto, não deveria ser incorporada ao debate contemporâneo, ficando,
   assim, relegada ao discurso do digital gap dos especialistas na área de
   estudos de desenvolvimento.

   porém, com o crescimento exponencial das tecnologias móveis (celulares
   especialmente), mesmo nos contextos mais desfavorecidos, acompanhado de
   políticas de liberalização e dos compromissos do setor públicoprivado
   de fornecer conectividade para nivelar áreas rurais do sul global, isto
   já não é um argumento válido.

   por exemplo: atualmente não são apenas os habituais suspeitos  como
   china e índia  que aumentam seu domínio digital, mas também regiões
   como a arábia saudita e recentemente myanmar, onde a mudança foi de
   mero 1% de sua população online há alguns anos para um aumento
   previsto de quase 50% até o final deste ano. a previsão é de que até
   2020 a maioria dos dados digitais geolocalizados virá de economias
   emergentes.

   claro que ninguém argumenta que esta será uma tarefa fácil. o fato é
   que a maioria dessa população continua a viver com menos de dois
   dólares por dia e possui distintas tradições culturais, muitas dos
   quais permanecem como uma incógnita para os acadêmicos mais experientes
   e público em geral.

   c.k. prahalad, um guru neoliberal e uma figura influente nesta área
   cunhou o termo base da pirâmide (bdp) para encapsular estas cerca de
   4 bilhões de pessoas. ele argumentou que era hora de reformular esta
   população como consumidores em vez de beneficiários, afastandose
   de perspectivas póscoloniais muito estabelecidas por culpa branca e
   paternalismo. vêlos como consumidores, seria uma solução ganhaganha
   tanto para o mercado quanto para o estado, onde o bem comum encontrase
   lado a lado com fins lucrativos. este ponto de vista ganhou um novo
   impulso com o surgimento de tecnologias web 2.0 e com a mudança
   cultural na percepção de usuários como cocriadores e massas de
   inteligência e sabedoria coletiva. parece que finalmente chegou o
   momento onde podemos vislumbrar os pobres como futuros consumidores e
   agentes de mudança digitais.

   no entanto, vale a pena perguntar se, ao adotar a perspectiva da base
   da pirâmide (bdp) dos pobres como consumidores empoderados, estaríamos
   na verdade marketizando os pobres. hoje as economias da bdp estão em
   ascensão. várias corporações vêem a virtude dessa perspectiva e estão
   experimentando vigorosamente com o fazer o bem e, simultaneamente,
   ganhando vantagem ao serem os primeiros entre esta base de futuros
   consumidores.

   em nome do capitalismo inclusivo, o anteriormente inutilizável pobre
   se tornou um mercado viável. suas economias informais foram integradas
   por esta inclinada neoliberal. a literatura sobre marketing já
   comprovou que, uma vez que você muda o comportamento dos consumidores
   em um determinado domínio, você está bem posicionado para ganhar sua
   lealdade através de um leque de produtos. isso não é diferente na
   adoção da internet.

   a plataforma do facebook, ao permitir o acesso livre para determinados
   sites a uma série de economias emergentes, se tornou a internet para
   esta substancial base de usuários. neutralidade da rede aqui,
   evidentemente, ficou em segundo plano em nome do fazer o bem e deu ao
   facebook a vantagem singular sobre a base de dados de comportamentos
   desta população bdp.

   por outro lado, o bigdata tem ajudado a criar plataformas de
   crowdsourcing interessantes, como a ushahidi. ela foi projetada para
   transformar, em tempo real, dados de diferentes canais em mapas de
   crise que possam ajudar nos esforços de socorro humanitário. a ushahidi
   lançou um mapa de crise no prazo de quatro dias após o terremoto no
   haiti em 2010, por exemplo.

   também podemos destacar o nextdrop, um aplicativo de crowdsourcing que
   permite que pessoas de baixa renda sejam notificadas sobre onde obter
   água potável, um auxílio importante para momentos de escassez crônica
   de água que tem prevalecido em grande parte do sul global.

   enquanto estes são esforços louváveis, precisamos reconhecer que estes
   são também modelos de negócios que se apoiam em falhas do estado. a
   longevidade destes exemplos de empreendedorismo social reside na fé de
   que o estado vai continuar a decepcionar seus cidadãos. neste contexto,
   as zonas de marginalização tornamse zonas de inovação.

   quando olhamos para a base da pirâmide de dados, não há dúvida de que
   este dilúvio de informações que tem origem no sul global terá um grande
   impacto sobre o futuro da internet. é por isso que precisamos
   questionar a forma com que tudo isto será tratado, de preferência se
   abstendo do risco de tratar este público como exótico e sim
   permitindo a utilização de dados pessoais para ferramentas de
   capacitação em economias emergentes, fortalecendo ao mesmo tempo suas
   instituições, criando modos alternativos de inclusão, e ir além da
   abordagem neoliberal padrão de marketização dos pobres.
  
<file=37>

   atualmente vivemos em um mar cada vez maior de dados à velocidade da
   resposta, da rapidez de processos e do tempo real. todas,
   características cada vez mais intrínsecas ao cotidiano.

   pensando nisso, as empresas de serviços financeiros estão implantando
   sistemas para pagamentos mais rápidos, incluindo transferências de
   fundos em tempo real. como em outras áreas o benefício dessas
   implementações trazem problemas, no caso é o aumento das fraudes
   financeiras conforme os mecanismos de pagamentos em tempo real
   tornamse mais populares entre os consumidores.

   assim, para cada nova forma de pagamento que surge, os criminosos
   financeiros criam novos padrões de ataque, e os pagamentos online em
   tempo real não fogem dessa realidade. a melhor forma de defesa para as
   instituições financeiras é combinar e traçar os perfis de
   comportamentais detectados através de anomalias observadas no sistema,
   classificando e implantando novas defesas contra ataques emergentes.

   nesse ponto, mecanismos como bigdata e a análise preditiva podem
   ajudar. tais ferramentas que realizam análise preditiva e
   comportamental a partir dos dados recolhidos pelo bigdata,
   possibilitam as instituições adaptarem suas estratégias de combate a
   fraudes, permitindo ao cfo e sua equipe obter insights imediatos de uma
   perspectiva de controle interno, liquidez e previsões financeiras,
   blindando as vulnerabilidades dos sistemas.

   os cfos conhecem os riscos financeiros e compreendem a necessidade de
   detecção de fraudes através da análise de indícios em tempo real,
   transformando dados em decisões, obtendo vantagem sobre os riscos.

   para além, com o bigdata é possível reduzir os processos manuais,
   simplificar a integração de dados e eliminar riscos, tornando as
   decisões mais diretas, eficientes e eficazes. expandese assim o papel
   do cfo, que se torna um parceiro estratégico na tomada de decisões do
   ceo.


<file=38>


as infinitas possibilidades do bigdata

  
   a tecnologia está a serviço das necessidades cotidianas e empresariais.
   o bigdata é um avanço da tecnologia da informação que atende a essa
   lógica, pois capta, analisa e transforma as informações disponíveis de
   forma não estruturada – na internet, em redes sociais e outras fontes –
   em estatísticas úteis aos mais variados segmentos do mercado.

   grande parte das informações que obtemos hoje, mesmo que não seja
   perceptível a primeira vista, são frutos de análises de gráficos e
   dados estatísticos a cerca da vida comum. dentre essas estão as
   informações fornecidas pelas prefeituras de grandes cidades sobre
   transporte, segurança, clima, trânsito e o comportamento da população.

   a aplicação prática dessas informações pode partir de empresas privadas
   que criam soluções para o usuário de transporte público, por exemplo,
   ou do próprio governo ao utilizar os dados estatísticos para agir
   preventivamente em uma região com alto índice de criminalidade. países
   europeus e o japão já apresentam um bom índice de efetividade ao
   diminuírem a criminalidade a partir da prevenção dos crimes em regiões
   apontadas por meio dessas soluções.

   as aplicações do bigdata são infinitas e podem melhorar a vida em
   comunidade ao redor do mundo. como seria se pudéssemos prever crimes
   como brigas de torcidas organizadas através da análise de mensagens em
   redes sociais? e essa é apenas uma das aplicações da tecnologia big
   data.

   para tanta informação disponível e a vasta possibilidade de utilização
   desses dados o limite é nossa criatividade para usálas. através dessas
   soluções podemos não resolver todos os problemas, mas com certeza
   podemos melhorar qualquer cenário.

<file=39>
   
bigdata lab

   é o começo que interrompe muita gente? a citação geralmente atribuída a
   um anônimo é a que devemos ter em mente quando pensamos em iniciar um
   projeto. seja pesquisando para comprar um carro novo ou buscando
   motivação para voltar a jogar tênis, o passo mais difícil é sempre o
   primeiro.

   para a ti corporativa, projetos de bigdata sofrem do clássico começo
   difícil. as empresas se assustam quando planejam demais e insistem em
   manter os planos. bigdata não se adapta a esquemas passoapasso e uma
   linha de chegada prédeterminada, de acordo com phil simon, autor do
   livro “too big to ignore? the business case for bigdata”.

   hadoop e outras soluções de bigdata representam uma abordagem
   fundamentalmente mais flexível, ad hoc e orgânica ao modelo de dados.
   atender a necessidade do negócio é mais importante do que seguir
   modelos prédefinidos.
     __________________________________________________________________

não é preciso começar com o fim em mente

   quando falamos em projetos e iniciativas de bigdata é comum pensar em
   mega projetos que incluem diversas fontes de dados e um modelo
   estatístico complexo para a manipulação e processamento dos dados.

   acontece que muitas vezes, e na maior parte dos casos, o ideal é
   começar pequeno. os primeiros passos com bigdata devem ser dados de
   maneira cautelosa, porém sem medo de errar. pequenos projetos nos dão a
   possibilidade de testar os desafios e experimentar os benefícios desta
   prática.
     __________________________________________________________________

o bigdata lab

   o bigdata lab da datastorm é o ambiente perfeito para que você
   experimente o bigdata. provemos toda a infraestrutura básica
   necessária, tecnologia e expertise para os seus projetos.

   algumas características do bigdata lab:
   hadoop, mongodb, e toda a infraestrutura básica necessária, como
   serviço.
   uma avaliação dos seus dados internos disponíveis.
   possíveis fontes públicas de enriquecimento de seus data sets.
   uma visão geral do seu negócio para a identificação de iniciativas e
   projetos piloto em bigdata.

<file=40>
   

mobilidade, bigdata e segurança: áreas mais quentes de ti

   
   quando se fala em crescimento do mercado de tecnologia da informação, a
   área digital aparece em relevância quando comparada às áreas de ti que
   já existem desde o início do século.

   a convergência de “olhares” para o mundo digital ocorre, em parte,
   porque diversas corporações têm explorado cada vez mais as opções de
   conectividade em tempo real, além de suportes que possam prover a
   máxima velocidade e integração dos processos informacionais.

   e é em meio a essa escalada por um ambiente corporativo cada vez mais
   integrado que o profissional da tecnologia da informação surge como um
   mediador das melhores possibilidades móveis para os sistemas de uma
   empresa. indo um pouco além: ele atua como um verdadeiro fomentador de
   soluções que podem abranger bigdata, segurança e cloud computing.

   mobilidade, bigdata e segurança: áreas mais quentes de ti

volume, variedade e velocidade

   ou, três “vês” como são conhecidos os pilares do bigdata, uma área da
   tecnologia da informação que lida com dados não estruturados que
   representam 85% das informações com as quais as corporações trabalham
   atualmente.

   e exatamente por funcionar como um conjunto de soluções tecnológicas
   que permite analisar em tempo real qualquer tipo de informação digital,
   o mercado de bigdata crescerá, em média, 40% até 2015.

   nesse panorama, o especialista em bigdata assume o papel de
   “cientista” de dados que se ocupa dos tratamentos estatísticos e cria
   projetos de programas para transformar as informações em verdadeiros
   insights e auxiliar nas tomadas de decisões.

confidencialidade e integridade

   a segurança computacional tem se revelado como uma das áreas mais
   promissoras da tecnologia da informação. isso, devido à necessidade
   cada vez mais emergente de profissionais que consigam idealizar
   sistemas capazes de manter a confidencialidade e integridade das
   informações.

   as carreiras para o especialista com enfoque em segurança podem ser
   construídas em âmbitos jurídicos, criminais – com a computação forense,
   por exemplo – e dentro de grandes empresas, atuando em gestão e
   desenvolvimento de estratégias de confidencialidade.

o universo em uma “nuvem”

   por fim, o cloud computing, ou em tradução literal, computação em
   nuvem, tem despontado como uma das principais tendências para as áreas
   de tecnologia da informação no brasil. segundo dados levantados pela
   frost & sullivan a necessidade de transformar investimentos em
   infraestrutura (capex) em gastos recorrentes com serviços (opex) está
   impulsionando cada vez mais a adoção ao cloud computing.

   o especialista em tecnologia da informação que quiser atuar na área,
   deve estar atento aos fatores como segurança, disponibilidade de
   serviço, gestão de contratos, dentre outros pontos essenciais para uma
   estratégia corporativa que integre a computação em nuvem de forma
   realmente efetiva para a empresa.

   
<file=41>

   
bigdata

   tanto a pesquisa do setor quanto a experiência mundial real demonstram
   que cerca de 80% do trabalho em um projeto de bigdata envolve
   integração e qualidade de dados. as soluções comercializadas pela tgv
   tecnologia incluem o mais amplo conjunto de recursos de qualidade e
   integração de dados disponível no hadoop para ganhos quintuplicados de
   produtividade, transformando mais dados em análises mais inteligentes e
   precisas, em menos tempo.

   o bigdata, ou em português megadados, referese a um conjunto de
   soluções tecnológicas que são capazes de lidar com dados digitais em
   volume, variedade e velocidade. na prática, a tecnologia permite
   analisar qualquer tipo de informação digital em tempo real,
   tornandose, cada vez mais, ferramenta fundamental para tomada de
   decisões nas organizações.

   as organizações que investem em tecnologias com o bigdata só tendem a
   dar um passo a frente em relação aos seus concorrentes visto que o
   fator tecnológico é claramente visto como um fator de diferenciação
   competitiva. as soluções de bigdata podem reduzir em 10 vezes os
   custos gerais de infraestrutura de armazenamento e processamento de
   dados.


<file=42>
   
fast data: a mais recente tendência da tecnologia de dados


   imagine se você você capaz de saber o que está acontecendo em cada um
   dos milhões de automóveis que circulam pela cidade de são paulo. as
   condições do motor, o nível de desgaste do pneu, a quantidade de
   combustível no tanque e por aí vai... seria uma quantidade gigantesca
   de dados. só que esses são dados chamados estruturados. ou seja, eles
   podem ser medidos e são relativamente organizados. a quantidade
   combustível, para ficar no exemplo, é medida em litros.

   agora imagine conseguir ouvir o que cada um dos motoristas e
   passageiros está falando ou pensando quando está dentro dos seus
   carros. uma montanha de dados ainda maior. só que, para piorar as
   coisas, esses dados não têm estrutura – não dá para medir o conteúdo da
   fala das pessoas. no máximo, dá para tentar identificar padrões. nesse
   caso, é o que os técnicos chamam de dados desestruturados. o exemplo do
   carro serve para o mundo virtual, onde dados estruturados e dados
   desestruturados se misturam. dá para imaginar a quantidade de dados
   gerada em apenas 1 minuto na internet, por exemplo?

   recolher e analisar esses dados se tornou obsessão para a indústria de
   tecnologia. isso porque a capacidade de tirar algum sentido deles vale
   dinheiro. muito dinheiro. dito assim, de modo geral, esse é o conceito
   do bigdata  que você talvez já tenha ouvido falar. agora, graças a
   computadores e softwares mais e mais poderosos, o desafio é compreender
   esses dados em tempo real. nada de esperar pelo resultado da análise. o
   barato da vez é tirar conclusões ao mesmo tempo em que tudo acontece. a
   nova tendência foi batizada de fast data.

   ferramentas de fast data devem se tornar fundamentais para as
   estratégias de marketing de empresas de diferentes setores; para citar
   alguns exemplos, não é difícil imaginar ações utilizando informações
   sobre o comportamento de seus clientes em tempo real para empresas de
   telecomunicação, operadoras móveis, call centers e ecommerces.

   um banco, por exemplo, poderia identificar quando um cliente estivesse
   utilizando seus serviços online, determinar seu comportamento e, em
   tempo real, fazer uma oferta específica para aquela pessoa. uma
   operadora de cartão de crédito, ao identificar que um consumidor está
   utilizando o cartão em um shopping, também poderia enviar imediatamente
   para o celular ofertas de outras lojas parceiras ao seu redor usando
   sua geolocalização.

   a análise de informações em tempo real se dá em dois momentos: no
   primeiro, o sistema já entende o contexto daquela informação e cria uma
   análise comportamental com base nas informações da sua solução de big
   data.

   um dos maiores ecommerce do brasil já usa o fast data há algum tempo;
   o usuário navega na loja online e consulta diversos modelos de tênis.
   em um segundo momento, quando ele retornar ao site, a solução de big
   data já sabe quem é aquele usuário e quais produtos ele procurou da
   última vez. a ação de fast data entra quando – em questão de segundos,
   enquanto a página ainda carrega, o site mostra ofertas de pelo menos
   três modelos que provavelmente vão interessar àquele cliente.

   a tecnologia ainda é extremamente nova, mas a gente deve começar a
   ouvir falar cada vez mais sobre fast data; e, ainda assim, já existe
   uma série de soluções sendo usadas mundo afora.

   outro exemplo bem interessante de aplicação de fast data foi utilizado
   durante muito tempo pelo governo dos estados unidos. com uma base de
   dados de bigdata sobre conversas telefônicas de terroristas após os
   atentados de 2001, uma ferramenta de uso exclusive do fbi analisava em
   tempo real milhares de conversas telefônicas e emitia um alerta caso
   aquela chamada fosse identificada como suspeita de terrorismo. hoje
   esta tecnologia é aberta para inúmeras aplicações mais próximas da
   nossa realidade.

   se 2014 foi o ano do bigdata; 2015 é o ano do fast data. muita
   velocidade, análise em tempo real e tomada de decisões praticamente
   instantâneas. não deixe de acompanhar os capítulos dessa história aqui
   no olhar digital.
   
<file=43>
   
                       bigdata não é uma tecnologia”

                   luciana sodré costa e marcos cavalcanti


     bigdata é um assunto que tem interessado um numero cada vez maior
     de pessoas. uma simples pesquisa do termo no google trends confirma
     essa tendência. no entanto, isso não quer dizer que tenhamos uma
     compreensão apropriada do termo. se perguntadas, a maioria das
     pessoas dirá que bigdata é uma tecnologia. outros dirão que é uma
     ferramenta ou um grande banco de dados. nada de errado associar big
     data a essas palavras, mas precisamos saber que essas associações
     isoladas não são capazes de descrever a sua essência. a maneira mais
     simples de explicar o que é bigdata é através de uma analogia.

     imagine a quantidade de dados que você utiliza para decidir se pode
     atravessar uma rua com segurança: dados já armazenados de
     experiências anteriores e dados que você recolhe naquele momento,
     como a velocidade do carro, a distância que ele está de você e a
     distância para o outro lado da rua. consideramos ainda nosso estado
     físico naquele momento, o sapato que estamos usando, as condições do
     piso, a cultura local e outra infinidade de fatores impossíveis de
     serem listados, não por falta de espaço, mas por total
     desconhecimento de tudo o que de fato consideramos antes de tomar
     essa “simples” decisão. quanto maior a quantidade, variedade e
     confiabilidade dos dados analisados, maiores as nossas chances de
     sucesso. captamos dados do mundo através dos nossos sensores
     chamados de sentidos.
     mas a quantidade e variedade de dados por si só não nos garante a
     melhor decisão. é preciso analisar tudo isso. relacionamos dados uns
     com os outros dados, formulamos hipóteses e testamos a sua eficácia
     tentando chegar com vida do outro lado. tudo isso tem que ser feito
     num espaço de tempo razoável. a demora na análise dos dados pode nos
     levar a um atraso na tomada de decisão. então, ou você perde a
     oportunidade da travessia, ou age com atraso, o que pode ser fatal.
     quando tomamos a decisão do melhor momento para atravessar a rua,
     partimos de algumas certezas sobre o futuro como, por exemplo: o
     carro não chegará antes que eu alcance o outro lado da rua. com esse
     tênis dá pra correr. nesse piso escorregadio, se eu correr, eu caio.
     os carros não avançarão o sinal vermelho. esse vislumbre do futuro é
     uma habilidade que vamos aprimorando com o acúmulo de mais dados e
     mais experiências que vão sendo incorporados à nossa capacidade de
     apreender o mundo. já viram uma mãe tirar um copo de vidro da beira
     da mesa onde um filho pequeno está comendo? ou um filho dizendo que
     não vai pedir aquele brinquedo agora porque o pai está zangado e vai
     responder “não”? são modelos preditivos por excelência, baseados na
     experiência. além de usar dados e experiência para tomar decisões,
     usamos nosso conhecimento para interferir no ambiente de modo a
     facilitar e aumentar a taxa de sucesso desse processo. instalar
     faixas de segurança e sinais de trânsito são exemplos disso.tudo o
     que sabemos do mundo vem da observação e da correlação de
     observações. toda nossa interferência no meio vem do nosso desejo de
     controlar fenômenos que ameaçam nossa sobrevivência.
     dados digitais: quantidade (volume) e variedade
     e o que tudo isso tem a ver com bigdata? simples. bigdata é tudo
     isso, só que em formato digital. é a representação do mundo real em
     códigos que podem ser guardados, compartilhados, correlacionados,
     confrontados e analisados de modo objetivo e racional, aumentando em
     proporções incalculáveis nossa capacidade cognitiva. como toda
     representação da realidade é incompleta, mas nos permite um salto de
     qualidade na interpretação e análise da realidade à nossa volta.
     comecemos pelos dados. estamos progressivamente e irreversivelmente
     migrando para o digital nossas relações pessoais, comerciais e com o
     meio ambiente. está cada vez mais difícil imaginar algo que não
     possa ser feito em um processo digital. ao contrário, cada vez mais
     portas não digitais são definitivamente fechadas. experimente por
     exemplo entregar sua declaração de renda, tirar passaporte ou fazer
     uma ligação telefônica fora do ambiente digital.esse movimento
     garante de uma só vez a quantidade e variedade de dados tão
     alardeada pelos entusiastas do bigdata.
     outra grande parte dessa digitalização da vida é feita por sensores
     que captam informações como ruído, volume, peso, temperatura,
     localização, deslocamento, luminosidade, umidade etc. os sensores
     digitais são responsáveis pela digitalização de grande parte das
     informações das condições físicas de pessoas, animais, plantas e
     objetos assim como das relações entre eles e o meio ambiente. tem
     mais: todo movimento com o mouse ou teclado é registrado
     digitalmente deixando uma espécie de pegadas da nossa navegação pela
     internet. esses dados são chamados de rastros de navegação.
     numa simples observação da quantidade e variedade dos dados digitais
     citados acima podemos imaginar quanta informação podemos obter do
     mundo em que vivemos. como as pessoas se comunicam? como escolhem o
     que comprar? por quais assuntos se interessam? o que pensam disso ou
     daquilo? qual o movimento de uma população quando a temperatura cai?
     e quando sobe? como se deslocam as pessoas? como fatores de
     luminosidade e umidade interferem na produtividade de uma plantação?
     será possível visualizar muito processo que antes parecia impossível
     de ser rastreado, encontrar relação entre muitas coisas que antes
     pareciam desconectadas e identificar muitos fatores que contribuem
     para um determinado fenômeno, que antes nos eram invisíveis.
     dados digitais: veracidade e velocidade
     nada disso seria possível se não pudéssemos confiar nesses dados,
     mas a pressuposição da veracidade dos dados em bigdata tem
     fundamentos sólidos. mais da metade deles têm origem em rastros de
     navegação e sensores de todo tipo como o gps. ou seja, a maior parte
     dos dados digitais é fornecida de modo involuntário, portanto livre
     de erros de registro e interpretação e de ruídos na comunicação, tão
     comuns em dados captados de outro modo. outra grande parte é
     fornecida de modo voluntário em transações comerciais e financeiras,
     consulta em sites de busca e troca de mensagens, gerando dados
     igualmente autênticos.  não bastassem as três dimensões já citadas,
     volume, variedade e veracidade, os dados digitais em bigdata
     apresentam mais uma característica imprescindível para a tomada de
     decisão: a velocidade. essa quarta dimensão se manifesta em pelo
     menos três momentos: na captação, na disponibilização e na resposta
     da analítica dos dados.
     a mobilidade da comunicação explica a velocidade na captação e
     disponibilização dos dados. atualmente os dados são captados por
     aparatos digitais munidos de tecnologia de comunicação móvel
     permitindo a digitalização de informações em tempo real. as
     transações comerciais e as comunicações pessoais, por exemplo, podem
     ser feitas de aparelhos celulares ou tabletes e computadores
     conectados à internet por wifi, que dataficam essas relações com
     muito mais fidedignidade. isso porque, além do registro da transação
     feita, e dos rastro de navegação, são dataficados também hora e
     local da transação, informação de grande relevância no estudo do
     comportamento social. sensores que captam informações de objetos,
     animais, plantas e condições ambientais também dispõem de tecnologia
     de comunicação wireless possibilitando que os dados, tão logo sejam
     captados, estejam disponíveis para utilização. a chamada computação
     em nuvem responde pela velocidade da capacidade analítica. por
     estarem sempre disponíveis para utilização, o tempo entre a coleta
     dos dados, a analítica digital e a disponibilização dos insights
     gerados tem sido cada vez menor, o que é de grande valor no processo
     de tomada de decisão.
     ciência das redes complexas
     a possibilidade de entender, modelar e predizer comportamentos
     através de dados digitais é garantida pela ciência das redes
     complexas. tratase de um campo novo de estudo que estuda as
     relações entre os nós de sistemas complexos, identificando sua
     arquitetura, topologia e propriedades, permitindo que seja feita uma
     governança eficaz desses sistemas.
     nos últimos quatro séculos, usamos o método científico para
     construir o conhecimento que tem transformado o mundo e a
     humanidade. olhando para fora de nós fomos capazes de identificar
     quase todas as partes que compõem o universo. descobrimos novas
     espécies, novas partículas e elementos químicos e novos planetas e
     galáxias. olhando para dentro, descobrimos todos os órgãos e seus
     componentes, todas as substâncias que compõem o corpo humano, todas
     as partes de uma célula e sequenciamos todo o genoma humano. esse
     avanço do conhecimento foi resolvendo alguns problemas e trazendo
     novos desafios, novas zonas de sombra e ignorância. se em algum
     momento achávamos que íamos descobrir a explicação definitiva do
     universo, a vida rapidamente se encarregava de nos colocar novos
     problemas, bem mais complexos.
     sempre foi assim e, provavelmente, continuará a sêlo. imagine o
     nosso conhecimento como algo contido em um círculo. a circunferência
     seria a nossa fronteira com o desconhecido. cada vez que aumentamos
     nosso conhecimento, aumentamos esse círculo e consequentemente a
     nossa ignorância. este é o paradoxo do conhecimento: quanto mais
     conhecemos, mais aumenta a consciência de nossa ignorância.
     parafraseando sócrates, quanto mais eu sei, mais me dou conta que
     nada sei...
     a ampliação do nosso conhecimento cientifico nos últimos quatro
     séculos nos levou ao seguinte desafio: conhecemos as mínimas partes
     de todo sistema que estudamos, mas temos cada vez mais problemas sem
     solução. a ciência das redes traz novo oxigênio ao campo das
     ciências complementando o método cientifico reducionista que chegou
     ao seu limite. conhecer as partes nos possibilitou muito
     conhecimento e inovação, mas garantiu a solução apenas daqueles
     problemas que têm a sua gênese no entendimento das partes do
     sistema, e não na relação entre estas partes.
     o melhor exemplo disso é o projeto genoma que reduziu o dna humano
     às suas partes sem causar o impacto que se imaginava em novos
     tratamentos para doenças. para que isso aconteça, erá preciso
     colocar as partes do sistema juntas de novo e observálas em
     funcionamento com as outras partes e com outros sistemas. ou seja,
     precisamos estudar o potencial das redes. o próprio projeto genoma é
     exemplo também desse potencial. o trabalho foi desenvolvido por
     milhares de pesquisadores de todo o mundo que, de forma colaborativa
     e em rede, desenvolveram e compartilharam seus conhecimentos e
     descobertas. na mesma época foi criada uma empresa privada, a celera
     genomics, que pretendia patentear a descoberta e cobrar royalties.
     seu modelo de produção de conhecimento era o tradicional: apostava
     na força das partes, seus cientistas altamente especializados, e
     desprezava a importância da rede. um modelo hierárquico e
     cartesiano.
     outro exemplo da força das redes na geração do conhecimento se deu
     na astronomia. um avanço extraordinário foi identificado quando a
     comunidade cientifica tradicional passou a aceitar a colaboração de
     milhares de cosmologistas amadores em todo o mundo. o resultado
     deste confronto de modelos talvez tenha sido a primeira grande
     comprovação de que a rede pode ser a maneira mais eficiente e eficaz
     de se resolver problemas complexos. a rede de pesquisadores
     sequenciou o genoma humano antes da celera que trabalhou sozinha. a
     astronomia reconhece e se beneficia do trabalho de milhares de
     pessoas que observam o espaço por diletantismo e que agora fazem
     parte de uma rede de conhecimento.temos ainda a wikipedia que, com
     um modelo de registro e disponibilização de conhecimento em rede,
     superou a enciclopédia britânica que tinha um modelo de produção
     baseado em notáveis especialistas trabalhando isoladamente.
     um ponto em comum em todos esses exemplos é a rede complexa que os
     sustenta. por complexidade entendemos diversidade e nos exemplos
     dados essa diversidade se dá por diferentes domínios do
     conhecimento. as redes não são formadas apenas por especialistas no
     problema, mas por pessoas de diversas áreas que se interessam pelo
     problema. portanto, a busca de soluções inovadoras para problemas
     complexos deve ter como pressupostos básicos a cooperação e a
     multidisciplinaridade. esta abordagem em rede para a resolução de
     problemas, que reúne as melhores ideias de diferentes disciplinas,
     aproximandose de um problema a partir de diferentes perspectivas é
     uma evolução da metodologia científica. ela parte de uma premissa
     básica: em problemas complexos não existe uma resposta única e
     definitiva.
     diversos autores (edgar morin, fritjof capra, adam kahane, dentre
     outros) desenvolveram esta visão mais complexa (sistêmica,
     holística) da realidade. saber que o mundo é complexo e reconhecer
     as limitações dos métodos existentes já era um grande avanço, mas aí
     surgiu a internet e os dados digitais. a ciência das redes surgiu
     com a experiência do cientista albertlaszló barabasi, uma das
     maiores referências mundiais no estudo de redes complexas. barabási
     foi o primeiro a utilizar dados digitais para tentar compreender o
     comportamento das pessoas na internet. ao encontrar padrões em
     rastros de navegação, concluiu que redes complexas possuem
     propriedades e que essas propriedades podem ser aplicadas no
     conhecimento e gestão de outros sistemas complexos como um
     organismo, uma célula ou a própria sociedade.
     além disso, a descoberta de padrões em redes até então consideradas
     randômicas ou caóticas mostra que com dados suficientes é possível
     explicar o funcionamento dos sistemas complexos e mais que isso, se
     é possível explicar, é possível governar. entender e controlar
     crises financeiras, disseminação endêmica de doenças, surgimento e
     evolução de doenças ainda incuráveis, comportamentos sociais não
     desejados como a violência, processos de aprendizagem,
     comportamentos de consumo, entre outros, são os fenômenos para os
     quais os métodos reducionistas não encontraram soluções.  a
     complexidade dada pela alta interconectividade desses sistemas
     impedem que um olhar especialista, reduzido e linear possa
     vislumbrar as causas e trazer soluções efetivas para esses
     problemas.
     conclusão
     conhecer e controlar os fenômenos complexos são as promessas do big
     data que têm mobilizado as pessoas em torno do tema. entusiastas e
     críticos desprendem grandes esforços para entender as possibilidades
     e consequências dessa nova plataforma de geração do conhecimento que
     estamos começando a explorar.
     estamos construindo em torno do planeta uma rede digital que ilumina
     a complexidade dos sistemas naturais, incluindo a sociedade,
     permitindo não apenas a sua visualização (analítica descritiva), mas
     também sua compreensão (analítica diagnóstica) e antecipação do seu
     comportamento (analítica preditiva). toda essa capacidade analítica
     da complexidade levará a uma capacidade elevada de governança no
     mundo dos negócios, na ciência e entre os seres humanos. tudo indica
     que bigdata será a maior plataforma de inovação deste século, nos
     levando a um novo patamar de conhecimento da realidade à nossa
     volta.
     diante dessa constatação, definir bigdata como tecnologia, banco de
     dados ou ferramenta, seria passar bem longe da sua verdadeira
     essência e do seu potencial. preferimos definilo como um
     ecossistema digital. toda complexidade do universo sendo
     gradativamente digitalizada, onde buscaremos grande parte do
     conhecimento que ainda nos falta.

    
<file=44>
   
    
   em recente evento com cios, quase que naturalmente nas conversas,
   surgiu o assunto bigdata. observei que pelo menos a maioria dos cios
   tem plena consciência da importância dos dados e que muito
   provavelmente seu uso vai mudar as próprias regras dos negócios. aliás,
   reconhecer a importância dos dados não é novidade. o fundador da fedex,
   fred smith disse em 1978 : “a informação sobre o pacote é tão
   importante quanto o pacote em si” e a partir deste insight criou os
   sistemas de rastreamento de pacotes em tempo real.

   os dados estão se multiplicando de forma exponencial, pelo crescente
   uso da mobilidade, sensores, redes sociais e outras fontes. o institute
   for the future prevê mudanças profundas na forma como a tecnologia
   transformará o mundo dentro de dez anos: “há claros sinais de um
   movimento na direção de um mundo no qual praticamente todo elemento da
   vida estará ligado a dados”.

   a questão é que usar este imenso oceano de dados ainda é um desafio e a
   maioria das empresas ainda está na fase de colocar o dedo na água para
   saber a temperatura. na conversa com vários cios, identifiquei que, na
   percepção deles, em tempos de crise econômica, bigdata tende ficar em
   segundo plano. mas, podese ganhar dinheiro analisandose dados. os
   fundos de hedge já fazem isso. recente artigo no wsj (“fundos fazem
   arrastão no mar de dados para negociar ações“) mostra isso.

   então, porque não pensarmos de forma diferente? em vez de deixar para
   depois, olhar bigdata sob uma ótica mais urgente? bigdata não apenas
   gera valor para o negócio atual mas também pode criar novos negócios. o
   google por exemplo, criou todo um multibilionário negócio com algo que
   poucos pensavam que pudesse gerar dinheiro: palavras. o serviço adwords
   analisa as palavras inseridas no seu motor de busca e vende propaganda
   direcionada, baseada nestas palavras.

   por que não “bigdata as a business”? muitas empresas já possuem um
   imenso volume de dados e podem gerar novas receitas com seu uso e
   comercialização. vejam alguns setores que possuem imenso volume de
   dados: financeiro, telecomunicações, seguros e varejo. não poderiam
   gerar novos negócios com este imenso volume de dados que já está dentro
   de casa?

   claro que existe a questão da privacidade, mas um banco pode criar um
   novo negócio tratando milhões de transações eletrônicas, eliminando as
   informações que permitam identificar um indivíduo, analisar seu
   conteúdo e vender os insights gerados para outras empresas para os
   quais estas informações podem ser valiosíssimas. aliás, muito bancos
   estrangeiros já fazem isso:
   http:www.blinklane.comblogbanksselldata#.vtvqayfviko.

   um varejista também pode entrar no negócio de dados. um exemplo é a
   dunnhumby, unidade de negócios da varejista tesco, que vende análises e
   insights sobre comportamento dos consumidores para o mercado. tornando
   os dados anônimos, para não identificar clientes, a dunnhumby vende
   informações sobre hábitos de compra em determinada zona postal,
   identificando, inclusive o potencial de compras, por região, para
   determinados tipos de produtos. e operadoras de telecomunicações? um
   caso é a precision market insights, da verizon, que oferece acesso
   anônimo aos milhões de registros que a empresa tem sobre seus clientes,
   como localização e comportamentos. com esta informação é possível saber
   se uma pessoa passando em frente a um anuncio, entra na loja anunciada,
   medindo a eficácia do anuncio.

   adicionalmente é possível pensar também em criar um negócio em parceria
   com outra fonte geradora de dados, criando valor adicional aos dados
   que a corporação possui. um exemplo interessante é o “payasyougo
   auto insurance” oferecido pela parceria entre a gm (e o seu sistema de
   navegação onstar) e a seguradora americana national general insurance.
   o serviço utiliza dados de distância percorridos pelo segurado para
   oferecer descontos a quem utiliza menos o veículo.

   como vemos, já aparecem, aqui e ali, experiências de criação de novos
   negócios baseados na analítica de dados. claro que existem alguns
   prérequisitos. antes de mais nada é necessário que a empresa tenha um
   modelo de governança de dados, para reduzir riscos de perda de
   privacidade ou uso indevido de dados. é também essencial criar uma
   cultura de uso de dados na organização.

   apesar do tsunami de dados que já inunda (e seguirá inundando) o mundo
   no futuro previsível (em 2020, segundo gartner e idc ,serão gerados 44
   zettabytes de dados ou 44 trilhões de gigabytes), ainda pouco se sabe
   como lidar com esse contexto. mas, não dá para esperar passar a crise
   econômica. quando o jogo fica difícil, o negócio é mudar o jogo!
     

<file=45>
   
bigdata para resolver um problema que não tem a ver com tecnologia

   o artigo beer maker uses bigdata and graphics chips to create a
   better brew” da venture beat (http:goo.glqrzbpn) mostra uma startup
   que utiliza bigdata para dar a volta por cima de um problema que não
   tem nada a ver com tecnologia. através de algoritmos de inteligência
   artificial e modelagem matemática, o programa ajuda pequenas
   cervejarias a melhorar a qualidade do seu produto e identifica
   problemas nos lotes produzidos usando técnicas de análise sensorial.
   foi necessário utilizar também criatividade para acelerar os cálculos
   através de hardware de processamento gráfico. as análises dão ao mestre
   cervejeiro em segundos as informações de que ele precisa para decidir
   se deve ou não carregar o caminhão com a sua última produção.
   quando se fala em data science e bigdata, pode parecer que só quem tem
   grandes cientistas e especialistas no assunto pode se beneficiar. ledo
   engano. esse novo diferencial competitivo pode ser obtido através de
   recursos bem mais acessíveis. o cientista de dados ainda é um
   “unicórnio púrpura”, um perfil super raro. encontrar alguém com
   experiência comprovada não é raro: é praticamente lendário. a
   alternativa, então, é montar uma equipe mista, com especialistas em
   áreas como estatística, business intelligence e tecnologia de
   informação. ao juntar matemática com conhecimento de negócio e
   tecnologia, temos a combinação mínima para sair do lugar. a computação
   em nuvem é o ingrediente que dá a infraestrutura necessária para
   manipular grandes volumes de dados. há também ferramentas “estado da
   arte” a um click do mouse, que anos atrás estavam acessíveis apenas no
   meio acadêmico ou através de softwares altamente especializados (e
   extremamente caros).
   como o artigo mostra, é possível encontrar soluções inovadoras nos
   contextos mais inesperados, como melhorar qualidade de cervejarias
   artesanais através de análise sensorial, e com uma equipe muito mais
   junior  a equipe da analytical flavor system é composta de estudantes
   e formandos de faculdade. outros contextos podem aparecer, como
   descobrir tendências de compra com segmentação dos clientes de um
   ecommerce, ou com base na análise estatística das últimas transações
   bancárias identificar quais os clientes mais propensos a contratar um
   financiamento. desta maneira estamos dando um salto na transformação
   digital. em vez de pequenos incrementos, podemos conseguir impactos
   ainda mais surpreendentes nos modelos de negócio alavancados com big
   data e analytics. que tal transformar essa cerveja quente em um chopp
   de primeira?﻿
   

<file=46>
   
           
o que é bigdata? conheça essa tecnologia de monitoramento

   
   redes sociais, gps, telefones celulares e a popularização dos mais
   diversos dispositivos móveis foram o estopim para o início desse
   serviço. o bigdata é uma tecnologia que reúne uma quantidade
   inimaginável de dados digitais e os cruza, aumentando a possibilidade
   de ganhos com o uso dessas informações. de acordo com especialistas, o
   bigdata analisa informações em variedade, volume e velocidade como
   nunca antes se viu.
   com bigdata, empresas podem cruzar dados e ter maior eficiência (foto:
   divulgação) com bigdata, empresas podem cruzar dados e ter maior
   eficiência (foto: reprodução)

   a grande novidade da tecnologia bigdata é trabalhar com dados
   nãoestruturados, que dependem de um contexto para serem entendidos.
   esse tipo de informações são tweets, comentários no facebook e vídeos,
   por exemplo, e representam 85% das informações com as quais as
   organizações lidam atualmente.

   em reportagem do jornal o globo, o executivo de operações da emc, pat
   gelsinger, afirmou que o mercado global de bigdata já movimenta us$ 70
   bilhões por ano, e a tendência é que tenha um crescimento de quase 40%
   até 2015. no fórum econômico mundial, em davos, na suíça, pesquisadores
   publicaram um artigo em que acreditavam que esse tipo de software pode
   ajudar a solucionar problemas econômicos, justamente porque o bigdata
   traz eficiência às empresas.

   aliás, a tecnologia chega cada vez com mais força também no brasil. a
   loja de departamento renner usa a tecnologia para monitorar o fluxo de
   mercadorias de suas filiais em todo o país, o que é feito em tempo
   real. com o bigdata é possível cruzar os dados de localização dos
   caminhões com o nível de estoque das lojas e ainda reorganizar a
   mercadoria entre as lojas com base em dados meteorológicos, por
   exemplo. além de acompanhar os comentários sobre seus produtos nas
   redes sociais.

   o bigdata permite analisar qualquer tipo de informação digital em
   tempo real. atualmente circulam pela rede cerca de 1,8 zettabyte, a
   previsão é que em 2015 esse número chegue a incríveis 7,9 zettabytes.
   um zettabyte é igual a 1.000.000.000.000.000.000.000 bytes – isso
   mesmo, um número inimaginável!
   tecnologia bigdata reúne e analisa em tempo real enorme quantidade de
   dados digitais (foto: divulgação) tecnologia bigdata reúne e analisa
   em tempo real
   enorme quantidade de dados digitais (foto: reprod.)

   fundamental para a tomada de decisões, esse tipo de software poderia
   até evitar assaltos, já que são capazes de analisar imagens. assim, o
   bigdata poderia monitorar as câmeras da cidade, entender padrões que
   antecedem assaltos e outros crimes e chamar a polícia antes que os
   bandidos cometam de fato o delito. apesar desse cenário à la “minority
   report”, patrícia florissi, da emc, diz que ainda falta bastante tempo
   para que a tecnologia seja usada dessa forma.

   a própria emc está construindo no parque tecnológico da ufrj um centro
   de pesquisa exclusivamente para o desenvolvimento de bigdata. a
   companhia promete investir r$ 100 milhões nos próximos dois anos. a
   previsão é que a unidade fique pronto em 2014, empregando 35
   pesquisadores.

   com polêmicas cada vez mais recentes sobre privacidade na internet,
   através do bigdata já há empresas cruzando dados para descobrir que há
   maior probabilidade do consumidor de gatorade comprar laxante, por
   exemplo. isso ajuda as corporações a se organizarem, mas também tira a
   privacidade do consumidor – mas isso é outro assunto.

  
<file=47>
   
bigdata e as interações sociais


   identificar comportamentos, criar insights a partir dos dados dos
   clientes, realizar ações publicitárias assertivas, calcular os riscos e
   falhas da comunicação... a lista de possibilidades que a ferramenta de
   bigdata oferece às empresas parece infinda, não é mesmo? assim como o
   volume e a variedade de informações geradas em tempo real sobre a sua
   marca. por isso, o monitoramento desses dados, que inclui as interações
   nas redes sociais, pode fazer toda a diferença quanto ao posicionamento
   do seu negócio, quanto às estratégias que lhe trarão vantagens
   competitivas.

   já sabemos que cerca de 80% das informações do planeta geradas nos
   últimos dois anos estão desestruturadas. e grande parte delas vêm das
   mídias sociais. os outros apenas 20% estão estruturados, prontos para
   serem analisados por meio de ferramentas tradicionais de tecnologia.
   isso quer dizer que as organizações têm um mar de desafios a serem
   explorados. perguntas como o que trabalhar diante desses múltiplos
   dados?, como trabalhálos? e por aí vai são cada vez mais frequentes.

   por isso, fazse necessário investigar aquilo que é mais relevante
   dentro de determinado contexto, o que exigirá profissionais habilitados
   para tanto, e usálo para tomar as melhores decisões. as ferramentas de
   bigdata possibilitam a coleta e armazenamento de grandes volumes de
   dados, mas como já dissemos aqui no blog, são os processos de análise
   que as envolvem é que possibilitarão a compreensão e obtenção de valor
   dos dados.

   em breve, a mjv promoverá um webinar sobre bigdata com um de nossos
   especialistas sobre o tema. acompanhe o nosso blog, para saber mais.

   
<file=48>
   
maior desafio do bigdata é cultural

   
   estratégia de bigdata

   transpor as barreiras culturais é o maior desafio para o
   desenvolvimento do conceito de bigdata no mundo. apesar de a busca
   pelo termo ter crescido exponencialmente nos sites de busca por países
   como estados unidos, índia e brasil, os investimentos em bigdata têm
   se mostrado pouco expressivos: valor médio de us$ 10 milhões por
   empresa. é o que revelou uma pesquisa feita pela tata consultancy
   services (tcs) sobre as tendências globais de bigdata.

   na opinião de executivos, o principal fator que dificulta a
   implementação dessa solução é o cultural, seguido pelo tecnológico e
   por como interpretar os dados e aplicar os resultados nas decisões de
   negócio. mas para se gerar grandes resultados é preciso ser certeiro
   quanto à pergunta que deve ser feita diante de um volume enorme de
   dados gerados em milissegundos. confira o post bigdata: saiba fazer a
   pergunta certa.

   encontrar talentos capazes de analisar com inteligência cargas massivas
   de dados pode ajudar a quebrar o possível medo em aplicar o bigdata
   como uma real solução de negócio, independente do seu segmento. somente
   profissionais altamente qualificados conseguem enxergar além dos
   números, agregando valor em diversos aspectos.

   a arma poderosa de bigdata se baseia em uma sólida modelagem de dados.
   por isso, as organizações precisam se concentrar na ciência de dados,
   conforme alertou o diretor estratégico de business intelligence da mjv
   jorge mendes no webinar desmistificando o bigdata. para ele, quatro
   qualificações caracterizam um cientista de dados: conhecimento técnico,
   curiosidade, habilidade de usar os dados para contar uma história de
   forma eficiente e inteligência para analisar criativamente um problema
   por vários ângulos.

   o bigdata implicará um investimento maçico nos próximos dois anos, em
   todo o mundo, anunciou o gartner group, respeitável consultoria na área
   de tecnologia. já são movimentados cerca de $ 70 bilhões por ano no
   mercado global de bigdata, e a tendência é que haja um crescimento de
   quase 40% até 2015. o grupo norteamericano prevê ainda que, em 2015,
   4,4 milhões de empregos serão criados em torno do bigdata.

   já de acordo com analistas da mckinsey, líder mundial no mercado de
   consultoria empresarial, os estados unidos podem enfrentar, em 2018,
   uma escassez de 140 mil a 190 mil profissionais com profundas
   habilidades analíticas, bem como 1,5 milhão de gerentes e analistas com
   o knowhow para usar a análise de bigdata na tomada de decisões
   eficazes.