Vou fazer uma pausa nos artigos sobre Gestão de Projetos de Big Data para falar um pouco sobre Aprendizagem de Máquina e sua relação com Big Data. Com isso pretendo mesclar conteúdos mais gerenciais com algumas situações mais práticas deste assunto.
Participei em setembro de 2014 de uma conferência sobre Big Data nos Estados Unidos. Tive o prazer de conhecer o prof. Sunil Sabat, especialista em Machine Learning e Big Data. Ele possui um blog cuja leitura é recomendada pelos que se interessam no assunto: http://bigdataknowhow.weebly.com/.
A Aprendizagem de Máquina (Machine Learning) é uma área da computação e da estatística que lida com a construção de sistemas que são capazes de aprender com os dados e eventualmente até com suas próprias decisões. Este tipo de sistema é capaz de tomar decisões baseadas nos dados disponíveis e as decisões tomadas pelo sistema podem realimentar a base de dados. Desta forma o sistema não segue apenas a lógica imposta pelo desenvolvedor e sim se ajusta sem a intervenção humana.
Você pode imaginar que este assunto é novo, mas na realidade esta definição existe desde o final da década de 1950.
É natural concluir que, com o advento do Big Data as possibilidades de criar modelos deste tipo sejam bastante ampliadas. E a assertividade das previsões também. Quanto mais dados, melhores as previsões.
Falando em previsão, acho importante deixar clara a diferença básica entre Machine Learning e Data Mining. Os dois conceitos se complementam, mas também se sobrepõem. O foco principal do Machine Learning é realizar previsões baseadas em dados conhecidos e utilizados para “treinar” o algoritmo. O foco principal do Data Mining é a descoberta de propriedades dos dados que antes não eram conhecidos. Por este motivo o Machine Learning se utiliza do Data Mining para aprimorar a acuracidade do treinamento e avaliação do modelo (vide abaixo).
O prof. Sunil cita em seu Blog os seguintes passos para adoção e desenvolvimento do processo de Machine Learning:
Simples, certo? Infelizmente não. Os resultados normalmente são muito interessantes quando se chega no último passo. Porém, até lá isso pode demorar um pouco (ou muito).
A vantagem é que este processo é possível de se colocar em prática. Tendo acesso aos dados, conhecimento da técnica, do negócio e um objetivo claro em mente você também será capaz de ter sucesso neste processo.
Dos quatro elementos citados no parágrafo anterior, provavelmente o mais difícil seja o “objetivo claro”. Você só terá um objetivo claro se souber fazer a pergunta certa. E a pergunta certa para Big Data será o tema do meu próximo post.
Até lá!
Celso Poderoso é coordenador dos cursos de MBA da FIAP (Arquitetura de Redes e Cloud Computing, Big Data – Data Science -, Business Intelligence), professor dos cursos de pós-graduação da FIAP. É mestre em Tecnologia, especialista em redes sociais aplicadas à Educação e economista. Atua desde 1984 na área de TI, especialmente em desenvolvimento de sistemas e banco de dados Oracle, atualmente é gerente de serviços na MicroStrategy. Possui cinco livros publicados na área de banco de dados, como SQL Curso Prático e Oracle PL/SQL 10g. Todos editados pela Novatec Editora.