Desbravando o Big Data: o que é Data Mining? - TD | O ecossistema da Transformação Digital

No atual mundo dos negócios, quem tem informação tem tudo. No entanto, este mundo é recheado de fatos e notícias de todos os assuntos. É a explosão de dados, chamado de Big Data.

Ás vezes, é difícil separar o que é dado e o que é ruído. O grande desafio das empresas é coletar informação que seja relevante para o negócio delas e descartar aquilo que não interessa.

Por trás das grandes corporações, existem sistemas complexos que fazem coletas e análises de dados para ajudar os executivos a tomarem suas decisões. Essas empresas se destacam das concorrentes porque tomam as decisões certas na hora certa. No entanto, o que pouco se fala é como elas sabem qual o momento ideal para tomar uma decisão.

Os sistemas auxiliares na coleta de dados são chamados de Data Mining. Eles têm grande importância no mundo dos negócios atuais, por lidar com a grande fonte de informações disponibilizada por todos e para todos. Pensando nisso, este post desbravará um importante conceito do Big Data: o Data Mining. Quer saber mais sobre? Continue lendo.

O que é Data Mining

O conceito de Data Mining, mineração de dados em português, é mais simples do que parece. É basicamente uma forma de analisar e processar uma quantidade de dados sob diferentes perspectivas. Esses dados são então transformados em informação, que serão úteis nas mais diversas áreas estratégicas.

Uma forma interessante de se pensar em Data Mining é pensar em seu propósito. Todo o tipo de dado precisa de alguém que identifique os padrões, consistências e relacionamentos com outros dados, de forma a transformar isso em conhecimento para ser usado em decisões estratégicas.

As pessoas costumam associar Data Mining com tecnologia, e estão parcialmente certas sobre isso. A tecnologia é fundamental para o desenvolvimento do campo. A mineração muitas vezes se dá por buscas pela internet e são processadas por computadores robustos e softwares complexos de análise de dados.

Contudo, o conceito de mineração de dados é mais amplo e não se limita ao uso de tecnologias e ferramentas de computador.

Essa modalidade é composta de várias áreas de estudos que se relacionam. Para ter um entendimento melhor do que ela contempla, são listadas as 5 principais características da área:

extração, transformação e envio de dados para um sistema de data warehouse;
armazenamento de dados em um sistema de banco de dados;
acesso aos dados por analistas e demais usuários;
análise de dados utilizando ferramentas, softwares e tecnologias diversas;
apresentação de dados em informação útil e compreensiva.

A extração e transformação de dados lida com conceitos de recuperação da informação, aprendizado de máquina e programação de linguagem natural. Seu estudo tem raízes fortes na ciência da informação e inteligência artificial, que procura melhores maneiras de buscar informações de uma fonte e extraí-las.

O estudo de banco de dados é uma das principais áreas de Data Mining, pois é preciso lidar com o gerenciamento e manutenção de grandes bases. Os dados minerados precisam ser armazenados de forma adequada para serem recuperados e analisados posteriormente durante a análise.

Uma vez extraído e armazenado, esses dados são finalmente disponibilizados aos usuários interessados. Usuários que vão ser os encarregados de analisar o que foi coletado. Nesse ponto de pesquisa, encontram-se ferramentas de apoio ao profissional que geralmente são softwares e tecnologias diversas. A análise de dados é feita com conhecimentos em matemática, estatística e probabilidade.

Por fim, a apresentação dessas informações podem ser feitas através de relatórios, gráficos e até parâmetros para interpretação de outros softwares de decisão.

Em suma, pode-se dizer que Data Mining envolve mergulhar de cabeça em várias áreas do conhecimento. E talvez seja por isso que muitas pessoas encaram a área como um grande desafio.

A importância de Data Mining

Considere o mundo na Idade Média. Cada reino e condado viviam praticamente isolados do restante do mundo. As informações chegavam através de mensageiros ou boca a boca. Não havia imprensa e pouquíssima coisa era obtida e armazenada. O que uma tribo de índios na Amazônia fazia não estava ao acesso do rei da França.

Agora considere o mundo atual. Cada pessoa é uma fonte inesgotável de informações. Com apenas alguns cliques, todo mundo fica sabendo sobre a vida de outra pessoa, o que ela comeu, que horas acordou e o que está fazendo. É possível saber o que está acontecendo como uma pessoa que mora no Curdistão neste exato momento.

O cenário é bem assustador quando se pensa na quantidade de dados que é o mar da internet. A globalização trouxe um volume de dados sendo gerado que era inimaginável há 100 anos.

Esse fenômeno é conhecido como explosão de dados, ou B ig Data. Qualquer coisa é transformada facilmente em excesso de informações muito rápido. A velocidade do crescimento de dados e a alta demanda por eles transforma o cenário mundial. Surge então a necessidade de lidar com essa explosão de forma rápida, eficiente e pontual.

Cabe as pessoas fazer um filtro de informações relevantes para elas. Em outras palavras, minerar seus próprios dados.

E as indústrias, organizações e os mais diferentes tipos de negócios compartilham dos mesmos problemas relacionados ao assunto. As empresas não conseguem achar os dados que precisam. Quando acham, não conseguem adquiri-los. Em alguns casos, elas tem acesso, mas não conseguem compreendê-los.

E é nesse ponto que entra o estudo de Data Mining. É preciso entender porque as empresas não conseguem usar os conhecimentos coletados.

A principal razão que justifica a importância de Data Mining, é o fato de facilitar a conversão de dados em informação e subsequentemente em conhecimento. É costume dizer que o dado é uma fonte de informação não interpretada e o conhecimento é aplicação da informação obtida.

O conhecimento que vem do processo de Data Mining será aplicado nas organizações em forma de processos gerenciais, tomadas de decisão, etc. Data Mining é apresentado como uma solução para o problema do Big Data.

A técnica envolve tarefas de natureza descritiva e preditiva. As tarefas de natureza descritiva envolvem a identificação de padrões, relacionamentos e correlações entre grandes quantidades de dados. As de natureza preditiva envolvem aplicações que utilizam variáveis que deduzem e tentam prever o futuro e valores desconhecidos que não puderam ser minerados.

A mineração de dados é geralmente utilizada por grandes organizações e empresas, pois elas costumam ter posse de uma quantidade massiva de informações. Essa grande quantidade de dados requer mais do que uma simples análise, que é comumente feita em pequenos e médios negócios.

É através das técnicas de mineração que equipes de análise conseguem processar sob múltiplas perspectivas o que é coletado. Essas técnicas tornam fáceis a função de categorizar a informação processada e identificar relações interessantes entre os vários conhecimentos obtidos pelo campo.

Executando Data Mining em 8 etapas

A mineração de dados é um processo que, como qualquer outro, precisa ser executado utilizando uma série de etapas interativas. A quantidade pode variar de acordo com a necessidade de mineração. Alguns processos podem focar em dividir as etapas de extração em subetapas, enquanto outros podem focar apenas na apresentação.

Em resumo, Data Mining pode ser dividido em 5 etapas diferentes: definição do problema, pré-processamento, processamento, análise e apresentação. Como o pré-processamento envolve múltiplas tarefas, ele foi dividido em 4 módulos, somando um total de 8.

01. Definição do problema

Antes de começar qualquer coisa, é preciso definir os objetivos do processo de mineração de dados. O que é esperado, quais as metas a serem atingidas, quais os problemas que serão atacados, etc. O objetivo dessa etapa é visualizar os benefícios da mineração de dados para a organização ou negócio onde ela será desenvolvida.

02. Integração de dados

Nessa etapa, deve-se fornecer aos usuários uma visão unificada dos dados, independente da fonte de onde eles foram retirados. Aqui, lida-se com o dado em sua versão crua e envolve-se duas subetapas distintas:

Identificação de todas as fontes de dados possíveis: as fontes de dados listadas são avaliadas. As melhores são selecionadas e integradas. A meta é poupar tempo para a execução da etapa seguinte;
Coleta de dados: Os dados são reunidos e integrados. Dados de diferentes origens são mesclados em uma fonte homogênea.

A integração de dados tem por objetivo reduzir o número potencial de redundância e dados duplicados. Consequentemente, a eficiência e acurácia do processo de mineração de dados será aumentada.

03. Seleção de dados

A integração gera uma quantidade massiva de dados. Nem todos são realmente relevantes ou necessários para o objetivo estabelecido na primeira etapa. O objetivo deste módulo é podar os dados que não serão necessários para que haja o foco apenas nas informações relevantes. Essa etapa também é dividida em 2 subetapas:

criação de um data set que estabelecerá os parâmetros de dados que serão necessários ou requisitados pelo Data Mining;
seleção de dados reunidos dentro dos parâmetros selecionados pelo data set.

04. Limpeza de dados

É responsável por preparar e pré-processar os dados selecionados. Ela é muito importante porque tratará os dados antes que eles passem por uma técnica de Data Mining específica. Alguns processos referem-se à limpeza como o primeiro de dois passos de pré-processamento de dados.

As técnicas de limpeza são aplicadas devido a problemas obtidos na coleta. O objetivo é com o comprometimento do dado coletado. Eles podem conter erros, serem inexatos e inconsistentes. Alguns podem até serem incompletos e faltar valores. Depois de executar a limpeza, o material de baixa qualidade é removido.

Os principais problemas vindos de uma fonte única de dados são:

dados inseridos erroneamente: geralmente ocasionados por erros humanos. Costumam ser erros de digitação ou dados duplicados;
falta de verificação de restrições: geralmente ocasionado por ser uma única fonte de dados, logo não é possível verificar unicidade e integridade. Costumam causar dados duplicados e inconsistentes.

Já para múltiplas fontes, os principais problemas são:

conflitos de nomes: o mesmo dado pode estar duplicado, porém com nomes diferentes. O contrário também é válido. Várias fontes de dados podem ter nomes iguais para coisas diferentes. Isto causa inconsistência e redundância;
contradições: diferentes fontes de dados podem ter dados conflituosos entre si, causando ainda mais confusão;
substituição de dados: uma fonte de dados pode substituir outra, deixando os dados não confiáveis.

A limpeza de dados ocasionalmente envolve examinar, caracterizar e realizar análises sobre o material. Isso envolve coletar informações e estatísticas para determinar o conteúdo, qualidade e estrutura dos dados. Uma vez limpos, eles precisam ser gravados em uma versão mais enxuta.

05. Transformação de dados

Considerada a segunda etapa de preprocessamento de dados. Alguns autores a descrevem como parte do processo de limpeza.

Apesar do material ter sido filtrado e selecionado, ainda é incapaz de ser minerado. Para transformar os dados em mineráveis, eles precisam ser consolidados adequadamente. Basicamente, a fonte é formatada e convertida em dados prontos para uso, que serão manipulados por técnicas de Data Mining nas fases seguintes.

As técnicas mais comuns de transformação de dados são:

suavização: remove ruídos e inconsistências nos dados. Entende-se como ruído um erro aleatório ou variância de uma variável que mede o nível de ruído. A suavização executa operações que são comuns também na fase de limpeza;
agregação: envolve aplicações de táticas de sumarização de dados para reduzir o volume e agilizar processos. As técnicas de agregação geralmente criam cubos de dados que serão usados posteriormente para análise;
generalização: similar à agregação e também leva a redução do volume de dados. Essa técnica leva a transformação de dados crus em grupos de dados comuns. Por exemplo, a idade de usuários pode ser substituída por grupos que variam de crianças até idosos;
normalização ou padronização: trata-se de especificar, dentro de um limite aceitável, os dados de forma que eles se encaixem nesse limite. Essa técnica é utilizada porque existem variações e diferenças entre as informações que impactam a qualidade. Grandes intervalos podem causar problemas quando as técnicas de mineração de dados forem aplicados. Com a normalização, esses intervalos são reduzidos.

06. Mineração de dados

A partir dessa fase considera-se os dados coletados como tratados. Então as técnicas de mineração são aplicadas para identificar padrões, correlações ou relacionamentos entre os diferentes conteúdos dentro da base. Essa etapa é a espinha dorsal de todo o processo de Data Mining. Ela envolve extração de padrões utilizando diversos métodos e operações.

A escolha de abordagens ou operações a serem utilizadas nesse módulo vão variar de acordo com o objetivo definido na primeira etapa. As técnicas são divididas em descritivas ou preditivas, como já explicado no começo deste artigo, e cada uma delas possui diferentes abordagens.

07. Avaliação de padrões

Os padrões, correlações e relacionamentos identificados através das técnicas de Data Mining executados na etapa anterior são, então, inspecionadas, avaliadas e analisadas. A avaliação é feita usando parâmetros e medidas de interesse dos avaliadores. Então geralmente são descobertos quais padrões realmente são relevantes e impactantes para serem usados como corpo de conhecimento útil.

A interpretação desse passo formaliza a transformação dos dados em informação.

08. Apresentação do conhecimento

A informação gerada no passo anterior resultada da avaliação e interpretação dos dados é então transformada em conhecimento. O conhecimento é o produto final do processo que é apresentado aos stakeholders.

A apresentação é geralmente feita usando ferramentas de visualização como gráficos, relatórios, etc. Outras técnicas de representação do conhecimento também podem ser usadas.

Uma vez aprovado, o conhecimento apresentado, então, poderá ser usado para o objetivo que foi desenhado na primeira etapa do processo, que geralmente envolve a tomada de decisões importantes para os negócios.

Aplicações de Data Mining em 7 áreas diferentes

A aplicação de Data Mining pode ser feita em diferentes setores do mercado. A seguir vamos ver aplicações em 7 áreas diferentes dos negócios.

01. Serviço e varejo

A venda de produtos e serviços na indústria de varejo resulta numa coleção enorme de dados. O propósito primário dessas indústrias é aumentar a qualidade dos serviços prestados ao consumidor. O Data Mining é responsável por fornecer processos de gerência e aquisição que são a base das operações de venda desse setor.

As áreas mais comuns de Data Mining para o setor de varejo são:

Análise de campanhas de promoção: as companhias reúnem dados de campanhas de marketing passadas para analisar as que tiveram sucesso. Isso gerará insights com dicas de elementos-chave para a criação de novas campanhas;
Classificação de usuários: os dados coletados de respostas dos usuários são classificados em estratégias de segmentos, como oferta por região, faixa etária, etc.;
Preço de produtos: os dados coletados são analisados para decidir sobre preços de produtos baseados nos concorrentes;
Controle de inventário: o estoque de uma empresa é controlado através da monitoração dos dados de inventário, como tamanho de estoque, quantidade de segurança, etc.;
Análise de orçamento: os dados de orçamentos anteriores ou de outras empresas são comparados para fazer estimativas de orçamento futuro;
Análise de lucro: similar a análise de orçamento. A análise de lucro é capaz de comparar diferentes lojas, tipos de negócio e ramos diferentes para estimar o lucro de uma empresa.

02. Manufatura

As áreas de Data Mining aplicado para indústrias de manufatura são similares às da indústria de varejo. No entanto, os negócios de manufatura também utilizam Data Mining para o controle de qualidade Os dados são obtidos através de diferentes programas de qualidade e são analisados para resolver questões ou problemas que a companhia pode ter referentes à qualidade do produto.

03. Finanças e seguros

Bancos, companhias de seguro e outras instituições também usam constantemente de Data Mining. As iniciativas são principalmente para negócios como gerenciamento de risco, compra e venda de ações, etc. Data Mining também é utilizado para reconhecer e reduzir os riscos de mercado que as instituições financeiras estão sujeitas. Outros riscos que são avaliados por Data Mining também incluem liquidez e risco operacional.

Por exemplo, as companhias de cartão de crédito utilizam de Data Mining para fazer análise de crédito de seus clientes, determinar valores de seguro de acordo com os riscos eminentes e possibilidades de fraude.

04. Telecomunicações e utilidades

Qualquer tipo de organização que está compromissada em fornecer serviços de utilidades pode ser beneficiário de Data Mining. Empresas de telecomunicações que podem extrair dados de ligações e companhias de energia que podem monitorar dados de consumo são alguns exemplos.

A popularidade global de celulares em quase todas as transações feitas são um prato cheio para ameças a segurança. Empresas que prestam serviços contra fraudes usam a técnica para tentar identificar padrões utilizados por hackers para enganar usuários.

05. Transporte

Na indústria do transporte, a mineração de dados trata principalmente de logística, área determinante para o negócio. Data Mining no transporte pode ser usado para definição de rotas mais rápidas, seguras, com menos pedágio e até definir quais são os melhores horários de tráfego.

Estatais e agências de transporte vem usando o método em vários projetos, como construções de rodovias, prevenção de manutenção, controle de tráfego, etc.

06. Imóveis

A indústria de imóveis se baseia principalmente na informação especulativa. O foco da mineração de dados aqui não é nas vendas, mas sim na avaliação de imóveis durante os anos. Os resultados funcionam para comparações e determinam os preços de propriedades.

Informações coletadas pela técnica indicam regiões que podem sofrer valorização, tendências de crescimento e também identificar uma possível bolha imobiliária.

07. Saúde

Indústrias farmacêuticas, hospitais e centros de pesquisa de doenças são os principais utilizadores de Data Mining. Todos os dias pesquisas, estudos e experimentos são conduzidos na indústria da saúde, o que implica que toneladas de dados são gerados a todo momento. Data Mining é geralmente uma parte integral das pesquisas e estudos.

Exemplos do uso da técnica na área da saúde é na monitoração de avanço de doenças, no desenvolvimento de vacinas, no controle de filas hospitalares, no gerenciamento de recursos médicos, etc.

O uso de Data Mining se apresenta como uma solução para enfrentar os desafios do Big Data. Como foi visto, ele pode ser usado em praticamente qualquer segmento dos negócios, desde que haja uma quantidade relevante de dados a serem tratados.

Como a quantidade de informações no mundo só tende a crescer, o uso de Data Mining se tornará cada vez mais importante e essencial para a transformação digital no mundo dos negócios.

O que é Data Mining

A importância de Data Mining

Executando Data Mining em 8 etapas

01. Definição do problema

02. Integração de dados

03. Seleção de dados

04. Limpeza de dados

05. Transformação de dados

06. Mineração de dados

07. Avaliação de padrões

08. Apresentação do conhecimento

Aplicações de Data Mining em 7 áreas diferentes

01. Serviço e varejo

02. Manufatura

03. Finanças e seguros

04. Telecomunicações e utilidades

05. Transporte

06. Imóveis

07. Saúde

Continue aprendendo

Equipe TD

O que é Data Mining

A importância de Data Mining

Executando Data Mining em 8 etapas

01. Definição do problema

02. Integração de dados

03. Seleção de dados

04. Limpeza de dados

05. Transformação de dados

06. Mineração de dados

07. Avaliação de padrões

08. Apresentação do conhecimento

Aplicações de Data Mining em 7 áreas diferentes

01. Serviço e varejo

02. Manufatura

03. Finanças e seguros

04. Telecomunicações e utilidades

05. Transporte

06. Imóveis

07. Saúde

Continue aprendendo

Equipe TD

Popular agora em

Inscreva-se em nossa newsletter semanal