Descoberta do Conhecimento

Descoberta do conhecimento¶

Imagine que você tem uma montanha de dados na sua empresa e precisa transformá-los em decisões inteligentes. Como fazer isso de forma organizada e eficiente? É exatamente isso que vamos descobrir!

Vamos começar essa etapa do nosso curso explorando o ciclo de vida de dados em projetos de ciência de dados - um roteiro que todo cientista de dados segue para extrair conhecimento valioso dos dados.

Info

A descoberta do conhecimento é um conjunto estruturado de etapas que nos permite transformar grandes volumes de dados brutos em informações úteis e compreensíveis.

Introdução ao CRISP-DM¶

O CRISP-DM (Cross-Industry Standard Process for Data Mining) é uma ferramenta amplamente utilizada na indústria para projetos de ciência de dados.

crisp-dm

Repare que o processo é cíclico - isso significa que podemos voltar a etapas anteriores conforme descobrimos novos insights!

Por que o CRISP-DM é representado como um processo cíclico e não linear?

1. Entendimento do Negócio¶

Tip

"Antes de resolver um problema, certifique-se de que está resolvendo o problema certo!"

O primeiro passo é como ser um detetive: você precisa investigar e entender completamente o "crime" (problema) que precisa resolver. Muitos projetos falham porque pulam esta etapa crucial!

Imagine que você trabalha em uma loja online e o gerente diz: "Queremos usar IA para aumentar as vendas". Parece claro, né? Mas não é! Você precisa descobrir: - As vendas estão baixas em quais produtos específicos? - O problema é atrair novos clientes ou fazer os existentes comprarem mais? - Qual é o orçamento disponível? - Em quanto tempo precisam ver resultados?

Perguntas-Chave desta Fase¶

Qual é o problema de negócio que estamos tentando resolver?
Como o sucesso será medido?
Quais são as restrições de tempo, orçamento e recursos?
Como os resultados serão implementados?

Um gerente pede para "usar machine learning para melhorar o atendimento ao cliente". O que você deveria perguntar primeiro?

Ferramentas e Técnicas¶

Entrevistas e Workshops: Para coletar informações dos stakeholders e especialistas
Mapas Mentais: Para visualizar o problema e suas possíveis soluções
5W2H: Framework para definir escopo (What, Why, Who, When, Where, How, How much)

2. Entendimento dos Dados¶

Agora que você sabe qual problema resolver, é hora de conhecer seus os dados! Esta fase é como explorar uma nova cidade: você precisa conhecer o território antes de planejar seu roteiro.

Tip

Dados ruins produzem modelos ruins, não importa quão sofisticado seja seu algoritmo! É como tentar fazer um bolo delicioso com ingredientes estragados.

Atividades Principais¶

Coleta Inicial: Reunir todos os dados disponíveis (como fazer um inventário da sua cozinha)
Descrição dos Dados: Documentar estrutura, formato e significado (criar um catálogo dos ingredientes)
Exploração: Análise estatística descritiva inicial (provar os ingredientes)
Verificação de Qualidade: Identificar problemas nos dados (verificar se estão frescos)

Ferramentas e Técnicas¶

SQL e NoSQL: Para coleta de dados de bases estruturadas e não estruturadas
Exploração de Dados: Usando pandas, matplotlib e seaborn para análise exploratória (EDA)
Análise de Qualidade: Verificação de inconsistências, valores ausentes e outliers
Profiling de Dados: Ferramentas automatizadas para gerar relatórios de qualidade

Durante a exploração inicial dos dados de vendas de uma empresa, você descobre que 30% dos registros têm valores ausentes na coluna "idade do cliente". Qual deve ser sua primeira ação?

3. Preparação dos Dados¶

Chegamos à fase que consome 70-80% do tempo de qualquer projeto de ciência de dados! É trabalhoso, mas essencial para o sucesso.

Realidade check: Se você acha que ciência de dados é só treinar modelos sofisticados, prepare-se para uma surpresa! A maior parte do tempo você será um "faxineiro de dados" - e isso é perfeitamente normal e necessário.

Atividades Detalhadas¶

Limpeza: Remoção de duplicatas, correção de inconsistências
Integração: Combinação de dados de múltiplas fontes (como juntar ingredientes de fornecedores diferentes)
Transformação: Normalização, padronização, discretização
Redução: Seleção de features e redução de dimensionalidade
Construção: Feature engineering - criar novas variáveis que ajudem o modelo

Ferramentas e Técnicas¶

Pandas e NumPy: Para manipulação e transformação de dados
Scikit-learn: Para pré-processamento como normalização e codificação
Feature Engineering: Criação de novas features (a parte mais criativa!)
Pipelines: Automatização do processo de preparação

4. Modelagem¶

Aqui é onde a mágica acontece e você aplica algoritmos de machine learning aos seus dados preparados.

Tip

Importante: Não existe um algoritmo melhor para todos os problemas. É como escolher uma ferramenta, você usaria um martelo para apertar um parafuso?

Tipos de Problemas e Técnicas¶

Problemas Supervisionados (quando você tem as "respostas corretas" para treinar): - Classificação: Prever categorias (spam ou não spam, gato ou cachorro) - Árvores de Decisão, Random Forest, SVM, Redes Neurais - Regressão: Prever valores numéricos (preço de casa, vendas do próximo mês) - Regressão Linear, Ridge, Lasso, XGBoost

Problemas Não-Supervisionados (quando você explora sem "respostas" pré-definidas): - Clustering: Agrupar dados similares (segmentar clientes) - K-Means, Hierarchical Clustering, DBSCAN - Redução de Dimensionalidade: Simplificar dados complexos - PCA, t-SNE, UMAP

spam-filter

Você precisa prever se um e-mail é spam ou não. Que tipo de problema é este?

Ferramentas e Técnicas¶

Scikit-learn: Para algoritmos tradicionais de machine learning
TensorFlow/Keras e PyTorch: Para redes neurais profundas
Cross-validation: Para avaliar modelos de forma robusta
Grid Search: Para encontrar os melhores parâmetros

5. Avaliação¶

Tip

"Um modelo que parece bom no papel pode ser um desastre na vida real!"

É importante validar se o modelo realmente resolve o problema de negócio. Esta fase de avaliação vai além de olhar métricas técnicas.

Métricas de Avaliação por Tipo de Problema¶

Classificação: - Accuracy: Quantos acertei do total (cuidado com dados desbalanceados!) - Precision: Dos que previ como positivos, quantos realmente eram? - Recall: Dos positivos reais, quantos consegui encontrar? - F1-Score: Harmonia entre precision e recall

Regressão: - RMSE: Quão longe, em média, minhas previsões estão da realidade? - MAE: Erro médio absoluto (mais fácil de interpretar) - R²: Quanto da variação consigo explicar? (0-100%)

Você criou um modelo para detectar fraudes bancárias. O modelo tem 99% de accuracy, mas detecta apenas 10% das fraudes reais. Qual é o problema principal?

Ferramentas e Técnicas¶

Métricas de Avaliação: Precision, recall, F1-score, AUC-ROC
Confusion Matrix: Para análise visual detalhada
ROC Curves: Para avaliar trade-offs entre sensibilidade e especificidade
A/B Testing: Para validação no mundo real
Análise de Bias: Verificação de vieses e fairness

6. Implantação¶

Tip

"Um modelo que não vai para produção é apenas um hobby caro!"

Aqui é onde seu modelo sai do laboratório e entra no mundo real.

Ferramentas e Técnicas¶

Flask e FastAPI: Para criar APIs web
Docker e Kubernetes: Para containerização e escalabilidade
MLflow: Para versionar e rastrear modelos
Monitoramento: Prometheus e Grafana para acompanhar performance
CI/CD: Deploy automatizado e seguro

Seu modelo de recomendação está em produção há 3 meses e a performance começou a cair. Qual é a causa mais provável?

Outras estratégias¶

Embora o CRISP-DM seja o mais popular, existem outras metodologias interessantes:

KDD (Knowledge Discovery in Databases) - O "avô" do CRISP-DM, mais acadêmico

kdd

SEMMA (Sample, Explore, Modify, Model, Assess) - Criado pela SAS, focado nas ferramentas

semma

MLOps (Machine Learning Operations) - A evolução moderna, focada em automação e DevOps

mlops

Descoberta do Conhecimento