Przejdź do treści

Machine Learning

Projekty predykcyjne wykorzystujące różne techniki Machine Learning: klasyfikacja, regresja, clustering oraz pełne pipeline'y od eksploracji danych po deployment modeli.

Przegląd Projektów

📈 Regresja

  • Half Marathon Prediction


    Prognozowanie czasów w półmaratonie na podstawie danych treningowych.

    Zobacz projekt

  • House Price Regression


    Predykcja cen nieruchomości na podstawie ich charakterystyk.

    Zobacz projekt

  • Prognoza Cen Ubezpieczeń


    Model regresji przewidujący koszty ubezpieczeń zdrowotnych.

    Zobacz projekt

🎨 Clustering

  • Customer Segmentation


    Segmentacja klientów przy użyciu algorytmów clusteringu.

    Zobacz projekt

🎯 Klasyfikacja

  • Titanic Classification


    Klasyczny problem przewidywania przeżycia pasażerów Titanica.

    Zobacz projekt

🚀 Churn Prediction - Kompletny Pipeline

Seria projektów pokazująca pełny proces od analizy do wdrożenia:

  • 1. Overfitting Analysis


    Analiza i zapobieganie overfittingowi w modelach.

    Zobacz

  • 2. Model Tuning


    Optymalizacja hiperparametrów modelu.

    Zobacz

  • 3. Recall & Threshold


    Optymalizacja threshold dla lepszego recall.

    Zobacz

  • 4. Model Deployment


    Wdrożenie modelu do produkcji.

    Zobacz

  • 5. Model Explainability


    Interpretowalność modelu i SHAP values.

    Zobacz

Technologie i Narzędzia

Biblioteki ML

  • Scikit-learn - główna biblioteka ML
  • XGBoost - gradient boosting
  • LightGBM - szybki gradient boosting
  • CatBoost - boosting dla danych kategorycznych

Preprocessing & Feature Engineering

  • Pandas - manipulacja danymi
  • NumPy - operacje numeryczne
  • Category Encoders - kodowanie zmiennych kategorycznych
  • Feature Engine - feature engineering

Model Evaluation

  • Metrics - accuracy, precision, recall, F1, ROC-AUC
  • Cross-validation - walidacja krzyżowa
  • Confusion Matrix - macierz pomyłek

Interpretability

  • SHAP - Shapley Additive Explanations
  • LIME - Local Interpretable Model-agnostic Explanations
  • Feature Importance - ważność cech

Deployment

  • Pickle/Joblib - serializacja modeli
  • Flask/FastAPI - API dla modeli
  • Docker - konteneryzacja
  • MLflow - tracking eksperymentów

Proces ML Pipeline

graph TD
    A[Problem Definition] --> B[Data Collection]
    B --> C[EDA]
    C --> D[Data Preprocessing]
    D --> E[Feature Engineering]
    E --> F[Model Selection]
    F --> G[Training]
    G --> H[Evaluation]
    H --> I{Good enough?}
    I -->|No| J[Hyperparameter Tuning]
    J --> G
    I -->|Yes| K[Model Explainability]
    K --> L[Deployment]
    L --> M[Monitoring]

Rodzaje Problemów ML

Klasyfikacja

Przewidywanie kategorii (binarna lub wieloklasowa). Przykłady: spam/not spam, diagnoza chorób, ocena ryzyka kredytowego.

Regresja

Przewidywanie wartości ciągłych. Przykłady: ceny nieruchomości, temperatura, przychody.

Clustering

Grupowanie podobnych obiektów bez etykiet. Przykłady: segmentacja klientów, wykrywanie anomalii.

Time Series

Prognozowanie szeregów czasowych. Przykłady: sprzedaż, ceny akcji, popyt.

Metryki Ewaluacji

Klasyfikacja

  • Accuracy - ogólna dokładność
  • Precision - precyzja (ile z pozytywnych to prawdziwie pozytywne)
  • Recall - czułość (ile prawdziwych pozytywnych złapaliśmy)
  • F1-Score - średnia harmoniczna precision i recall
  • ROC-AUC - pole pod krzywą ROC

Regresja

  • MAE - Mean Absolute Error
  • MSE - Mean Squared Error
  • RMSE - Root Mean Squared Error
  • - współczynnik determinacji
  • MAPE - Mean Absolute Percentage Error

Każdy projekt w tym portfolio pokazuje różne aspekty pracy z Machine Learning - od podstawowych algorytmów, przez trenning modelu, tuning aż po deployment.