Przejdź do treści

Data Science

Projekty analityczne skupiające się na eksploracyjnej analizie danych (EDA), wizualizacji i odkrywaniu insightów w danych.

Przegląd Projektów

  • Analiza EDA - Irisy


    Klasyczna analiza zbioru danych Iris - podstawy EDA i wizualizacji.

    Zobacz projekt

  • Analiza EDA - Titanic


    Eksploracyjna analiza danych pasażerów Titanica.

    Zobacz projekt

Czym jest EDA?

Exploratory Data Analysis (EDA) to proces wstępnej analizy danych mający na celu:

  • 🔍 Poznanie struktury danych - typy zmiennych, rozmiar dataset
  • 📊 Zrozumienie rozkładów - statystyki opisowe, histogramy
  • 🔗 Znajdowanie relacji - korelacje między zmiennymi
  • Identyfikacja problemów - braki danych, outliers, duplikaty
  • 💡 Generowanie hipotez - wstępne insights do modelowania

Proces EDA

graph TD
    A[Import Danych] --> B[Pierwszy Rzut Oka]
    B --> C[Typy i Braki Danych]
    C --> D[Statystyki Opisowe]
    D --> E[Wizualizacje Rozkładów]
    E --> F[Analiza Korelacji]
    F --> G[Outliers Detection]
    G --> H[Segmentacja i Grouping]
    H --> I[Wnioski i Hipotezy]

Narzędzia i Technologie

Podstawowe Biblioteki

  • Pandas - manipulacja i analiza danych
  • NumPy - operacje numeryczne
  • Jupyter Notebooks - interaktywna analiza

Wizualizacje

  • Matplotlib - podstawowe wykresy
  • Seaborn - zaawansowane wizualizacje statystyczne
  • Plotly - interaktywne wykresy
  • Missingno - wizualizacja braków danych

Analiza Statystyczna

  • SciPy - testy statystyczne
  • Statsmodels - modelowanie statystyczne

Rodzaje Analiz

1️⃣ Analiza Jednowymiarowa (Univariate)

Analiza pojedynczych zmiennych:

  • Statystyki opisowe (mean, median, std, min, max)
  • Rozkłady (histogramy, density plots)
  • Outliers (box plots)
  • Częstości dla zmiennych kategorycznych

2️⃣ Analiza Dwuwymiarowa (Bivariate)

Relacje między dwiema zmiennymi:

  • Scatter plots dla zmiennych numerycznych
  • Box plots dla kategorycznych vs numeryczne
  • Bar plots dla dwóch kategorycznych
  • Korelacje (Pearson, Spearman)

3️⃣ Analiza Wielowymiarowa (Multivariate)

Relacje między wieloma zmiennymi:

  • Correlation matrices (heatmapy)
  • Pair plots
  • Parallel coordinates
  • Dimensionality reduction (PCA, t-SNE)

Typowe Problemy w Danych

Braki Danych (Missing Values)

  • Identyfikacja braków
  • Analiza wzorców braków (MCAR, MAR, MNAR)
  • Strategie uzupełniania (imputation)

Outliers

  • Detekcja outliers (IQR, Z-score)
  • Analiza czy to błędy czy prawdziwe wartości
  • Decyzja o usunięciu lub transformacji

Duplikaty

  • Identyfikacja duplikatów
  • Analiza przyczyn duplikatów
  • Usuwanie lub merge duplikatów

Niezbalansowane Klasy

  • Analiza dystrybucji klas
  • Wpływ na modelowanie
  • Strategie balansowania

Kluczowe Wizualizacje EDA

Dla Zmiennych Numerycznych

# Histogram - rozkład
sns.histplot(data=df, x='age')

# Box plot - outliers
sns.boxplot(data=df, y='salary')

# Density plot - rozkład gładki
sns.kdeplot(data=df, x='score')

Dla Zmiennych Kategorycznych

# Count plot - częstości
sns.countplot(data=df, x='category')

# Pie chart - proporcje
df['status'].value_counts().plot(kind='pie')

Dla Relacji

# Scatter plot - relacja 2 zmiennych
sns.scatterplot(data=df, x='age', y='income')

# Correlation heatmap
sns.heatmap(df.corr(), annot=True)

# Pair plot - wszystkie relacje
sns.pairplot(df)

Etapy Typowego EDA

1. Załadowanie i Pierwszy Rzut

import pandas as pd

df = pd.read_csv('data.csv')
print(df.shape)
print(df.head())
print(df.info())

2. Statystyki Opisowe

print(df.describe())
print(df.describe(include='object'))

3. Braki Danych

print(df.isnull().sum())
import missingno as msno
msno.matrix(df)

4. Wizualizacje

import seaborn as sns
import matplotlib.pyplot as plt

# Numeric distributions
df.hist(figsize=(15, 10))

# Correlations
sns.heatmap(df.corr(), annot=True)

5. Wnioski

Dokumentowanie insights i hipotez do dalszej pracy.

Best Practices

✅ Zawsze zacznij od df.info() i df.describe()
✅ Wizualizuj wszystkie zmienne - wzrok wyłapie wzorce
✅ Szukaj outliers i braków danych
✅ Analizuj korelacje między zmiennymi
✅ Dokumentuj wszystkie obserwacje
✅ Generuj hipotezy do testowania
✅ Nie wyciągaj pochopnych wniosków - weryfikuj statystycznie


EDA to fundament każdego projektu Data Science. Dobrze przeprowadzona eksploracja danych to klucz do sukcesu w modelowaniu!