Data Science

Projekty analityczne skupiające się na eksploracyjnej analizie danych (EDA), wizualizacji i odkrywaniu insightów w danych.

Przegląd Projektów

Analiza EDA - Irisy

Klasyczna analiza zbioru danych Iris - podstawy EDA i wizualizacji.

Zobacz projekt
Analiza EDA - Titanic

Eksploracyjna analiza danych pasażerów Titanica.

Zobacz projekt

Czym jest EDA?

Exploratory Data Analysis (EDA) to proces wstępnej analizy danych mający na celu:

🔍 Poznanie struktury danych - typy zmiennych, rozmiar dataset
📊 Zrozumienie rozkładów - statystyki opisowe, histogramy
🔗 Znajdowanie relacji - korelacje między zmiennymi
❓ Identyfikacja problemów - braki danych, outliers, duplikaty
💡 Generowanie hipotez - wstępne insights do modelowania

Proces EDA

graph TD
    A[Import Danych] --> B[Pierwszy Rzut Oka]
    B --> C[Typy i Braki Danych]
    C --> D[Statystyki Opisowe]
    D --> E[Wizualizacje Rozkładów]
    E --> F[Analiza Korelacji]
    F --> G[Outliers Detection]
    G --> H[Segmentacja i Grouping]
    H --> I[Wnioski i Hipotezy]

Narzędzia i Technologie

Podstawowe Biblioteki

Pandas - manipulacja i analiza danych
NumPy - operacje numeryczne
Jupyter Notebooks - interaktywna analiza

Wizualizacje

Matplotlib - podstawowe wykresy
Seaborn - zaawansowane wizualizacje statystyczne
Plotly - interaktywne wykresy
Missingno - wizualizacja braków danych

Analiza Statystyczna

SciPy - testy statystyczne
Statsmodels - modelowanie statystyczne

Rodzaje Analiz

1️⃣ Analiza Jednowymiarowa (Univariate)

Analiza pojedynczych zmiennych:

Statystyki opisowe (mean, median, std, min, max)
Rozkłady (histogramy, density plots)
Outliers (box plots)
Częstości dla zmiennych kategorycznych

2️⃣ Analiza Dwuwymiarowa (Bivariate)

Relacje między dwiema zmiennymi:

Scatter plots dla zmiennych numerycznych
Box plots dla kategorycznych vs numeryczne
Bar plots dla dwóch kategorycznych
Korelacje (Pearson, Spearman)

3️⃣ Analiza Wielowymiarowa (Multivariate)

Relacje między wieloma zmiennymi:

Correlation matrices (heatmapy)
Pair plots
Parallel coordinates
Dimensionality reduction (PCA, t-SNE)

Typowe Problemy w Danych

Braki Danych (Missing Values)

Identyfikacja braków
Analiza wzorców braków (MCAR, MAR, MNAR)
Strategie uzupełniania (imputation)

Outliers

Detekcja outliers (IQR, Z-score)
Analiza czy to błędy czy prawdziwe wartości
Decyzja o usunięciu lub transformacji

Duplikaty

Identyfikacja duplikatów
Analiza przyczyn duplikatów
Usuwanie lub merge duplikatów

Niezbalansowane Klasy

Analiza dystrybucji klas
Wpływ na modelowanie
Strategie balansowania

Kluczowe Wizualizacje EDA

Dla Zmiennych Numerycznych

# Histogram - rozkład
sns.histplot(data=df, x='age')

# Box plot - outliers
sns.boxplot(data=df, y='salary')

# Density plot - rozkład gładki
sns.kdeplot(data=df, x='score')

Dla Zmiennych Kategorycznych

# Count plot - częstości
sns.countplot(data=df, x='category')

# Pie chart - proporcje
df['status'].value_counts().plot(kind='pie')

Dla Relacji

# Scatter plot - relacja 2 zmiennych
sns.scatterplot(data=df, x='age', y='income')

# Correlation heatmap
sns.heatmap(df.corr(), annot=True)

# Pair plot - wszystkie relacje
sns.pairplot(df)

Etapy Typowego EDA

1. Załadowanie i Pierwszy Rzut

import pandas as pd

df = pd.read_csv('data.csv')
print(df.shape)
print(df.head())
print(df.info())

2. Statystyki Opisowe

print(df.describe())
print(df.describe(include='object'))

3. Braki Danych

print(df.isnull().sum())
import missingno as msno
msno.matrix(df)

4. Wizualizacje

import seaborn as sns
import matplotlib.pyplot as plt

# Numeric distributions
df.hist(figsize=(15, 10))

# Correlations
sns.heatmap(df.corr(), annot=True)

5. Wnioski

Dokumentowanie insights i hipotez do dalszej pracy.

Best Practices

✅ Zawsze zacznij od df.info() i df.describe()
✅ Wizualizuj wszystkie zmienne - wzrok wyłapie wzorce
✅ Szukaj outliers i braków danych
✅ Analizuj korelacje między zmiennymi
✅ Dokumentuj wszystkie obserwacje
✅ Generuj hipotezy do testowania
✅ Nie wyciągaj pochopnych wniosków - weryfikuj statystycznie

EDA to fundament każdego projektu Data Science. Dobrze przeprowadzona eksploracja danych to klucz do sukcesu w modelowaniu!