# Datenanalyse Teil I


### Natalie Widmann




Wintersemester 2023 / 2024




## Datenanalyse und -verarbeitung in Python


### Ziele

- Verständnis der Datenverarbeitung
- strukturierte Daten bearbeiten und analysieren mit Pandas
- Visualisierung von Daten
- Python Packages verwenden
- unterschiedliche Datenformate (csv, json, excel, txt) einlesen und speichern

## Was sind Daten?


### Strukturierte Daten

Strukturierte Daten sind gut organisiert und so formattiert, dass es einfach ist sie zu durchsuchen, sie maschinell zu lesen oder zu verarbeiten. Das einfachste Beispiel ist eine Tabelle in der jede Spalte eine Kategorie oder einen Wert festlegt. 


### Unstrukturierte Daten

Im Gegensatz dazu sind unstrukturierte Daten nicht in einem bestimmten Format oder einer festgelegten Struktur verfügbar. Dazu zählen Texte, Bilder, Social Media Feeds, aber auch Audio Files, etc.


### Semi-Strukturierte Daten

Semi-strukturierte Daten bilden eine Mischform. Beispielsweise eine Tabelle mit E-Mail Daten, in der Empfänger, Betreff, Datum und Absender strukturierte Informationen enthalten, der eigentliche Text jedoch unstrukturiert ist. 

## Was sind Daten?




## Pandas


[Pandas](https://pandas.pydata.org/) ist ein Python Package und ist abgeleitet aus "Python and data analysis".

Pandas stellt die Grundfunktionalitäten für das Arbeiten mit strukturierten Daten zur Verfügung.




Photo by Stone Wang on Unsplash
 

## Python Packages

Packages, auch Module genannt, sind vorgefertigte Code-Pakete, deren Funktionen wir wir verwenden können ohne diese selbst programmieren zu müssen.

Manche Packages sind in Python vorinstalliert und müssen nur noch importiert werden, wie beispielsweise
- [math](https://docs.python.org/3/library/math.html)
- [random](https://docs.python.org/3/library/random.html)
- [datetime](https://docs.python.org/3/library/datetime.html)


In [None]:
# Zufälliger Integer Wert mit random package
import random
random.randint(10,20)

In [None]:
# das heutige Datum über datetime ausgeben lassen
import datetime
datetime.datetime.today()

## Installation von Python Packages

Packages die von der Python Community zur Verfügung gestellt werden, müssen vor der Verwendung installiert werden. Dafür kann [`pip`](https://pypi.org/project/pip/) als Packagemanager verwendet werden.

Tipps für die Installation von Python Packages in Windows, Linux und Mac gibt es hier: https://packaging.python.org/en/latest/tutorials/installing-packages/

In Jupyter Notebooks können Packages wie folgt installiert werden:

In [None]:
# Install a pip package im Jupyter Notebook
import sys
!pip install pandas
!pip install openpyxl

In [None]:
import pandas

## Idee, Daten finden & Verifikation



### Aggregated figures for Natural Disasters in EM-DAT

Link: https://data.humdata.org/dataset/emdat-country-profiles


In 1988, the **Centre for Research on the Epidemiology of Disasters (CRED)** launched the **Emergency Events Database (EM-DAT)**. EM-DAT was created with the initial support of the **World Health Organisation (WHO) and the Belgian Government**.

The main objective of the database is to **serve the purposes of humanitarian action at national and international levels**. The initiative aims to rationalise decision making for disaster preparedness, as well as provide an objective base for vulnerability assessment and priority setting.

EM-DAT contains essential core data on the **occurrence and effects of over 22,000 mass disasters in the world from 1900 to the present day**. The database is compiled from various sources, including UN agencies, non-governmental organisations, insurance companies, research institutes and press agencies.



In [None]:
import pandas as pd
pd.set_option('display.float_format', '{:.2f}'.format)

data = pd.read_excel('../../data/emdat.xlsx', engine="openpyxl")

In [None]:
data

## Datenexploration und -bereinigung



### Überblick über die Daten

In [None]:
# head() gibt die ersten 5 Zeilen aus
data.head()

Wie groß ist der Datensatz? Wie viele Zeilen und wie viele Spalten sind vorhanden?

In [None]:
data.shape

In [None]:
print(f'Anzahl an Zeilen: {data.shape[0]}')
print(f'Anzahl an Spalten: {data.shape[1]}')

Die Spaltennamen

In [None]:
print(data.columns)

`info()` für mehr Infos über die Spalten

In [None]:
data.info()

`describe()` zeigt die grundlegenden statistischen Eigenschaften von Spalten mit numerischem Datentyp, also `int` und `float`. 

Die Methode berechnet:
- die Anzahl an fehlenden Werten
- Durchschnitt
- Standardabweichung
- Zahlenrange
- Media
- 0.25 und 0.75 Quartile

In [None]:
data.describe()

`.unique()` zeigt die unterschiedlichen Werte einer Spalte an

In [None]:
data['Year'].unique()

### Data Cleaning: erste Zeile im DataFrame entfernen

In [None]:
data.index

In [None]:
data.drop(index=0)

In [None]:
data

In [None]:
data = data.drop(index=0)
# data.drop(index=0, inplace=True)

### Datentypen abfragen und anpassen

In [None]:
data.info()

In [None]:
# Datentyp Abfrage mit dem Attribut
data['Year'].dtype

In [None]:
# Umwandlung des Datentyp
data["Year"] = pd.to_numeric(data["Year"])
data['Year'].dtype

In [None]:
# Auf alle integer und float Spalten anwenden
cols = ['Total Events', 'Total Affected', 'Total Deaths', 'Total Damage (USD, adjusted)']
for col in cols:
 data[col] = pd.to_numeric(data[col])

In [None]:
data.info()

### Überblick über die numerischen Daten

In [None]:
data.describe()

### Überblick über die Objekt Daten

In [None]:
# Unterschiedliche Länder
countries = data['Country'].unique()
countries

In [None]:
len(countries)

In [None]:
# Vorkommen von Ländern der Liste
'Germany' in countries

In [None]:
# Vorkommen von Deutschland
for country in countries:
 if 'german' in country.lower():
 print(country)

In [None]:
 data['Disaster Group'].unique()

`.value_counts()` zeigt wie oft eine Spalte die unterschiedlichen Werte annimmt.

In [None]:
data['Disaster Subroup'].value_counts()

Mit dem Argument `normalize=True` wird das Vorkommen der Werte automatisch ins Verhältnis gesetzt.

In [None]:
data['Disaster Subroup'].value_counts(normalize=True)

In [None]:
data['Disaster Type'].value_counts()

In [None]:
data['Disaster Type'].value_counts(normalize=True)


### Dataframes Sortieren

Dataframes können anhand einer oder meherer Spalten sortiert werden.



In [None]:
data.sort_values(by="Total Affected")

In [None]:
# 10 schlimmsten Naturkatastrophen
data.sort_values(by="Total Affected", ascending=False).head(n=10)

In [None]:
# Mehrere Argumente zum Sortieren sind möglich
data.sort_values(by=["Disaster Type", "Total Affected"], ascending=[True, False]).head(n=10)

### Indexing and Retriving Data

Auf die Werte einer Spalte kann `['']` zugegriffen werden.

In [None]:
data['Year']

Darauf können weitere Operationen oder Methoden angewendet werden:

In [None]:
data['Year'] + 10

In [None]:
data['Year'].mean()

Mehrere Spalten werden ausgewählt indem eine Liste von Spaltennamen übergeben wird

In [None]:
data[['Year', 'Country', 'Disaster Type', 'Total Affected']]

### Boolean Indexing

Die ausgewählten Daten können auch gefilteret werden, in dem eine Bedingung mitgegeben wird.


In [None]:
data[data['Country'] == 'Germany']

In [None]:
data[data['Total Deaths'] >= 1000]

Wie viele Menschen sind im Schnitt pro Erdbeben betroffen?

In [None]:
data[data['Disaster Type'] == 'Earthquake']

In [None]:
data[data['Disaster Type'] == 'Earthquake']['Total Affected']

In [None]:
data[data['Disaster Type'] == 'Earthquake']['Total Affected'].mean()

### Weitere Recherchefragen

- Wie viele Naturkatastrophen gab es in Deutschland?
- In welchem Jahr gabe es die meisten Naturkatastrophen?
- Welche Länder sind am stärksten von Naturkatastrophen betroffen?
- Welche Länder sind von Naturkatastrophen betroffen haben aber vergleichsweise geringe Todesfälle?
- Welche Naturkatastrophen sind am tödlichsten?