Intelligente Datenanalyse Intelligente Datenanalyse Intelligente Datenanalyse Intelligente Datenanalyse
Dr. Fridtjof Feldbusch
(Institut für Technische Informatik)
Dr. Michael Berthold,
(U
i ität K t ) (Universität Konstanz)
Dr Klaus Peter Huber Dr. Klaus-Peter Huber
(SAS Heidelberg)
University
of California
at Berkeley
Vorlesung “Intelligente Datenanalyse”
Folie 1-1
Universität
Karlsruhe
ITEC (Prof. J. Henkel)Eihbkit Eihbkit Erreichbarkeit Erreichbarkeit
Fridtjof Feldbusch
Raum
260 (Geb. 20.20), Tel.: 608-6325
E mail: feldbusch@ira uka de E-mail: feldbusch@ira.uka.de
University
of California
at Berkeley
Vorlesung “Intelligente Datenanalyse”
Folie 1-2
Universität Karlsruhe
ITEC
(Prof. J. Henkel)Oitih Oitih Organisatorisches Organisatorisches
Ti • Termine
• Vorkenntnisse
• Vorkenntnisse
• Prüfung: In den Vertiefungsgebieten • Prüfung: In den Vertiefungsgebieten
“Entwurf
eingebetteter Systeme” und
“Kognitive Systeme”
• Sonstiges
University of California
at
Berkeley
Vorlesung “Intelligente Datenanalyse”
Folie 1-3
Universität Karlsruhe
ITEC (Prof.
J. Henkel)Lit t Lit t Literatur Literatur
Fli k i f htt // i kl hd/t hi / • Folienkopien auf http://ces.univ-karlsruhe.de/teaching/
dort
“Intelligente Datenanalyse” -> “Material zur Vorlesung”
•
M. Berthold, D. Hand:
“Intelligent Data Analysis”,
Springer-Verlag
• J. Han, M. Kamber:
„Data
Mining: Concepts and Techniques“, „gp q,
Morgan Kaufmann Publishers
• R Hafner: •
R. Hafner:
“Wahrscheinlichkeitsrechnung und Statistik”,
Springer-Verlag
University of California
at
Berkeley
Vorlesung “Intelligente Datenanalyse”
Folie 1-4
Universität Karlsruhe
ITEC (Prof.
J. Henkel)Vertiefungsgebiet: Entwurf Vertiefungsgebiet: Entwurf
eingebetteter Systeme eingebetteter
Systeme
Optimierung und
Synthese
Entwurf und
Architekturen für Synthese
eingebetteter
Systeme
(ES I)
Architekturen für
eingebettete
Systeme (ES II)
Praktikum
„Entwurf
eingebetteter
0_20_40_60_80_100
St “
Praktikum
„Entwurf eines
applikations-
ifi h
Low Power
Design
Intelligente
Daten-
analyse
Systeme“ spezifischen
Prozessors“
Software-
analyse
Engineering für
eingebettete
Systeme
Mikropro-
zessoren
Mikropro-
zessoren für
eingebettete
Anwendungen
University of
California
at Berkeley
Vorlesung “Intelligente Datenanalyse”
Folie 1-5
Universität Karlsruhe
ITEC
(Prof. J. Henkel)Afb d V l Afb d V l Aufbau der Vorlesung Aufbau der Vorlesung
1. Einführung
2.
Statistik
3. Neuronale Netze
4. Fuzzy-Logik
5. Machine Learning
6. Werkzeuge
University of California
at
Berkeley
Vorlesung “Intelligente Datenanalyse”
Folie 1-6
Universität Karlsruhe
ITEC
(Prof. J. Henkel)1Eifüh 1Eifüh 1. Einführung 1. Einführung
1.1 Szenarien
12 Datenerfassung 1.2 Datenerfassung
1.3 Ziele einer Datenanalyse
1.4 Data-Mining
1.5 Datenanalyse: Die Theorie ... (Beispiel)
1.6
Intelligente Datenanalyse – Vorgehensweise
17 Ebi dDt l thd 1.7 Ergebnisse der Datenanalysemethoden
1.8
Eigenschaften von Daten
19 Visualisierung 1.9 Visualisierung
University of California
at
Berkeley
Vorlesung “Intelligente Datenanalyse”
Folie 1-7
Universität Karlsruhe
ITEC (Prof.
J. Henkel)11S i 11S i 1.1 Szenarien 1.1 Szenarien
• Medizin
– Screening
Zusammenhang Ursache Krankheit
– Zusammenhang Ursache - Krankheit
– Erfolgsaussichten einer Behandlung
• Produktion Produktion
–
Bestimmung optimaler Betriebsparameter
• Qualitätssicherung Qua ä ss c e u g
– Stichprobenanalyse
•
Vorhersage g
University of California
at Berkeley
Vorlesung “Intelligente Datenanalyse”
Folie
1-8
Universität Karlsruhe
ITEC (Prof. J. Henkel)Si(ft) Si(ft) Szenarien (forts.)
Szenarien (forts.)
• Soziologie / Politik
– Statistiken zur Zustandsbeschreibung
Phli • Psychologie
–
Separierung normales / anomales Verhalten
• Biologie • Biologie
– Klassifikation
0_20_40_60_80_100
von Spezies
• Geologie • Geologie
– Auswertung von Echodaten
University of California
at Berkeley
Vorlesung
“Intelligente Datenanalyse”
Folie 1-9
Universität Karlsruhe
ITEC (Prof. J. Henkel)12D
t f 12D t f 1.2 Datenerfassung 1.2 Datenerfassung
• Trends bei der Erfassung von Daten
– neue
Sensoren
höhere Speicherkapazitäten – höhere Speicherkapazitäten
– hoher Automatisierungsgrad
durch Rechner
• Zusammenführung von Daten • Zusammenführung von Daten
– Datenbanken
Vernetzung
– Vernetzung
Verfahren zur Auswertung der Datenmengen
University of California
at Berkeley
Vorlesung
“Intelligente Datenanalyse”
Folie 1-10
Universität Karlsruhe
ITEC (Prof. J. Henkel)13Zi
l i D t l 13Zi l i D t l 1.3 Ziel einer Datenanalyse 1.3 Ziel einer Datenanalyse
• Modellbildung
–
interpretierbar um Zusammenhänge zu erkennen
simulierbar um Vorhersagen machen zu können –
simulierbar um Vorhersagen machen zu können
• Test von Hypothesen
• Datenkompression (Informationserhaltend)
• Datenkompression (Informationserhaltend)
• Filtern von Informationen (relevante Information
finden) finden)
• Statusbeschreibung (deskriptive Statistik)
University of California
at
Berkeley
Vorlesung “Intelligente Datenanalyse”
Folie 1-11
Universität Karlsruhe
ITEC (Prof.
J. Henkel)14D t Mi i 14D t Mi i 1.4 Data Mining 1.4 Data Mining
• Spezialfall der Datenanalyse
–
Untersuchte Daten in Datenbanken (Data Warehouse)
Ziel: Finden unbekannter Zusammenhänge
Kunden-
–
Ziel: Finden unbekannter Zusammenhänge
Vorberei- Modellie- Anwen- Kunden-
daten
Vorberei
tungsphase
•Fehlstellen-
bh
dl
Modellie
rungsphase
•Auswahl der
lt
Anwen
dungsphase
•Anwendung
der
Mdll i
Datenbank
behandlung
•Statistik
•Bildung
aggregierter
Mk l
relevanten
Merkmale
•
Anwendung der
Data-Mining-
Vfh
Modelle im
täglichen Betrieb
Merkmale Verfahren
University
0_20_40_60_80_100
of California
at Berkeley
Vorlesung “Intelligente Datenanalyse”
Folie 1-12
Universität Karlsruhe
ITEC
(Prof. J. Henkel)15D t l 15D t l di Th i di Th i 1.5 Datenanalyse 1.5 Datenanalyse - - die
Theorie... die Theorie...
Wissensextraktion
Daten
Daten Wissensextraktion
Herkunft: Verfahren aus der:
Wissen
in Form von:
-Sensordaten
- medizinische Beob.
- Datenbanken
- Statistik
-KI
- Maschinelles
Lernen
- fkt. Beziehungen
- Regeln Datenbanken
- Umfragen
…
...
...
University of California
at
Berkeley
Vorlesung “Intelligente Datenanalyse”
Folie 1-13
Universität Karlsruhe
ITEC
(Prof. J. Henkel)Bi il Bi il Beispiel Beispiel
ikli D i # A B C ein kleiner Datensatz mit:
• 388 Beispielen,
mit je
• 3 Merkmalen (oder
# A B C
1 0.00000 6.50000 0.0
2 -0.00000 -6.50000 1.0
3 1.24111
6.23947 0.0
4 1 24111 6 23947 10 3 Merkmalen (oder
Variablen), davon
– zwei numerisch
ä
4
-1.24111 -6.23947 1.0
5 2.38235 5.75151 0.0
6 -2.38235 -5.75151 1.0
7 3.38400 5.06451 0.0
8 3 38400
5 06451 10 – und eines binär
8 -3.38400 -5.06451 1.0
9 4.21338 4.21338 0.0
10 -4.21338 -4.21338
1.0
11 4.84593 3.23795 0.0
12 -4 84593 -3 23795 10 12 -4.84593 -3.23795 1.0
13 5.26574 2.18114 0.0
14
-5.26574 -2.18114 1.0
15 5.46586 1.08723 0.0
16 -5 46586 -1 08723 10 16 5.46586 1.08723 1.0
.....
University
of California
at Berkeley
Vorlesung “Intelligente Datenanalyse”
Folie 1-14
Universität
Karlsruhe
ITEC (Prof. J. Henkel)Statistische Kennwerte
Minimum Mittelwert Maximum Std.-Abw.
Merkmal
A -5,46586 500 1005,46586 500,004294
Merkmal B 65 2 2891E 18 65 2 15263844 Merkmal B -6,5 2,2891E-18
6,5 2,15263844
Merkmal C 00,510,5
Korrelationskoeffizienten
Merkmal A Merkmal B Merkmal C Merkmal
A Merkmal B Merkmal C
Merkmal A 1 0,00050308 -0,00065552
Merkmal B 1 -0,03169144
Merkmal C 1
University
of California
at Berkeley
Vorlesung “Intelligente Datenanalyse”
Folie 1-15
Universität
Karlsruhe
ITEC (Prof. J. Henkel)X-Y Darstellung
8
4
6
8
0
2
kmal B
-4
-2
-200 0 200 400
0_20_40_60_80_100
600 800 1000 1200
Merk
-8
-6
Mk lA Merkmal A
University of California
at Berkeley
Vorlesung “Intelligente
Datenanalyse”
Folie 1-16
Universität Karlsruhe
ITEC (Prof. J. Henkel)Darstellung in Polarkoordinaten
1000
1200
600
800
Radius
200
400
R
0
-2
-1,5 -1 -0,5 0 0,5 1 1,5 2
Winkel Winkel
University
of California
at Berkeley
Vorlesung “Intelligente Datenanalyse”
Folie 1-17
Universität
Karlsruhe
ITEC (Prof. J. Henkel)Merkmal A
1500
0
500
1000
1500
-500
0
0 50 100 150 200
250 300 350 400
Merkmal B
10
-5
0
5
10
0 50 100 150 200 250 300 350 400
-10
5 0 50 00 50 00
50 300 350 00
University of California
at Berkeley
Vorlesung “Intelligente Datenanalyse”
Folie
1-18
Universität Karlsruhe
ITEC (Prof. J. Henkel)Merkmal A (<500)
10
-5
0
5
10
0 50 100 150
200
-10
5 0 50 100 150 200
Merkmal B (A<500)
10
-5
0
5
0 50 100 150 200
-10
University of
California
at Berkeley
Vorlesung “Intelligente Datenanalyse”
Folie 1-19
Universität Karlsruhe
ITEC
(Prof. J. Henkel)XY-Darstellung, Randbedingung: A<500
8
g, g g
(rot: C=1.0, blau: C=0.0)
4
6
0
2
-4
-2
Merkmal
B
-6
-4
-6 -4 -2 0 2 4 6
-8
Merkmal A
University of California
at Berkeley
Vorlesung
“Intelligente Datenanalyse”
Folie 1-20
Universität Karlsruhe
ITEC (Prof. J.
Henkel)
Merkmal A1 6 I t lli t D t l 1 6 I t lli t D t l Zkl Zkl 1.6 Intelligente Datenanalyse 1.6 Intelligente
Datenanalyse - - Zyklus Zyklus
Rhdt
Gefilterte
Vorverarbeitung Rohdaten
Rohdaten Gefilterte,
bereinigte
Daten
Domain Domain
knowledge Einflussnahme
Merkmals-,
Kennzahlen,
Regeln:
if Temp=high
,
Regel-,
Wissens-
extraktion
if Temp high
then Druck=high
extraktion
University of California
at
Berkeley
Vorlesung “Intelligente Datenanalyse”
Folie 1-21
Universität Karlsruhe
ITEC
(Prof. J. Henkel)I t lli t D t l I t lli t D t l Abl f Abl f Intelligente Datenanalyse Intelligente
Datenana0_20_40_60_80_100
Next