Descriere
PARTEA I. INTRODUCERE
- INTRODUCERE
1.1. Structura cărţii
- PROCESAREA AUTOMATĂ A DOCUMENTELOR DE TIP TEXT. GENERALITĂŢI
2.1. Data mining
2.1.1. Preprocesarea datelor
2.1.1.1. Curăţirea datelor
2.1.1.1.1. Completarea valorilor lipsă
2.1.1.1.2. Netezirea zgomotului
2.1.1.2. Integrarea şi transformarea datelor
2.1.1.2.1. Integrarea datelor
2.1.1.2.2. Transformarea datelor
2.1.1.3. Selectarea şi reducerea datelor
2.1.2. Analiza datelor
2.1.3. Evaluarea şi prezentarea pattern-urilor rezultate
2.2. Text mining
2.2.1. Analiza datelor text şi regăsirea informaţiei
2.2.2. Metode de regăsire a informaţiei
2.2.3. Asocierea între cuvinte cheie şi clasificarea documentelor
2.2.4. Alte tehnici de indexare pentru regăsirea textului
2.3. WWW mining
2.3.1. Mineritul structurii paginilor web
2.3.2. Mineritul link-urilor pentru identificarea paginilor web autoritare
2.3.3. Mineritul utilizării web
2.3.4. Construirea informaţiilor de bază pe mai multe niveluri web
2.3.5. Clasificarea automată a documentelor web
2.4. Clasificare versus Clustering
2.4.1. Învăţare supervizată şi nesupervizată
2.4.2. Clasificare şi analiza clasificării
2.4.3. Clustering şi analiza clusterilor
2.4.4. Cerinţe cheie pentru algoritmii de clustering
2.5. Metrici de similaritate a documentelor text
2.5.1. Structurarea datelor
2.5.1.1. Matricea de date
2.5.1.2. Matricea de disimilaritate
2.5.2. Disimilaritate şi similaritate
2.5.3. Distanţe uzuale
2.5.4. Tipuri de variabile utilizate în clasificare/clustering
2.5.4.1. Variabile scalate într-un anumit interval
2.5.4.2. Variabile standardizate
2.5.4.3. Variabile binare (dihotomice)
2.5.4.3.1. Matricea de disimilaritate pentru variabile binare
2.5.4.4. Variabile nominale
2.6. Evaluarea algoritmilor de clasificare/clustering
2.6.1. Măsuri externe de validare a clusteringului şi a clasificării
2.6.2. Măsuri de validare internă a clusterilor
2.7. Seturi de date utilizate
2.7.1. Setul de date Reuters
2.7.1.1. Alegerea documentelor pentru antrenare – testare
2.7.1.2. Setul A1
2.7.1.3. Setul T1
2.7.1.4. Setul T2
2.7.2. Setul de date RSS –Web
PARTEA A II-A. CLUSTERING
- ALGORITMI DE CLUSTERING. GENERALITĂŢI
3.1. O posibilă taxonomie
3.1.1. Algoritmi partiţionali (sau metode partiţionale)
3.1.1.1. Metoda k-Means
3.1.1.2. Metoda k-Medoids
3.1.2. Metode ierarhice
3.1.2.1. Algoritmi aglomerativi ierarhici (HAC)
3.1.2.1.1. Single link
3.1.2.1.2. Complete link
3.1.3.1.3. Average link
3.1.2.1.4. Centroid link
3.1.2.1.5. Metoda lui Ward
3.1.2.1.6. SAHN (Sequential, Agglomerative, Hierarchical and Nonoverlapping)
3.1.2.2. Algoritmul BIRCH
3.1.2.3. Algoritmul CURE
3.1.2.4. Algoritmi divizivi
3.1.3. Metode bazate pe ordinea cuvintelor – Suffix Tree Clustering (STC)
3.1.3.1. Pas 1. Construcţia arborelui de sufixe
3.1.3.2. Pas 2. Selectarea nodurilor de bază
3.1.3.3. Pas 3. Unirea clusterilor de bază similari
3.1.3.4. Pas 4. Etichetarea clusterilor
3.1.4. Metode bazate pe densităţi
3.1.5. Metode de tip grid-based
3.1.6. Metode bazate pe modele
3.2. Algoritmi ierarhici. HAC – implementarea AGNES
3.3. Algoritmi partiţionali. K-Medoids
- CLUSTERINGUL DOCUMENTELOR
4.1. Modele de reprezentare utilizate
4.1.1. Reprezentarea utilizând modelul Vector Space Model – VSM
4.1.1.1. Indexarea documentelor
4.1.1.2. Tipuri de reprezentare a termenilor
4.1.2. Reprezentarea utilizând modelul Suffix Tree Document Model – STDM
4.2. Metodologia de lucru
4.3. Metrici pentru calculul matricei de similaritate şi metode de evaluare
4.4. Rezultate obţinute pe seturile RSS
4.4.1. Rezultatele obţinute de algoritmul HAC – reprezentare VSM
4.4.2. Rezultatele obţinute de algoritmul HAC – reprezentare STDM
4.4.3. Rezultatele obţinute de algoritmul k-Medoids cu reprezentare VSM
4.4.4. Rezultatele obţinute de algoritmul k-Medoids cu reprezentare STDM
4.4.5. Comparaţii între algoritmii de clustering şi între modurile de reprezentare
PARTEA A III-A. CLASIFICARE
- ALGORITMI DE CLASIFICARE. GENERALITĂŢI
5.1. Introducere
5.2. Algoritmi stohastici
5.2.1. Clasificarea bayesiană
5.2.2. Antrenarea clasificatorului Bayes
5.2.3. Testarea clasificatorului Bayes
5.2.4. Rezultate obţinute cu clasificatorului Bayes
5.3. Algoritmi de învăţare bazaţi pe regula Backpropagation
5.3.1. Modelul neuronului artificial
5.3.2. Arhitectura reţelelor neuronale
5.3.3. Învăţarea reţelelor neuronale
5.3.3.1. Regula de învăţare Boltzmann
5.3.3.2. Regula de învăţare Hebb
5.3.3.3. Regula de învăţare competitivă
5.3.3.4. Reguli de învăţare prin corecţie a erorii (“error-correction rules”)
5.3.4. Metoda Backpropagation
5.3.4.1. Perceptronul [Vint07]
5.3.4.2. Perceptroni multistrat cu funcţie de activare neliniară
5.3.4.3. Perceptronul multistrat
5.3.5. Algoritmul de învăţare Backpropagation
5.3.5.1. Pasul forward
5.3.5.2. Pasul backward
5.3.6. Cercetări privind evitarea saturării ieşirii neuronilor
5.4. Algoritmi evoluţionişti. Algoritmi genetici
5.4.1. Codificarea cromozomilor şi problema de optimizare
5.4.2. Metode de alegere a cromozomilor
5.4.2.1. Metoda „Roulette Wheel” (ruleta)
5.4.2.2. Alegerea utilizând metoda lui Gauss
5.4.3. Operatorii genetici utilizaţi
5.4.3.1. Selecţia
5.4.3.2. Mutaţia
5.4.3.3. Crossover
5.5. Algoritmi bazaţi pe nuclee. Support Vector Machine
5.6. Clasificatori hibrizi. Metaclasificatori
- CLASIFICAREA DOCUMENTELOR
6.1. Evaluarea clasificatorilor de tip SVM
6.1.1. Problema limitării metaclasificatorului cu clasificatori de tip SVM
6.1.2. O primă tatonare a problemei
6.2. Soluţii explorate pentru îmbunătăţirea metaclasificatorului bazat pe clasificatoare de tip SVM
6.2.1. Soluţia introducerii unor noi clasificatori SVM
6.2.2. Soluţia alegerii altei clase
6.2.3. Soluţia adăugării unui clasificator de alt tip
6.2.3.1. Adaptarea clasificatorului Bayes pentru utilizarea în metaclasificator
6.2.3.2. Compararea clasificatorului Bayes adaptat (BNA) cu clasificatorii de tip SVM
6.2.3.3. Antrenarea clasificatorilor pe setul A1 şi testarea pe setul T1
6.2.3.4. Antrenarea pe setul A1 şi testarea pe setul T2
6.2.3.5. Antrenarea şi testarea pe setul T2
6.3. Metode de selecţie a clasificatorilor
6.3.1. Selecţia bazată pe vot majoritar (MV). Rezultate
6.3.2. Selecţia bazată pe distanţa euclidiană (SBED). Rezultate
6.3.3. Selecţia bazată pe distanţa cosinus (SBCOS). Rezultate
6.4. Arhitecturi neadaptive propuse şi dezvoltate
6.4.1. Metaclasificator cu ponderi predefinite. Evaluare de tip Eurovision. Rezultate obţinute.
6.4.1.1. Metaclasificator neadaptiv bazat pe sumă
6.4.1.2. Metaclasificator neadaptiv bazat pe sumă normalizată
6.4.1.3. Metaclasificator neadaptiv bazat pe sumă ponderată
6.4.1.4. Cercetări privind alte variante de ponderare a elementelor vectorilor
6.4.1.4.1. Înjumătăţirea ponderii
6.4.1.4.2. Ponderi mici descrescătoare linear
6.4.2. Metaclasificator cu ponderi calculate. Design Space Exploration cu algoritmi genetici. Rezultate obţinute.
6.5. Arhitecturi adaptive propuse şi dezvoltate
6.5.1. Metaclasificatoare bazate pe similaritate
6.5.1.1. Rezultate obţinute în cazul selecţiei bazate pe distanţa euclidiană
6.5.1.2. Rezultatele obţinute în cazul selecţiei bazate pe distanţa cosinus
6.5.2. Metaclasificator bazat pe algoritmul Backpropagation
6.5.2.1. Influenţa numărului de neuroni de pe stratul ascuns
6.5.2.2. Influenţa coeficientului de învăţare
Recenzii
Nu există recenzii până acum.