Comanda carti online de la edituri romanesti si din strainatate.
Free Call 0268 411 986

TEXT MINING Tehnici de clasificare si clustering al documentelor

39.00 lei

Aceastã carte se constituie într-un efort original de prezentare a unor aspecte ce vizeazã problematica clasificãrii si grupãrii (clustering) documentelor de tip text. Lucrarea prezintã notiunile de bazã referitoare la procesarea automatã a documentelor text împreunã cu o serie de algoritmi de clasificare si de clustering, argumentati cu anumite contributii semnificative aduse de cãtre autori. Monografia, înscrisã în cadrul generos al unor dezvoltãri stiintifice majore, abordeazã o tematicã realmente actualã, de interes major, fiind deosebit de oportunã în contextul preocupãrilor cercetãtorilor în stiinta si ingineria calculatoarelor de pe întreg mapamondul. Scopul major al acestei lucrãri este acela de a prezenta metode de îmbunãtãtire a performantei unor sisteme de clasificare si de clusterare a documentelor, prin algoritmi euristici computationali. Ea descrie, practic, o aventurã intelectualã onestã si fertilã prin prisma rezultatelor concrete obtinute de cãtre autori. Cartea se adreseazã tuturor celor interesati în dezvoltarea de aplicatii bazate pe algoritmi de învãtare pentru regãsirea automatã a informatiilor, iar în mod special studentilor din anii terminali ai specializãrilor „Calculatoare”, „Tehnologia informatiei”, „Ingineria stemelor multimedia” etc., masteranzilor si doctoranzilor. (232 pagini)

SKU: 9789736502897 Categorii: , Etichete: , Product ID: 10486

Descriere

 

PARTEA I. INTRODUCERE

 

  1. INTRODUCERE

1.1. Structura cărţii

 

  1. PROCESAREA AUTOMATĂ A DOCUMENTELOR DE TIP TEXT. GENERALITĂŢI

2.1. Data mining

2.1.1. Preprocesarea datelor

2.1.1.1. Curăţirea datelor

2.1.1.1.1. Completarea valorilor lipsă

2.1.1.1.2. Netezirea zgomotului

2.1.1.2. Integrarea şi transformarea datelor

2.1.1.2.1. Integrarea datelor

2.1.1.2.2. Transformarea datelor

2.1.1.3. Selectarea şi reducerea datelor

2.1.2. Analiza datelor

2.1.3. Evaluarea şi prezentarea pattern-urilor rezultate

2.2. Text mining

2.2.1. Analiza datelor text şi regăsirea informaţiei

2.2.2. Metode de regăsire a informaţiei

2.2.3. Asocierea între cuvinte cheie şi clasificarea documentelor

2.2.4. Alte tehnici de indexare pentru regăsirea textului

2.3. WWW mining

2.3.1. Mineritul structurii paginilor web

2.3.2. Mineritul link-urilor pentru identificarea paginilor web autoritare

2.3.3. Mineritul utilizării web

2.3.4. Construirea informaţiilor de bază pe mai multe niveluri web

2.3.5. Clasificarea automată a documentelor web

2.4. Clasificare versus Clustering

2.4.1. Învăţare supervizată şi nesupervizată

2.4.2. Clasificare şi analiza clasificării

2.4.3. Clustering şi analiza clusterilor

2.4.4. Cerinţe cheie pentru algoritmii de clustering

2.5. Metrici de similaritate a documentelor text

2.5.1. Structurarea datelor

2.5.1.1. Matricea de date

2.5.1.2. Matricea de disimilaritate

2.5.2. Disimilaritate şi similaritate

2.5.3. Distanţe uzuale

2.5.4. Tipuri de variabile utilizate în clasificare/clustering

2.5.4.1. Variabile scalate într-un anumit interval

2.5.4.2. Variabile standardizate

2.5.4.3. Variabile binare (dihotomice)

2.5.4.3.1. Matricea de disimilaritate pentru variabile binare

2.5.4.4. Variabile nominale

2.6. Evaluarea algoritmilor de clasificare/clustering

2.6.1. Măsuri externe de validare a clusteringului şi a clasificării

2.6.2. Măsuri de validare internă a clusterilor

2.7. Seturi de date utilizate

2.7.1. Setul de date Reuters

2.7.1.1. Alegerea documentelor pentru antrenare – testare

2.7.1.2. Setul A1

2.7.1.3. Setul T1

2.7.1.4. Setul T2

2.7.2. Setul de date RSS –Web

 

PARTEA A II-A. CLUSTERING

 

  1. ALGORITMI DE CLUSTERING. GENERALITĂŢI

3.1. O posibilă taxonomie

3.1.1. Algoritmi partiţionali (sau metode partiţionale)

3.1.1.1. Metoda k-Means

3.1.1.2. Metoda k-Medoids

3.1.2. Metode ierarhice

3.1.2.1. Algoritmi aglomerativi ierarhici (HAC)

3.1.2.1.1. Single link

3.1.2.1.2. Complete link

3.1.3.1.3. Average link

3.1.2.1.4. Centroid link

3.1.2.1.5. Metoda lui Ward

3.1.2.1.6. SAHN (Sequential, Agglomerative, Hierarchical and Nonoverlapping)

3.1.2.2. Algoritmul BIRCH

3.1.2.3. Algoritmul CURE

3.1.2.4. Algoritmi divizivi

3.1.3. Metode bazate pe ordinea cuvintelor – Suffix Tree Clustering (STC)

3.1.3.1. Pas 1. Construcţia arborelui de sufixe

3.1.3.2. Pas 2. Selectarea nodurilor de bază

3.1.3.3. Pas 3. Unirea clusterilor de bază similari

3.1.3.4. Pas 4. Etichetarea clusterilor

3.1.4. Metode bazate pe densităţi

3.1.5. Metode de tip grid-based

3.1.6. Metode bazate pe modele

3.2. Algoritmi ierarhici. HAC – implementarea AGNES

3.3. Algoritmi partiţionali. K-Medoids

 

  1. CLUSTERINGUL DOCUMENTELOR

4.1. Modele de reprezentare utilizate

4.1.1. Reprezentarea utilizând modelul Vector Space Model – VSM

4.1.1.1. Indexarea documentelor

4.1.1.2. Tipuri de reprezentare a termenilor

4.1.2. Reprezentarea utilizând modelul Suffix Tree Document Model – STDM

4.2. Metodologia de lucru

4.3. Metrici pentru calculul matricei de similaritate şi metode de evaluare

4.4. Rezultate obţinute pe seturile RSS

4.4.1. Rezultatele obţinute de algoritmul HAC – reprezentare VSM

4.4.2. Rezultatele obţinute de algoritmul HAC – reprezentare STDM

4.4.3. Rezultatele obţinute de algoritmul k-Medoids cu reprezentare VSM

4.4.4. Rezultatele obţinute de algoritmul k-Medoids cu reprezentare STDM

4.4.5. Comparaţii între algoritmii de clustering şi între modurile de reprezentare

 

PARTEA A III-A. CLASIFICARE

 

  1. ALGORITMI DE CLASIFICARE. GENERALITĂŢI

5.1. Introducere

5.2. Algoritmi stohastici

5.2.1. Clasificarea bayesiană

5.2.2. Antrenarea clasificatorului Bayes

5.2.3. Testarea clasificatorului Bayes

5.2.4. Rezultate obţinute cu clasificatorului Bayes

5.3. Algoritmi de învăţare bazaţi pe regula Backpropagation

5.3.1. Modelul neuronului artificial

5.3.2. Arhitectura reţelelor neuronale

5.3.3. Învăţarea reţelelor neuronale

5.3.3.1. Regula de învăţare Boltzmann

5.3.3.2. Regula de învăţare Hebb

5.3.3.3. Regula de învăţare competitivă

5.3.3.4. Reguli de învăţare prin corecţie a erorii (“error-correction rules”)

5.3.4. Metoda Backpropagation

5.3.4.1. Perceptronul [Vint07]

5.3.4.2. Perceptroni multistrat cu funcţie de activare neliniară

5.3.4.3. Perceptronul multistrat

5.3.5. Algoritmul de învăţare Backpropagation

5.3.5.1. Pasul forward

5.3.5.2. Pasul backward

5.3.6. Cercetări privind evitarea saturării ieşirii neuronilor

5.4. Algoritmi evoluţionişti. Algoritmi genetici

5.4.1. Codificarea cromozomilor şi problema de optimizare

5.4.2. Metode de alegere a cromozomilor

5.4.2.1. Metoda „Roulette Wheel” (ruleta)

5.4.2.2. Alegerea utilizând metoda lui Gauss

5.4.3. Operatorii genetici utilizaţi

5.4.3.1. Selecţia

5.4.3.2. Mutaţia

5.4.3.3. Crossover

5.5. Algoritmi bazaţi pe nuclee. Support Vector Machine

5.6. Clasificatori hibrizi. Metaclasificatori

 

  1. CLASIFICAREA DOCUMENTELOR

6.1. Evaluarea clasificatorilor de tip SVM

6.1.1. Problema limitării metaclasificatorului cu clasificatori de tip SVM

6.1.2. O primă tatonare a problemei

6.2. Soluţii explorate pentru îmbunătăţirea metaclasificatorului bazat pe clasificatoare de tip SVM

6.2.1. Soluţia introducerii unor noi clasificatori SVM

6.2.2. Soluţia alegerii altei clase

6.2.3. Soluţia adăugării unui clasificator de alt tip

6.2.3.1. Adaptarea clasificatorului Bayes pentru utilizarea în metaclasificator

6.2.3.2. Compararea clasificatorului Bayes adaptat (BNA) cu clasificatorii de tip SVM

6.2.3.3. Antrenarea clasificatorilor pe setul A1 şi testarea pe setul T1

6.2.3.4. Antrenarea pe setul A1 şi testarea pe setul T2

6.2.3.5. Antrenarea şi testarea pe setul T2

6.3. Metode de selecţie a clasificatorilor

6.3.1. Selecţia bazată pe vot majoritar (MV). Rezultate

6.3.2. Selecţia bazată pe distanţa euclidiană (SBED). Rezultate

6.3.3. Selecţia bazată pe distanţa cosinus (SBCOS). Rezultate

6.4. Arhitecturi neadaptive propuse şi dezvoltate

6.4.1. Metaclasificator cu ponderi predefinite. Evaluare de tip Eurovision. Rezultate obţinute.

6.4.1.1. Metaclasificator neadaptiv bazat pe sumă

6.4.1.2. Metaclasificator neadaptiv bazat pe sumă normalizată

6.4.1.3. Metaclasificator neadaptiv bazat pe sumă ponderată

6.4.1.4. Cercetări privind alte variante de ponderare a elementelor vectorilor

6.4.1.4.1. Înjumătăţirea ponderii

6.4.1.4.2. Ponderi mici descrescătoare linear

6.4.2. Metaclasificator cu ponderi calculate. Design Space Exploration cu algoritmi genetici. Rezultate obţinute.

6.5. Arhitecturi adaptive propuse şi dezvoltate

6.5.1. Metaclasificatoare bazate pe similaritate

6.5.1.1. Rezultate obţinute în cazul selecţiei bazate pe distanţa euclidiană

6.5.1.2. Rezultatele obţinute în cazul selecţiei bazate pe distanţa cosinus

6.5.2. Metaclasificator bazat pe algoritmul Backpropagation

6.5.2.1. Influenţa numărului de neuroni de pe stratul ascuns

6.5.2.2. Influenţa coeficientului de învăţare

 

Recenzii

Nu există recenzii până acum.

Fii primul care adaugi o recenzie la „TEXT MINING Tehnici de clasificare si clustering al documentelor”

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *