ДРУГА ГРУПА



Скупови за тренирање, валидацију и тестирање
1. Када се користи скуп за тренирање?
2. Када се користи за скуп за тестирање?
3. Када се користи скуп за валидацију?
4. Како се креирају ови скупови?
5. Наведи разлику између коректне и погрешне стандардизације скупова података

3)На пример, можемо да пратимо парове атрибута спољна температура и број продатих сладоледа,
спољна температура и потрошња струје и спољна температура и број књига у библиотеци.
4)Пирсонов корелациони коефицијент
Његове вредности се крећу у
распону од -1 до 1 и указују истовремено и на правац и на јачину повезаности. Вредности
коефицијента које су ближе броју -1 указују на негативну корелисаност, вредности коефицијента
ближе броју 1 указују на позитивну корелисаност, док вредности око нуле указују на одсуство
линеарне корелисаности.
5.Топлотне мапе
Уобичајено је да се вредности корелационих коефицијената између атрибута приказују графички у
форми такозване топлотне мапе.
Сваки квадратић у овој мапи одговара једном пару атрибута и његова боја је прилагођена
вредности корелационог коефицијента.

Ако користимо табеларне податке, интересује нас који се то атрибути појављују, какве вредности
имају и да ли су можда неки од њих повезани.
Када радимо са другим типовима података, рецимо текстуалним, обично нас интересује да ли су сви
текстови написани на истом језику и колика је њихова дужина.
Пошто ниједан скуп података није савршен, у анализама покушавамо да пронађемо и потенцијалне
дупликате и неке атипичне уносе.
нумерички (квантитативни) и
категорички (квалитативни) атрибути.
За овакве атрибуте приликом анализе обично
пратимо опсеге
За њих обично анализирамо које све
вредности могу да узму и колико често се појављују и те закључке приказујемо помоћу графикона.

Припрема нумеричких и категоричких података
1. Зашто се користе технике нормализације?
2.Шта је мин-макс нормализација?
3. Шта је стандардизација нормализација?
4. Како представљамо категоричке атрибуте као што је ПОЛ особе?
5. Коју врсту кодирања користимо за атрибуте које имају већи број вредности?

1. На пример, може се десити да су имена боја писана неконзистентно, некада малим а некада великим
словима, или да су датуми задати у различитим форматима као дан-месец-година и година/месец/дан.
Да бисмо задатак анализе могли коректно да спроведемо, пожељно је да ове вредности унификујемо, тј.
сведемо их на исти начин представљања. Обично постоји неки начин који је пожељнији или
кориснији, али се дешава и да су избори сасвим равноправни.

Корелација атрибута
1. Како представљамо кореалцију између атрибута?
2. Које врсте корелација постоје?
3. Наведи примере корелација.
4. Шта је Пирсонов коефицијент?
5. Шта су топлотне мапе?

Унификовање, недостајуће вредности, дупликати и уочавање изузетака
1.Примери неконзистентних података
2. На које начине можемо да отклонимо проблем недостајућих вредности неких атрибута?
3. Како проналазимо дупликате код табеларних података?
4. Наведи примере неких атипичних података или изузетака

Експолоративна анализа скупа података и анализа атрибута
1.Шта је битно код табеларних података, а шта код текстуалних?
2. Које врсте података могу да се пронађу у скупу?
3. Врсте атрибута
4.Шта пратимо код нумеричких атрибута?
5. Шта анализирамо код категоричких атрибута?

Припрема података