Playing a video (Stop)
Powered by Haskell (GHC 8.8.4 )

Можемо да приметимо да пораст температуре прати и пораст броја продатих сладоледа. Уколико

пораст вредности једног атрибута прати пораст вредности другог атрибута, за њих кажемо да

су позитивно корелисани. На графику можемо да приметимо и да је ова зависност линеарна, тј. да

прати неку замишљену праву која пролази кроз скуп тачака.

 

 

 

Са друге стране, делује да је ситуација са спољном температуром и потрошњном струје нешто

другачија, тј. да пад температуре прати већа потрошња струје, вероватно услед коришћења грејних тела.

За атрибуте код којих пораст вредности једног атрибута прати пад вредности другог атрибута

кажемо да су негативно корелисани. Са графика можемо да закључимо, опет, и да је ова врста

корелисаности линеарна.

Трећи график, који приказује спољну температуру и број књига у библиотеци, не указује на неку, барем

не очигледну, законитост између атрибута. Свакако можемо да закључимо да ови атрибути нису

линеарно корелисани.

Атрибути између себе могу да буду повезани.

Повезаност можемо да приметимо уколико нацртамо график који дуж x-осе има вредност једног

атрибута а дуж y-осе вредност другог атрибута.

На пример, можемо да пратимо парове атрибута спољна температура и број продатих сладоледа,

спољна температура и потрошња струје и спољна температура и број књига у библиотеци.

Нека сваком од ових парова одговара график као на доњој слици.

1.

Ако користимо табеларне податке, интересује нас који се то атрибути појављују, какве вредности

имају и да ли су можда неки од њих повезани.

Када радимо са другим типовима података, рецимо текстуалним, обично нас интересује да ли су сви

текстови написани на истом језику и колика је њихова дужина.

3.

Две велике групе атрибута које сусрећемо су:

 нумерички (квантитативни) и 

 категорички (квалитативни) атрибути.

2. табеларни, текстуални и нумерички

ПРВА ГРУПА

Експолоративна анализа скупа података и анализа атрибута

1.Шта је битно код табеларних података, а шта код текстуалних?

2. Које врсте података могу да се пронађу у скупу?

3. Врсте атрибута

4.Шта пратимо код нумеричких атрибута?

5. Шта анализирамо код категоричких атрибута?

Припрема података

Унификовање, недостајуће вредности, дупликати и уочавање изузетака

1.Примери неконзистентних података

2. На које начине можемо да отклонимо проблем недостајућих вредности неких атрибута?

3. Како проналазимо дупликате код табеларних података?

4. Наведи примере неких атипичних података или изузетака

Корелација атрибута

1. Како представљамо кореалцију између атрибута?

2. Које врсте корелација постоје?

3. Наведи примере корелација.

4. Шта је Пирсонов коефицијент?

5. Шта су топлотне мапе?

Припрема нумеричких и категоричких података

1. Зашто се користе технике нормализације?

2.Шта је мин-макс нормализација?

3. Шта је стандардизација нормализација?

4. Како представљамо категоричке атрибуте као што је ПОЛ особе?

5. Коју врсту кодирања користимо за атрибуте које имају већи број вредности?

Скупови за тренирање, валидацију и тестирање

1. Када се користи скуп за тренирање?

2. Када се користи за скуп за тестирање?

3. Када се користи скуп за валидацију?

4. Како се креирају ови скупови?

5. Наведи разлику између коректне и погрешне стандардизације скупова података

Podaci-1-2