wtorek, 23 października 2012

Wielowymiarowe analizy - Transformacja danych

Wpływ transformacji danych na analizę podobieństwa

Załóżmy, że badamy zbiorniki wodne w pewnym mieście pod względem występowania w nim gatunków ryb. Nasz badacz liczy zaobserwowane gatunki w ciągu godziny trwania obserwacji. Stara się również aby warunki pogodowe były podobne dla każdej obserwacji i żeby badania odbywały się mniej więcej w tym samym czasie, w ten sposób chce wykluczyć wpływ innych czynników, które mogłyby zakłócić jego pomiar. W wyniku badań otrzymał następujący zestaw gatunkowy:

 
Dokonując dalszej analizy statystycznej, badacz chce określić, które z badanych stanowisk są zbliżone do siebie pod względem gatunków w nim występujących. Analizując tabele, wydaję się, że zbliżone są stanowiska A i C.
Badacz obliczył podobieństwo gatunkowe, używając odległości euklidesowej a następnie pogrupował obiekty na dendrogramie. Otrzymał taki oto dendrogram:

 
Potwierdza się nasza stawiana wcześniej teza o podobieństwie stanowisk A i C i rzeczywiście występowanie gatunków 1 i 2 było identyczne na obu stanowiskach i to zaważyło na takim wyniku. Jednakże, załóżmy że gatunki 3, 4, 5 to gatunki rzadkie, będące w pewien sposób wskaźnikami ekologicznymi. Zauważmy również że wskaźniki bioróżnorodności byłyby najprawdopodobniej wyższe na stanowiskach B, C niż A. Biorąc pod uwagę te czynniki, taki uzyskany wynik niezbyt  nas satysfakcjonuje. W takich wypadkach należy dokonać transformacji danych, spróbujmy nasze dane potraktować pierwiastkiem czwartego stopnia, a następnie stworzyć dendrogram.

 

W nowym ujęciu nasze rzadkie gatunki, zostały uwzględnione, jak możemy zaobserwować wygląd naszego dendrogramu uległ zmianie. W tym ujęciu stanowiska B i C, są bardziej zbliżone do siebie gatunkowo niż A i C.