METODE NAIVE BAYES

Posted by Pengen Online Aja Sih on 10:32 PM

Oleh : Tb. Ai Munandar

Definisi
Metode naive bayes merupakan metode classifier yang didasarkan atas probabilitas dan Teorema Bayesian dengan  asumsi bahwa setiap variabel X bersifat bebas (independence). Metode ini mengasumsikan bahwa keberadaan setiap atribut (variabel)  tidak ada kaitannya dengan keberadaan atribut (variabel) yang lain.
Dasar dari metode Naive Bayes adalah teorema bayes yang menyatakan bahwa, jika X merupakan sampel data klas (label) yang tidak diketahui, dan H adalah hipotesa dimana X merupakan data klas (label) C, dan P(H) adalah peluang dari hipotesa H, kemudian P(X) dinyatakan sebagai peluang kejadian X (data sample) yang diamati, maka P(X|H) adalah peluang data sample X, yang diasumsikan bahwa hipotesa H bernilai benar (valid).

Probabilitas X dan H yang terjadi bersamaan disimbolkan dengan P(X Ç H) atau P(H ÈX). Probabilitas P(X|H) terjadi jika kejadian X terjadi jika didahului kejadian H, sehingga nilainya dapat dihitung menggunakan persamaan :  
Dengan cara yang sama, jika kejadian H terjadi yang didahului dengan kejadian X, maka nilai probabilitas P(H|X) dapat dihitung dengan persamaan :
Karena P(XÇH) = P(HÇX), maka diperoleh :
Sehingga diperoleh :
Persamaan (4) ini lah yang kemudian menjadi dasar untuk metode Naive Bayes. Pada Naive Bayes, karena setiap atribut diasumsikan tidak saling terkait antara satu dan lainnya (conditionally independent), maka persamaan dapat dinyatakan sebagai berikut :
Berdasarkan persamaan (5) tersebut, maka klas (label) dari data sample X adalah klas(label) yang memiliki :
Yang bernilai maksimum.

Contoh perhitungan Naive bayes

Diketahui sejumlah dataset sebagai berikut :
age
income
student
credit_rating
buys_computer
<=30
high
no
Fair
no
<=30
high
no
excellent
no
30..40
high
no
Fair
yes
>40
medium
no
Fair
yes
>40
low
yes
Fair
yes
>40
low
yes
excellent
no
31..40
low
yes
excellent
yes
<=30
meium
no
Fair
no
<=30
low
yes
Fair
yes
>40
medium
yes
Fair
yes
<=30
medium
yes
excellent
yes
31..40
medium
no
excellent
yes
31..40
high
yes
Fair
yes
>40
medium
no
excellent
no


Jika diketahui ada sebuah data baru yang belum memiliki klas sebagai berikut :
X = (age<=30, income=medium, student=yes, credit_Rating=fair)
Tentukan klas yang cocok untuk data di atas :

Jawab :
Langkah 1 : Hitung nilai P(Xk | Ci) untuk setiap klas i
            P(age="<30" Çbuys_computer="yes")=2;
            P(buys_computer="yes")=9
            Dengan menggunakan persamaan :

            , maka diperoleh  
dengan cara yang sama, maka nilai P(Xk | Ci) untuk klas yang lain diperoleh sebagai berikut :
P(age="<30" | buys_computer="no") = 3/5 = 0.6
P(income="medium" | buys_computer="yes")=4/9=0.444
P(income="medium") | buys_computer="no") = 2/5 = 0.4
P(student="yes" | buys_computer="yes") = 6/9 = 0.667
P(student="no" | buys_computer="no") = 1/5=0.2
P(credit_rating="fair" | buys_computer="yes") = 6/9 = 0.667
P(credit_rating="fair" | buys_computer="no") = 2/5=0.4


Langkah 2 : Hitunglah nilai P(X | Ci) untuk setiap klas menggunakan persamaan (5)
sehingga diperoleh :
P(X | buys_computer="yes") = 0.222 x 0.444 x 0.667 x 0.667 = 0.0438
            P(X | buys_computer="no") = 0.6 x 0.4 x 0.2 x 0.4 = 0.0192

Langkah 3 : Hitunglah nilai klas (label) dari data sample tersebut, gunakan persaman (6)
sehingga diperoleh :
P(X | buys_computer = "yes") * P(buys_computer="yes")
            = 0.0438 * 0.643 = 0.028
P(X | buys_computer = "no") * P(buys_computer="no")
            = 0.0192 * 0.357 = 0.0068

Dengan demikian X memiliki klas "buys_computer = yes" karena memiliki nilai maksimum untuk perhitungan klas (label) nya.


Nama Anda
New Johny WussUpdated: 10:32 PM

0 komentar:

Post a Comment

CB