Oleh : Tb. Ai Munandar
Definisi
Metode naive bayes merupakan metode classifier yang didasarkan atas probabilitas dan Teorema Bayesian dengan asumsi bahwa setiap variabel X bersifat bebas (independence). Metode ini mengasumsikan bahwa keberadaan setiap atribut (variabel) tidak ada kaitannya dengan keberadaan atribut (variabel) yang lain.
Dasar dari metode Naive Bayes adalah teorema bayes yang menyatakan bahwa, jika X merupakan sampel data klas (label) yang tidak diketahui, dan H adalah hipotesa dimana X merupakan data klas (label) C, dan P(H) adalah peluang dari hipotesa H, kemudian P(X) dinyatakan sebagai peluang kejadian X (data sample) yang diamati, maka P(X|H) adalah peluang data sample X, yang diasumsikan bahwa hipotesa H bernilai benar (valid).
Probabilitas X dan H yang terjadi bersamaan disimbolkan dengan P(X Ç H) atau P(H ÈX). Probabilitas P(X|H) terjadi jika kejadian X terjadi jika didahului kejadian H, sehingga nilainya dapat dihitung menggunakan persamaan :
Dengan cara yang sama, jika kejadian H terjadi yang didahului dengan kejadian X, maka nilai probabilitas P(H|X) dapat dihitung dengan persamaan :
Karena P(XÇH) = P(HÇX), maka diperoleh :
Sehingga diperoleh :
Persamaan (4) ini lah yang kemudian menjadi dasar untuk metode Naive Bayes. Pada Naive Bayes, karena setiap atribut diasumsikan tidak saling terkait antara satu dan lainnya (conditionally independent), maka persamaan dapat dinyatakan sebagai berikut :
Berdasarkan persamaan (5) tersebut, maka klas (label) dari data sample X adalah klas(label) yang memiliki :
Yang bernilai maksimum.
Langkah 3 : Hitunglah nilai klas (label) dari data sample tersebut, gunakan persaman (6)
Contoh perhitungan Naive bayes
Diketahui sejumlah dataset sebagai berikut :
age | income | student | credit_rating | buys_computer |
<=30 | high | no | Fair | no |
<=30 | high | no | excellent | no |
30..40 | high | no | Fair | yes |
>40 | medium | no | Fair | yes |
>40 | low | yes | Fair | yes |
>40 | low | yes | excellent | no |
31..40 | low | yes | excellent | yes |
<=30 | meium | no | Fair | no |
<=30 | low | yes | Fair | yes |
>40 | medium | yes | Fair | yes |
<=30 | medium | yes | excellent | yes |
31..40 | medium | no | excellent | yes |
31..40 | high | yes | Fair | yes |
>40 | medium | no | excellent | no |
Jika diketahui ada sebuah data baru yang belum memiliki klas sebagai berikut :
X = (age<=30, income=medium, student=yes, credit_Rating=fair)
Tentukan klas yang cocok untuk data di atas :
Jawab :
Langkah 1 : Hitung nilai P(Xk | Ci) untuk setiap klas i
P(age="<30" Çbuys_computer="yes")=2;
P(buys_computer="yes")=9
Dengan menggunakan persamaan :
, maka diperoleh
dengan cara yang sama, maka nilai P(Xk | Ci) untuk klas yang lain diperoleh sebagai berikut :
P(age="<30" | buys_computer="no") = 3/5 = 0.6
P(income="medium" | buys_computer="yes")=4/9=0.444
P(income="medium") | buys_computer="no") = 2/5 = 0.4
P(student="no" | buys_computer="no") = 1/5=0.2
P(credit_rating="fair" | buys_computer="yes") = 6/9 = 0.667
P(credit_rating="fair" | buys_computer="no") = 2/5=0.4
Langkah 2 : Hitunglah nilai P(X | Ci) untuk setiap klas menggunakan persamaan (5)
sehingga diperoleh :P(X | buys_computer="yes") = 0.222 x 0.444 x 0.667 x 0.667 = 0.0438
P(X | buys_computer="no") = 0.6 x 0.4 x 0.2 x 0.4 = 0.0192
Langkah 3 : Hitunglah nilai klas (label) dari data sample tersebut, gunakan persaman (6)
sehingga diperoleh :
P(X | buys_computer = "yes") * P(buys_computer="yes")
= 0.0438 * 0.643 = 0.028
P(X | buys_computer = "no") * P(buys_computer="no")
Dengan demikian X memiliki klas "buys_computer = yes" karena memiliki nilai maksimum untuk perhitungan klas (label) nya.
0 komentar:
Post a Comment