Nulis Coding - Pengertian dan Penggunaan N-gram Dalam Pengolahan Kata
Apakah itu uni-gram, big-gram, dan n-gram lainnya? Jika anda seorang pengamat teknologi & informasi mungkin sudah tidak asing lagi, namun bagi anda yang masih kebingungan tentang Pengertian dan Penggunaan N-gram Dalam Pemrograman artikel ini akan menjelaskannya.
N-gram merupakan salah satu proses yang secara luas digunakan dalam text mining (pengolahan teks) dan pengolahan bahasa. Secara N-gram merupakan sekumpulan kata yang diberikan dalam sebuah paragraf dan ketika menghitung n-gram biasanya dilakukan dengan menggerakkan satu kata maju ke depan (Meskipun dalam prosesnya terdapat suatu proses dimana kata yang dimajukan sejumlah X kata).
Sebagai contoh terdapat sebuah kaliman “Kemarin aku beli sepeda baru keren”. Jika N=2 makan dikenal dengan bigram.
Dimana ngram menjadi :
Bisa dilihat dari contoh diatas, dimana kita memiliki 5 n-gram dalam kasus tersebut. Perhatikan bahwa terjadi pergerakan kata tiap dua kata yaitu dari Kemarin -> aku ke aku –> beli ke beli -> sepeda dst. Dimana kejadiannya terjadi secara berurutan dengan cara tiap kata berpindah maju satu kata ke depan untuk membangkitkan n-gram selanjutnya.
Jika terdapat N=3 maka n-gram menjadi sebagai berikut :
Berdasarkan kasus di atas terdapat 4 n-gram. Sedangkan jika N=1 maka bisa disebut dengan unigram yang pada dasarnya hanya terdiri dari satu kata dalam sebuah kalimat. Ketika terdiri dari N=2 maka disebut dengan trigram , dan ketika terdir dari N>1 bisa disebut dengan four gram, five gram dan seterusnya.
Berapa banyak N-gram dalam sebuah kalimat?
Jika diasumsikan X adalah jumlah kata dalam suatu kalimat K, maka jumlah n-gram dari kalimat K adalah :
Digunakan untuk apa itu N-gram?
N-gram digunakan dalam berbagai macam proses pengolahan bahasa, n-gram yang digunakan tidak hanya menggunakan unigram tapi model bigram dan trigram juga digunakan. Microsoft dan Google menggunakan model ini untuk pengembangan web mereka beberapa diantaranya digunakan untuk beberapa tugas seperti spelling correction, word breaking dan text summarization dalam web mereka.
Namun tidak hanya dalam hal itu saja n-gram digunakan tapi juga digunakan dalam proses Supervised Mechine Learning seperti MaxEnt , dan Naïve Bayes dan lain-lain.
Nah, semoga bermanfaat artikel tentang "Pengertian dan Penggunaan N-gram Dalam Pengolahan Kata" jangan lupa mengikuti update terbaru kami dan meninggalkan komentar ya guys.
Referensi:
1. http://text-analytics101.rxnlp.com/2014/11/what-are-n-grams.html
2. https://en.wikipedia.org/wiki/N-gram
Apakah itu uni-gram, big-gram, dan n-gram lainnya? Jika anda seorang pengamat teknologi & informasi mungkin sudah tidak asing lagi, namun bagi anda yang masih kebingungan tentang Pengertian dan Penggunaan N-gram Dalam Pemrograman artikel ini akan menjelaskannya.
source: imgur.com
N-gram merupakan salah satu proses yang secara luas digunakan dalam text mining (pengolahan teks) dan pengolahan bahasa. Secara N-gram merupakan sekumpulan kata yang diberikan dalam sebuah paragraf dan ketika menghitung n-gram biasanya dilakukan dengan menggerakkan satu kata maju ke depan (Meskipun dalam prosesnya terdapat suatu proses dimana kata yang dimajukan sejumlah X kata).
source: imgur.com
Sebagai contoh terdapat sebuah kaliman “Kemarin aku beli sepeda baru keren”. Jika N=2 makan dikenal dengan bigram.
Dimana ngram menjadi :
- Kemarin aku
- Aku beli
- Beli sepeda
- Sepeda baru
- Baru keren
Bisa dilihat dari contoh diatas, dimana kita memiliki 5 n-gram dalam kasus tersebut. Perhatikan bahwa terjadi pergerakan kata tiap dua kata yaitu dari Kemarin -> aku ke aku –> beli ke beli -> sepeda dst. Dimana kejadiannya terjadi secara berurutan dengan cara tiap kata berpindah maju satu kata ke depan untuk membangkitkan n-gram selanjutnya.
Jika terdapat N=3 maka n-gram menjadi sebagai berikut :
- Kemarin aku beli
- Aku beli sepeda
- Beli sepeda baru
- Sepeda baru keren
Berdasarkan kasus di atas terdapat 4 n-gram. Sedangkan jika N=1 maka bisa disebut dengan unigram yang pada dasarnya hanya terdiri dari satu kata dalam sebuah kalimat. Ketika terdiri dari N=2 maka disebut dengan trigram , dan ketika terdir dari N>1 bisa disebut dengan four gram, five gram dan seterusnya.
Berapa banyak N-gram dalam sebuah kalimat?
Jika diasumsikan X adalah jumlah kata dalam suatu kalimat K, maka jumlah n-gram dari kalimat K adalah :
NgramsK = X – (N – 1)
Digunakan untuk apa itu N-gram?
N-gram digunakan dalam berbagai macam proses pengolahan bahasa, n-gram yang digunakan tidak hanya menggunakan unigram tapi model bigram dan trigram juga digunakan. Microsoft dan Google menggunakan model ini untuk pengembangan web mereka beberapa diantaranya digunakan untuk beberapa tugas seperti spelling correction, word breaking dan text summarization dalam web mereka.
Namun tidak hanya dalam hal itu saja n-gram digunakan tapi juga digunakan dalam proses Supervised Mechine Learning seperti MaxEnt , dan Naïve Bayes dan lain-lain.
Nah, semoga bermanfaat artikel tentang "Pengertian dan Penggunaan N-gram Dalam Pengolahan Kata" jangan lupa mengikuti update terbaru kami dan meninggalkan komentar ya guys.
Referensi:
1. http://text-analytics101.rxnlp.com/2014/11/what-are-n-grams.html
2. https://en.wikipedia.org/wiki/N-gram
0 Comments
Terimakasih atas kunjungan anda.
Jangan Lupa membagikan artikel ini kepada teman anda agar lebih bermanfaat.