Belajar Komputer

Belajar komputer itu mudah dan gratis

Information Retrieval System


Materials :

  • Pengantar Temu Kembali Informasi (Information Retrieval)
  • Stemming dengan Algoritma Porter Stemmer

Temu kembali informasi (information retrieval) adalah ilmu pencarian informasi pada dokumen, pencarian untuk dokumen itu sendiri, pencarian untuk metadata yang menjelaskan dokumen, atau mencari di dalam database, baik relasi database yang stand-alone atau hipertext database yang terdapat pada network seperti internet atau World Wide Web atau intranet, untuk teks, suara, gambar, atau data.Information retrieval (IR) adalah ilmu yang lahir dari berbagai disiplin ilmu, baik ilmu komputer, matematika, ilmu kepustakaan, ilmu informasi, psikologi kognitif, linguistik, statistik, maupun fisika.

Secara prinsip, penyimpanan informasi dan penemuan kembali informasi adalah hal yang sederhana. Misalkan terdapat tempat penyimpanan dokumen-dokumen dan seseorang (user) merumuskan suatu pertanyaan (request atau query) yang jawabannya adalah himpunan dokumen yang mengandung informasi yang diperlukan yang diekspresikan melalui pertanyaan user. User bisa saja memperoleh dokumen-dokumen yang diperlukannya dengan membaca semua dokumen dalam tempat penyimpanan, menyimpan dokumen-dokumen yang relevan dan membuang dokumen lainnya. Hal ini merupakan perfect retrieval, tetapi solusi ini tidak praktis. Karena user tidak memiliki waktu atau tidak ingin menghabiskan waktunya untuk membaca seluruh koleksi dokumen, terlepas dari kenyataan bahwa secara fisik user tidak mungkin dapat melakukannya.

Oleh karena itu, diperlukan suatu sistem temu kembali informasi (information retrieval system) untuk membantu user menemukan dokumen yang diperlukannya.

Ilustrasi sistem temu kembali informasi :

clip_image001

Model IR ada tiga jenis, yaitu :

  • Model Boolean : merupakan model IR sederhana yang berdasarkan atas teori himpunan dan aljabar boolean
  • Model Vector Space : merupakan model IR yang merepresentasikan dokumen dan query dalam bentuk vektor dimensional
  • Model Probabilistic : merupakan model IR yang menggunakan framework probabilistik

Taksonomi model IR :

clip_image002

Stemming adalah proses untuk menggabungkan atau memecahkan setiap varian-varian suatu kata menjadi kata dasar.

Stem (akar kata) adalah bagian dari kata yang tersisa setelah dihilangkan imbuhannya (awalan dan akhiran). Contoh : connect adalah stem dari connected, connecting, connection, dan connections.

Metode stemming memerlukan input berupa term yang terdapat dalam dokumen. Sedangkan outputnya berupa stem.

Ada tiga jenis metode stemming, antara lain :

  • Successor Variety (SV) : llebih mengutamakan penyusunan huruf dalam kata dibandingkan dengan pertimbangan atas fonem. Contoh untuk kata-kata : corpus, able, axle, accident, ape, aboutmenghasilkan SV untuk kata apple :

Karena huruf pertama dari kata “apple” adalah “a”, maka kumpulan kata yang ada substring “a” diikuti “b”, “x”, “c”, “p” disebut SV dari “a” sehingga “a” memiliki 4 SV.

Karena dua huruf pertama dari kata “apple” adalah “ap”, maka kumpulan kata yang ada substring “ap” hanya diikuti “e” disebut SV dari “ap” sehingga “ap” memiliki 1 SV.

  • N-Gram Conflation : ide dasarnya adalah pengelompokan kata-kata secara bersama berdasarkan karakter-karakter (substring) yang teridentifikasi sepanjang N karakter.
  • Affix Removal : membuang suffix dan prefix dari term menjadi suatu stem. Yang paling sering digunakan adalah algoritma Porter Stemmer karena modelnya sederhana dan effisien.

 

  1. Jika suatu kata diakhiri dengan “ies” tetapi bukan “eies” atau “aies”, maka “ies” direplace dengan “y”
  2. Jika suatu kata diakhiri dengan “es” tetapi bukan “aes” atau “ees” atau “oes”, maka “es” direplace dengan “e”
  3. Jika suatu kata diakhiri dengan “s” tetapi bukan “us” atau “ss”, maka “s” direplace dengan “NULL”

clip_image003

Porter stemmer merupakan algoritma penghilangan akhiran morphological dan infleksional yang umum dari bahasa Inggris. Algoritma ini terdiri dari himpunan kondisi atau action rules.

Kondisi dikelompokkan menjadi tiga kelas, yakni :

  • Kondisi pada stem

o Ukuran (measure), dinotasikan dengan m, dari sebuah stem berdasarkan pada urutan vokal-konsonan.

§ m = 0, contoh : TR, EE, TREE, Y, BY

§ m = 1, contoh : TROUBLE, OATS, TREES, IVY

§ m = 2, contoh : TROUBLES, PRIVATE, OATEN

clip_image004

·

o *<X> berarti stem berakhir dengan huruf X

o *v* berarti stem mengandung sebuah vokal

o *d berarti stem diakhiri dengan konsonan dobel

o *o berarti stem diakhiri dengan konsonan – vokal – konsonan, berurutan, di mana konsonan akhir bukan w, x, atau y.

  • Kondisi pada suffix : (current_suffix == pattern)
  • Kondisi pada rule : rule-rule dibagi menjadi step-step. Rule-rule dalam sebuah step diuji secara berurutan, dan hanya 1 rule dari suatu step yang diterapkan.

{
step1a(word);
step1b(stem);
if (the second or third rule of step 1b was used) step1b1(stem);
step1c(stem);
step2(stem);
step3(stem);
step4(stem);
step5a(stem);
step5b(stem);
}

Control flow algoritma Porter Stemmer :

clip_image005

Step-step algoritma Porter Stemmer :

  • Step 1a : remove plural suffixation

clip_image006

  • Step 1b : remove verbal inflection

clip_image007

  • Step 1b1 : continued for -ed and -ing rules

clip_image008

  • Step 1c : y and i

clip_image009

  • Step 2 : peel one suffix off for multiple suffixes

clip_image010

  • Step 3

clip_image011

  • Step 4 : delete last suffix

clip_image012

  • Step 5a : remove e

clip_image013

  • Step 5b : reduction

clip_image014

sumber : http://blog.its.ac.id/dyah03tc

3 responses to “Information Retrieval System

  1. rizqi 31 Mei 2010 pukul 2:50 AM

    saya mau nanya bro klo metode sederhana yg cocok buat sistem informasi pa yach…..

    tolong bantuannya….
    thanx..
    klo da contoh2 sederhana dari metode tersebut tolong krim k email saya y : rizqi_jailani@yahoo.co.id
    dtunggu blasannya………

  2. Kenya 1 September 2010 pukul 2:25 AM

    Thank you pisan…. berguna banget…
    kenalin, saya kenya , Teknik Informatika Maranatha 2008😀
    salam kenal
    senang bisa tau kamuu..😀

    • dimas347 1 September 2010 pukul 2:33 AM

      salam kenal juga😀

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout / Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout / Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout / Ubah )

Foto Google+

You are commenting using your Google+ account. Logout / Ubah )

Connecting to %s

%d blogger menyukai ini: