Headline

6/recent/ticker-posts

Header Ads Widget

Mengenal Apa Itu Infromation Retrieval atau Temu Kembali Informasi

Nulis Coding - Mengenal Apa Itu Infromation Retrieval atau Temu Kembali Informasi

Pernah mendengar apa itu Infromation Retrieval? Buat kalian mahasiswa Informatika pasti sudah sering mendengar istilah ini, namun buat kalian orang awam atau mahasiswa salah jurusan dan ingin mengetahui apa itu Infromation Retrieval. Disini akan kita bahas secara detail pengertian dan contoh pemanfaatan Infromation Retrieval.


source: european-house.ru

Pengertian, Cara Kerja dan Masa Depan Information Retrieval

Information Retrieval (IR) atau sering disebut “temu kembali infromasi” adalah ilmu yang mempelajari prosedur-prosedur dan metode-metode untuk menemukan kembali infromasi yang tersimpan dari berbagai sumber (resources) yang relevan atau koleksi sumber informasi yang dicari atau dibutuhkan. Dengan tindakan  index (indexing), panggilan (searching), pemanggilan data kembali (recalling).
Dalam pencarian data, beberapa jenis data dapat ditemukan diantaranya text, table, gambar (image), video, audio. Adapun tujuan dari Infromation Retrieval ialah untuk memenuhi informasi pengguna dengan cara meretrieve dokumen yang relevan atau menguragi dokumen pencarian yang tidak relevean.

Definisi dan Pengertian Information Retrieval

Secara Konsep sederhana IR merupakan proses mencari, dan kemudain mendapatkan apa yang dicari itu. Jika kita titik beratkan kepada prosesnya maka didalamnya akan terungkap bagaimana perjalanan informasi yang diminta,  menjadi infromasi yang diberikan.

Menurut beberapa ahli IR didefinisikan sebagai berikut :

Menurut Kowalaski :
Informasi Retrieval adalah konsep sederhana dalam pencarian yang dilakukan oleh seseorang. seperti contoh ketika user akan mencari informasi yang dia butuhkan, maka sistem menerjemahakan kepada bentuk statment yang kemudian di eksekusi oleh sistem pencari.

William Hersh Menyatakan :
Information Retrieval adalah “bidang di persimpangan ilmu informasi dan ilmu komputer.  Berkutat dengan pengindeksan dan pengambilan informasi dari sumber informasi heterogen dan sebagian besar-tekstual. Istilah ini diciptakan oleh Mooers pada tahun 1951, yang menganjurkan bahwa diterapkan ke “aspek intelektual” deskripsi informasi dan sistem untuk pencarian (Mooers, 1951).

Kutipan Dari Wikipedia :
Wikipedia menjelaskan Information Retrieval (IR) adalah seni dan ilmu mencari informasi dalam dokumen, mencari dokumen itu sendiri, mencari metadata yang menjelaskan dokumen, atau mencari dalam database, apakah relasional database itu berdiri sendiri atau database hypertext jaringan seperti Internet atau intranet, untuk teks , suara, gambar, video atau data.

Dari ketiga rujukan definisi diatas, sudah jelas dimaksudkan bahwa information retrevial adalah bidang keilmuan dalam Teknologi informasi yang menjelaskan tentang “Pencarian dan Pengambilan Kembali Informasi”.

Keilmuan ini mengungkapkan bagaimana metode metode pencarian informasi yang dilakukan oleh end user dari gudang gudang penyimpanan yang bersekala besar, contoh sederhananya adalah media penyimpanan kita sendiri.

Terkadang ketika semakin banyak data yang kita simpan dalam sebuah media penyimpanan tak jarang kita akan lupa dimana kita meletakan data yang kita simpan tadi, sehingga kita melakukan proses pencarian data yang kita lupa tadi, bisa dengan menggunakan tools pencarian atau bisa dengan memeriksa satu persatu tempat penyimpanan data kita.

Dalam studi kasus yang lebih kompleks, penerapan IR adalah Search Engine (Mesin Pencari) seperti google, yahoo, bing dll. SE merupakan implementasi yang sangat kompleks dari IR

Cara Kerja Information Retrieval (IR)

Untuk menemukan informasi relevan yang kita cari, maka dibutuhkan kata kunci (Keyword, Query) yang sesuai dengan informasi yang ingin didapat, lebih baik lagi jika kita memahami penggunaan kata kunci yang tepat, karena dengan keyword yang seusai maka proses pencarian dalam index di mesin IR akan cepat, sehingga korpus yang sesuai dengan kata kunci yang dimasukan akan ditampilkan kembali kepada si end user.

Keyword, Query : adalah inputan kata kunci pencarian yang diberikan pengguna kepada Mesin Pencari (Search Engine) misalnya : Google, Yahoo, Being, Ask dll.

Indexing : proses penyusunan index dari seluruh dokumen pada korpus, yang terdiri dari kata-kata (token)

Korpus : adalah kumpulan dokumen yang disalin ke mesin SE misalnya Google “menjepret” seluruh halaman website yang bisa diakses umum (tanpa login terlebih dahulu) kemudian menyalinnya ke SE di servernya.

Bagaimana mesin IR menyalin dokumen-dokumen yang berada di dunia maya? Mesin IR memiliki robot (BOT) sejenis program yang bisa disebut juga dengan crawler, program tersebutlah yang kemudian berfungsi untuk menyalin dokumen atau informasi yang berada di salah satu sumber misal website/blog ke server IR tersebut.

Kemudian cara kerja Information Retrieval (IR) dapat dijelaskan sebagai berikut :

  • Tokenisasi (tokenizing) atau word token adalah : Pemisahan deret kata dalam kalimat, paragrap menjadi potongan kata tunggal (termed word) serta menghilangkan karakter-karakter dalam tanda baca dan mengubah kumpulan termed menjadi huruf kecil (lower case). Contoh : "saya belajar Information Retrieval" maka akan dihasilkan : "saya", "belajar", "information", "retrieval".
  • Stopword removal atau seleksi / penyaringan (filtration) adalah: tahapan untuk mempersentasikan suatu dokumen dapat mendeskripsikan isi dari suatu dokumen untuk membedakan isi dokumen lain, dalam suatu istilah (term) akan mencari jumlah dokumen yang diangap paling relevan didalam suatu inputan (query), suatu term yang sering ditampilkan atau digunakan diangap sebagai stopword. Contoh : Operator Logika and, or, not, dan sebaginya. Maka stopword tersebut akan menghapus, karna frekuwnsi dari kemunculan trem terlalu sering.
  • Pembuatan kata dasar (stemming) adalah : konversi dari trem ke bentuk akar (root) atau bentuk umum, biasanya dalam dokumen yang mirip atau sama (sinonim) atau bisa menemukan kata-kata yang terkait dalam sebuah dokumen. Contoh : kita memasukan kata "menemukan" maka query akan merekomendasikan, "memperoleh", "mengetahui", "memiliki", "mendapatkan" dan setrusnya.
  • Proses pembobotan setiap term dalam dokumen (term weighting) yaitu dalam tahapan pembobotan term skema dalam pembobotan dipilih berdasarkan pembobotan lokal, global atau kedua-duanya (term frequency dan global inverse document frequency).


Ada tiga hal yang menjadi dasar cara kerja mesin IR yaitu Proses Crawling, Proses Indexing dan Proses Surving.

a).  Proses Crawling
Crawling adalah suatu pekerjaan yang dilakukan oleh googlebot (biasa dikenal juga dengan istilah robot, atau spider bisa di sebut juga crawler) dalam menjelajahi halaman-halaman website untuk di indeks pada google server.
Googlebot terdiri dari set komputer yang berjumlah besar yang memang difungsikan untuk meng-crawling website-website. Dalam melakukan tugasnya, googlebot menggunakan suatu algoritma komputer dalam menentukan situs apa saja yang akan di crawling, seberapa sering, dan berapa banyak halaman yang akan di indeks.
Proses crawling dalam suatu website dimulai dari mendata seluruh url dari website, menelusurinya satu-persatu, kemudian memasukkannya dalam daftar halaman pada google indeks, sehingga setiap kali ada perubahan pada website, akan terupdate secara otomatis.

b).  Proses Indexing
Indexing adalah proses pengumpulan kata-kata atau kalimat pada suatu halaman web oleh googlebot yang telah ter-crawling sebelumnya. Dalam prosesnya, konten inilah yang digunakan oleh google sebagai sumber pencarian untuk selanjutnya ditampilkan sebagai hasil pencarian berdasarkan kata kunci (keywords) yang kita cari.
Namun perlu diingat bahwa tidak semua konten dapat diproses oleh googlebot ini. Umumnya konten tersebut adalah link url, judul, tag, nama file, tipe file, isi halaman (tidak semua) dan beberapa informasi halaman lainnya.

c).   Proses Surving 
Surving adalah suatu proses dalam menampilkan suatu halaman tertentu merujuk kepada kata kunci yang dimasukkan oleh pengguna. Keterhubungan antara bagaimana hasil akan ditampilkan dengan kata kunci ditentukan oleh kurang lebih 200 faktor.
Salah satu faktor penentu yang terkenal yang digunakan untuk menampilkan hasil pencarian adalah page rank. Dengan page rank, suatu halaman ditampilkan sesuai dengan urutan dengan cara “halaman yang terbanyak di akses ditampilkan pertama“.
Ketiga proses tersebut di atas dilakukan dalam waktu yang sangat cepat dan disajikan kepada pengguna ditambah dengan penjelasan jumlah penemuan dll.


Masa Depan Information Retrieval (IR):

Berikut merupakan sejarah perkembangan information retrieval dari masa ke masa (dikutip dari Wikipedia):

Tahun 1880-an : Herman Hollerith menciptakan rekaman data pada media mesin yang dapat dibaca.
Tahun 1890 Hollerith kartu, kunci dan tabulasi pukulan yang digunakan untuk mengolah data Sensus AS 1890.
Tahun 1940-an: Masalah-masalah dihadapi militer AS pengindeksan dan pengambilan dokumen perang penelitian ilmiah yang diambil dari Jerman. 
Tahun 1945: Vannevar Bush As We May Think muncul di Atlantic Monthly.
Tahun 1947: Hans Peter Luhn (penelitian insinyur di IBM sejak 1941) mulai bekerja pada sistem kartu punch berbasis mekanik untuk mencari senyawa kimia.
Tahun 1950: Tumbuh kekhawatiran di Amerika Serikat untuk sebuah “kesenjangan ilmu pengtahuan” dengan Uni Soviet termotivasi, pendanaan mendorong dan memberikan sarana mencari sistem (Allen Kent et al.) Dan penemuan pengindeksan kutipan (Eugene Garfield).
Tahun 1950: Istilah  “Information Retrieval” telah diciptakan oleh Calvin Mooers.
1951: Philip Bagley melakukan percobaan awal dalam pengambilan dokumen terkomputerisasi dalam sebuah tesis master di MIT.
1955: Allen Kent bergabung dengan Case Western Reserve University, dan akhirnya menjadi direktur Pusat Dokumentasi dan Komunikasi Penelitian. Tahun yang sama, Kent dan koleganya menerbitkan hasil penelitian di Amerika yang menjelaskan secara rinci dan proses recall serta menjelaskan suatu “kerangka” yang diusulkan untuk mengevaluasi sistem IR yang meliputi metode sampling statistik untuk menentukan jumlah dokumen relevan yang tidak diambil.
1958: Konferensi Internasional Informasi Ilmiah Washington DC mempertimbangkan sistem IR sebagai solusi untuk masalah yang diidentifikasi.
1959: Hans Peter Luhn menerbitkan “pengkodean dokumen secara otomatis untuk pengambilan informasi.”
1960-an: Gerard Salton mulai bekerja pada IR di Harvard, kemudian pindah ke Cornell.
1960: Melvin Earl (Bill) Maron dan John Lary Kuhns menerbitkan “Relevansi, pengindeksan probabilistik, dan IR” dalam Journal pada ACM 
1962: Cyril W. Cleverdon menerbitkan temuan awal dari studi Cranfield, mengembangkan suatu model untuk evaluasi sistem IR. Lihat: Cyril W. Cleverdon, “Laporan Pengujian dan Analisis sebuah Investigasi ke Efisiensi Perbandingan Pengindeksan Sistem”. Koleksi Cranfield Penerbangan, Inggris Cranfield,, 1962.
Kent diterbitkan Analisis Informasi dan Retrieval.
1963: Weinberg laporan “Ilmu, Pemerintah dan Informasi” memberikan artikulasi penuh gagasan “krisis informasi ilmiah.” Laporan itu dinamai Dr Alvin Weinberg.
Yusuf Becker dan Robert M. Hayes menerbitkan teks pada pencarian informasi. Becker, Joseph; Hayes, Mayo Robert. Penyimpanan informasi dan pengambilan: alat, elemen, teori. New York, Wiley (1963).
1964: Karen Spärck Jones menyelesaikan tesis nya di Cambridge, Klasifikasi sinonim dan Semantic, dan bekerja pada linguistik komputasi yang dipersiapkan untuk IR.
Biro Standar Nasional mensponsori simposium berjudul “Asosiasi Statistik Metode Dokumentasi Mekanik.” Beberapa penemuan sangat signifikan, termasuk referensi pertama G. Salton ‘s diterbitkan. National Library of Medicine dikembangkan oleh MEDLARS Kedokteran, Sastra, Analisis dan Retrieval System, database dapat dibaca oleh mesin besar pertama dan sistem batch-retrieval.
1965: JCR Licklider menerbitkan Perpustakaan Masa Depan.
1966: Don Swanson terlibat dalam penelitian di University of Chicago pada Persyaratan untuk Katalog Masa Depan.
1960-an: F. Wilfrid Lancaster menyelesaikan studi evaluasi sistem MEDLARS dan menerbitkan edisi pertama teks tentang pencarian informasi.
1968: Gerard Salton menerbitkan Otomatis Informasi Organisasi dan Retrieval.
John W. Sammon, Jr ‘s RADC melaporkan Tech “Matematika Informasi Penyimpanan dan Retrieval …” diuraikan model vektor.
1969: Sammon “A pemetaan linier untuk analisis struktur data” (IEEE Transaksi di Komputer) merupakan proposal pertama untuk antarmuka visualisasi untuk sistem IR.
awal 1970-an : Pertama online sistem-NLM AIM-Twx, MEDLINE; Lockheed’s Dialog; Orbit SDC’s. Theodor Nelson mempromosikan konsep hypertext, diterbitkan Komputer Lib / Dream Machines.
1971: Nicholas Jardine dan Cornelis J. van Rijsbergen menerbitkan “Penggunaan clustering hierarkis dalam temu balik informasi”, yang diartikulasikan dengan “hipotesis cluster.” 
1975: Tiga publikasi sangat berpengaruh oleh Salton sepenuhnya diartikulasikan pemrosesannya menggunakan vektor kerangka kerja dan model untuk Pengindeksan Otomatis.
1979: CJ van Rijsbergen diterbitkan Information Retrieval (Butterworths). Berat penekanan pada model probabilistik.
1980: Pertama internasional ACM SIGIR konferensi, bersama dengan kelompok British Society Komputer IR di Cambridge.
1982: Nicholas J. Belkin, Robert N. Oddy, dan Helen M. Brooks mengusulkan sudut pandang untuk pengambilan informasi. Ini merupakan konsep penting, meskipun alat analisis otomatis mereka ternyata akhirnya mengecewakan.
1983: Salton (dan Michael J. McGill) menerbitkan Pengenalan Information Retrieval Modern (McGraw-Hill), dengan penekanan pada model vektor.
1985: Blair dan Maron mempublikasikan: Sebuah Evaluasi Efektivitas Retrieval untuk Dokumen-Temu-Full Teks Sistem
pertengahan 1980-an: Upaya untuk mengembangkan versi pengguna akhir sistem IR komersial.
1985-1993: Kunci makalah dan sistem eksperimental untuk antarmuka visualisasi.
Bekerja oleh Donald B. Crouch, Robert R. Korfhage, Matius Chalmers, Anselmus Spoerri dan lain-lain.
Pada tahun 1989 ditemukannya World Wide Web (WWW) oleh Tim Berners-Lee, awal kebangkitan information retrieval, sejak itu internet menawarkan berbagai pasilitas seperti email, ftp, dan berbagi berita (news).
akhir 1990-an: Web search engine mengeluarkan banyak fitur baru yang sebelumnya hanya ditemukan di sistem IR eksperimental. Search engine menjadi Instansiasi yang paling umum dan menjadi model IR terbaik.

Dilihat dari sejarah dan perkembangannya maka, IR dimasa depan akan lebih memiliki peran yang sangat penting untuk memenuhi kebutuhan masyarakat dalam kehidupan sehari-hari.


Berikut adalah perkembangan IR mendatang agar dapat menyesuaikan kebutuhan masyarakat tentang perlunya informasi :

a). Information Overload:
     - Bagaimana mengolah informasi  yang sangat banyak
     - Tidak semua informasi benar dan sesuai kebutuhan
     - Fokus terhadap pengembangan filter dan aggregator.
     - Search Box tersebar

b). Web masa akan datang
     - Semua model  web akan mengikuti Google dan Facebook

c). Revolusi Media
    - Format publikasi media akan melalu internet
    - Penerbit dan distributor akan menjadi raja informasi
    - Seluler /moble akan menjadi pesaing berat media Pers
    - Media  pers akan melintasi batas negara dan budaya
    - Ponsel dan GPS akan menciptakan technologi baru (revolusi technologi)
    - Jaringan Internet, komunikasi dan mobile  akan menjadi alat utama bisnis.
    - Siapa pun yang mengeguasai technologi akan menguasai dunia.


Referensi: 
https://id.wikipedia.org/wiki/Sistem_temu_balik_informasi

Post a Comment

0 Comments