Pisces's BLog: Pengenalan Pengambilan Informasi

Kuliah STBI

BAB 1 Boolean retrieval

Pengambilan informasi (IR) dapat didefinisikan sebagai menemukan bahan (biasanya dokumen) dari alam yang tidak terstruktur (biasanya teks) yang memenuhi kebutuhan informasi dari dalam koleksi besar (biasanya disimpan di komputer).

IR juga dapat mencakup jenis data dan masalah-masalah informasi di luar yang ditentukan dalam definisi di atas. Istilah “data tidak terstruktur” mengacu pada tidak memiliki data yang jelas secara sistematik terbuka. Ini adalah kebalikan dari data terstruktur. Contoh kanoik yang merupakan database relasional dari perusahaan seperti biasanya digunakan untuk menjaga produk persediaan dan catatan pribadi. Pada kenyataannya, hamper tidak ada data yang benar-benar terstruktur.

Dalam pembahasan ini akan dimulai dengan contoh yang sederhana dari sebuah masalah pengambilan informasi.

1.1 Contoh masalah pengambilan informasi

Pengambilan model Boolean adalah model untuk pengambilan informasi yang bisa mengajukan permintaan apapun dalam bentuk ekspresi Boolean. Yaitu, dimana istilah yang di kombinasikan dengan operator AND, OR, dan NOT.

Mari pertimbangkan scenario yang realistis, sekaligus menggunakan kesempatan untuk memperkenalkan beberapa termilogi dan notasi. Misalkan N=1 juta dokumen. Dengan dokumen apapun yang dimaksudkan unit memutuskan untuk membangun system pencarian di atas. Mungkin memeo pribadi atau baab dari sebuah buku akan merujuk kepada kelompok dokumen dimana kita bisa melakukan pengambilan sebagai (dokumen ) koleksi. Hal ini kadang-kadang disebut sebagai korpus (tubuh dari teks). Misalkan setiap dokumen adalah sekitar 1000 kata-kata yang panjang (2-3 halaman buku). Jika kita asumsikan rata-rata 6 byte perword termasuk spasi dan tanda baca, maka ini adalah sebuah koleksi dokumen sekitar 6 GB dalam ukuran. Biasanya, mungkin ada kira-kira M= 500.000 istilah yang berbeda dalam dokumen-dokumen. Tidak ada khusus tentang angka-angka yang telah kami pilih, dan mereka mungkin bervariasi menurut pesanan besarnya atau lebih, tetapi mereka memberikan beberapa gagasan tentang dimensi jenis masalah yang kita butuhkan untuk menangani.

1.2 Pengambilan pertama dalam membangun index terbalik

1. Mengumpulkan dokumen untuk diindeks

2. Tokenize teks, mengubah setiap dokumen menjadi daftar token

3. Lakukan proses linguistik, menghasilkan daftar dinormalkan. .

4. Mengindeks dokumen yang terjadi pada setiap istilah dengan menciptakan indeks terbalik, terdiri dari sebuah kamus dan posting.

1. 3 Query Pengolahan Boolean

Perpotongan operasi adalah penting: kita harus melakukan berpotongan daftar posting yang efisien sehingga dapat dengan cepat menemukan dokumen yang mengandung kedua
istilah. (Operasi ini kadang-kadang disebut sebagai penggabungan daftar posting:
nama ini sedikit berlawanan dengan menggunakan istilah algoritma untuk menggabungkan
keluarga umum algoritma yang menggabungkan beberapa daftar diurutkan oleh interleaved
maju dari pointer melalui masing-masing;

1.4 Perpanjangan Model Boolean versus ranked retrieval

Boolean retrieval model berbeda dengan pengambilan model peringkat Retrieval seperti
model ruang vektor di mana sebagian besar pengguna menggunakan query teks bebas,
queries yaitu hanya mengetik satu atau lebih kata-kata daripada menggunakan bahasa yang tepat dengan operator untuk membangun query ekspresi, dan sistem memutuskan
query dokumen mana yang paling memuaskan. Model pencarian utama atau pilihan pencarian yang disediakan oleh penyedia informasi komersial yang besar selama tiga dasawarsa sampai awal 1990-an (kira-kira tanggal kedatangan dari World Wide Web).

1.5 Referensi dan bahan bacaan lebih lanjut

Cara praktis pengambilan informasi komputerisasi dimulai pada akhir
1940 (Cleverdon 1991, Liddy 2005). Peningkatan yang cukup besar dalam produksi
literatur ilmiah, banyak dalam bentuk laporan teknis agak tidak terlalu formal
daripada artikel jurnal tradisional, ditambah dengan ketersediaan komputer,
menyebabkan minat dalam pengambilan dokumen otomatis. Namun, pada masa itu, dokumen pengambilan selalu didasarkan pada penulis, judul, dan kata kunci.
Artikel Bush (1945) memberikan inspirasi yang langgeng untuk bidang baru:
"Pertimbangkan perangkat masa depan bagi setiap pengguna yang merupakan semacam mesin file swasta dan perpustakaan. Diperlukan sebuah nama dan satu koin pada pengacakan, 'memex' akan melakukannya. Sebuah memex adalah perangkat di mana seorang individu
menyimpan semua buku-bukunya, catatan, dan komunikasi mekanik sehingga dapat berkonsultasi dengan melebihi kecepatan dan fleksibilitas. Ini adalah hasil pembesaran suplemen intim ingatannya. " Istilah Information Retrieval diciptakan oleh Calvin Mooers di 1948/1950 (Mooers 1950). Pada tahun 1958, surat kabar banyak perhatian diberikan pada demonstrasi di sebuah konferensi (Taube andWooster 1958) dari IBM "auto-pengindeksan" mesin. Kepentingan komersial mudah tertarik terhadap sistem pencarian Boolean, tetapi tahun-tahun awal melihat sebuah perdebatan sengit lewat berbagai teknologi berbeda untuk sistem pencarian. Sebagai contoh Mooers (1961) berpendapat: "Ini merupakan kekeliruan umum, pada tanggal ini ditanggung oleh investasi beberapa juta dolar dalam pengambilan berbagai perangkat keras, bahwa aljabar dari George Boole (1847) adalah formalisme yang tepat untuk pengambilan rancangan sistem. Pandangan ini tidak diterima karena dinilai tidak kritis karena salah. "

BAB 2 Istilah Kosakata dan Daftar Posting

2.1 Penggambaran dan decoding urutan karakter

2.1.1 Mendapatkan urutan karakter dalam dokumen

Dokumen digital yang input ke sebuah proses pengindeksan biasanya
byte di file atau di web server. Langkah pertama pengolahan adalah untuk mengubahnya byte urutan ke urutan linear karakter. Urutan karakter dapat dikodekan oleh salah satu dari berbagai tunggal byte atau skema pengkodean multibyte, seperti Unicode UTF-8, atau berbagai nasional atau standar khusus vendor. Kita perlu menentukan encoding yang benar.

Karakter mungkin harus diterjemahkan dari beberapa representasi biner
seperti MicrosoftWord DOC file dan / atau format terkompresi seperti zip file. Sekali lagi, kita harus menentukan format dokumen, yang kemudian disesuaikan dengan
decoder yang digunakan. Bahkan bagi dokumen teks biasa, decoding tambahan
mungkin perlu dilakukan.

Produk komersial biasanya perlu untuk mendukung berbagai tipe dokumen dan encoding, karena pengguna ingin semuanya hanya bekerja dengan data mereka apa adanya. Sering kali, mereka hanya berpikir dokumen sebagai teks dalam aplikasi dan bahkan tidak menyadari bagaimana dikodekan pada disk. Masalah ini biasanya diselesaikan dengan lisensi software perpustakaan yang menangani format dokumen decoding dan encoding karakter. Gagasan bahwa teks adalah urutan linear karakter juga dipertanyakan oleh beberapa sistem penulisan, seperti Arab, di mana mengambil teks pada beberapa dua dimensi dan ketertiban campuran karakteristik,

2.1.2 Memilih Unit Dokumen

Tahap berikutnya adalah untuk menentukan unit dokumen yang mau di indeks. Sebagai contoh kita mengambil sebagai file dalam folder tersebut sebagai sebuah dokumen.

2.2 Menentukan Kosakata Istilah

2.2.1 Tokenezation

Diberikan urutan karakter dan dokumen yang ditetapkan unit, tokenization adalah
tugas memotong itu menjadi potongan-potongan, yang disebut token, mungkin pada saat yang sama membuang karakter tertentu, seperti tanda baca. Token ini seringkali longgar disebut sebagai istilah atau kata-kata, tetapi kadang-kadang
penting untuk membuat suatu jenis / token perbedaan. Sebuah token adalah sebuah contoh dari urutan karakter dalam dokumen tertentu yang dikelompokkan
bersama sebagai unit semantik yang berguna untuk diproses.

2.2.2 Menghapus istilah-istilah umum: pemberhentian kata

Terkadang, beberapa kata yang sangat umum akan tampak dari
nilai kecil dalam membantu memilih dokumen sesuai kebutuhan pengguna dikecualikan dari kosakata sama sekali. Kata-kata ini disebut kata-kata henti. Strategi umum untuk menentukan daftar berhenti untuk menyortir istilah oleh frekuensi pengumpulan (jumlah total kali setiap istilah muncul dalam koleksi dokumen),
dan kemudian mengambil istilah yang paling sering, sering tangan-disaring untuk semantik konten relatif terhadap domain dari dokumen-dokumen yang diindeks, sebagai daftar berhenti, para anggota yang kemudian dibuang selama pengindeksan. Ungkapan permintaan "Presiden Amerika Serikat", yang berisi
dua kata-kata henti, lebih tepat daripada Presiden DAN "Amerika Serikat". Itu
arti dari penerbangan ke London adalah kemungkinan besar akan hilang jika kata adalah berhenti keluar.

2.2.3 Normalisasi (kesetaraan mengklasifikasikan istilah)

Jumlah Kesetaraan terbaik mengklasifikasikan atau ekspansi permintaan untuk Lakukan adalah sebuah pertanyaan cukup terbuka. Tampaknya jelas melakukan beberapa ide yang bagus. Tetapi banyak yang bisa dengan mudah memiliki konsekuensi tak terduga dalam perluasan queries dengan cara disengaja. Sebagai contoh, Kesetaraan-Klasifikasi Amerika Serikat dan Amerika Serikat untuk yang kedua menghapus dengan tanda dari periode mungkin pada awalnya tampak sangat wajar, mengingat pola yang Lazim periode opsional penggunaan akronim.

2.2.4 Stemming and lemmatization

Untuk alasan tata bahasa, dokumen akan menggunakan bentuk yang berbeda dari sebuah kata, seperti mengorganisir, mengatur, dan mengorganisir. Tujuan dari kedua yang berasal dan lemmatization adalah untuk mengurangi berinfleksi
bentuk dan kadang-kadang terkait derivationally bentuk kata ke Common
bentuk dasar. Misalnya:

am, are, is → be

car, cars, car’s, cars’→ car

Hasil dari pemetaan ini teks akan menjadi sesuatu seperti:
mobil anak itu warna berbeda ⇒ mobil anak akan berbeda warna

Banyak aturan kemudian menggunakan konsep ukuran sebuah kata, yang longgar
memeriksa jumlah suku kata untuk melihat apakah kata cukup panjang itu
adalah wajar untuk menganggap bagian pencocokan aturan sebagai akhiran daripada
sebagai bagian dari sebuah kata

Categories

Kuliah

Pisces's BLog

9 Maret 2010

Pengenalan Pengambilan Informasi

0 komentar: