Jumat, 27 April 2018

Representasi dan Kompresi Data Teks


Kompresi data merupakan sebuah cara untuk memadatkan data sehingga hanya memerlukan ruangan penyimpanan lebih kecil sehingga lebih efisien dalam menyimpannya atau mempersingkat waktu pertukaran data tersebut.

Jenis kompresi data berdasarkan mode penerimaan data oleh manusia ada 2 yaitu dialoque mode yaitu proses penerimaan data dimana pengirim dan penerima seakan berdialog (real time), dan retrieval mode yaitu proses penerimaan data tidak dilakukan secara real time.

Kompresi data yang berdasarkan output yaitu:
Lossy Compression Teknik kompresi dimana data hasil dekompresi tidak sama dengan data sebelum kompresi namun sudah “cukup” untuk digunakan.  Contoh: Mp3, streaming media, JPEG, MPEG, dan WMA.

Loseless Teknik kompresi dimana data hasil kompresi dapat didekompres lagi dan hasilnya tepat sama seperti data sebelum proses kompresi.  Contoh aplikasi: ZIP, RAR, GZIP, 7-Zip.

Klasifikasi Teknik Kompresi
·         Entropy Encoding [Bersifat Loseless]
·         Source Coding [Bersifat lossy]
·         Hybrid Coding [Lossy + Loseless]

Contoh Teknik Kompresi Data Teks
·         Run-Length-Encoding (RLE)
Kompresi data teks dilakukan jika ada beberapa huruf yang sama yang ditampilkan berturut-turut:

---Mis: Data: ABCCCCCCCCDEFGGGG = 17 karakter
---RLE tipe 1 (min. 4 huruf sama) : ABC!8DEFG!4 = 11 karakter
---RLE ada yang menggunakan suatu karakter yang tidak digunakan dalam teks tersebut seperti          misalnya ‘!’ untuk menandai.
---Jika ada karakter angka, mana tanda mulai dan akhir?
      Misal data : ABCCCCCCCCDEFGGGG = 17 karakter
---RLE tipe 2: -2AB8C-3DEF4G = 13 karakter
---[-2] >> Banyak Huruf Sebelum Huruf yang sama
      Misal data : AB12CCCCDEEEF = 13 karakter
---RLE tipe 2: -4AB124CD3EF = 12 karakter




·         Static Huffman Coding
A bottom-up approach = frekuensi terkecil dikerjakan terlebih dahulu dan diletakkan ke dalam leaf(daun).

Kemudian leaf-leaf akan dikombinasikan dan dijumlahkan probabilitasnya menjadi root diatasnya.
Mis: MAMA SAYA
A = 4 -> 4/8 = 0.5
M = 2 -> 2/8 = 0.25
S = 1 -> 1/8 = 0.125
Y = 1 -> 1/8 = 0.125
Total = 8 karakter 



·         Shannon-Fano Algorithm
·         Adaptive Huffman Coding
·         Dictionary-Based Coding

2 komentar: