Sunteți pe pagina 1din 7

MENGGABUNGKAN TEKS DALAM

MULTIMEDIA
Teks adalah data yang terdiri dari karakter-karakter yang menyatakan kata-kata atau
lambang-lambang untuk berkomunikasi oleh manusia dalam bentuk tulisan.
Di dalam sistem komputer, teks ini dikodekan dalam suatu standarisasi, seperti ASCII,
dimana pada kode tersebut terdapat nilai numerik maupun angka maupun tanda baca,
serta simbol lainnya.
Teks ini digunakan oleh sistem komputer untuk penyimpanan maupun dalam proses
pengiriman datanya.
Teks sendiri dibedakan berdasarkan nilai biner yang diolah sedemikian rupa oleh
komputer. Contoh dari teks ini adalah karakter yang diperlakukan sebagai karakter abjad
yang anda baca. misalnya pada lembar kerja, rumus, dll.

Unsur unsur teks dalam Multimedia yaitu :


Teks dalam multimedia di definisikan sebagai data dalam bentuk karakter,dalam hal ini
masuk dalam kode ASCII (American Standard Code for Informastion Interchange) dan
ASCII Extension seperti UNICODE murni. Dalam peristilahan computer kita mengenal 2
jenis teks, yaitu :
1. PLAIN TEXT (Unformated text).
Salah satu software yang bisa digunakan untuk mengetik dalam bentuk plain text
atau teks yang sederhana dengan platform windows adalah Notpade.(txt). Teks
yang diketik berjenis MIME Text, yaitu teks yang tidak terenkripsi dan tidak

mengadung berbagai informasi berkaitan dengan sifat dan karakter dari teks,
seperti teks yang mengadung informasi font, Link, image dan lainnya.
Teks dalam hal ini adalah kode ASCII (American Standard Code for Information
Interchange) dan ASCII extension seperti UNICODE murni. Tiap-tiap karakter
direpresentasikan oleh 7 bit binary digit (desimal = 0-127).

2. FORMATED TEXT (Rich Text Formatted/RTF)


Adalah serangkaian teks yang sudah terformat sedemikian rupa sehingga
mengandung informasi yang berkaitan dengan sifat dan karakter dari teks tesebut,
seperti teks yang mengandung informasi font (bold, italics, underline, color dan
jenis font). Pada Wordpad plain teks telah diformat sedemikian rupa dengan
menggunakan aturan (tag/tanda) tertentu sehingga teks tersebut dapat dibold,
italics, underline, diwarna, diganti font, dan lain-lain.
The quick brown fox jump over a lazy
dog (pangram)
Lorem ipsum

Cicero'sIN Catilinam

(greeking)

Meskipun termasuk ke dalam kelas dokumen teks terformat, format RTF ini tetap
menggunakan standar pengodean ANSI ASCII, PC-8, Macintosh, Unicode atau IBM PC
Character Set untuk mengontrol representasi dan pemformatan dari sebuah dokumen,
baik itu ketika ditampilkan di layar ataupun ketika dicetak di atas kertas. Meskipun
hanya berisi teks biasa, format ini dapat mendukung grafik dan tabel dalam sebuah
dokumen, meski jika dalam dokumen terdapat gambar, ukurannya jauh lebih besar jika
dibandingkan dengan format biner seperti format dokumen biner semacam Microsoft
Word (*.doc) atau StarOffice Writer (*.sxw).
Beberapa aplikasi yang dapat membuat dan membuka format dokumen ini antara lain:

Microsoft Word, mulai dari versi Microsoft Word 95 (versi 7.0) hingga yang terbaru.

Microsoft WordPad, yang merupakan versi Microsoft Word yang dipangkas di sanasini.

Microsoft Works, yang merupakan sebuah program all-in-one untuk urusan


pengolahan data di kantor.

OpenOffice.org Write, sebuah pengolah kata yang bersifat open-source.

StarOffice Writer, yang merupakan pendahulu dari OpenOffice.org.

WordPerfect

Contoh dokumen Formated Text / RTF


Terdapat 2 jenis formated text, yaitu bitmapped fonts dan outline fonts.
Cara penulisan Bitmapped Font (Raster Font)
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
1
0

0
0
0
0
0
0
0
0
0
0
0
0
1
1
0

0
0
0
0
0
0
0
0
0
0
1
1
0
1
0

0
0
0
0
0
0
0
0
1
1
1
0
0
0
0

0
0
0
0
0
0
1
1
0
0
1
0
0
0
0

0
0
0
1
1
1
0
0
0
0
1
0
0
0
0

0
0
1
1
1
1
1
1
1
0
1
0
0
0
0

0
0
0
0
1
1
1
1
1
1
1
0
0
1
0

0
0
0
0
0
0
1
1
1
1
1
1
1
1
0

0
0
0
0
0
0
0
0
0
1
1
1
1
1
0

0
0
0
0
0
0
0
0
0
0
0
1
1
1
0

0
0
0
0
0
0
0
0
0
0
0
0
0
1
0

0
0
0
0
0
0
0
0
0
0
0
0
0
1
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

HYPERTEXT.
Istilah hypertext pertama kali diperkenalkan pada tahun 1965 oleh Ted Nelson.
Hypertext dapat diartikan sebagai teks yang memiliki fasilitas embedded
information berupa lingking, contoh hypertext :
HTML : HyperText Mark-up Language
Merupakan standard bahasa yang digunakan untuk menampilkan document web.
Yang bisa kita lakukan dengan HTML yaitu:

Mengontrol tampilan dari web page dan contentnya.

Mempublikasikan document secara online sehingga bisa di akses dari seluruh


dunia.

Membuat online form yang bisa di gunakan untuk menangani pendaftaran,


transaksi secara online.

Menambahkan object-object seperti image, audio, video dan juga java applet
dalam document HTML.

Mendukung link (sebuah hubungan dari satu dokumen ke dokumen lain) antar
dokumen. Link pada umunya berwarna biru, dan jika sudah pernah diklik
berwarna ungu.

XML : eXtensible Mark-up Language


XML adalah merupakan suatu bahasa Markup. Markup yaitu bahasa yang berisikan
kode-kode berupa tanda-tanda tertentu dengan aturan tertentu untuk memformat
dokumen teks dengan tag sendiri agar dapat dimengerti.
Perbedaan antara XML dan HTML
Perlu di ingat bahwa:

XML bukan merupakan pengganti HTML.

XML dan HTML yang dirancang dengan tujuan yang berbeda:

XML dirancang untuk transportasi dan menyimpan data, dengan fokus pada apa
data.
HTML dirancang untuk menampilkan data, dengan fokus pada bagaimana data
terlihat.

HTML adalah tentang menampilkan informasi, sedangkan XML adalah


membawa informasi tentang.

TEXT MINING
Text mining merupakan penerapan konsep dan teknik data mining untuk mencari pola
dalam teks. proses penganalisisan teks guna menyarikan informasi yang bermanfaat untuk
tujuan tertentu.
Proses data mining untuk data dokumen atau teks memerlukan lebih banyak tahapan,
mengingat data teks memiliki karakteristik yang lebih kompleks daripada data biasa.
KARAKTERISTIK DOKUMEN TEKS.
Menurut Loreta Auvil dan Duane Searsmith dari University of Illinois, karakteristik
dokumen teks:

Database teks yang berukuran besar,

Memiliki dimensi yang tinggi, yakni satu kata merupakan satu dimensi,

Mengandung kumpulan kata yang saling terkait (frase) dan antara kumpulan

Kata satu dengan lain dapat memiliki arti yang berbeda,

Banyak mengandung kata ataupun arti yang bias (ambiguity),

Dokumen email merupakan dokumen yang tidak memiliki struktur bahasa yang

Baku, karena di dalamnya terkadang muncul istilah slank seperti r u there?,


helllooo bosss, whatzzzzzzz up?, dan sebagainya.

PROSES TEXT MINING

Berdasarkan ketidakteraturan struktur data teks, maka proses text mining


memerlukan beberapa tahap awal yang pada intinya adalah mempersiapkan agar
teks dapat diubah menjadi lebih terstruktur.

Bentuk perubahan yang dilakukan adalah ke dalam spreadsheet, kolom menunjuk


dokumen dan baris menunjuk kata, sedangkan selnya menunjuk frekuensi kata
dalam dokumen.

TOKENISASI
Tokenisasi secara garis besar memecah sekumpulan karakter dalam suatu teks ke dalam
satuan kata.

Bagaimana membedakan karakter-karakter tertentu yang dapat diperlakukan


sebagai pemisah kata atau bukan.

Sebagai contoh karakter whitespace, seperti enter, tabulasi, spasi dianggap sebagai
pemisah kata.

Namun untuk karakter petik tunggal ('), titik (.), semikolon (;), titk dua (:) atau
lainnya, dapat memiliki peran yang cukup banyak sebagai pemisah kata.

Sebagai contoh antara tahu, tempet dan sambal dengan 100,56.

Dalam memperlakukan karakter-karakter dalam teks sangat tergantung sekali pada


kontek aplikasi yang dikembangkan.

Pekerjaan tokenisasi ini akan semakin sulit jika juga harus memperhatikan struktur
bahasa (grammatikal).