Analisis Web


A. Parameter Pengukuran Web
Salah satu teknik mengukur dan menguji suatu kinerja web adalah dengan mengukur pengalaman seseorang atau user experience pengunjung situs yang berinteraksi dengan halaman-halaman web yang berada di internet (Keynote System, Inc 2010).
Kinerja suatu web atau web performance sangat dipengaruhi oleh beberapa komponen-komponen dasar yang dibagi menjadi dua bagian penting, yaitu (1) dilihat dari gambaran transaksi web atau perspective transaction dan (2) gambaran komponen aplikasi atau application component perspective (Keynote System, Inc 2010). Transaksi web atau web transaction lebih menitikberatkan pada sisi pengalaman pengguna atau user experience sedangkan komponen aplikasi lebih menitikberatkan pada komponen jaringan komputer atau computer network.
Pengalaman Pengguna (User experience), diantaranya adalah (Keynote System, Inc 2010) :
  • Time to opening page (time_to_opening_page), maksudnya adalah mengukur, dari sisi pengguna, waktu yang dibutuhkan pada saat pertama kali membuka halaman web. Waktu dimulai dari aksi pertama setelah internet agent memutuskan untuk berpindah ke halaman berikutnya. Waktu berakhir ketika pesan opening page ditampilkan di Web browser status bar.
  • Page download (page_download_time), maksudnya adalah waktu yang dibutuhkan antara ketika Web browser membuat sinyal opening page dan ketika Web browser akan menampilkan pesan done di status bar.
B. Crawler
Pengertian Crawler
Crawler adalah sebuah program/script otomatis yang memproses halaman web. Sering juga disebut dengan web spider atau web robot. Ide dasarnya sederhana dan mirip dengan saat anda menjelajahi halaman website secara manual dengan menggunakan browser. Bermula pada point awal berupa sebuah link alamat website dan dibuka pada browser, lalu browser melakukan request dan men-download data dari web server melalui protokol HTTP.


Setiap Hyperlink yang ditemui pada konten yang tampil akan dibuka lagi pada windows/tab browser yang baru, demikian proses terus berulang. Nah sebuah web crawler mengotomatisasikan pekerjaan itu.
Kesimpulannya, dua fungsi utama web crawler adalah:
  • Mengidentifikasikan Hyperlink.
  • Hyperlink yang ditemui pada konten akan ditambahkan pada daftar visit, disebut juga dengan istilah frontier.
  • Melakukan proses kunjungan/visit secara rekursif.
Dari setiap hyperlink, Web crawler akan menjelajahinya dan melakukan proses berulang, dengan ketentuan   yang disesuaikan dengan keperluan aplikasi.
Cara kerja Crawler
Cara kerja Crawler , pertama robot mengumpulkan informasi pada halaman blog/web dan semua media internet yg bisa diindeks oleh search engine. Robot tersebut kemudian membawa informasi yg didapatnya ke data center. Di data center, data tersebut kemudian di oleh sedemikian rupa, apabila memenuhi persyaratan, maka dia akan dimasukkan ke dalam indeks. Nah, proses yg dilakukan oleh user search engine adalah memanggil indeks-indeks tersebut, apabila indeks2 memiliki kesesuaian dengan yg dicari user (dan bila memiliki peringkat yg baik), di akan ditampilkan di halaman utama search engine (berperingkat).
Cara agar website/blog masuk dalam Crawler itu ada dua,
  • Pertama : Membuat sitemap dan atau daftar isi
Sitemap (peta situs) blog berfungsi membantu search engine bot menjelajahi, menemukan dan mengindeks konten blog kita. Jika blog anda berplatform wordpress.org, cara paling mudah membuat sitemap adalah dengan memasang plugin bernama Google XML sitemaps. Sitemap sebenarnya hampir sama dengan halaman daftar isi yang sering kita buat di blog, hanya sitemap berisi kode-kode HTML yang dibaca oleh bot sedangkan daftar isi untuk dibaca oleh manusia. Jika anda ingin sitemap yang juga berfungsi sebagai daftar isi, gunakan plugin bernama Dagon Sitemap Generator. Beberapa themes seperti GoBlog Themes sudah menyediakan sitemap secara default seperti ini: Sitemap.
  • Kedua : Mendaftarkan sitemap di Google Webmaster Tools
Sitemap blog anda perlu didaftarkan di Google Webmaster Tools. Google webmaster sendiri penting diikuti oleh semua pemilik blog agar anda dapat menganalisa semua data yang berkenaan dengan blog anda. Melalui uji sitemap, kita bisa mengetahui konten mana di blog yang belum terindeks Google. Daftarkan dulu blog anda di Google Webmaster Tools.
Berikut ini adalah contoh-contoh dari Crawler:
  • Teleport Pro
Salah satu software web crawler untuk keperluan offline browsing. Software ini sudah cukup lama popular, terutama pada saat koneksi internet tidak semudah dan secepat sekarang. Software ini berbayar dan beralamatkan di http://www.tenmax.com.

  • HTTrack
Ditulis dengan menggunakan C, seperti juga Teleport Pro, HTTrack merupakan software yang dapat mendownload konten website menjadi sebuah mirror pada harddisk anda, agar dapat dilihat secara offline. Yang menarik software ini free dan dapat di download pada website resminya di http://www.httrack.com

  • Googlebot
Merupakan web crawler untuk membangun index pencarian yang digunakan oleh search engine Google. Kalau website anda ditemukan orang melalui Google, bisa jadi itu merupakan jasa dari Googlebot. Walau konsekuensinya, sebagian bandwidth anda akan tersita karena proses crawling ini.

  • Yahoo!Slurp
Kalau Googlebot adalah web crawler andalan Google, maka search engine Yahoo mengandalkan Yahoo!Slurp. Teknologinya dikembangkan oleh Inktomi Corporation yang diakuisisi oleh Yahoo!.
  • YaCy
Sedikit berbeda dengan web crawler  lainnya di atas, YaCy dibangun atas prinsip jaringan P2P (peer-to-peer), di develop dengan menggunakan java, dan didistribusikan pada beberapa ratus mesin computer (disebut YaCy peers). Tiap-tiap peer di share dengan prinsip P2P untuk berbagi index, sehingga tidak memerlukan server central.
Contoh search engine yang menggunakan YaCy adalah Sciencenet (http://sciencenet.fzk.de) untuk pencarian dokumen di bidang sains.

C. Search Engine
Search engine adalah istilah atau penyebutan bagi website yang berfungsi sebagai mesin pencari, mesin pencari ini akan menampilkan informasi berdasarkan permintaan dari user pencari konten, konten yang ditampilkan adalah konten yang memang sudah terindex dan tersimpan di database server search engine-nya itu sendiri.

Saat ini sudah mulai banyak website search engine, namun dari sekian banyak search engine yang ada saat ini berikut ini beberapa search engine yang terbilang popular, seperti Yahoo!, Alltheweb, MSN, AskJeeves, Google, AltaVista, dan Lycos.
Yahoo!
Salah satu portal terbesar di Internet, selain MSN., dan juga salah satu mesin pencari tertua. Halaman utamanya sendiri tidak terlalu ramah untuk pencarian, tetapi Yahoo! menyediakan search.yahoo.com untuk itu. Yahoo! menggunakan jasa Google untuk mencari informasi di web, ditambah dengan informasi dari databasenya sendiri. Kelebihan Yahoo! adalah direktorinya. Yahoo! juga menyediakan pencarian yellow pages dan peta, yang masih terbatas pada Amerika Serikat. Yahoo juga menyediakan pencarian gambar.
Alltheweb
Keunggulan Alltheweb adalah pencarian file pada FTP Server. Tidak seperti web, FTP adalah teknologi internet yang ditujukan untuk menyimpan dan mendistribusikan file, biasanya program, audio atau video. Web sebenarnya lebih ditujukan untuk teks. Sejauh ini, hanya AllTheWeb yang menyediakan jasa pencarian file.
MSN
Mesin pencari dari Microsoft Network ini menawarkan pencarian baik dengan kata kunci maupun dari direktori. Pemakai Internet Explorer kemungkinan besar sudah pernah menggunakan mesin pencari ini. Situs Searchenginewatch mencatat MSN sebagai mesin pencari ketiga populer setelah Google dan Yahoo! Tak ada pencarian image, atau news. Menyediakan pencarian peta, yellow pages, white pages, pencarian pekerjaan, rumah.
AskJeeves
Situs mesin pencari yang satu ini mengunggulkan kemampuannya untuk memahami bahasa manusia. Pengguna bisa menggunakan kalimat lengkap, bukan kata kunci. Situs ini berguna untuk mengetahui jawaban dari pertanyaan(misal: when did world war II end?).
Google:
Selain pencarian web, Google juga menyediakan jasa pencarian gambar, pencarian ?berita serta pencarian pada arsip USENET (newsgroup), serta direktori, seperti Yahoo! Kelemahannya terletak pada tidak tersedianya pencarian file, video, dan audio. Keunggulan Google terutama adalah pada pencarian teks, terutama dari algoritma PageRank, database-nya yang besar serta banyaknya jenis file yang diindeksnya.
AltaVista
Satu saat, AltaVista pernah menjadi mesin pencari terbesar. Saat ini, selain Alltheweb, Altavista juga menawarkan pencarian audio dan video. Keunggulan AltaVista adalah pilihan pencarian yang paling lengkap di antara semua mesin pencari.
Lycos
Salah satu mesin pencari tertua. Saat ini Lycos lebih dikenal sebagai portal, sehingga fungsi pencarinya tidak terlalu menonjol. Lycos, selain mendukung pencarian web, juga menyediakan pencarian file MP3, dan video pada http://multimedia.lycos.com.
Perbedaan Serach Engine Yang Ada
Ada banyak sekali contoh perbedaan search engine, disini hanya akan ada beberapa yang saya jelaskan. Sebagai contoh, untuk Yahoo! dan Bing, On Page Keyword merupakan faktor yang paling penting, sedangkan untuk Google, Link-lah yang merupakan faktor yang sangat penting.
Selain itu, halaman website untuk Google adalah seperti wine – semakin tua umurnya, semakin bagus peringkatnya. Sedangkan untuk Yahoo! biasanya tidak mementingkan hal tersebut. Maka dari itulah, anda memerlukan waktu yang lebih banyak untuk membuat website anda matang untuk berada di peringkat atas di Google, daripada di Yahoo!.
Kerja Sebuah Search Engine
Jika anda ingin mencari sesuatu,tentunya telah memiliki sebuah kata kunci ( keyword ) untuk sesuatu yang anda cari.Sebuah search engine bekerja dengan menerima kata kunci dari pengguna,memproses dan menampilkan hasilnya.Akan lebih mudah dibayangkan jika anda terbiasa melakukan pemrograman data base dengan menggunakan Query atau SQL,karena tentunya anda telah terbiasa menampilkan data pada table-table dengan kriteria tertentu.Tapi,Web Search Engine yang tersedia saat ini telah memiliki kemampuan yang lebih baik dalam menerima dan mengolah keyword dari pengguna.
Bagaimana search engine menampilkan informasi dari gudang data yang sedemikian besar dalam waktu yang singkat..? Sebagaimana juga dengan pemrograman database,menggunakan indeks adalah salah satu cara ampuh untuk meningkatkan performa kecepatan. Pencarian juga sudah tidak terbatas pada pencarian dokumen, tetapi sangat variatif tergantung pada kebutuhan anda. Anda dapat mencari gambar, musik, software, atau dokumen dengan fornat tertentu.
Hal lain yang tidak kalah penting bagaimana search engine ( terutama web search engine ) mengumpilkan semua data tersebut. Jangan kaget jika anda cukup aktif menulis pada forum blog, mailing list atau mungkin sebagai spammer maka search engine dapat menampilkan ke seluruh dunia. Search engine mampu menemukan tulisan anda karena adanya metode pengambilan informasi ( Information Retrival/IR ) yang mencari metadata dan database yang tersebar di internet. Sebagai contoh, pada saat anda mengetikkan sebuah komentar pahit pada seseorang dan melakukan submit pada sebuah halaman website, halaman web yang berisi komentar anda telah tersedia bagi aplikasi-aplikasi IR untuk dibaca siapa saja yang melakukan pencarian dengan keyword yang tepat.
D. Web Archive
Web Archive adalah Sebuah file format terkompresi, didefinisikan oleh Java EE standar, untuk menyimpan semua sumber daya yang diperlukan untuk menginstal dan menjalankan aplikasi Web dalam satu file.
Cara Kerja Web Archiving
Yang paling umum web pengarsipan teknik menggunakan web crawler untuk mengotomatisasi proses pengumpulan halaman web. Web crawler biasanya mengakses halaman web dengan cara yang sama dengan yang dilakukan user yang menggunakan web browser untuk menemukan website yang ingin dicari.
Contoh Web Archive :
Local Website Archive
Aplikasi inilah yang memampukan kamu dapat dengan cepat untuk menyimpan dan mengarsipkan secara lengkap halaman web, disertai dengan keseluruhan gambar untuk tujuan digunakan sebagai referensi. Kamu dapat mengorganisasir arsip halaman web ke dalam kategori-kategori yang relevan atau sejenis, dan dapat menggunakan built-in browser display untuk menampilkannya secara offline.

Sebagai tambahan, kamu juga dapat melakukan pencarian keseluruhan halaman web yang tersimpan melalui penggunaan keyword, serta dapat melakukan ekspor secara keseluruhan ataupun beberapa item saja yang terseleksi ke dalam sebuah file executable selfextracting. File tersebutlah yang dapat digunakan untuk mengirimkan koleksi-koleksi kamu tersebut kepada teman, ataupun melakukan transfer ke sebuah komputer berbeda.

Komentar

Postingan populer dari blog ini

Arsitektur web dan aplikasi utamanya

Kebudayaan Lembah Indus