Pahami Cara Kerja Search Engine sebelum Melakukan Optimasi

Cara Kerja Search Engine
Bagikan

Search engine yang didesain sedemikian rupa untuk dapat menjawab intens dari usernya nyatanya tidak serta merta terjadi begitu saja. Di balik website-website yang muncul di hasil pencarian search engine atau disebut SERP saat kalian mengetikkan query tertentu, terdapat proses panjang di belakangnya. Lalu bagaimana sih sebenanya cara kerja search engine dalam memuaskan intens usernya? Proses apa saja yang harus dilalui sehingga website kalian dapat muncul di SERP?

Dalam kaitannya dengan memaksimalkan agar website dapat muncul di SERP, terlebih di halaman pertama dikenal istilah Search Engine Optimization. Selain itu, fungsi Search Engine Optimization dapat berkontribusi dalam meningkatkan brand awareness hingga meningkatkan revenue loh!

Cara kerja Search Engine Optimization itu sendiri bisa kalian lakukan dengan melakukan optimisasi website dari segi on page content seo, on page technical seo dan off page seo. Tentunya sebelum melakukan optimisasi ini, kalian harus bisa memahami cara kerja search engine terlebih dahulu ya!

Cara Kerja Search Engine

Seperti yang sudah diketahui jika jenis search engine di dunia sangatlah beragam. Namun, lazimnya komponen search engine itu sama, meliputi web crawler, search interface, database, dan the ranking algorithm (algoritma). Yang mungkin agak sedikit berbeda dari komponen tersebut adalah algoritma dimana setiap search engine memiliki keunikannya masing-masing. Nantinya, algoritma menjadi salah satu faktor penentu ranking website, loh!

Selain memiliki komponen yang sama, search engine umumnya memiliki cara kerja yang sama pula meliputi crawling, indexing dan ranking. 

Crawling

Crawling adalah proses yang digunakakan web crawler (bot atau spider) unutk dapat mengunjungi dan mendownload halaman serta melakukan ekstraksi link-link untuk mendapatkan halaman baru yang relevan.

Halaman yang sudah dikenal oleh search engine akan dilakukan crawling secara berkala untuk mengetahui adanya kemungkinan perubahan sejak terakhir kali. Jika ditemukan adanya perubahan, selanjutnya search engine akan melakukan update index.

Bagaimana proses crawling di website?

Umumnya, search engine akan menggunakan web crawler untuk menemukan halaman website. Setelah itu, proses crawling dilanjutkan dengan mendownload robot.txt file yang berisi aturan tentang halaman apa saja yang bisa dicrawling dan halaman apa saja yang tidak bisa di crawling. Untuk robot.txt itu sendiri biasanya berisi informasi tentang sitemaps yang umunya berisi kumpulan URL di dalam website yang akan dicrawling oleh search engine.

Dalam menentukan seberapa banyak halaman yang akan dicrawling dan seberapa sering search engine akan melakukan crawling di website ditentukan oleh algoritma dan guidelines dari masing-masing search engine. Dan tentunya akan berbeda-beda ya setiap search engine!. Namun tenang, selama website kalian sering melakukan modifikasi dan optimasi maka kemungkingan website kalian untuk dicrawling akan semakin besar dibandingkan dengan website yang dibiarkan begitu saja. Jadi, jangan pernah bosan untuk melakukan optimasi ya Sobat Bizlab!

Bagaimana  cara mengidentifikasi search engine crawler?

Search engine bots yang melakukan crawling di website dapat diidentifikasi dari user agent string yang melewati web server saat melakukan request. User agent adalah script yang dikirimkan oleh web browser ke web server yang dituju atau ke setiap situs yang dikunjungi. Jadi, setiap situs yang dikunjungi dapat mengetahui browser dan sistem operasi yang digunakan sehingga konten dapat disesuaikan. Beberapa contoh user agent string yang digunakan oleh search engine, meliputi:

  • Googlebot User Agent
    Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)
  • Bingbot User Agent
    Mozilla/5.0 (compatible; bingbot/2.0; +https://www.bing.com/bingbot.htm)
  • Baidu User Agent
    Mozilla/5.0 (compatible; Baiduspider/2.0; +https://www.baidu.com/search/spider.html)
  • Yandex User Agent
    Mozilla/5.0 (compatible; YandexBot/3.0; +https://yandex.com/bots)

Crawling gambar dan non txt files

Search engine secara umum akan melakukan percobaan untuk crawling dan indexing di setiap URL yang mereka temukan. Namun, jika URL nya non-text file seperti gambar, video atau audio, maka search engine tidak bisa langsung membaca konten tersebut tanpa mengasosisikan nama file dan metadata.

Meskipun search engine mungkin hanya bisa mengekstraks file not text dalam jumlah yang terbatas, namun, jenis file diatas tetap bisa diindexing, mendapatkan ranking dan juga memperoleh trafik selayaknya file jenis text. Untuk lebih jelasnya kalian bisa mengikuti panduan yang telah Google berikan

Crawling dan mengektraksi link 

Crawler akan menemukan halaman baru dengan melakukan crawling ulang di halaman yang sebelumnya telah dicrawling. Jika ditemukan link-link baru di halaman website, maka link tersebut akan dimasukan ke daftar tunggu. Dengan mengikuti link yang saling terhubung maka crawler akan lebih mudah menemukan halaman lain. 

Sitemap

Cara lain search engine dapat mengetahui adanya halaman baru adalah memalui sitemap. Sitemap biasanya berisi kumpulan URL yang bisa kalian buat dan berguna untuk memberitahu search engine kumpulan halaman mana saja yang ingin dicrawl. Cara ini dapat membantu serach engine menemukan konten yang tersembunyi di dalam website dan dapat memberi tahu webmaster untuk melakukan kontrol terhadap halaman yang diindexing.

Mendaftarkan Halaman (Submission Page)

Sebagai salah satu alternatif yang bisa kalian lakukan yaitu dengan melakukan input halaman secara individu. Input halaman secara individu adalah cara manual yang dapat dilakukan ketika terdapat konten baru yang baru saja dipublish dan kalian ingin meminimalisasi waktu search engine untuk melihat perubahan yang terjadi di halamn website kalian.

Seperti yang diketahui, aturan Google mengharuskan kalian untuk menggunakan XML sitemap jika website kalian mempunyai URL yang sangat banyak, tetapi di kasus tertentu kalian bisa juga menginput halaman satu persatu sebagai alternatif pilihan lain. Penting diingat jika Google hanya memperbolehkan 10 URL submission per hari.

Tapi tidak usah khawatir, karena di mata Google, baik halaman website yang diunggah secara satu persatu maupun halaman yang menggunakan sitemap mempunyai masa indexing yang sama.

Aturan Crawling Website Menggunakan Google

Sebagai salah satu contoh search engine yang paling banyak digunakkan terdapat beberapa aturan yang harus kalian pahami mengenai proses crawling di Google. Berikut Bizlab rangkumkan beberapa hal yang sudah Bizlab kutip dari Google Search Central, sebagai tambahan informasi kalian untuk dapat memaksimalkan cara kerja serach engine optimization di website kalian.

Bagaimana cara Google mengetahui halaman yang tidak dicrawling?

  • Halaman yang diblokir dalam robots.txt tidak akan dicrawling, tetapi mungkin masih diindeks jika tertaut ke halaman lain. Google dapat menyimpulkan konten halaman dengan link yang mengarah ke halaman itu, dan mengindeks halaman tanpa mengurai kontennya.
  • Google tidak dapat mengcrawling halaman apa pun yang tidak dapat diakses oleh pengguna anonim. Dengan demikian, setiap login atau perlindungan otorisasi lainnya akan mencegah halaman dicrawling.
  • Halaman yang telah dicrawling dan dianggap sebagai duplikat halaman lain akan jarang dicrawling.

Meningkatkan Crawling

Gunakan teknik berikut untuk membantu Google menemukan halaman yang tepat di situs kalian, meliputi:

Indexing

Apa yang terjadi setelah search engine melalui proses crawling? Jawabanya adalah indexing dimana search engine akan menyimpan informasi tentang halaman website berdasarkan relevansi terhadap intensi user.

Mengapa search engine melakukan indexing?

Proses indexing yang dilakukan search engine memiliki kesamaan dengan cara kerja Yellow Page yang zaman dahaulu kerap digunakan untuk direktori guna mendapatkan informasi yang relavan dengan intens kalian.

Search engine memiliki banyak sekali informasi yang dikumpulkan di database mereka dan dengan cara indexing maka search engine akan melakukan seleksi konten mana yang akan masuk proses selanjunya dan konten mana yang akan dieleminasi.

Apa itu search engine indexing?

Indexing adalah proses search engine mengatur informasi apa yang sekiranya dimunculkan jika user mengetikkan search query tertentu. Meskipun macam-macam search engine memiliki aturan yang berbeda, namun setiap search engine memiliki tujuan yang kurang lebih sama yaitu meningkatkan user experience.Salah satu cara yang bisa dilakuakan untuk meningkatkan user experience adalah dengan menyajikan konten yang relevan dengan instens user.

Untuk mendapatkan konten yang relevan, search engine biasanya menggunakan inverted index atau yang juga dikenal dengan istilah reverse index. Inverted index adalah sebuah struktur data index yang dibangun untuk memudahkan  search query yang memotong tiap kata (term)berbeda dari suatu daftar term dokumen. Inverted index memiliki tujuan untuk meningkatkan kecepatan dan efisiensi dalam melakukan pencarian pada sekumpulan dokumen dan menemukan dokumen-dokumen yang mengandung query user. Hal ini diklaim sebagai cara tercepat untuk mendapatkan sekumpulan dokumen yang memiliki keyword dan character yang relevan.

Aturan Indexing Website Menggunakan Google

Di antara crawling dan pengindeksan, Google menentukan apakah suatu halaman merupakan duplikat atau kanonis dari halaman lain. Jika halaman dianggap duplikat, halaman tersebut akan lebih jarang dicrawling. Hal ini tentunya akan berakibat pada pengindexan yang terjadi di website kalian ya!. Untuk halaman yang mirip akan dikelompokkan bersama menjadi dokumen, yang merupakan sebuah kelompok berisi satu atau beberapa halaman yang menyertakan halaman kanonis (yang paling mewakili grup) dan duplikat apa pun yang ditemui (yang mungkin hanya berupa URL alternatif untuk menjangkau halaman yang sama, atau mungkin menjadi versi seluler atau desktop alternatif dari halaman yang sama).

Perhatikan bahwa Google tidak mengindeks halaman dengan perintah noindex (header atau tag). Namun, Google harus dapat melihat perintah tersebut. Oleh karena itu, jika halaman diblokir oleh file robots.txt, halaman login, atau perangkat lain, halaman tersebut bisa saja diindeks meskipun tidak dikunjungi oleh Google.

Meningkatkan Indexing

Terdapat banyak teknik untuk meningkatkan kemampuan Google dalam memahami konten halaman kalian, yaitu:

Rangking 

Saat pengguna memasukkan query, mesin Google akan secara otomatis menelusuri indeks untuk mencari halaman yang cocok dan menampilkan hasil yang  diyakini paling relevan bagi user. Relevansi tersebut ditentukan oleh ratusan faktor, namun salah satu yang harus kalian perhatikan adalah faktor User Experience. Website yang mengedepankan User Experience akan cenderung mendapatakan peringkat yang tinggi di mata Google.Oleh karena itu, pastikan halaman kalian dimuat dengan cepat dan mobile-friendly.

Apa itu Page Rank?

Berbicara tentang ranking salah satu faktor yang kerap dibicarakan adalah Page rank. Page rank adalah algoritma Google yang diambil dari nama pendirinya yaitu Larry Page. Seacara definisi, page rank dapat diartikan sebagai nilai yang dikalkulasikan dari berbagai indikator yang telah ditetapkan. Perlu diingat, jika page rank hanyalah salah satu sinyal yang digunakan untuk menentukan ranking di Google. 

Disaat Google menggunakan istilah page rank untuk mengkalkulasikan value sebuah website, search engine lain menggunakan istilahnya tersendiri. Misalnya saja  Moz yang menggunakan istilah Page Authority, TrsutFlow menggunakan Majestic, Ahrefs menggunakan URL Rating dan DeepRank menggunakan  Deep Crawl.

Contoh Rumus Perhitungan Page Rank

Algoritma awal

PR(A) = (1-d) + d ( ( PR(T1) / C(T1) ) + … + ( PR(Tn) / C(Tn) ) )

Salah satu algoritma lain yang dipublikasikan

PR(A) = (1-d) / N + d ( ( PR(T1) / C(T1) ) + … + ( PR(Tn) / C(Tn) ) )

  • PR(A) adalah Page rank halaman A
  • PR(T1) adalah Page rank halaman T1 yang mengacu ke halaman A
  • C(T1) adalah jumlah link keluar (outbound link) pada halaman T1
  • d adalah damping factor yang bisa diberi antara 0 dan 1.
  • N adalah jumlah keseluruhan halaman web (yang terindeks oleh Google)

Dari algoritma di atas dapat dilihat bahwa page rank ditentukan untuk setiap halaman anda bukan keseluruhan situs web. Page rank sebuah halaman ditentukan dari page rank halaman yang mengacu kepadanya yang juga menjalani proses penentuan page rank dengan cara yang sama, jadi proses ini akan berulang sampai ditemukan hasil yang tepat.

Page rank halaman A tidak langsung diberikan kepada halaman yang dituju, akan tetapi dibagi dengan jumlah link yang ada pada halaman T1 (outbound link). Setelah itu, page rank yang didapat akan dibagi rata ke setiap link di halaman tersebut. Hal ini berlaku pula untuk halaman  n lain “Tn” yang mengacu ke halaman “A”.

Setelah semua pagerank yang didapat dari halaman-halaman lain yang mengacu ke halaman “A” dijumlahkan, nilai itu kemudian dikalikan dengan damping factor yang bernilai antara 0 sampai 1. Hal ini dilakukan agar tidak keseluruhan nilai page rank halaman T didistribusikan ke halaman A.

Aturan Peranking Website Menggunakan Google

Ada banyak cara untuk meningkatkan cara Google menayangkan konten halaman, yaitu:

  • Jika halaman kalian ditujukan untuk pengguna di lokasi atau bahasa tertentu, beri tahu Google tentang preferensi kalian.
  • Pastikan halaman kalian dimuat dengan cepat dan mobile-friendly.
  • Ikuti Pedoman Webmaster untuk menghindari kendala umum dan meningkatkan peringkat situs kalian
  • Pertimbangkan untuk mengimplementasikan fitur hasil Penelusuran untuk situs kalian, seperti kartu resep atau kartu artikel.
  • Implementasikan AMP agar pemuatan halaman di perangkat seluler lebih cepat. Beberapa halaman AMP juga memenuhi syarat untuk fitur penelusuran tambahan, seperti carousel berita utama.
  • Algoritma Google terus ditingkatkan. Daripada mencoba menebak algoritma dan mendesain halaman untuk algoritma tersebut, buat konten yang bagus dan baru yang diinginkan pengguna, dan ikuti pedoman Google dengan seksama.

Nah, itulah cara kerja search engine yang harus kalian pahamai. Jika kalian ingin terjun ke dunia Per-SEO-an dan melakukan optimasi website ada baiknya  kalian memiliki pengetahuan dasar tentang search engine ya Sobat Bizlab! Semoga bermanfat!

Bizlab adalah marketplace untuk belajar skill profesional yang sedang dibutuhkan di berbagai sektor industri saat ini. Kunjungi situs https://subsdaily.com/ untuk mengikuti konten pendek favorit (micro-content) mengenai up-skill yang akan dikirim via WhatsApp atau Email pribadimu.

Yuk, tunggu apalagi?, Kembangkan kemampuanmu dan klik link nya, ya!

Sumber: Google

Deep Crawl

Tinggalkan Balasan