Google Geheimen

Google Geheimen van Webvogel

Door: Webvogel  31-01-2008
Trefwoorden: Seo, Optimalisatie, Zoekmachines

PageRank
Het PageRank-systeem wordt vaak gezien als hét kroonjuweel van Google. Het is de wijze waarop het bedrijf de relevantie van op het web gevonden pagina's bepaalt. Dat is niet meer - zoals in het begin - de frequentie van de zoekterm op een pagina en ook niet meer alleen - zoals later - het aantal andere pagina's dat naar de pagina met de gevonden zoekterm verwijst. Over de precieze werking van het systeem laat Google weinig meer los, om zich tegen concurenten en bedriegers te beschermen. De rechten op het oorspronkelijke PageRank-octrooi liggen overigens bij Stanford: Google heeft exclusieve licentie tot 2011.

Hardboard
Een minder bekende pilaar van het bedrijf is de hardware. Het eerste concept-systeem werd door Brin en Page al gebouwd van onderdelen die eigenlijk niets mocht kosten. Het eerste productiesysteem bestond uit een serie bladeservers, nog voordat de term was bedacht. In een rek werd een stapel hardboard-platen gezet met elk vier kale moederborden en de gooedkoopste harddisks die er te krijgen waren, in dezelfde tijd dat menig dotcom-bedrijf met dure Sun-servers en Raid-opslagsystemen begon.Het geheel werd met een wirwar van kabels en een netwerkswitch tot een eenheid gesmeed. Een exemplaar van het nogal shabby ogende rack is nog te bezichtigen in het Computer History Museum, vlakbij het huidige hoodfkwartier van Google in Mountain View.

Redundantie
De manier waarop Google zijn hardware gebruikt is in de loop der jaren verbeterd, maar fundamenteel hetzelfde gebleven. In essentie gaat het om het redundant inzetten van goedkope onderdelen. De Google servers zijn nog steeds zo gebouwd dat het uitvallen van een moederbord of hardeschijf geen probleem isomdat andere onderdelen taken kunnen overnemen, dus kunnen nog steeds componenten gebruikt worden die een fractie minder bedrijfszeker en stukken goedkoper zijn. Google heeft het nooit bevestigd, maar naar verluidt zijn de systemen gebasseerd op x86-chips (AMD) en Linux.

Virtueel bestandssysteem
De software die zorgt voor het 'poolen' van de verwerkings kracht en de opslagcapaciteit is door Page en Brin zelf bedacht. Zij bouwden een virtueel bestandssysteem dat de opslagcapaciteit van de harde schijven van meerdere computers kan bundelen tot één opslagsysteem. In plaats van naar een bepaalde computer, werd een bestand naar het virtuele bestandssysteem BigFiles geschreven, dat vervolgens bepaalde naar welke computer/harddisk dat bestand moest worden weggeschreven. Het latere Google File System (GFS) is een verdere uitwerking van BigFiles. Voor elk bestand schrijft GFS drie kopieën weg op verschillende computers in het betreffende cluster. Reageert die computer later bij een uitleesactie niet binnen een fractie van een seconde, dan wordt meteen een andere aangesproken. GFS hanteert bestanden van tussen de 100 megabytes en enkele gigabytes in omvang. Die bestanden worden opgedeeld in 'blokjes' van 64 MB, voor optimalisatie van het opslaggebruik. Net als de opslag van de zoekgegevens wordt ook de verwerking ervan in hoge mate parallel aangepakt. De MapReduce-technologie zorgt ervoor dat Google's applicaties voor het analyseren van webpagina's en het bijwerken van de indexen alle taken opdelen en over servers verdelen. De geheimzinnigheid waarmee Google zijn systemen omringt doet sommigen suggereren dat er waarschijnlijk nog diverse lagen onbekende technologie zitten tussen GFS en wat de gebruiker te zien krijgt.

Rekencontainer
Waar Google ook niet veel over kwijt wil is het totale aantal servers waarover het bedrijf beschikt. The New York Times kwam in juni 2007 uit op een schatting van 450.00 in tientallen rekencentra. Het úitrollen'van een nieuw rekencentrum gebeurt nu wereldwijd door het plaatsen van een - wederom gestandaardiseerd - 'rekencentrum in een container.

meer info: http://webvogel.nl 

Trefwoorden: Optimalisatie, Seo, Zoekmachines, Zoemachine