La technologie derrière le moteur de recherche

Le Web est essentiellement inorganisé et les informations sur ses pages Web sont de qualité très variable, y compris des détails industriels, des répertoires nationaux, des collections de références d’études et des collections de documents individuels. Les moteurs de recherche essaient d’identifier les pages fiables en les pondérant ou en les positionnant en fonction du nombre d’autres pages qui y font référence, en déterminant les « autorités » auxquelles se réfèrent de nombreuses pages Web, et également en déterminant les « hubs » qui font référence à de nombreuses pages Web. Ces méthodes peuvent fonctionner correctement, mais le consommateur doit néanmoins travailler sa capacité à sélectionner des combinaisons appropriées d’expressions de recherche. Une recherche de banque peut renvoyer des centaines d’innombrables pages Web (« appels »), dont plusieurs proviennent de banques commerciales. Une recherche d’institution financière stream peut toujours renvoyer plus de dix millions de pages Web, dont quelques-unes proviennent d’institutions financières dont le nom est stream. Seules des améliorations supplémentaires telles que les berges des cours d’eau et les zones riveraines réduisent le nombre de grèves à des milliers et des milliers de pages Web, de loin les plus notables qui émettent des estuaires et des rivières et leurs institutions bancaires. Les moteurs de recherche comme Google utilisent des robots d’exploration, des applications qui explorent le Web en suivant des liens hypertextes d’une page Web à l’autre, enregistrant tout sur une page Web (appelée mise en cache) ou des parties d’une page Web, ainsi qu’un moyen exclusif de marquer le contenu matériel pour pouvoir développer des indices pondérés. Les sites Web comportent souvent leurs propres étiquettes sur les pages Web, qui ne sont généralement remarquées que par les robots d’exploration, afin d’améliorer la complémentarité entre les recherches et leurs sites. Les abus de ce marquage volontaire peuvent fausser les résultats de la recherche s’ils ne sont pas pris en compte lors de la conception d’un moteur de recherche. De même, un utilisateur doit savoir si un moteur de recherche particulier met aux enchères des mots-clés et des expressions en ligne, en particulier si les sites qui ont acheté un emplacement préférentiel ne sont pas signalés séparément. Même les moteurs de recherche généraux les plus importants, comme Google, Google !, Baidu et Bing, ne sont pas en mesure de suivre la prolifération des pages Web, et chacun laisse de grandes portions découvertes. lien de site Web, un lien Web entre des détails associés par des contacts numériques pour permettre à un utilisateur un accès facile entre les deux. L’hypertexte, un lien hypertexte impliquant du contenu textuel, est en fait une caractéristique de certains programmes informatiques qui permettent à un utilisateur de médias numériques de sélectionner un mot dans un contenu textuel et d’obtenir des informations supplémentaires relatives à ce terme, comme une description ou des références connexes dans le contenu textuel. . Dans l’article « baleine » d’une encyclopédie électronique, par exemple, un hyperlien hypertexte à la mention de la baleine bleu clair permet au lecteur d’accéder à l’article sur cette variété en cliquant simplement sur le texte « baleine bleue » avec une souris . Le lien du site Web est généralement indiqué en mettant en évidence le mot ou la phrase approprié dans un texte ayant une police ou une couleur différente. Les backlinks peuvent également connecter du texte avec des photos, des images ou des séquences animées. Les backlinks entre différentes parties d’un document ou entre différents documents créent un cadre de branchement ou de réseau qui peut accueillir des sauts directs et sans intermédiaire vers des bits d’informations associées. Le cadre arborescent des hyperliens détaille les différences avec le cadre linéaire de l’encyclopédie ou du dictionnaire imprimé, par exemple, dont le contenu n’était en réalité accessible que par une séquence statique et linéaire d’entrées classées par ordre alphabétique. Les hyperliens sont, en quelque sorte, des références croisées qui offrent un accès instantané pour se concentrer sur des éléments d’information. Ce type de liens est particulièrement utile lorsqu’il est utilisé sur un large éventail d’informations structurées en de nombreux éléments associés plus petits et lorsqu’un individu a besoin d’une petite partie de détails à tout moment. Les hyperliens ont été utilisés avec le plus de succès par les sites Web sur Internet. Pour prendre en charge cette masse de données sans précédent, Google a construit 11 centres d’information dans le monde, chacun d’eux contenant plusieurs centaines de milliers de serveurs (essentiellement des ordinateurs personnels multiprocesseurs et des disques durs installés dans des racks exclusivement construits). Les systèmes informatiques interconnectés de Google s’élèvent probablement à plusieurs millions. Le centre de la procédure de Google, néanmoins, est construit autour de trois bits propriétaires de code informatique personnel : les moteurs de recherche File System (GFS), Bigtable et MapReduce. GFS gère l’espace de stockage des informations en « morceaux » sur plusieurs appareils ; Bigtable est définitivement le programme de source de données de l’entreprise ; et MapReduce est utilisé par les moteurs de recherche pour générer des données de plus haut niveau (par exemple, constituer un index de pages Web contenant le texte « Chicago », « théâtre » et « participatif »).