moteurRecherche logo

Cet article donne un certain nombre de techniques destinées à faciliter la recherche :

Les moteurs de recherche sont indispensables pour trouver des informations sur le Web. Ils collectent des données sur les milliards de pages présentes sur le web et proposent souvent plusieurs milliers de pages en résultat.

 

 1 - Le moteurs de recherche de Google

Cet article présente deux moteurs de recherche particuliers Google et Shodan.

Il existe de nombreux moteurs de recherche qui permettent d’obtenir des résultats similaires à  ceux de Google, ils se distinguent par des particularités qui leur sont propre (écologie, respect de la vie privée, spécialisation sur des thèmes de recherche, …). Voici une liste non exhaustive des moteurs les plus connus :

 

 

 

Les algorithmes des moteurs de recherche comme ceux de Google sont complexes car ils doivent tenir compte de nombreux facteurs comme la pertinence du contenu des pages, la qualité et la popularité des sites examinés, la pertinence des mots-clés et d'autres facteurs susceptibles de fournir les meilleurs résultats possibles aux requêtes des utilisateurs. Ils peuvent tenir compte notamment de :

 Google ne tient pas compte des accents et de la casse, il ne fait pas de différence entre les majuscules et les minuscules. Par exemple créée est identique à creee ou encore  bOnjouR est équivalent à Bonjour.

De plus en plus ces algorithmes utilisent l'intelligence artificielle pour comprendre et répondre aux requêtes des internautes et ils sont mis à jour régulièrement pour :

 
 

1.1- Fonctionnement d'un moteur de recherche comme Google

Le fonctionnement d'un moteur de recherche peut être résumé en 5 étapes :

  1. Le crawl : Les moteurs de recherche utilisent des robots d'exploration de sites (appelés Googlebots chez Google) pour parcourir les pages web et collecter des informations sur leur contenu. Les algorithmes suivent des liens entre les pages pour explorer le web et trouver de nouveaux sites et pages.
  2. L'indexation : Les informations sont extraites des pages parcourues et sont stockées et indexées dans une grande base de données qui est appelée le référentiel ou l'index du moteur de recherche.
  3. La recherche : Lorsqu'un internaute effectue une recherche, l'algorithme du moteur de recherche utilise les informations sur les requêtes et les termes de recherche pour trouver les pages les plus pertinentes dans son index de données. Les algorithmes sont conçus pour comprendre le contexte et les nuances de la requête de l'utilisateur et fournir les résultats les plus pertinents possibles.
  4. Le classement : Lors de la recherche, le moteur utilise un algorithme qui va trier les pages web trouvées dans son index en fonction de leur pertinence pour la requête. Ce classement se base sur des centaines de facteurs (pertinence du contenu de la page et des mots-clés, qualité et popularité du site, qualité et quantité des liens vers une page, expérience utilisateur, ….).
  5. L'affichage des résultats : Les résultats pertinents sont affichés sur l'écran de l'utilisateur. Les résultats de recherche incluent en général le titre de la page, un court résumé et un lien vers la page concernée. D'autres facteurs sont pris en compte comme la pertinence spécifique pour la requête afin de déterminer l'ordre d'affichage des résultats. Des informations sur l'utilisateur (l'historique de recherche, localisation, …) permettent aussi de personnaliser les résultats de recherche.

Tous les moteurs de recherche fonctionnent à peu près de la même façon, ils peuvent avoir des spécificités comme la confidentialité des données recueillies, l'absence de publicité, l'écologie. Le moteur de recherche de Google, lancé en 1998, est l'un des outils les plus populaires et les plus utilisés  en raison de la qualité de ses résultats de recherche et de fiabilité cependant il est connu pour tracer les activités des utilisateurs.

1.2 - L'architecture technique du moteur de Google

L'architecture technique d'un moteur de recherche  utilise une infrastructure de serveurs pour gérer les requêtes de recherche et les opérations de stockage de données. L'architecture de serveurs est conçue pour gérer d'énormes charges et pour assurer une grande disponibilité et rapidité des services proposés.

Les serveurs sont regroupés en centres de données et sont dispersés géographiquement à travers le monde. Ces centres de données sont connectés par des réseaux à très haut débit pour permettre la distribution des charges de travail et la disponibilité des services en cas de panne dans un des centres de données.

Chaque serveur exécute une partie des tâches de recherche telles que la collecte de données, l'analyse des informations, l'indexation, la recherche d'informations, l'affichage des résultats, … Les algorithmes de classement sont exécutés sur plusieurs serveurs en parallèle pour optimiser les performances et assurer la rapidité des requêtes et des réponses.

Des technologies de virtualisation rationalisent l'utilisation des ressources de serveur et facilitent la gestion de l'infrastructure. La virtualisation permet l'optimisation de l'utilisation des ressources existant et facilite le déploiement et l'ajout de nouveaux serveurs.

 

 

 2 - Les recherches sur Google

 Il existe en gros deux méthodes pour affiner les recherches sur le moteur de Google :

 

Nous allons nous concentrer sur l'utilisation des opérateurs.

Avant de lancer une recherche il est souhaitable de réfléchir à son ciblage (où rechercher l'information) et à sa formulation (l'ordre des mots a une importance) pour obtenir les résultats les plus cohérents possible et éviter des milliers de pages en réponse que l'on ne pourra pas traiter. En premier lieu vous pouvez consulter sur cette page quelques conseils et astuces simples de la part de Google pour faciliter les recherches.

 

 

2.1 - Personnaliser les paramètres de recherche dans Google

Pour personnaliser les paramètres de recherche, il faut cliquer sur "Paramètres" en bas à droite de la page d’accueil de Google puis choisir "Paramètres de recherche".  Dans la page qui s'ouvre ou peut paramétrer quelques éléments comme :

Dans recherche avancée on peut ajouter de nombreux critères pour affiner ses recherches.

 

2.2 – La recherche avancée

 Pour accéder à la recherche avancée, il faut encore cliquer sur "Paramètres" en bas à droite de la page d’accueil de Google puis choisir cette fois-ci "Recherche avancée".  Dans la page qui s'ouvre ou peut on peut renseigner plusieurs champs qui permettront d'affiner la requête. Ces champs correspondent à des critères que l'on va examiner dans la suite de cet article.

 

 

 

 

2.3 - Exemples de techniques de recherches courantes

 Voici quelques conseils et commandes les plus courantes pour améliorer les résultats de recherche sur Google.

  1. Utiliser des guillemets pour une recherche de phrase exacte : en entourant une requête de guillemets, on peut rechercher une phrase exacte. Par exemple, "Comment fonctionne un moteur de recherche" donnera des résultats qui comprennent exactement cette phrase.
  2. Utiliser le signe moins pour exclure des termes : le signe moins (-) devant un mot indique à Google de ne pas inclure les pages qui contiennent ce mot dans les résultats. Par exemple, "moteur de recherche -Google" donnera des résultats qui comprennent "moteur de recherche", mais sans le mot "Google".
  3. Utilisez le symbole "site:" pour limiter les résultats à un site spécifique : le symbole "site:" suivi d'un nom de domaine permet de limiter les résultats de recherche à un site spécifique. Par exemple, "Comment fonctionne un moteur de recherche site:openai.com" donnera des résultats qui comprennent "Comment fonctionne un moteur de recherche" sur le site openai.com.
  4. Utiliser le symbole "filetype:" pour rechercher des fichiers spécifiques : le symbole "filetype:" suivi d'un format de fichier permet de limiter les résultats de recherche aux fichiers de ce type. Par exemple, "moteur de recherche filetype:pdf" donnera des résultats comprenant des fichiers PDF sur le sujet "moteur de recherche".
  5. brassens file type mp3 ou "brassens" file type mp4 donne des fichiers audio et vidéos de Brassens.

Ces astuces sont de nature à aider à l'affinement des résultats d'une recherche et à trouver plus rapidement l'information recherchée. Il est toujours important de se rappeler que les algorithmes de Google sont en constante évolution, alors il est utile de vérifier régulièrement s'il existe de nouvelles astuces et commandes qui peuvent améliorer les résultats d'une recherche.

2.4 - Rechercher des images

 Il est aussi possible de lancer une recherche à partir d'une image afin de trouver sur le Web son origine ou d'autres images associées.

Pour cela il faut d'abord importer l'image.

moteurgoogle 001 003

 

MoteurGoogle 001 004

 

Il est également possible de coller un lien web (URL) pour effectuer la recherche d'une image située sur un site Web, pour cela :

On peut aussi  rechercher des images sur Google, de la même manière qu'on recherche des sites Web. Consulter par exemple des images de villes, ou trouver des images pour illustrer un document.

 

2.5 – Filtrer les résultats de recherche

 Il est possible de filtrer et de personnaliser les résultats des recherches pour trouver plus facilement ce que l'on recherche (par exemple rechercher des sites mis à jour au cours des dernières 24 heures ou des photos d'une certaine couleur). Le filtrage des résultats de recherche ne change pas les paramètres de recherche éventuellement modifiés tels que décrits dans le § 2.1.

 

 

2.6 - Les recherches avancées sur Google

Les opérateurs constituent un outil puissant de recherche. Ils permettent d'affiner les résultats et d'optimiser une recherche. Les deux tableaux ci-après décrivent les opérateurs de base et les opérateurs avancés avec des exemples de requêtes utilisant ces opérateurs.

 

2.7 - Les Opérateurs de base de Google

 

Opérateur

Description

Exemples

+

inclusion forcée d’un mot commun. Google ignore par défaut les mots communs (exemple : où, comment, chiffre, lettre singulière, etc.)

Elise +l’

-

exclut un terme de recherche

François -Hollande recherche tous les françois en excluant les pages contenant Hollande

“ ”

Recherche exacte. Utiliser les guillemets au début et à la fin d’une expression pour  une recherche exacte

 

“Robert Masse”

Robert masse sans guillemets “ ” obtient 309,000 résultats, mais “robert masse”   avec guillemets “ ” obtient seulement 927 résultats, réduisant de 99% les résultats qui ne sont pas pertinents

~

recherche de synonyme

~nourriture , affiche tous les résultats qui s’associent à la nourriture, aux recettes, à la nutrition et à toutes autres informations connexes à ce terme

.

Recherche toutes les possibilités avec un caractère simple « wildcard » :

m.trix, affiche tous les résultats de : M@trix, matrix, metrix   ...

*

Recherche toutes les possibilités avec n’importe quel mot « wildcard »

m*trix, affiche tous les résultats comprenant des mots ou lettres entre m et trix.

 

 

2.8 - Les Opérateurs avancés de Google

Opérateur

Description

Exemples

site:

Site: Domain_name. Permet de trouver seulement les pages Web du domaine spécifié. Si on recherche un site spécifique, on obtient généralement la structure Web du domaine.

site:https://www.club-informatique-clayes-sous-bois.fr

 

filetype:

Filetype : extension_type  Permet de trouver les documents contenant des extensions spécifiques. Les extensions supportées sont : HyperText Markup Language (html) , Microsoft PowerPoint (ppt),  Adobe Portable Document Format (pdf), Microsoft Word (doc) , Adobe PostScript (ps), Microsoft Works (wks, wps, wdb) , Lotus 1-2-3 , Microsoft Excel (xls),  (wk1, wk2, wk3, wk4, wk5, wki, wks, wku), Microsoft Write (wri), Lotus WordPro (lwp) , Rich Text Format (rtf) , MacWrite (mw) ,Shockwave Flash (swf) , Text (ans, txt) ….

On peut aussi rechercher des fichiers asp, php et cgi, à condition que le texte soit compatible.

Budget filetype: xls

intitle:

intitle:search_term. Permet de trouver le terme de recherche à l’intérieur du titre d'une page Web

intitle:‘’club informatique’’

intitle:Index.of “parent directory”

intitle:index.of + "mp3" + "madonna"

allintitle:

allintitle:search_term1 search_term2 search_term3

Permet de trouver de multiples termes de recherche qui inclut tous ces mots à l’intérieur du titre d’une page Web. Ces opérateurs sont particulièrement utiles pour trouver des listes de répertoire. Cet opérateur ne peut pas être combiné avec d'autres opérateurs.

 allintitle:intelligence artificielle

Permet de rechercher dans le titre d'une page tous les termes indiqués.

Inurl:

Inurl:search_term. Permet de trouver le terme de recherche dans l’adresse Web d’un document

 

inurl:cgi-bin 

inurl:livres

Allinurl :

allinurl:search_term1 search_term2 search_term3

Permet de trouver de multiples termes de recherche dans l’adresse   Web d’un document

allinurl:cgi-bin password

allinurl:livres cabu

 

intext:

intext:search_term. Permet de trouver un terme de recherche dans le corps du texte d’un document

intext:Administrator login

intext:dupond bijoutier

allintext:

allintext:search_term1 search_term2 search_term3. . Permet de trouver de multiples termes de recherche dans le corps du texte d’un document

allintext:Administrator login

allintext:dupond bijoutier

cache:

 

cache:URL. Permet de trouver l’ancienne version dans la mémoire tampon de       Google. Parfois, même après la mise à jour d’un site, l’ancienne information peut être trouvée dans la mémoire tampon

cache:www.gosecure.com

<number1>..<number2>

<number1>..<number2>. Permet d’effectuer une recherche avec une série de numéro en spécifiant deux numéros, séparés par deux points, sans espaces. Ne pas oublier de spécifier une unité de mesure ou tout autre indicateur de ce que la série de numéro représente

voiture €500..1000

DVD player $250..350

daterange:

daterange: <start_date>-<end date>. Permet de trouver les pages Web pour une période comprise entre    deux dates start_date & end date.

Utilisez la date Julienne. La date Julienne est calculée à partir du nombre de jours depuis le 01 janvier 4713 ac. Par exemple la date Julienne pour le 01 août 2201 est 2452122

2004.07.10=2453196

2004.08.10=2453258

Représente en date julienne: 2453196-2453258

link:

link: URL. Permet de trouver des pages Web possédant un lien de l’URL spécifiée

link:www.club-informatique-clayes-sous-bois.fr

link:lesclayessousbois.fr

related:

related: URL. Permet de trouver des pages Web similaires à la page Web spécifiée

 related:google.com donne une liste de sites similaires à google.com (sites de recherche)

Info:

info:URL. Présente certaines informations que Google possède au sujet de cette page Web

info:gosecure.ca

define:

define: search_term. Permet de fournir une définition des mots recueillis à partir de diverses sources en ligne

 

define:sécurité des réseaux

 

OR

AND

 Ces opérateurs permettent d'afficher les résultats incluant l'une ou l'autre (OU) ou l'une et l'autre (AND) des recherches  voiture "hybride" OR "essence"
around(x)
around(x) permet de rechercher les pages web intégrant deux termes séparés par au maximum x mots. les voitures AROUND(8) "de la marque Peugeot"
(motclé1 OR motclé2) motclé3

Les parenthèses permettent de prioriser les opérateurs booléen OR et d'afficher les articles relatifs au premier mot clé 1 et au mot clé 3 ou au mot clé 2 et au mot clé 3.

(voiture OR camion) hybride

 

2.9- Exemples de recherches simples

Voici quelque exemples qui utilisent des opérateurs pour des recherches simples :

L'utilisation de ces symboles et opérateurs permettent d'obtenir des résultats plus précis. La recherche Google ignore généralement les signes de ponctuation quand ils ne sont pas inclus dans un opérateur de recherche.

Attention : Il ne faut pas d'espace entre le symbole ou le mot et votre terme de recherche. Par exemple site:lemonde.fr est correct mais site: lemonde.fr est incorrect.

 

2.10 - Exemples de recherches utilisant des critères avancés

 

2.11. - Autres exemples de recherches avancées :

2.11.1 - Recherche dans une plage de dates

Commande: daterange:[XXXXX-XXXXX]

 

2.11.2 - Recherche entre deux années spécifiques

 

2.11.3 - Trouver une personne sur les réseaux sociaux

 

2.11.4 - Trouver des phrases exactes avec une recherche approximative

 

 

Toutes ces commandes peuvent aider à affiner les résultats d'une recherche et à trouver plus rapidement les informations recherchées. Il est utile d'essayer différentes combinaisons de mots-clés et d'opérateurs pour trouver de meilleurs résultats.

Vous pourrez trouver d'autres opérateurs et exemples sur ce blog semrushs.com.

Avertissement : certaines recherches peuvent vous permettre d'accéder à des sites vulnérables ou à des documents confidentiels. Ce n'est pas parce que vous trouvez une clé d'entrée que vous avez le droit de pénétrer sans autorisation dans une maison ou un lieu qui ne vous appartient pas. Il en est de même sur le Web. Se maintenir volontairement et naviguer sur un site Web protégé ou bien télécharger des documents privés est illégal. En cas d'intrusion involontaire prévenez le propriétaire de la faille en mettant en copie des autorités comme la CNIL ou l'ANSSI pour prouver votre bonne foi.  

 

 

2.11 - Protéger ses informations contre Google

 Connaitre les opérateurs des requêtes d'un moteur de recherche peut aider à mieux protéger ses données personnelles ou son site web. Voici quelques recommandations simples.

 

 

3 - Le moteur de recherche Shodan

 Shodan est un moteur de recherche qui a été conçu pour explorer le cyberespace. Contrairement à d'autres moteurs de recherche classiques comme Google, qui cherchent des informations sur le Web public, Shodan s'intéresse aux appareils connectés à Internet, tels que les serveurs, les caméras de sécurité, les thermostats et les imprimantes.

Ce moteur permet notamment de trouver des vulnérabilités sur toutes sortes d'appareils connectés à internet (ports ouverts, mots de passe faibles ou inexistants, ...).

 moteurshodan 001 001

 

3.1 - Fonctionnement de Shodan

Shodan collecte des informations sur ces appareils en scannant régulièrement les adresses IP publiques. Le moteur de recherche stocke ensuite les informations recueillies dans une base de données qui peut être consultée par les utilisateurs.

Les utilisateurs peuvent effectuer des recherches en utilisant des mots-clés pour trouver des informations spécifiques sur les appareils connectés, telles que le type de système d'exploitation utilisé, la version du logiciel, les ports ouverts et les services en cours d'exécution.

Shodan est souvent utilisé par les professionnels de la sécurité informatique pour trouver des vulnérabilités potentielles dans les systèmes connectés à Internet. Cependant, l'accès à ces informations sensibles peut aussi être utilisé à des fins malveillantes.

 

moteurshodan 001 002 

 

3.2 - Infrastructure technique Shodan

Shodan utilise de nombreux serveurs pour traiter les requêtes des utilisateurs et stocker les informations collectées sur les appareils connectés à Internet. Le nombre exact de serveurs de Shodan et leur architecture précise sont confidentiels, cependant comme pour les moteurs de recherche classiques on peut penser que l'infrastructure de  Shodan est conçue pour gérer des charges de travail importantes relatives à la collecte et à l'analyse des données des appareils connectés.

 

 

3.3 - Requêtes Shodan

Il existe plusieurs façons d'effectuer une recherche sur Shodan :

En utilisant un de ces moyens, on peut effectuer des recherches sur Shodan et trouver des informations sur les appareils connectés à Internet, tels que des serveurs web, des routeurs, des périphériques de sécurité, etc. Les résultats de recherche incluent des informations telles que l'adresse IP, le port, le système d'exploitation, le nom d'hôte, les services en cours d'exécution, etc. Les commandes de recherche de Shodan permettent d'affiner les résultats de recherche en utilisant des critères spécifiques.

 

moteurshodan 001 003

 Note : pour utiliser Shodan il vaut mieux mieux créer un compte pour avoir un accès à des requêtes intéressantes. On peut créer un compte gratuitement mais les requêtes proposées sont limitées et plutôt restreinte. Seul un compte payant permettra d'utiliser toute la puissance de Shodan. 

 Exemple de résultats d'une requête, on trouve des adresse IP avec des vulnérabilités en cliquant sur les liens associés.

moteurshodan 001 004

 

 

 

3.4 - Exemples de requêtes Shodan

Voici quelques exemples de commandes de recherche de Shodan :

 Les exemples précédents sont des commandes de base de recherche de Shodan.  Il existe de nombreuses autres commandes pour affiner les recherches, les informations sur ces commandes sont sur le site web de Shodan.

Voici par exemple ce que donne la requête country:US webcamxp

moteurshodan 001 006

 

Attention : Shodan ne garantit pas la sécurité des appareils affichés (il peut y avoir un piège avec des malwares), de plus il est interdit de se connecter ou d'interagir avec des appareils sans autorisation explicite. Toute intrusion non autorisée peut entraîner des plaintes et des poursuites judiciaires.

 

 

3.5 - Différences entre Google et Shodan

Shodan et Google sont donc deux moteurs de recherche très différents en termes de fonctionnement et d'objectifs.

En termes de fonctionnement, Google utilise des algorithmes complexes pour classer les pages web en fonction de leur pertinence pour les requêtes de l'utilisateur, tandis que Shodan utilise des algorithmes de reconnaissance de signatures pour identifier les périphériques connectés à Internet.

En conclusion, le but de Google est de fournir des informations à l'utilisateur, tandis que le but de Shodan est de fournir des informations sur les périphériques connectés à Internet aux entreprises, aux gouvernements et aux chercheurs en sécurité informatique en vue d'améliorer la sécurité des systèmes connectés à Internet.

 

Article publié le 11/01/2019 sous le titre Optimiser ses recherches Web et mis à jour les 9/02/2023 et le 26/11/2023.



Catégorie : Internet
Clics : 15218

Aucun commentaire