ASPseek est un logiciel de moteur de recherche Internet développé par SWsoft et autorisé comme un logiciel libre sous licence GNU GPL.
ASPseek se compose d'un robot d'indexation, un démon de recherche, et une interface de recherche de CGI. Il peut indexer autant que quelques millions d'URL et de rechercher des mots et des phrases, l'utilisation des jokers, et faire une recherche booléenne. Résultats de la recherche peuvent être limités à la période de temps donnée, site ou espace Web (ensemble de sites) et triés par pertinence (PageRank est utilisé) ou la date.
ASPseek est optimisée pour plusieurs sites (indice filetée, les recherches DNS asynchrones, regroupant les résultats par site, les espaces Web), mais peut être utilisé pour la recherche d'un site ainsi. ASPseek peut travailler avec de multiples langues / encodages à la fois (y compris les encodages multi-octets comme le chinois) à cause du mode de stockage Unicode. Les autres caractéristiques comprennent des mots vides et de soutien ispell, un jeu de caractères et la langue guesser, des modèles HTML pour les résultats de recherche, des extraits et des mots de la requête mettant en évidence.
ASPseek est écrit en C ++ en utilisant la bibliothèque STL, et utilise mélange de base de données SQL et les fichiers binaires pour le stockage.
Voici quelques caractéristiques principales de "ASPseek":
Possibilité d'indexer et de recherche par le biais de plusieurs millions de documents
· Utilisation ASPseek, vous pouvez construire une base de données et de recherche à travers de nombreux sites, et les résultats pour chaque requête sera renvoyée rapide, même si vous avez quelques millions de documents indexés. Bien sûr, cela dépend du matériel, alors ne vous attendez pas "bonne vieille" machine i486 pour gérer tous les sites dans le domaine .com. Tout dépend de la CPU (s), la mémoire, la vitesse du disque, etc. Alors faites vos propres tests avant d'acheter du matériel dédié.
· Le fait que ASPseek est optimisée pour les gros volumes devrait pas vous empêcher de l'utiliser pour rechercher votre propre site qui contient quelques centaines de documents - y fonctionne aussi bien.
Très bonne pertinence des résultats
· Le but de moteur de recherche est de trouver ce que l'utilisateur veut. Il peut y avoir des milliers d'URL trouvés à la suite de requête de recherche, mais cela peut être pertinent, ainsi l'utilisateur aura insatisfait.
· Les résultats de sortie dans ASPseek sont triées par pertinence (ou rang), mais le calcul de rang est pas une tâche facile. Développeurs essayé de leur mieux pour intégrer les techniques les plus grands et plus récents dans le moteur ASPseek tout en maintenant une bonne vitesse de recherche.
Soutien Ispell
· Lorsque ASPseek est utilisé avec ispell soutien, searchd (1) peut éventuellement trouver toutes les formes de tous les mots spécifiés (par exemple: créer -> Créer ou créé ou crée). Ainsi, il vous permet de trouver le mot dans l'ensemble de différentes formes.
mode de stockage Unicode
· ASPseek peut stocker des informations sur les documents en Unicode, rendant ainsi possible de mettre en place un moteur de recherche multi-langue. Ainsi, vous pouvez indexer et rechercher les documents en anglais, russe et même chinois, le tout dans une base de données.
Proxy HTTP, HTTPS, HTTP, FTP (via proxy) protocoles
· Comme ASPseek est un moteur de recherche Web, il utilise le protocole HTTP pour indexer les sites. ASPseek prend également en charge https: // sécurisés protocole. protocole FTP est pas pris en charge directement, mais vous pouvez utiliser le proxy (comme squid) et des sites FTP via un proxy d'index.
· ASPseek soutient "autorisation de base" caractéristique de HTTP afin que vous puissiez les zones protégées par mot de passe index (par exemple des informations privées sur votre intranet).
Text / html et text / plain soutien types de documents
· ASPseek peut comprendre des documents écrits en HTML, et documents en texte brut. Ce sont les formats les plus populaires dans Internet.
· D'autres formats, tels que PDF, RTF, etc, peuvent être pris en charge avec l'aide de tout programme / script externe qui est capable de convertir que les formats HTML ou texte brut.
Conception multithread, asynchrone résolveur DNS, etc.
· ASPseek utilise des threads POSIX, ce qui signifie que seul processus ont de nombreux threads en parallèle. Donc téléchargements d'index des documents de nombreux sites, et les processus de recherche de démon de nombreuses requêtes de recherche simultanément. Cela permet non seulement de bien ASPseek échelle sur SMP (multiprocesseurs) systèmes, mais améliore également la vitesse d'indexation, car en cas d'un fil plus de temps sera consacré à l'attente de données du réseau.
· Une chose que lent processus d'indexation vers le bas beaucoup est la recherche DNS (un processus de détermination de l'adresse IP en utilisant le nom du serveur). Pour éviter les retards, les recherches asynchrones (recherche est effectuée par des processus dédiés distincts) et l'adresse IP cache sont mises en œuvre.
Les mots vides
· Les mots vides sont des mots qui ont un pas de sens en soi. Exemples: est, sont, à, ce. Recherche d'au est inutile, alors ces mots sont exclus de requête de recherche. Les mots vides sont également exclus de la base de données lors de l'indexation, de sorte que la base de données devient plus petit et plus rapide.
· Il n'y a pas de mots vides "intégrés" dans ASPseek, ils sont chargés pendant le démarrage à partir de fichiers. Beaucoup de fichiers de termes courants pour les différentes langues est livré avec ASPseek.
Charset guesse
· Certains serveurs cassés ou mal configurés ne disent pas clients le jeu de caractères dans lequel ils fournissent le contenu. Si vous indexez ces serveurs, ou en utilisant ASPseek aux serveurs indice ftp (protocole FTP ne sait rien sur les jeux de caractères), charset guesser peut être utilisé pour traiter avec elle. Charset guesser utilise des tableaux de fréquence de mots (appelés langmaps) pour déterminer correcte charset.
norme d'exclusion de robot (robots.txt) soutien
· ASPseek soutient pleinement cette norme. Il est destiné aux auteurs de sites web pour raconter le robot (par exemple, l'indice de ASPseek (1)) pour sauter l'indexation des répertoires de leurs sites.
· Pour plus d'informations voir http://www.robotstxt.org/wc/robots.html
Réglages permettant de contrôler l'utilisation de la bande passante du réseau et des serveurs Web charge
· Vous pouvez contrôler précisément la bande passante réseau que l'indice (1) utilise. Exactement, vous pouvez limiter la bande passante (exprimée en octets par seconde) utilisée par index (1) pour donné le temps de la journée. Par exemple, vous pouvez limiter la bande passante pendant les heures d'affaires afin que les gens de votre bureau ne connaîtront pas Internet est lente.
· Vous pouvez également définir le temps minimum entre deux requêtes vers le même serveur Web, de sorte qu'il ne sera pas surchargé et a obtenu jusqu'à ses genoux pendant que vous courez index (1).
En temps réel indexation asynchrone
· Certains moteurs de recherche exige que la recherche doit être arrêté pour la durée de la mise à jour de base de données. ASPseek n'a pas besoin de lui, de sorte que vous pouvez rechercher non-stop.
· Plus-à-dire, il ya un mode spécial de l'indexation appelé indexation "en temps réel". Vous pouvez l'utiliser pour petit nombre de documents, et pour autant que ce document est téléchargé et traité, les modifications sont immédiatement visibles dans l'interface de recherche. Cette fonctionnalité est d'une grande aide si vous construisez moteur de recherche pour les pages avec évolution rapide du contenu tel que des nouvelles en ligne, etc.
· On notera que nombre de documents en "temps réel" base de données est limité. Il est environ 1000 sur notre matériel (votre kilométrage peut varier), et les plus de documents que vous avez dans la base de données «en temps réel», la plus lente sera la vitesse de l'indexation dans ce (et seulement cela) base de données. Ce ne sera pas affecter la vitesse de recherche bien.
· Documents de base de données «en temps réel» sont déplacés vers la base de données normale après l'exécution de l'indice (1) d'une manière normale.
Tri des résultats par pertinence ou par date
· Les moteurs de recherche renvoie généralement des résultats plus pertinents en premier. Mais si vous êtes à la recherche pour les dernières pages, vous pouvez dire ASPseek pour trier les résultats par date de dernière modification, si récemment modifiés (ou créés) pages seront affichées en premier.
Extraits, mots de la requête en soulignant
· Extrait est un morceau de trouvé le document avec des mots recherché en surbrillance, juste pour donner une idée de ce que le document est sujet. Vous pouvez personnaliser le nombre d'extraits d'affichage et leur longueur. Si vous désactiver des extraits, le début du document sera affiché.
· Chaque document trouvé est accompagné avec le lien "En cache". ASPseek conserve une copie compressée locale de chaque document traité, de sorte que l'utilisateur peut voir l'ensemble du document avec (en option) des mots qui ont été à la recherche de surbrillance, même si elle a été retirée du site d'origine (cela arrive parfois).
Regroupement des résultats par site
· Résultats d'un site peuvent être regroupés. Si le regroupement par les sites est activée, seuls deux résultats sont affichés sur le même site par défaut, et l'utilisateur peut voir d'autres pages du même site en suivant "Plus de résultats de ..." lien.
Clones
· Les clones sont des documents identiques à différents endroits. Ils sont détectés et regroupés, ainsi l'utilisateur ne seront pas présentés avec une page complète d'URL aux documents identiques.
· Détection de Clone est généralement limitée par un site (donc des documents identiques provenant de différents sites ne sont pas comptés comme des clones), mais vous pouvez changer cela en recompiler ASPseek avec l'option --disable-clones par site.
Les espaces et les sous-ensembles
· L'espace est l'ensemble des sites. Donc, si vous voulez fournir la recherche réduit dans une certaine région, vous pouvez créer un espace et la recherche au sein de cet espace. Seuls les sites entiers (par exemple http://www.mysite.com/) sont autorisés à être inclus dans l'espace.
· Les sous-ensembles peuvent également être utilisés pour restreindre la recherche. Vous pouvez créer des sous-ensemble et de mettre le masque d'URL (comme http://www.mysite.com/mydir/%) dans ça, et puis limiter la recherche à portée sous-ensemble seulement donné.
· Vous pouvez restreindre l'étendue de recherche non seulement une, mais plusieurs sous-ensembles ou des espaces.
modèles HTML pour les résultats de recherche faciles à personnaliser
· Vous pouvez personnaliser vos pages de recherche, de sorte qu'ils se ressembler et être intégré de façon transparente avec le reste de votre site. Cela se fait par simple édition du fichier de modèle de recherche.
Installation
gzip -dc aspseek-1.2.10.tar.gz | tar xf -
cd aspseek-1.2.10. / configurer
faire
su
make install
Détails logiciels:
Version: 1.2.10
Date de transfert: 3 Jun 15
Licence: Gratuit
Popularité: 83
Commentaires non trouvées