Xapian et Omega

Xapian est une bibliothèque de récupération d'informations probabilistiques open source, libérée sous la GPL.
Télécharger maintenant

Xapian et Omega Classement & Résumé

Publicité

  • Rating:
  • Licence:
  • GPL
  • Prix:
  • FREE
  • Nom de l'éditeur:
  • Xapian Team
  • Site Internet de l'éditeur:
  • http://www.xapian.org/

Xapian et Omega Mots clés


Xapian et Omega La description

Xapian est une bibliothèque de récupération d'informations probabilistique open source, libérée sous la GPL. Xapian est une bibliothèque de récupération d'informations probabilistique open source, libérée sous la GPL. Xapian ISS écrit en C, avec des liaisons pour permettre une utilisation à partir d'autres langues (Perl, Java, Python, PHP et TCL sont actuellement pris en charge; Guile et C # sont en cours d'activité) .xapian est conçu pour être une boîte à outils hautement adaptable pour permettre aux développeurs Pour ajouter facilement une indexation avancée et des installations de recherche à leurs propres applications.Si vous êtes après un moteur de recherche emballé pour votre site Web, vous devez consulter Omega, une application que nous fournissons sur Xapian. Mais contrairement à la plupart des autres solutions de recherche de sites Web, la polyvalence de Xapian vous permet d'étendre OMEGA pour répondre à vos besoins au fur et à mesure de leur croissance. Voici quelques caractéristiques essentielles de "Xapian et Omega": · Logiciel libre / open source - sous licence sous la GPL. · Très portable - fonctionne sur de nombreuses autres plates-formes UNIX, MacOS X, et Microsoft Windows. · Écrit en c. Les liaisons Perl sont disponibles dans la recherche du module :: Xapian sur CPAN. Les liaisons Java JNI sont incluses dans le module de liaisons Xapian. Nous soutenons également Swig qui peut générer des liaisons pendant 13 langues. À l'heure actuelle, ceux de Python, PHP4 et TCL fonctionnent. Guile et C # sont en cours de travail. · Recherche probable classée - Les mots importants obtiennent plus de poids que des mots sans importance, les documents les plus pertinents sont donc plus susceptibles de s'approcher du sommet de la liste des résultats. · Rétroaction de pertinence - Compte tenu d'un ou de plusieurs documents, Xapian peut suggérer les termes indexés les plus pertinents pour développer une requête, suggérer des documents connexes, catégoriser des documents, etc. · Recherche de phrase et de proximité - Les utilisateurs peuvent rechercher des mots sur une phrase exacte ou dans un nombre spécifié de mots, dans une commande spécifiée, ou dans n'importe quel ordre. · Gamme complète d'opérateurs de recherche booléens structurés ("stock de marché", etc.). Les résultats de la recherche booléenne sont classés par les poids probablistiques. Les filtres booléens peuvent également être appliqués pour limiter une recherche probabiliste. · Soutien à la tige des termes de recherche (par exemple, une recherche de "football" correspondrait aux documents qui mentionnent des "footballs" ou "footballeur"). Cela aide à trouver des documents pertinents qui pourraient autrement être manqués. Les stemmers sont actuellement inclus pour danois, néerlandais, anglais, finnois, français, allemand, italien, norvégien, portugais, russe, espagnol et suédois. · Prend en charge les fichiers de base de données> 2 Go - essentiel pour la mise à l'échelle des collections de documents importantes. · Formats de données indépendants de plate-forme - Vous pouvez créer une base de données sur une machine et la recherche sur une autre. · Permet une mise à jour et une recherche simultanées. Les nouveaux documents deviennent consultables immédiatement. Ainsi que la bibliothèque, nous fournissons un certain nombre de petits programmes d'exemple et une application plus importante - une application d'indexation et de CGI appelée OMEGA: · L'indexeur fourni peut indiquer HTML, PHP, PDF, PostScript et Texte brut. L'ajout de support pour l'indexation d'autres formats est facile où des filtres de conversion sont disponibles (par exemple Microsoft Word). Cet indexeur fonctionne à l'aide du système de classement, mais nous fournissons également un script pour permettre à HTDIG Web Crawler d'être accroché, permettant de rechercher des sites distants à l'aide d'OMEGA. · Vous pouvez également indexer des données de n'importe quel SQL ou d'autres RDBMS soutenus par le module DBI Perl. Cela inclut MySQL, PostgreSQL, SQLite, Sybase, MS SQL, LDAP et ODBC. · Recherche CGI Front-end fourni avec une apparence hautement personnalisable. Cela peut également être personnalisé pour produire des résultats sur XML ou CSV, ce qui est utile si vous générez des pages (par exemple avec PHP ou MOD_PERL) et que vous souhaitez simplement les résultats de recherche bruts que vous pouvez traiter dans votre propre code de mise en page. Quoi de neuf dans cette version: API: · Xapian :: Le document ne stocke plus jamais les valeurs vides explicitement. Ce n'était pas un comportement intentionnel et comment cette affaire a été traitée n'a pas été documentée. Le comportement modifié est compatible avec la manière dont les métadonnées utilisateur sont traitées. Ce changement n'est pas observable en utilisant le document :: get_value (), mais peut être remarqué lors de l'itération avec le document :: valse_begin (), à l'aide de document :: valse_count () ou essayez de supprimer la valeur avec le document :: remove_value (). suite de tests: · Fixez le poids d'échelle TestCase4 Ne pas échouer sur X86 lorsqu'il est compilé avec -O0. Le problème était dans le code de témoins et a été causé par une précision excédentaire dans les valeurs de la FP intermédiaires. · Testases qui vérifient que les opérations ont le comportement O (...) attendu NO Vérifiez le temps de processeur au lieu d'une heure murale sur la plupart des plates-formes, ce qui devrait éliminer les défaillances occasionnelles dues à des pics de charge provenant d'autres processus. · (Ticket n ° 308) · Correction des échecs de test dues à Skip_Test_for_Backend ("Inmemory") Ne pas sauter quand il devrait être dû à la comparaison des chaînes de caractères avec == (sur le coffre, la valeur de retour étant testée est STD :: String plutôt que Const Char *). · Améliorer la couverture des tests dans plusieurs cas d'angle. · Correction de la cohérence des témoins2 pour être exécutée (heureusement, elle passe). · Dans les tests générés, appelez get_description () sur l'objet construit par défaut de chaque classe pour vous assurer que cela fonctionne (et n'essaie pas de déréférenference nul ou d'échouer une affirmation, etc.). Toutes les classes actuellement cochées sont correctes - il s'agit d'éviter les régressions futures ou de tels problèmes avec de nouvelles classes. · Dans la couverture de test, utilisez "- Couverage" au lieu de "-FProfile-Arcs-Couverture". · Le harnais de test a maintenant le backend inmemory marqué comme support de métadonnées spécifiées par l'utilisateur (en dehors de l'itération sur les touches de métadonnées). Correspondant: · Si une requête contient une sous-requête Matchall, vérifiez-vous avant de vérifier les autres termes de sorte que la boucle qui vérifie le nombre de termes correspondant à la sortie tôt s'ils correspondent tous. · Quand un ou Any_Maybe se décomposait à un et, nous échangeons soigneusement les enfants pour une efficacité maximale, mais la condition a été inversée, nous faisions donc aggraver les choses. Cela a été remarqué car il a entraîné la même requête en cours d'exécution plus rapidement lorsque davantage de résultats ont été posés! · Ne construisez que le nom de nommé sur TerminFreq et une carte de poids pour la première sous-aléhabase au lieu de la reconstruire pour chacun. Ne copiez également pas cette carte pour le renvoyer. Cela devrait accélérer une recherche un peu, en particulier ceux sur plusieurs bases de données. · Si un sous-meuble échoue, mais ErrorHandler nous dit de continuer sans cela, nous utilisons simplement un pointeur NULL pour vous tenir plutôt que d'attribuer un objet de porte-lieu factice spécial. · Supprimer AndPostList, en faveur de MultianDpostlist. Andpostlist n'a été utilisé que comme produit de décomposition (par andmaybepostlist et ORPostlist) et ne semble pas être plus rapide. La suppression de cela réduit la pression de cache de la CPU et est moins de code à maintenir. · Chèque d'appels () au lieu de Skip_To () sur la branche optionnelle de And_Maybe. Flint backend: · Fixez un bogue dans les terminatifs :: skip_to () sur les touches de métadonnées. Backend distant: · Fixez l'option Xapian-TCPSRV --Interface pour fonctionner sur MacOS X (ticket # 373). · Correction de la faute de frappe qui nous a amené à renvoyer le doctor au lieu du poids maximum qu'un document d'un match distant pourrait revenir! Cela aurait pu conduire à des résultats erronés lors de la recherche de plusieurs bases de données avec le backend distant, mais probablement généralement pas comme avec BM25, les poids sont généralement petits (souvent tous <1) tandis que les docids sont in


Xapian et Omega Logiciels associés