[{"@context":"http:\/\/schema.org\/","@type":"BlogPosting","@id":"https:\/\/wiki.edu.vn\/wiki20\/2021\/01\/01\/suchmaschinentechnologie-wikipedia\/#BlogPosting","mainEntityOfPage":"https:\/\/wiki.edu.vn\/wiki20\/2021\/01\/01\/suchmaschinentechnologie-wikipedia\/","headline":"Suchmaschinentechnologie &#8211; Wikipedia","name":"Suchmaschinentechnologie &#8211; Wikipedia","description":"before-content-x4 Eine Suchmaschine ist ein Softwareprogramm zum Abrufen von Informationen, das Informationen zum Abrufen und Pr\u00e4sentieren als Antwort auf Benutzeranfragen","datePublished":"2021-01-01","dateModified":"2021-01-01","author":{"@type":"Person","@id":"https:\/\/wiki.edu.vn\/wiki20\/author\/lordneo\/#Person","name":"lordneo","url":"https:\/\/wiki.edu.vn\/wiki20\/author\/lordneo\/","image":{"@type":"ImageObject","@id":"https:\/\/secure.gravatar.com\/avatar\/44a4cee54c4c053e967fe3e7d054edd4?s=96&d=mm&r=g","url":"https:\/\/secure.gravatar.com\/avatar\/44a4cee54c4c053e967fe3e7d054edd4?s=96&d=mm&r=g","height":96,"width":96}},"publisher":{"@type":"Organization","name":"Enzyklop\u00e4die","logo":{"@type":"ImageObject","@id":"https:\/\/wiki.edu.vn\/wiki4\/wp-content\/uploads\/2023\/08\/download.jpg","url":"https:\/\/wiki.edu.vn\/wiki4\/wp-content\/uploads\/2023\/08\/download.jpg","width":600,"height":60}},"image":{"@type":"ImageObject","@id":"https:\/\/upload.wikimedia.org\/wikipedia\/commons\/thumb\/1\/1c\/Wiki_letter_w_cropped.svg\/20px-Wiki_letter_w_cropped.svg.png","url":"https:\/\/upload.wikimedia.org\/wikipedia\/commons\/thumb\/1\/1c\/Wiki_letter_w_cropped.svg\/20px-Wiki_letter_w_cropped.svg.png","height":"14","width":"20"},"url":"https:\/\/wiki.edu.vn\/wiki20\/2021\/01\/01\/suchmaschinentechnologie-wikipedia\/","wordCount":6577,"articleBody":"     (adsbygoogle = window.adsbygoogle || []).push({});before-content-x4Eine Suchmaschine ist ein Softwareprogramm zum Abrufen von Informationen, das Informationen zum Abrufen und Pr\u00e4sentieren als Antwort auf Benutzeranfragen erkennt, crawlt, transformiert und speichert.[1]  ODEREine Suchmaschine ist ein webbasiertes Tool, mit dem Benutzer Informationen auf www finden k\u00f6nnen.[2]Eine Suchmaschine besteht normalerweise aus vier Komponenten, z. B. Suchoberfl\u00e4che, Crawler (auch als Spider oder Bot bezeichnet), Indexer und Datenbank.  Der Crawler durchl\u00e4uft eine Dokumentensammlung, dekonstruiert Dokumenttext und weist Ersatz f\u00fcr die Speicherung im Suchmaschinenindex zu.  Online-Suchmaschinen speichern auch Bilder, Linkdaten und Metadaten f\u00fcr das Dokument &#8230;  Table of ContentsGeschichte der Suchtechnologie[edit]Der Memex[edit]String-Suchmaschinen[edit]Web-Suchmaschinen[edit]Archie[edit]Veronica[edit]Der einsame Wanderer[edit]Anregen[edit]Yahoo![edit]Lycos[edit]Arten von Web-Suchmaschinen[edit]Suchmaschinenkategorien[edit]Web-Suchmaschinen[edit]Kriechen[edit]Karte verkn\u00fcpfen[edit]Datenbanksuchmaschinen[edit]Gemischte Suchmaschinen[edit]Siehe auch[edit]Verweise[edit]Geschichte der Suchtechnologie[edit]Dieser Abschnitt ist leer. Sie k\u00f6nnen helfen, indem Sie es hinzuf\u00fcgen.  ((Juli 2014)Der Memex[edit]Das Konzept des Hypertexts und einer Speichererweiterung stammt aus einem Artikel, der im Juli 1945 in The Atlantic Monthly von Vannevar Bush mit dem Titel As We May Think ver\u00f6ffentlicht wurde.  In diesem Artikel forderte Vannevar die Wissenschaftler auf, zusammenzuarbeiten, um einen Wissensbestand f\u00fcr die gesamte Menschheit aufzubauen.  Anschlie\u00dfend schlug er die Idee eines praktisch unbegrenzten, schnellen, zuverl\u00e4ssigen, erweiterbaren, assoziativen Speicher- und Abrufsystems vor.  Er nannte dieses Ger\u00e4t ein Memex.[3]Bush betrachtete den Begriff der \u201eassoziativen Indexierung\u201c als seinen wichtigsten konzeptionellen Beitrag.  Wie er erkl\u00e4rte, war dies \u201eeine Bestimmung, nach der jeder Gegenstand nach Belieben veranlasst werden kann, sofort und automatisch einen anderen auszuw\u00e4hlen.  Dies ist das wesentliche Merkmal des Memex.  Das Zusammenbinden von zwei Gegenst\u00e4nden ist das Wichtigste. \u201c  Diese \u201eVerkn\u00fcpfung\u201c (wie wir jetzt sagen) stellte eine \u201eSpur\u201c von Dokumenten dar, die benannt, codiert und wiedergefunden werden konnten.  Dar\u00fcber hinaus konnten nach dem Koppeln der beiden urspr\u00fcnglichen Elemente \u201ezahlreiche Elemente\u201c \u201ezu einer Spur zusammengef\u00fcgt\u201c werden.  Sie k\u00f6nnten \u201eschnell oder langsam \u00fcberpr\u00fcft werden, indem ein Hebel abgelenkt wird, wie er zum Bl\u00e4ttern in einem Buch verwendet wird.  Es ist genau so, als ob die physischen Gegenst\u00e4nde aus weit voneinander entfernten Quellen zusammengetragen und zu einem neuen Buch zusammengef\u00fcgt worden w\u00e4ren. \u201c[4]Alle im memex verwendeten Dokumente w\u00fcrden in Form einer Mikrofilmkopie vorliegen, die als solche erworben oder im Falle pers\u00f6nlicher Unterlagen von der Maschine selbst in einen Mikrofilm umgewandelt wird.  Memex w\u00fcrde auch neue Abruftechniken einsetzen, die auf einer neuen Art der assoziativen Indizierung basieren, deren Grundidee eine Bestimmung ist, wonach jedes Element nach Belieben veranlasst werden kann, sofort und automatisch ein anderes auszuw\u00e4hlen, um pers\u00f6nliche &#8220;Spuren&#8221; durch verkn\u00fcpfte Dokumente zu erstellen.  Die neuen Verfahren, von denen Bush erwartete, dass sie das Speichern und Abrufen von Informationen erleichtern, w\u00fcrden zur Entwicklung v\u00f6llig neuer Formen der Enzyklop\u00e4die f\u00fchren.  Der wichtigste Mechanismus, der von Bush konzipiert und f\u00fcr die modernen Hypertextsysteme als geschlossen angesehen wird, ist der assoziative Pfad.  Es w\u00e4re eine M\u00f6glichkeit, eine neue lineare Folge von Mikrofilmrahmen \u00fcber eine beliebige Folge von Mikrofilmrahmen hinweg zu erstellen, indem auf die eben beschriebene Weise eine verkettete Folge von Links zusammen mit pers\u00f6nlichen Kommentaren und Seitenpfaden erstellt wird.  Das wesentliche Merkmal des Memex [is] Der Vorgang des Zusammenbindens zweier Elemente &#8230; Wenn der Benutzer eine Spur erstellt, benennt er sie in seinem Codebuch und tippt sie auf seiner Tastatur aus.  Vor ihm werden die beiden zu verbindenden Gegenst\u00e4nde auf benachbarte Betrachtungspositionen projiziert.  Am unteren Rand befinden sich jeweils eine Reihe von Leerzeichen, und ein Zeiger zeigt eines davon auf jedem Element an.  Der Benutzer tippt auf eine einzelne Taste, und die Elemente werden dauerhaft verbunden. Danach kann das andere jederzeit, wenn eines dieser Elemente angezeigt wird, sofort durch einfaches Tippen auf eine Schaltfl\u00e4che unter dem entsprechenden Codebereich abgerufen werden.In dem Artikel von Bush wird weder eine automatische Suche noch ein universelles Metadatenschema wie eine Standardbibliotheksklassifikation oder ein Hypertext-Elementsatz beschrieben.  Wenn der Benutzer stattdessen einen Eintrag wie ein neues oder mit Anmerkungen versehenes Manuskript oder Bild machte, wurde von ihm erwartet, dass er es indiziert und in seinem pers\u00f6nlichen Codebuch beschreibt.  Sp\u00e4ter konnte der Benutzer durch Konsultieren seines Codebuchs kommentierte und generierte Eintr\u00e4ge zur\u00fcckverfolgen.1965 beteiligte sich Bush am Projekt INTREX des MIT zur Entwicklung von Technologien zur Mechanisierung der Verarbeitung von Informationen f\u00fcr die Bibliotheksnutzung.  In seinem Aufsatz von 1967 mit dem Titel &#8220;Memex Revisited&#8221; wies er darauf hin, dass die Entwicklung des digitalen Computers, des Transistors, des Videos und anderer \u00e4hnlicher Ger\u00e4te die Machbarkeit einer solchen Mechanisierung erh\u00f6ht habe, die Kosten jedoch ihre Erfolge verz\u00f6gern w\u00fcrden.  Er hatte wieder recht.Ted Nelson, der sp\u00e4ter Pionierarbeit mit dem ersten praktischen Hypertextsystem leistete und in den 1960er Jahren den Begriff &#8220;Hypertext&#8221; pr\u00e4gte, bezeichnete Bush als seinen Haupteinfluss.[5]Der am 28. August 1995 verstorbene Gerard Salton war der Vater der modernen Suchtechnologie.  Seine Teams in Harvard und Cornell entwickelten das SMART-Informationsabrufsystem.  Saltons Magic Automatic Retriever of Text enthielt wichtige Konzepte wie das Vektorraummodell, die Inverse Document Frequency (IDF), die Term Frequency (TF), Term Diskriminierungswerte und Relevanz-Feedback-Mechanismen.Er verfasste ein 56-seitiges Buch mit dem Titel A Theory of Indexing, in dem viele seiner Tests erl\u00e4utert wurden, auf denen die Suche noch weitgehend basiert.String-Suchmaschinen[edit]1987 wurde ein Artikel ver\u00f6ffentlicht, in dem die Entwicklung einer Zeichenketten-Suchmaschine (SSE) zum schnellen Abrufen von Text auf einer 1,6-\u03bcm-Doppelmetall-CMOS-Festk\u00f6rperschaltung mit 217.600 Transistoren auf einer 8,62 x 12,76- beschrieben wurde. mm Matrizenfl\u00e4che.  Die SSE enthielt eine neuartige String-Sucharchitektur, die eine 512-stufige FSA-Logik (Finite-State-Automat) mit einem inhaltsadressierbaren Speicher (CAM) kombiniert, um einen ungef\u00e4hren String-Vergleich von 80 Millionen Strings pro Sekunde zu erzielen.  Die CAM-Zelle bestand aus vier herk\u00f6mmlichen statischen RAM (SRAM) -Zellen und einer Lese- \/ Schreibschaltung.  Der gleichzeitige Vergleich von 64 gespeicherten Zeichenfolgen mit variabler L\u00e4nge wurde in 50 ns f\u00fcr einen Eingabetextstrom von 10 Millionen Zeichen \/ s erreicht, was eine Leistung trotz des Vorhandenseins von Einzelzeichenfehlern in Form von Zeichencodes erm\u00f6glicht.  Dar\u00fcber hinaus erm\u00f6glichte der Chip die Suche nach nicht verankerten Zeichenfolgen und die Suche nach Zeichenfolgen mit variabler L\u00e4nge (egal) (VLDC).[6]Web-Suchmaschinen[edit]Archie[edit]Die erste Web-Suchmaschine war Archie, die 1990 gegr\u00fcndet wurde[7]  von Alan Emtage, einem Studenten der McGill University in Montreal.  Der Autor wollte das Programm urspr\u00fcnglich &#8220;Archive&#8221; nennen, musste es jedoch k\u00fcrzen, um dem Unix-Weltstandard f\u00fcr die Zuweisung von Programmen und Dateien mit kurzen, kryptischen Namen wie grep, cat, troff, sed, awk, perl usw. zu entsprechen .Die prim\u00e4re Methode zum Speichern und Abrufen von Dateien war das File Transfer Protocol (FTP).  Dies war (und ist) ein System, das eine \u00fcbliche Methode f\u00fcr Computer zum Austausch von Dateien \u00fcber das Internet spezifizierte.  Das funktioniert so: Einige Administratoren entscheiden, dass sie Dateien von seinem Computer verf\u00fcgbar machen m\u00f6chten.  Er richtet auf seinem Computer ein Programm ein, das als FTP-Server bezeichnet wird.  Wenn jemand im Internet eine Datei von diesem Computer abrufen m\u00f6chte, stellt er eine Verbindung \u00fcber ein anderes Programm her, das als FTP-Client bezeichnet wird.  Jedes FTP-Client-Programm kann eine Verbindung mit jedem FTP-Server-Programm herstellen, solange sowohl das Client- als auch das Server-Programm den im FTP-Protokoll festgelegten Spezifikationen vollst\u00e4ndig entsprechen.Zun\u00e4chst musste jeder, der eine Datei freigeben wollte, einen FTP-Server einrichten, um die Datei anderen zur Verf\u00fcgung zu stellen.  Sp\u00e4ter wurden &#8220;anonyme&#8221; FTP-Sites zu Repositorys f\u00fcr Dateien, sodass alle Benutzer sie ver\u00f6ffentlichen und abrufen konnten.Selbst bei Archivseiten waren viele wichtige Dateien auf kleinen FTP-Servern verstreut.  Leider konnten diese Dateien nur \u00fcber das Internet-\u00c4quivalent von Mundpropaganda gefunden werden: Jemand postete eine E-Mail an eine Nachrichtenliste oder ein Diskussionsforum, in dem die Verf\u00fcgbarkeit einer Datei angek\u00fcndigt wurde.Archie hat das alles ge\u00e4ndert.  Es kombinierte einen skriptbasierten Datensammler, der Site-Listen anonymer FTP-Dateien abrief, mit einem Matcher f\u00fcr regul\u00e4re Ausdr\u00fccke zum Abrufen von Dateinamen, die einer Benutzerabfrage entsprechen.  (4) Mit anderen Worten, Archies Sammler durchsuchte FTP-Sites im Internet und indizierte alle gefundenen Dateien.  Der Matcher f\u00fcr regul\u00e4re Ausdr\u00fccke erm\u00f6glichte Benutzern den Zugriff auf die Datenbank.[8]Veronica[edit]1993 entwickelte die Gruppe System Computing Services der Universit\u00e4t von Nevada Veronica.[7]  Es wurde als eine Art Suchger\u00e4t erstellt, das Archie \u00e4hnelt, jedoch f\u00fcr Gopher-Dateien.  Ein weiterer Gopher-Suchdienst namens Jughead erschien wenig sp\u00e4ter, wahrscheinlich nur, um das Comic-Triumvirat abzurunden.  Jughead ist ein Akronym f\u00fcr Jonzys Universal Gopher Hierarchy Excavation and Display, obwohl man wie bei Veronica wahrscheinlich davon ausgehen kann, dass der Sch\u00f6pfer das Akronym unterst\u00fctzt hat.  Die Funktionalit\u00e4t von Jughead war ziemlich identisch mit der von Veronica, obwohl sie an den R\u00e4ndern etwas rauer zu sein scheint.[8]Der einsame Wanderer[edit]Der World Wide Web Wanderer, 1993 von Matthew Gray entwickelt[9]  war der erste Roboter im Web und wurde entwickelt, um das Wachstum des Web zu verfolgen.  Anfangs z\u00e4hlte der Wanderer nur Webserver, aber kurz nach seiner Einf\u00fchrung begann er im Laufe der Zeit, URLs zu erfassen.  Die Datenbank der erfassten URLs wurde zum Wandex, der ersten Webdatenbank.Matthew Grays Wanderer sorgte zu dieser Zeit f\u00fcr einige Kontroversen, teilweise weil fr\u00fche Versionen der Software im Internet weit verbreitet waren und einen sp\u00fcrbaren netzweiten Leistungsabfall verursachten.  Diese Verschlechterung trat auf, weil der Wanderer hunderte Male am Tag auf dieselbe Seite zugreifen w\u00fcrde.  Der Wanderer \u00e4nderte bald seine Wege, aber die Kontroverse dar\u00fcber, ob Roboter gut oder schlecht f\u00fcr das Internet waren, blieb bestehen.Als Reaktion auf den Wanderer erstellte Martijn Koster im Oktober 1993 das Archie-Like Indexing of the Web (ALIWEB). Wie der Name schon sagt, war ALIWEB das HTTP-\u00c4quivalent von Archie und ist daher in vielerlei Hinsicht immer noch einzigartig.ALIWEB hat keinen Web-Suchroboter.  Stattdessen ver\u00f6ffentlichen Webmaster der teilnehmenden Websites ihre eigenen Indexinformationen f\u00fcr jede Seite, die aufgelistet werden soll.  Der Vorteil dieser Methode besteht darin, dass Benutzer ihre eigene Site beschreiben k\u00f6nnen und ein Roboter nicht daran arbeitet, die Nettobandbreite zu verbrauchen.  Leider sind die Nachteile von ALIWEB heute eher ein Problem.  Der Hauptnachteil besteht darin, dass eine spezielle Indexdatei eingereicht werden muss.  Die meisten Benutzer verstehen nicht, wie eine solche Datei erstellt wird, und senden daher ihre Seiten nicht.  Dies f\u00fchrt zu einer relativ kleinen Datenbank, was bedeutet, dass Benutzer weniger wahrscheinlich ALIWEB durchsuchen als eine der gro\u00dfen botbasierten Websites.  Dieser Catch-22 wurde durch die Einbeziehung anderer Datenbanken in die ALIWEB-Suche etwas ausgeglichen, hat aber immer noch nicht die Massenattraktivit\u00e4t von Suchmaschinen wie Yahoo!  oder Lycos.[8]Anregen[edit]Excite, urspr\u00fcnglich Architext genannt, wurde im Februar 1993 von sechs Stanford-Studenten ins Leben gerufen. Ihre Idee war es, statistische Analysen von Wortbeziehungen zu verwenden, um eine effizientere Suche \u00fcber die gro\u00dfe Menge an Informationen im Internet zu erm\u00f6glichen.  Ihr Projekt wurde Mitte 1993 vollst\u00e4ndig finanziert.  Sobald die Finanzierung gesichert war.  Sie haben eine Version ihrer Suchsoftware ver\u00f6ffentlicht, die Webmaster auf ihren eigenen Websites verwenden k\u00f6nnen.  Zu dieser Zeit hie\u00df die Software Architext, jetzt hei\u00dft sie Excite for Web Server.[8]Excite war die erste ernsthafte kommerzielle Suchmaschine, die 1995 gestartet wurde.[10]  Es wurde in Stanford entwickelt und von @Home f\u00fcr 6,5 Milliarden US-Dollar gekauft.  Im Jahr 2001 gingen Excite und @Home bankrott und InfoSpace kaufte Excite f\u00fcr 10 Millionen US-Dollar.Einige der ersten Analysen der Websuche wurden in Suchprotokollen von Excite durchgef\u00fchrt[11][12]Yahoo![edit]Im April 1994 promovierten zwei Stanford University Ph.D.  Die Kandidaten David Filo und Jerry Yang haben einige Seiten erstellt, die ziemlich popul\u00e4r wurden.  Sie nannten die Sammlung von Seiten Yahoo!  Ihre offizielle Erkl\u00e4rung f\u00fcr die Namenswahl war, dass sie sich als ein Paar Yahoo betrachteten.Als die Anzahl der Links zunahm und ihre Seiten t\u00e4glich Tausende von Treffern erhielten, entwickelte das Team M\u00f6glichkeiten, um die Daten besser zu organisieren.  Um das Abrufen von Daten zu erleichtern, hat Yahoo!  (www.yahoo.com) wurde ein durchsuchbares Verzeichnis.  Die Suchfunktion war eine einfache Datenbanksuchmaschine.  Weil Yahoo!  Eintr\u00e4ge wurden manuell eingegeben und kategorisiert, Yahoo!  wurde nicht wirklich als Suchmaschine eingestuft.  Stattdessen wurde es allgemein als durchsuchbares Verzeichnis angesehen.  Yahoo!  hat seitdem einige Aspekte des Erfassungs- und Klassifizierungsprozesses automatisiert und die Unterscheidung zwischen Engine und Verzeichnis verwischt.Der Wanderer erfasste nur URLs, was es schwierig machte, Dinge zu finden, die nicht explizit durch ihre URL beschrieben wurden.  Da URLs anfangs eher kryptisch sind, hat dies dem durchschnittlichen Benutzer nicht geholfen.  Durchsuchen von Yahoo!  oder die Galaxie war viel effektiver, weil sie zus\u00e4tzliche beschreibende Informationen \u00fcber die indizierten Websites enthielt.Lycos[edit]Im Juli 1994 entwickelte Michael Mauldin an der Carnegie Mellon University im Urlaub von der CMU die Lycos-Suchmaschine.Arten von Web-Suchmaschinen[edit]Suchmaschinen im Web sind Websites, die mit der M\u00f6glichkeit ausgestattet sind, die auf anderen Websites gespeicherten Inhalte zu durchsuchen.  Es gibt Unterschiede in der Arbeitsweise verschiedener Suchmaschinen, aber alle f\u00fchren drei grundlegende Aufgaben aus.[13]Suchen und Ausw\u00e4hlen von vollst\u00e4ndigen oder teilweisen Inhalten anhand der angegebenen Schl\u00fcsselw\u00f6rter.Verwalten des Index des Inhalts und Verweisen auf den gefundenen SpeicherortBenutzer k\u00f6nnen nach W\u00f6rtern oder Wortkombinationen suchen, die in diesem Index gefunden wurden.Der Prozess beginnt, wenn ein Benutzer \u00fcber die bereitgestellte Schnittstelle eine Abfrageanweisung in das System eingibt.ArtBeispielBeschreibungKonventionellBibliothekskatalogSuche nach Stichwort, Titel, Autor usw.TextbasiertGoogle, Bing, Yahoo!Suche nach Stichw\u00f6rtern.  Eingeschr\u00e4nkte Suche mit Abfragen in nat\u00fcrlicher Sprache.SprachbasiertGoogle, Bing, Yahoo!Suche nach Stichw\u00f6rtern.  Eingeschr\u00e4nkte Suche mit Abfragen in nat\u00fcrlicher Sprache.Multimedia-SucheQBIC, WebSeek, SaFeSuche nach visuellem Erscheinungsbild (Formen, Farben, ..)Q \/ A.Stapelaustausch, NSIRSuche in (eingeschr\u00e4nkter) nat\u00fcrlicher SpracheClustering-SystemeVivisimo, ClustyForschungssystemeLemur, NutchGrunds\u00e4tzlich gibt es drei Arten von Suchmaschinen: solche, die von Robotern angetrieben werden (sogenannte Crawler; Ameisen oder Spinnen), und solche, die von menschlichen Eingaben angetrieben werden;  und diejenigen, die eine Mischung aus beiden sind.Crawler-basierte Suchmaschinen sind solche, die automatisierte Software-Agenten (sogenannte Crawler) verwenden, die eine Website besuchen, die Informationen auf der tats\u00e4chlichen Site lesen, die Meta-Tags der Site lesen und auch den Links folgen, \u00fcber die die Site eine Indizierung f\u00fcr alle verkn\u00fcpften Websites durchf\u00fchrt Auch Websites.  Der Crawler gibt alle diese Informationen an ein zentrales Depot zur\u00fcck, in dem die Daten indiziert werden.  Der Crawler kehrt regelm\u00e4\u00dfig zu den Websites zur\u00fcck, um nach ge\u00e4nderten Informationen zu suchen.  Die H\u00e4ufigkeit, mit der dies geschieht, wird von den Administratoren der Suchmaschine festgelegt.Von Menschen betriebene Suchmaschinen verlassen sich darauf, dass Menschen Informationen \u00fcbermitteln, die anschlie\u00dfend indiziert und katalogisiert werden.  Nur \u00fcbermittelte Informationen werden in den Index aufgenommen.In beiden F\u00e4llen durchsuchen Sie beim Abfragen einer Suchmaschine nach Informationen tats\u00e4chlich den Index, den die Suchmaschine erstellt hat. Sie durchsuchen das Web nicht.  Diese Indizes sind riesige Datenbanken mit Informationen, die gesammelt, gespeichert und anschlie\u00dfend durchsucht werden.  Dies erkl\u00e4rt, warum manchmal eine Suche in einer kommerziellen Suchmaschine wie Yahoo!  oder Google gibt Ergebnisse zur\u00fcck, bei denen es sich tats\u00e4chlich um tote Links handelt.  Da die Suchergebnisse auf dem Index basieren, behandelt die Suchmaschine die Seite als noch aktiven Link, obwohl der Index nicht aktualisiert wurde, seit eine Webseite ung\u00fcltig wurde, obwohl dies nicht mehr der Fall ist.  Dies bleibt so, bis der Index aktualisiert wird.Warum f\u00fchrt dieselbe Suche in verschiedenen Suchmaschinen zu unterschiedlichen Ergebnissen?  Ein Teil der Antwort auf diese Frage ist, dass nicht alle Indizes genau gleich sein werden.  Es kommt darauf an, was die Spinnen finden oder was die Menschen eingereicht haben.  Noch wichtiger ist jedoch, dass nicht jede Suchmaschine denselben Algorithmus zum Durchsuchen der Indizes verwendet.  Der Algorithmus wird von den Suchmaschinen verwendet, um die Relevanz der Informationen im Index f\u00fcr das zu bestimmen, wonach der Benutzer sucht.Eines der Elemente, nach denen ein Suchmaschinenalgorithmus sucht, ist die H\u00e4ufigkeit und Position von Schl\u00fcsselw\u00f6rtern auf einer Webseite.  Diejenigen mit h\u00f6herer Frequenz werden typischerweise als relevanter angesehen.  Die Suchmaschinentechnologie wird jedoch immer ausgefeilter, um das sogenannte Keyword-Stuffing oder Spamdexing zu unterbinden.Ein weiteres h\u00e4ufiges Element, das Algorithmen analysieren, ist die Art und Weise, wie Seiten mit anderen Seiten im Web verkn\u00fcpft werden.  Durch die Analyse, wie Seiten miteinander verkn\u00fcpft sind, kann eine Engine sowohl bestimmen, worum es auf einer Seite geht (wenn die Schl\u00fcsselw\u00f6rter der verkn\u00fcpften Seiten den Schl\u00fcsselw\u00f6rtern auf der Originalseite \u00e4hnlich sind) als auch, ob diese Seite als &#8220;wichtig&#8221; angesehen wird und eine verdient Steigerung des Rankings.  So wie die Technologie immer ausgefeilter wird, um das F\u00fcllen von Keywords zu ignorieren, wird sie auch f\u00fcr Webmaster, die k\u00fcnstliche Links in ihre Websites einbauen, um ein k\u00fcnstliches Ranking zu erstellen, immer kl\u00fcger.Moderne Web-Suchmaschinen sind hochkomplizierte Softwaresysteme, die Technologien verwenden, die sich im Laufe der Jahre weiterentwickelt haben.  Es gibt eine Reihe von Unterkategorien von Suchmaschinensoftware, die separat auf bestimmte Browsing-Anforderungen anwendbar sind.  Dazu geh\u00f6ren Websuchmaschinen (z. B. Google), Suchmaschinen f\u00fcr Datenbanken oder strukturierte Daten (z. B. Dieselpoint) sowie gemischte Suchmaschinen oder Unternehmenssuchen.  Die am weitesten verbreiteten Suchmaschinen wie Google und Yahoo! verwenden Hunderttausende Computer, um Billionen von Webseiten zu verarbeiten und ziemlich zielgerichtete Ergebnisse zu erzielen.  Aufgrund dieses hohen Volumens an Abfragen und Textverarbeitung muss die Software in einer stark verteilten Umgebung mit einem hohen Grad an \u00dcberfl\u00fcssigkeit ausgef\u00fchrt werden.Suchmaschinenkategorien[edit]Web-Suchmaschinen[edit]Suchmaschinen, die ausdr\u00fccklich f\u00fcr die Suche nach Webseiten, Dokumenten und Bildern entwickelt wurden, wurden entwickelt, um das Durchsuchen eines gro\u00dfen, nebul\u00f6sen Blobs unstrukturierter Ressourcen zu erleichtern.  Sie sind so konstruiert, dass sie einem mehrstufigen Prozess folgen: Durchforsten des unendlichen Vorrats an Seiten und Dokumenten, um den figurativen Schaum aus ihrem Inhalt zu entfernen, Schaum \/ Schlagworte in einer Art halbstrukturierter Form (Datenbank oder so) indizieren und schlie\u00dflich Aufl\u00f6sen von Benutzereintr\u00e4gen \/ -abfragen, um haupts\u00e4chlich relevante Ergebnisse und Links zu den \u00fcberflogenen Dokumenten oder Seiten aus dem Inventar zur\u00fcckzugeben.Kriechen[edit]Bei einer vollst\u00e4ndigen Textsuche besteht der erste Schritt bei der Klassifizierung von Webseiten darin, ein &#8220;Indexelement&#8221; zu finden, das sich ausdr\u00fccklich auf den &#8220;Suchbegriff&#8221; bezieht.  In der Vergangenheit begannen Suchmaschinen mit einer kleinen Liste von URLs als sogenannte Seed-Liste, riefen den Inhalt ab und analysierten die Links auf diesen Seiten nach relevanten Informationen, die anschlie\u00dfend neue Links bereitstellten.  Der Prozess war sehr zyklisch und wurde fortgesetzt, bis gen\u00fcgend Seiten f\u00fcr den Suchenden gefunden wurden.  Heutzutage wird eine kontinuierliche Crawling-Methode verwendet, im Gegensatz zu einer zuf\u00e4lligen Entdeckung, die auf einer Seed-Liste basiert.  Die Durchforstungsmethode ist eine Erweiterung der oben genannten Erkennungsmethode.  Au\u00dfer es gibt keine Seed-Liste, da das System nie aufh\u00f6rt zu entwurmen.Die meisten Suchmaschinen verwenden ausgefeilte Planungsalgorithmen, um zu \u201eentscheiden\u201c, wann eine bestimmte Seite erneut besucht werden soll, um ihre Relevanz zu ermitteln.  Diese Algorithmen reichen von einem konstanten Besuchsintervall mit h\u00f6herer Priorit\u00e4t f\u00fcr h\u00e4ufiger wechselnde Seiten bis zu einem adaptiven Besuchsintervall, das auf mehreren Kriterien wie \u00c4nderungsh\u00e4ufigkeit, Beliebtheit und Gesamtqualit\u00e4t der Website basiert.  Die Geschwindigkeit des Webservers, auf dem die Seite ausgef\u00fchrt wird, sowie Ressourcenbeschr\u00e4nkungen wie Hardwaremenge oder Bandbreite spielen ebenfalls eine Rolle.Karte verkn\u00fcpfen[edit]Die Seiten, die durch Webcrawls entdeckt werden, werden h\u00e4ufig verteilt und in einen anderen Computer eingespeist, der eine wahre Karte der nicht abgedeckten Ressourcen erstellt.  Die b\u00fcndelige Clustermasse \u00e4hnelt ein wenig einem Diagramm, in dem die verschiedenen Seiten als kleine Knoten dargestellt werden, die durch Verkn\u00fcpfungen zwischen den Seiten verbunden sind.  Der Daten\u00fcberschuss wird in mehreren Datenstrukturen gespeichert, die einen schnellen Zugriff auf diese Daten durch bestimmte Algorithmen erm\u00f6glichen, die den Beliebtheitswert von Seiten im Web basierend auf der Anzahl der Links berechnen, die auf eine bestimmte Webseite verweisen. Auf diese Weise k\u00f6nnen Personen auf eine beliebige Anzahl zugreifen von Ressourcen, die mit der Diagnose von Psychosen befasst sind.  Ein weiteres Beispiel w\u00e4re die Zug\u00e4nglichkeit \/ der Rang von Webseiten mit Informationen zu Mohamed Morsi im Vergleich zu den besten Attraktionen, die man in Kairo besuchen kann, wenn man einfach &#8220;\u00c4gypten&#8221; als Suchbegriff eingibt.  Ein solcher Algorithmus, PageRank, der von den Google-Gr\u00fcndern Larry Page und Sergey Brin vorgeschlagen wurde, ist bekannt und hat viel Aufmerksamkeit erregt, da er die wiederholte Weltlichkeit der Websuche mit freundlicher Genehmigung von Studenten hervorhebt, die nicht wissen, wie man Themen bei Google richtig recherchiert.  Die Idee, eine Linkanalyse durchzuf\u00fchren, um einen Beliebtheitsgrad zu berechnen, ist \u00e4lter als PageRank.  Andere Varianten derselben Idee werden derzeit verwendet &#8211; Grundsch\u00fcler f\u00fchren die gleichen Berechnungen bei der Auswahl von Kickballteams durch.  Im Ernst, diese Ideen k\u00f6nnen in drei Hauptkategorien eingeteilt werden: Rang einzelner Seiten und Art des Website-Inhalts.  Suchmaschinen unterscheiden h\u00e4ufig zwischen internen und externen Links, da Webmaster und -herrinnen der schamlosen Eigenwerbung nicht fremd sind.  Linkkarten-Datenstrukturen speichern normalerweise auch den in die Links eingebetteten Ankertext, da der Ankertext h\u00e4ufig eine Zusammenfassung des Inhalts einer Webseite in \u201esehr guter Qualit\u00e4t\u201c liefert.Datenbanksuchmaschinen[edit]Die Suche nach textbasierten Inhalten in Datenbanken stellt einige besondere Herausforderungen dar, aus denen sich eine Reihe spezialisierter Suchmaschinen entwickeln.  Datenbanken k\u00f6nnen beim L\u00f6sen komplexer Abfragen langsam sein (mit mehreren logischen oder String-\u00dcbereinstimmungsargumenten).  Datenbanken erm\u00f6glichen pseudo-logische Abfragen, die bei Volltextsuchen nicht verwendet werden.  F\u00fcr eine Datenbank ist kein Crawlen erforderlich, da die Daten bereits strukturiert sind.  Es ist jedoch h\u00e4ufig erforderlich, die Daten in einer sparsameren Form zu indizieren, um eine schnellere Suche zu erm\u00f6glichen.Gemischte Suchmaschinen[edit]Manchmal enthalten die durchsuchten Daten sowohl Datenbankinhalte als auch Webseiten oder Dokumente.  Die Suchmaschinentechnologie wurde entwickelt, um auf beide Anforderungen zu reagieren.  Die meisten gemischten Suchmaschinen sind gro\u00dfe Web-Suchmaschinen wie Google.  Sie durchsuchen sowohl strukturierte als auch unstrukturierte Datenquellen.  Nehmen Sie zum Beispiel das Wort &#8220;Ball&#8221;.  Im einfachsten Sinne gibt es allein bei Wikipedia mehr als 40 Variationen zur\u00fcck.  Meinten Sie einen Ball, wie in der gesellschaftlichen Versammlung \/ Tanz?  Ein Fu\u00dfball?  Der Fu\u00dfballen?  Seiten und Dokumente werden in einem separaten Index gecrawlt und indiziert.  Datenbanken werden auch aus verschiedenen Quellen indiziert.  Suchergebnisse werden dann f\u00fcr Benutzer generiert, indem diese mehreren Indizes parallel abgefragt und die Ergebnisse gem\u00e4\u00df \u201eRegeln\u201c zusammengesetzt werden.Siehe auch[edit]Verweise[edit]^ &#8220;In den sieben Informationsaltern gibt es viele M\u00f6glichkeiten zum Abrufen&#8221;.  Abgerufen 1. Juni 2014.^ &#8220;Weltweites Netz&#8221;, Wikipedia, 2020-01-12abgerufen 2020-01-12^ Yeo, Richard (30. Januar 2007). &#8220;Vor Memex: Robert Hooke, John Locke und Vannevar Bush \u00fcber das externe Ged\u00e4chtnis&#8221;. Wissenschaft im Kontext. 20 (1): 21. doi:10.1017 \/ S0269889706001128.  hdl:10072\/15207.  S2CID 2378301.^ Yeo, Richard (30. Januar 2007). &#8220;Vor Memex: Robert Hooke, John Locke und Vannevar Bush \u00fcber das externe Ged\u00e4chtnis&#8221;. Wissenschaft im Kontext. 20 (1): 21\u201347.  doi:10.1017 \/ S0269889706001128.  hdl:10072\/15207.  S2CID 2378301Das Beispiel, das Bush gibt, ist die Suche nach Informationen \u00fcber die relativen Vorz\u00fcge des t\u00fcrkischen Kurzbogens und des englischen Langbogens in den Kreuzz\u00fcgen^ &#8220;Die MEMEX von Vannevar Bush&#8221;.^ Yamada, H.;  Hirata, M.;  Nagai, H.;  Takahashi, K. (Oktober 1987).  &#8220;Eine Hochgeschwindigkeits-String-Suchmaschine&#8221;. IEEE Journal of Solid-State Circuits.  IEEE. 22 (5): 829\u2013834.  Bibcode:1987IJSSC..22..829Y.  doi:10.1109 \/ JSSC.1987.1052819.^ ein b Priti Srinivas Sajja;  Rajendra Akerkar (2012). Intelligente Technologien f\u00fcr Webanwendungen.  Boca Raton: CRC Press.  p.  87. ISBN 978-1-4398-7162-1.  Abgerufen 3. Juni 2014.^ ein b c d &#8220;Eine Geschichte der Suchmaschinen&#8221;.  Wiley.  Abgerufen 1. Juni 2014.^ Priti Srinivas Sajja;  Rajendra Akerkar (2012). Intelligente Technologien f\u00fcr Webanwendungen.  Boca Raton: CRC Press.  p.  86. ISBN 978-1-4398-7162-1.  Abgerufen 3. Juni 2014.^ &#8220;Die wichtigsten Suchmaschinen&#8221;.  21. Januar 2014.  Abgerufen 1. Juni 2014.^ Jansen, BJ, Spink, A., Bateman, J. und Saracevic, T. 1998. Abrufen von Informationen aus dem wirklichen Leben: Eine Studie \u00fcber Benutzeranfragen im Web.  SIGIR Forum, 32 (1), 5-17.^ Jansen, BJ, Spink, A. und Saracevic, T. 2000. Reales Leben, reale Benutzer und reale Bed\u00fcrfnisse: Eine Studie und Analyse von Benutzeranfragen im Web.  Informationsverarbeitung &#038; Management.  36 (2), 207 &#038; ndash; 227.^ Priti Srinivas Sajja;  Rajendra Akerkar (2012). Intelligente Technologien f\u00fcr Webanwendungen.  Boca Raton: CRC Press.  p.  85. ISBN 978-1-4398-7162-1.  Abgerufen 3. Juni 2014.     (adsbygoogle = window.adsbygoogle || []).push({});after-content-x4"},{"@context":"http:\/\/schema.org\/","@type":"BreadcrumbList","itemListElement":[{"@type":"ListItem","position":1,"item":{"@id":"https:\/\/wiki.edu.vn\/wiki20\/#breadcrumbitem","name":"Enzyklop\u00e4die"}},{"@type":"ListItem","position":2,"item":{"@id":"https:\/\/wiki.edu.vn\/wiki20\/2021\/01\/01\/suchmaschinentechnologie-wikipedia\/#breadcrumbitem","name":"Suchmaschinentechnologie &#8211; Wikipedia"}}]}]