Unternehmenssuche – Wikipedia

before-content-x4

Unternehmenssuche ist die Praxis, Inhalte aus mehreren Unternehmensquellen wie Datenbanken und Intranets für eine definierte Zielgruppe durchsuchbar zu machen.[1]

“Unternehmenssuche” wird verwendet, um die Software für Suchinformationen innerhalb eines Unternehmens zu beschreiben (obwohl die Suchfunktion und ihre Ergebnisse möglicherweise noch öffentlich sind).[2] Die Unternehmenssuche kann mit der Websuche verglichen werden, bei der die Suchtechnologie auf Dokumente im offenen Web angewendet wird, und der Desktopsuche, bei der die Suchtechnologie auf den Inhalt eines einzelnen Computers angewendet wird.

Unternehmenssuchsysteme indizieren Daten und Dokumente aus verschiedenen Quellen wie Dateisystemen, Intranets, Dokumentenverwaltungssystemen, E-Mail und Datenbanken. Viele Unternehmenssuchsysteme integrieren strukturierte und unstrukturierte Daten in ihre Sammlungen.[3] Unternehmenssuchsysteme verwenden auch Zugriffskontrollen, um ihren Benutzern eine Sicherheitsrichtlinie aufzuzwingen.[4]

Die Unternehmenssuche kann als eine Art vertikale Suche eines Unternehmens angesehen werden.

Komponenten eines Unternehmenssuchsystems[edit]

In einem Unternehmenssuchsystem durchläuft der Inhalt verschiedene Phasen vom Quell-Repository bis zu den Suchergebnissen:

Inhaltsbewusstsein[edit]

Content Awareness (oder “Content Collection”) ist normalerweise entweder ein Push- oder ein Pull-Modell. Im Push-Modell ist ein Quellsystem so in die Suchmaschine integriert, dass es eine Verbindung zu ihm herstellt und neue Inhalte direkt an seine APIs überträgt. Dieses Modell wird verwendet, wenn die Echtzeitindizierung wichtig ist. Im Pull-Modell sammelt die Software Inhalte aus Quellen mithilfe eines Connectors wie eines Webcrawlers oder eines Datenbank-Connectors. Der Connector fragt die Quelle normalerweise in bestimmten Intervallen ab, um nach neuen, aktualisierten oder gelöschten Inhalten zu suchen.[5]

Verarbeitung und Analyse von Inhalten[edit]

Inhalte aus verschiedenen Quellen können viele verschiedene Formate oder Dokumenttypen haben, z. B. XML, HTML, Office-Dokumentformate oder Nur-Text. In der Inhaltsverarbeitungsphase werden die eingehenden Dokumente mithilfe von Dokumentfiltern zu einfachem Text verarbeitet. Oft ist es auch erforderlich, Inhalte auf verschiedene Weise zu normalisieren, um den Rückruf oder die Genauigkeit zu verbessern. Dies kann Stemming, Lemmatisierung, Synonymerweiterung, Entitätsextraktion und einen Teil der Sprachkennzeichnung umfassen.

Im Rahmen der Verarbeitung und Analyse wird die Tokenisierung angewendet, um den Inhalt in Token aufzuteilen, die die grundlegende Übereinstimmungseinheit darstellen. Es ist auch üblich, Token auf Kleinbuchstaben zu normalisieren, um eine Suche ohne Berücksichtigung der Groß- und Kleinschreibung zu ermöglichen, sowie Akzente zu normalisieren, um einen besseren Abruf zu ermöglichen.

Indizierung[edit]

Der resultierende Text wird in einem Index gespeichert, der für eine schnelle Suche optimiert ist, ohne den vollständigen Text des Dokuments zu speichern. Der Index kann das Wörterbuch aller eindeutigen Wörter im Korpus sowie Informationen zu Rangfolge und Termhäufigkeit enthalten.

Abfrageverarbeitung[edit]

Über eine Webseite gibt der Benutzer eine Abfrage an das System aus. Die Abfrage besteht aus Begriffen, die der Benutzer eingibt, sowie aus Navigationsaktionen wie Facettieren und Paging-Informationen.

Matching[edit]

Die verarbeitete Abfrage wird dann mit dem gespeicherten Index verglichen, und das Suchsystem gibt Ergebnisse (oder “Treffer”) zurück, die auf übereinstimmende Quelldokumente verweisen. Einige Systeme können das Dokument so präsentieren, wie es indiziert wurde.

Unterschiede zur Websuche[edit]

Neben dem Unterschied in der Art der zu indizierenden Materialien enthalten Unternehmenssuchsysteme in der Regel auch Funktionen, die nicht mit den gängigen Websuchmaschinen verknüpft sind. Diese schließen ein:

  1. Transformieren einer Abfrage und Senden an eine Gruppe unterschiedlicher Datenbanken oder externer Inhaltsquellen mit der entsprechenden Syntax.
  2. Zusammenführen der aus den Datenbanken gesammelten Ergebnisse,
  3. Präsentieren in einem prägnanten und einheitlichen Format mit minimaler Duplizierung und
  4. Bereitstellung eines Mittels, das entweder automatisch oder vom Portalbenutzer ausgeführt wird, um die zusammengeführte Ergebnismenge zu sortieren.
  • Enterprise Bookmarking, kollaborative Tagging-Systeme zur Erfassung von Wissen über strukturierte und halbstrukturierte Unternehmensdaten.
  • Entitätsextraktion, mit der versucht wird, Elemente im Text zu lokalisieren und in vordefinierte Kategorien zu klassifizieren, z. B. Namen von Personen, Organisationen, Orten, Zeitangaben, Mengen, Geldwerten, Prozentsätzen usw.
  • Facettierte Suche, eine Technik für den Zugriff auf eine Sammlung von Informationen, die mithilfe einer facettierten Klassifizierung dargestellt werden, sodass Benutzer durch Filtern verfügbarer Informationen nachforschen können.
  • Die Zugriffssteuerung, normalerweise in Form einer Zugriffssteuerungsliste (Access Control List, ACL), ist häufig erforderlich, um den Zugriff auf Dokumente basierend auf individuellen Benutzeridentitäten einzuschränken. Es gibt viele Arten von Zugriffskontrollmechanismen für verschiedene Inhaltsquellen, was dies zu einer komplexen Aufgabe macht, die in einer Unternehmenssuchumgebung umfassend behandelt werden muss (siehe unten).
  • Textclustering, bei dem die ersten hundert Suchergebnisse in Themen gruppiert werden, die im Handumdrehen aus den Beschreibungen der Suchergebnisse berechnet werden, in der Regel Titel, Auszüge (Snippets) und Metadaten. Mit dieser Technik können Benutzer den Inhalt nach Thema und nicht nach Metadaten navigieren, die beim Facettieren verwendet werden. Clustering kompensiert das Problem inkompatibler Metadaten über mehrere Unternehmensrepositorys hinweg, was die Nützlichkeit von Facettierung behindert.
  • Benutzeroberflächen, die bei der Websuche bewusst einfach gehalten werden, um den Benutzer nicht vom Klicken auf Anzeigen abzulenken, wodurch Einnahmen erzielt werden. Obwohl das Geschäftsmodell für die Unternehmenssuche das Anzeigen von Anzeigen umfassen könnte, wird dies in der Praxis nicht durchgeführt. Um die Produktivität der Endbenutzer zu steigern, experimentieren Unternehmensanbieter kontinuierlich mit umfangreichen UI-Funktionen, die viel Platz auf dem Bildschirm beanspruchen, was für die Websuche problematisch wäre.

Relevanzfaktoren[edit]

Die Faktoren, die die Relevanz von Suchergebnissen im Kontext eines Unternehmens bestimmen, überschneiden sich mit denen, die für die Websuche gelten, unterscheiden sich jedoch von diesen. [1] Im Allgemeinen können Unternehmenssuchmaschinen die reichhaltige Linkstruktur, die im Hypertext-Inhalt des Webs enthalten ist, nicht nutzen. Eine neue Generation von Unternehmenssuchmaschinen, die auf einer Bottom-up-Web 2.0-Technologie basieren, bietet jedoch sowohl einen beitragsorientierten Ansatz als auch Hyperlinks das Unternehmen. Algorithmen wie PageRank nutzen die Hyperlinkstruktur, um Dokumenten Berechtigungen zuzuweisen, und verwenden diese Berechtigung dann als abfrageunabhängigen Relevanzfaktor. Im Gegensatz dazu müssen Unternehmen in der Regel andere abfrageunabhängige Faktoren wie die Aktualität oder Beliebtheit eines Dokuments sowie abfrageabhängige Faktoren verwenden, die traditionell mit Algorithmen zum Abrufen von Informationen verbunden sind. Darüber hinaus verringern die umfangreichen Funktionen von Benutzeroberflächen für die Unternehmenssuche, wie z. B. Clustering und Facettierung, die Abhängigkeit vom Ranking als Mittel, um die Aufmerksamkeit des Benutzers zu lenken.

Zugangskontrolle: frühe Bindung vs. späte Bindung[edit]

Sicherheit und eingeschränkter Zugriff auf Dokumente sind ein wichtiges Thema bei der Unternehmenssuche. Es gibt zwei Hauptansätze, um den eingeschränkten Zugriff anzuwenden: frühe Bindung vs. späte Bindung.[6]

Späte Bindung[edit]

Berechtigungen werden analysiert und Dokumenten in der Abfragephase zugewiesen. Die Abfrage-Engine generiert einen Dokumentensatz. Bevor dieser an einen Benutzer zurückgegeben wird, wird dieser Satz basierend auf den Benutzerzugriffsrechten gefiltert. Es ist ein kostspieliger Prozess, aber genau (basierend auf den Benutzerberechtigungen zum Zeitpunkt der Abfrage).

Frühe Bindung[edit]

Berechtigungen werden analysiert und Dokumenten in der Indexierungsphase zugewiesen. Es ist viel effektiver als spätes Binden, kann jedoch ungenau sein (dem Benutzer werden möglicherweise zwischen dem Zeitraum zwischen Indizierung und Abfrage Berechtigungen erteilt oder entzogen).

Suchrelevanz-Testoptionen[edit]

Die Relevanz von Suchanwendungen kann durch Befolgen von Optionen zum Testen der Relevanz wie ermittelt werden[7]

  • Schwerpunktgruppen
  • Referenzbewertungsprotokoll (basierend auf Relevanzbeurteilungen von Ergebnissen aus vereinbarten Abfragen, die an gängigen Dokumentenkorpussen durchgeführt wurden)
  • Empirische Tests
  • A / B-Tests
  • Protokollanalyse auf einer Beta-Produktionsstätte
  • Online-Bewertungen

Siehe auch[edit]

Verweise[edit]


after-content-x4