[{"@context":"http:\/\/schema.org\/","@type":"BlogPosting","@id":"https:\/\/wiki.edu.vn\/wiki25\/2021\/10\/29\/jaccard-index-wikipedia\/#BlogPosting","mainEntityOfPage":"https:\/\/wiki.edu.vn\/wiki25\/2021\/10\/29\/jaccard-index-wikipedia\/","headline":"Jaccard-Index \u2013 Wikipedia","name":"Jaccard-Index \u2013 Wikipedia","description":"before-content-x4 Ma\u00df f\u00fcr \u00c4hnlichkeit und Vielfalt zwischen Sets Schnitt und Vereinigung zweier Mengen A und B Die Jaccard-Index, auch bekannt","datePublished":"2021-10-29","dateModified":"2021-10-29","author":{"@type":"Person","@id":"https:\/\/wiki.edu.vn\/wiki25\/author\/lordneo\/#Person","name":"lordneo","url":"https:\/\/wiki.edu.vn\/wiki25\/author\/lordneo\/","image":{"@type":"ImageObject","@id":"https:\/\/secure.gravatar.com\/avatar\/44a4cee54c4c053e967fe3e7d054edd4?s=96&d=mm&r=g","url":"https:\/\/secure.gravatar.com\/avatar\/44a4cee54c4c053e967fe3e7d054edd4?s=96&d=mm&r=g","height":96,"width":96}},"publisher":{"@type":"Organization","name":"Enzyklop\u00e4die","logo":{"@type":"ImageObject","@id":"https:\/\/wiki.edu.vn\/wiki4\/wp-content\/uploads\/2023\/08\/download.jpg","url":"https:\/\/wiki.edu.vn\/wiki4\/wp-content\/uploads\/2023\/08\/download.jpg","width":600,"height":60}},"image":{"@type":"ImageObject","@id":"https:\/\/upload.wikimedia.org\/wikipedia\/commons\/thumb\/1\/1f\/Intersection_of_sets_A_and_B.svg\/200px-Intersection_of_sets_A_and_B.svg.png","url":"https:\/\/upload.wikimedia.org\/wikipedia\/commons\/thumb\/1\/1f\/Intersection_of_sets_A_and_B.svg\/200px-Intersection_of_sets_A_and_B.svg.png","height":"153","width":"200"},"url":"https:\/\/wiki.edu.vn\/wiki25\/2021\/10\/29\/jaccard-index-wikipedia\/","wordCount":18716,"articleBody":" (adsbygoogle = window.adsbygoogle || []).push({});before-content-x4Ma\u00df f\u00fcr \u00c4hnlichkeit und Vielfalt zwischen Sets Schnitt und Vereinigung zweier Mengen A und BDie Jaccard-Index, auch bekannt als die Jaccard-\u00c4hnlichkeitskoeffizient, ist eine Statistik, die zum Messen der \u00c4hnlichkeit und Vielfalt von Stichprobens\u00e4tzen verwendet wird. Es wurde von Paul Jaccard entwickelt und gab urspr\u00fcnglich den franz\u00f6sischen Namen Koeffizient de communaut\u00e9,[1] und unabh\u00e4ngig wieder von T. Tanimoto formuliert.[2] Und so kam es dass der Tanimoto-Index oder Tanimoto-Koeffizient werden auch in einigen Bereichen verwendet. Sie sind jedoch identisch, indem sie im Allgemeinen das Verh\u00e4ltnis von Kreuzung \u00fcber Union. Der Jaccard-Koeffizient misst die \u00c4hnlichkeit zwischen endlichen Stichprobens\u00e4tzen und ist definiert als die Gr\u00f6\u00dfe des Schnittpunkts geteilt durch die Gr\u00f6\u00dfe der Vereinigung der Stichprobens\u00e4tze: J(EIN,B)=|EIN\u2229B||EIN\u222aB|=|EIN\u2229B||EIN|+|B|\u2212|EIN\u2229B|.{displaystyle J(A,B)={{|Acap B|} over {|Acup B|}}={{|Acap B|} over {|A|+|B| -|Acap B|}}.}Beachten Sie, dass konstruktionsbedingt 0\u2264J(EIN,B)\u22641.{displaystyle 0leq J(A,B)leq 1.} Wenn EIN und B sind beide leer, definieren J(EIN,B) = 1. Der Jaccard-Koeffizient wird h\u00e4ufig in der Informatik, \u00d6kologie, Genomik und anderen Wissenschaften verwendet, in denen bin\u00e4re oder binarisierte Daten verwendet werden. F\u00fcr die Hypothesenpr\u00fcfung mit dem Jaccard-Koeffizienten stehen sowohl die exakte L\u00f6sungs- als auch die N\u00e4herungsmethode zur Verf\u00fcgung.[3]Jaccard-\u00c4hnlichkeit gilt auch f\u00fcr Taschen, dh Multisets. Dies hat eine \u00e4hnliche Formel,[4] aber die Symbole bedeuten Sackschnitt und Sacksumme (nicht Vereinigung). Der H\u00f6chstwert ist 1\/2. J(EIN,B)=|EIN\u2229B||EIN\u228eB|=|EIN\u2229B||EIN|+|B|.{displaystyle J(A,B)={{|Acap B|} over {|Aupplus B|}}={{|Acap B|} over {|A|+|B| }}.}Die Jackcard-Abstand, welche Ma\u00dfnahmen dis\u00c4hnlichkeit zwischen Stichprobenmengen, ist komplement\u00e4r zum Jaccard-Koeffizienten und wird durch Subtrahieren des Jaccard-Koeffizienten von 1 oder \u00e4quivalent durch Dividieren der Differenz der Gr\u00f6\u00dfen der Vereinigung und der Schnittmenge zweier Mengen durch die Gr\u00f6\u00dfe der Vereinigung erhalten:DJ(EIN,B)=1\u2212J(EIN,B)=|EIN\u222aB|\u2212|EIN\u2229B||EIN\u222aB|.{displaystyle d_{J}(A,B)=1-J(A,B)={{|Acup B|-|Acap B|} over |Acup B|}.}Eine alternative Interpretation des Jaccard-Abstands ist das Verh\u00e4ltnis der Gr\u00f6\u00dfe der symmetrischen Differenz EIN\u25b3B=(EIN\u222aB)\u2212(EIN\u2229B){displaystyle Adreieck B=(Acup B)-(Acap B)} zur Gewerkschaft. Die Jaccard-Distanz wird h\u00e4ufig verwendet, um an . zu berechnen n \u00d7 n Matrix zum Clustern und multidimensionalen Skalieren von n Mustersets.Dieser Abstand ist eine Metrik f\u00fcr die Sammlung aller endlichen Mengen.[5][6][7]Es gibt auch eine Version der Jaccard-Distanz f\u00fcr Ma\u00dfe, einschlie\u00dflich Wahrscheinlichkeitsma\u00dfen. Wenn \u03bc{displaystylemu} ist ein Ma\u00df auf einem messbaren Raum x{displaystyle X}, dann definieren wir den Jaccard-Koeffizienten durchJ\u03bc(EIN,B)=\u03bc(EIN\u2229B)\u03bc(EIN\u222aB),{displaystyle J_{mu}(A,B)={{mu(Acap B)} over {mu(Acup B)}},}und die Jaccard-Distanz umD\u03bc(EIN,B)=1\u2212J\u03bc(EIN,B)=\u03bc(EIN\u25b3B)\u03bc(EIN\u222aB).{displaystyle d_{mu}(A,B)=1-J_{mu}(A,B)={{mu(ADreieck B)}over {mu(Acup B)} }.}Vorsicht ist geboten, wenn \u03bc(EIN\u222aB)=0{displaystyle mu(Acup B)=0} oder \u221e{displaystyleinfty}, da diese Formeln in diesen F\u00e4llen nicht gut definiert sind.Das min-weise unabh\u00e4ngige Permutationen-Hashing-Schema von MinHash kann verwendet werden, um effizient eine genaue Sch\u00e4tzung des Jaccard-\u00c4hnlichkeitskoeffizienten von Paaren von Mengen zu berechnen, wobei jede Menge durch eine Signatur konstanter Gr\u00f6\u00dfe repr\u00e4sentiert wird, die aus den Minimalwerten einer Hash-Funktion abgeleitet wird .Table of Contents\u00c4hnlichkeit asymmetrischer bin\u00e4rer Attribute[edit]Differenz zum einfachen Matching-Koeffizienten (SMC)[edit]Gewichtete Jaccard-\u00c4hnlichkeit und Entfernung[edit]Wahrscheinlichkeit Jaccard-\u00c4hnlichkeit und Entfernung[edit]Optimalit\u00e4t des Wahrscheinlichkeits-Jaccard-Index[edit]Tanimoto \u00c4hnlichkeit und Entfernung[edit]Tanimotos Definitionen von \u00c4hnlichkeit und Distanz[edit]Andere Definitionen von Tanimoto-Distanz[edit]Jaccard-Index in Verwirrungsmatrizen f\u00fcr bin\u00e4re Klassifikationen[edit]Siehe auch[edit]Verweise[edit]Weiterlesen[edit]Externe Links[edit]\u00c4hnlichkeit asymmetrischer bin\u00e4rer Attribute[edit]Bei zwei Objekten, EIN und B, jeder mit n bin\u00e4ren Attributen ist der Jaccard-Koeffizient ein n\u00fctzliches Ma\u00df f\u00fcr die \u00dcberlappung, die EIN und B mit ihren Attributen teilen. Jedes Attribut von EIN und B kann entweder 0 oder 1 sein. Die Gesamtzahl jeder Kombination von Attributen f\u00fcr beide EIN und B sind wie folgt angegeben:m11{displaystyle M_{11}} stellt die Gesamtzahl der Attribute dar, bei denen EIN und B beide haben einen Wert von 1.m01{displaystyle M_{01}} stellt die Gesamtzahl der Attribute dar, bei denen das Attribut von EIN ist 0 und das Attribut von B ist 1.m10{displaystyle M_{10}} stellt die Gesamtzahl der Attribute dar, bei denen das Attribut von EIN ist 1 und das Attribut von B ist 0.m00{displaystyle M_{00}} stellt die Gesamtzahl der Attribute dar, bei denen EIN und B beide haben den Wert 0.EINB010m00{displaystyle M_{00}}m10{displaystyle M_{10}}1m01{displaystyle M_{01}}m11{displaystyle M_{11}}Jedes Attribut muss in eine dieser vier Kategorien fallen, was bedeutet, dassm11+m01+m10+m00=n.{displaystyle M_{11}+M_{01}+M_{10}+M_{00}=n.}Der Jaccard-\u00c4hnlichkeitskoeffizient, J, ist gegeben alsJ=m11m01+m10+m11.{displaystyle J={M_{11} over M_{01}+M_{10}+M_{11}}.}Die Jackcard-Distanz, DJ, ist gegeben alsDJ=m01+m10m01+m10+m11=1\u2212J.{displaystyle d_{J}={M_{01}+M_{10} over M_{01}+M_{10}+M_{11}}=1-J.}Statistische Schlu\u00dffolgerungen k\u00f6nnen basierend auf den Jaccard-\u00c4hnlichkeitskoeffizienten und folglich verwandten Metriken gemacht werden.[3] Gegeben zwei Beispiels\u00e4tze EIN und B mit n Attribute kann ein statistischer Test durchgef\u00fchrt werden, um festzustellen, ob eine \u00dcberlappung statistisch signifikant ist. Die genaue L\u00f6sung ist verf\u00fcgbar, obwohl die Berechnung kostspielig sein kann, da n erh\u00f6ht sich.[3] Sch\u00e4tzverfahren stehen entweder durch Approximation einer Multinomialverteilung oder durch Bootstrapping zur Verf\u00fcgung.[3]Differenz zum einfachen Matching-Koeffizienten (SMC)[edit]Bei Verwendung f\u00fcr bin\u00e4re Attribute ist der Jaccard-Index dem einfachen Matching-Koeffizienten sehr \u00e4hnlich. Der Hauptunterschied besteht darin, dass der SMC den Begriff m00{displaystyle M_{00}} in Z\u00e4hler und Nenner, w\u00e4hrend dies beim Jaccard-Index nicht der Fall ist. Somit z\u00e4hlt die SMC sowohl die gegenseitige Anwesenheit (wenn ein Attribut in beiden Sets vorhanden ist) als auch die gegenseitige Abwesenheit (wenn ein Attribut in beiden Sets fehlt) als \u00dcbereinstimmungen und vergleicht sie mit der Gesamtzahl der Attribute im Universum, w\u00e4hrend der Jaccard-Index z\u00e4hlt nur die gegenseitige Anwesenheit als \u00dcbereinstimmung und vergleicht sie mit der Anzahl der Attribute, die von mindestens einem der beiden Sets ausgew\u00e4hlt wurden.Bei der Warenkorbanalyse beispielsweise enth\u00e4lt der Warenkorb von zwei Verbrauchern, die wir vergleichen m\u00f6chten, m\u00f6glicherweise nur einen kleinen Bruchteil aller verf\u00fcgbaren Produkte im Gesch\u00e4ft, so dass der SMC in der Regel sehr hohe \u00c4hnlichkeitswerte zur\u00fcckgibt, selbst wenn die Warenk\u00f6rbe sehr wenig \u00c4hnlichkeit, was den Jaccard-Index in diesem Zusammenhang zu einem geeigneteren Ma\u00df f\u00fcr die \u00c4hnlichkeit macht. Betrachten Sie zum Beispiel einen Supermarkt mit 1000 Produkten und zwei Kunden. Der Korb des ersten Kunden enth\u00e4lt Salz und Pfeffer und der Korb des zweiten enth\u00e4lt Salz und Zucker. In diesem Szenario w\u00fcrde die \u00c4hnlichkeit zwischen den beiden K\u00f6rben, gemessen durch den Jaccard-Index, 1\/3 betragen, aber die \u00c4hnlichkeit betr\u00e4gt 0,998 unter Verwendung des SMC.In anderen Kontexten, in denen 0 und 1 \u00e4quivalente Informationen (Symmetrie) tragen, ist der SMC ein besseres \u00c4hnlichkeitsma\u00df. Beispielsweise w\u00fcrden Vektoren von demografischen Variablen, die in Dummy-Variablen wie Geschlecht gespeichert sind, besser mit dem SMC verglichen als mit dem Jaccard-Index, da der Einfluss des Geschlechts auf die \u00c4hnlichkeit gleich sein sollte, unabh\u00e4ngig davon, ob m\u00e4nnlich als 0 und weiblich definiert ist als 1 oder umgekehrt. Wenn wir jedoch symmetrische Dummy-Variablen haben, k\u00f6nnte man das Verhalten des SMC replizieren, indem man die Dummys in zwei bin\u00e4re Attribute (in diesem Fall m\u00e4nnlich und weiblich) aufteilt und sie so in asymmetrische Attribute umwandelt, was die Verwendung des Jaccard-Index ohne . erm\u00f6glicht jegliche Voreingenommenheit einf\u00fchren. Der SMC bleibt jedoch im Fall von symmetrischen Dummy-Variablen recheneffizienter, da er keine zus\u00e4tzlichen Dimensionen erfordert.Gewichtete Jaccard-\u00c4hnlichkeit und Entfernung[edit]Wenn x=(x1,x2,\u2026,xn){displaystyle mathbf{x} =(x_{1},x_{2},ldots,x_{n})} und ja=(ja1,ja2,\u2026,jan){displaystyle mathbf{y} =(y_{1},y_{2},ldots,y_{n})} sind zwei Vektoren mit allen reellen xich,jaich\u22650{displaystyle x_{i},y_{i}geq 0}, dann ist ihr Jaccard-\u00c4hnlichkeitskoeffizient (damals auch als Ruzicka-\u00c4hnlichkeit bekannt) definiert alsJW(x,ja)=\u03a3ichMindest(xich,jaich)\u03a3ichmax(xich,jaich),{displaystyle J_{mathcal{W}}(mathbf{x},mathbf{y})={frac{sum_{i}min(x_{i},y_{i})}{ sum_{i}max(x_{i},y_{i})}},}und Jaccard-Distanz (damals auch als Soergel-Distanz bekannt)DJW(x,ja)=1\u2212JW(x,ja).{displaystyle d_{J{mathcal{W}}}(mathbf{x},mathbf{y})=1-J_{mathcal{W}}(mathbf{x},mathbf{y} ).}Noch allgemeiner gesagt, wenn F{displaystyle f} und g{displaystyle g} sind zwei nicht-negativ messbare Funktionen auf einem messbaren Raum x{displaystyle X} mit Ma\u00df \u03bc{displaystylemu}, dann k\u00f6nnen wir definierenJW(F,g)=\u222bMindest(F,g)D\u03bc\u222bmax(F,g)D\u03bc,{displaystyle J_{mathcal{W}}(f,g)={frac {int min(f,g)dmu }{int max(f,g)dmu}}, }wo max{displaystyle max} und Mindest{displaystyle min} sind punktweise Operatoren. Dann ist die Jackcard-DistanzDJW(F,g)=1\u2212JW(F,g).{displaystyle d_{J{mathcal{W}}}(f,g)=1-J_{mathcal{W}}(f,g).}Dann zum Beispiel f\u00fcr zwei messbare Mengen EIN,B\u2286x{displaystyle A,Bsubseteq X}, wir haben J\u03bc(EIN,B)=J(\u03c7EIN,\u03c7B),{displaystyle J_{mu}(A,B)=J(chi_{A},chi_{B}),} wo \u03c7EIN{displaystyle chi_{A}} und \u03c7B{displaystyle chi_{B}} sind die charakteristischen Funktionen der entsprechenden Menge.Wahrscheinlichkeit Jaccard-\u00c4hnlichkeit und Entfernung[edit]Die oben beschriebene gewichtete Jaccard-\u00c4hnlichkeit verallgemeinert den Jaccard-Index auf positive Vektoren, wobei eine Menge einem bin\u00e4ren Vektor entspricht, der durch die Indikatorfunktion gegeben ist, dh xich\u2208{0,1}{displaystyle x_{i}in {0,1}}. Es verallgemeinert den Jaccard-Index jedoch nicht auf Wahrscheinlichkeitsverteilungen, bei denen eine Menge einer einheitlichen Wahrscheinlichkeitsverteilung entspricht, dhxich={1|x|ich\u2208x0Andernfalls{displaystyle x_{i}={begin{cases}{frac {1}{|X|}}&iin X\\0&{text{otherwise}}end{cases}}}Es ist immer weniger, wenn sich die Sets in der Gr\u00f6\u00dfe unterscheiden. Wenn |Y|}”\/>, und xich=1x(ich)\/|x|,jaich=1Ja(ich)\/|Ja|{displaystyle x_{i}=mathbf {1} _{X}(i)\/|X|,y_{i}=mathbf {1} _{Y}(i)\/|Y|} dannJW(x,ja)=|x\u2229Ja||x\u2216Ja|+|x|0,jaich\u226001\u03a3Jmax(xJxich,jaJjaich){displaystyle J_{mathcal{P}}(x,y)=sum_{x_{i}neq 0,y_{i}neq 0}{frac {1}{sum _{j} max left({frac {x_{j}}{x_{i}}},{frac {y_{j}}{y_{i}}}right)}}}die hei\u00dft die “Wahrscheinlichkeit” Jaccard.[8] Es hat die folgenden Grenzen gegen\u00fcber dem Weighted Jaccard auf Wahrscheinlichkeitsvektoren.JW(x,ja)\u2264JP(x,ja)\u22642JW(x,ja)1+JW(x,ja){displaystyle J_{mathcal{W}}(x,y)leq J_{mathcal{P}}(x,y)leq {frac {2J_{mathcal{W}}(x,y) }{1+J_{mathcal{W}}(x,y)}}}Hier ist die obere Schranke der (gewichtete) S\u00f8rensen-Dice-Koeffizient. Der entsprechende Abstand, 1\u2212JP(x,ja){displaystyle 1-J_{mathcal{P}}(x,y)}, ist eine Metrik \u00fcber Wahrscheinlichkeitsverteilungen und eine Pseudometrik \u00fcber nicht-negativen Vektoren.Der Probability Jaccard Index hat eine geometrische Interpretation als die Fl\u00e4che einer Schnittmenge von Simplizes. Jeder Punkt einer Einheit k{displaystyle k}-simplex entspricht einer Wahrscheinlichkeitsverteilung auf k+1{displaystyle k+1} Elemente, weil die Einheit k{displaystyle k}-simplex ist die Punktmenge in k+1{displaystyle k+1} Dimensionen, die sich zu 1 summieren. Um den Wahrscheinlichkeits-Jaccard-Index geometrisch abzuleiten, stellen Sie eine Wahrscheinlichkeitsverteilung als Einheitssimplex dar, unterteilt in Subsimplices entsprechend der Masse jedes Elements. Wenn Sie zwei so dargestellte Verteilungen \u00fcbereinander legen und die zu jedem Element geh\u00f6renden Simplizes schneiden, entspricht die verbleibende Fl\u00e4che dem Wahrscheinlichkeits-Jaccard-Index der Verteilungen.Optimalit\u00e4t des Wahrscheinlichkeits-Jaccard-Index[edit] Ein visueller Beweis f\u00fcr die Optimalit\u00e4t des Probability Jaccard Index auf drei Elementverteilungen.Betrachten Sie das Problem, Zufallsvariablen so zu konstruieren, dass sie so weit wie m\u00f6glich miteinander kollidieren. Das hei\u00dft, wenn x~x{displaystyle Xsim x} und Ja~ja{displaystyle Ysim y}, wir m\u00f6chten bauen x{displaystyle X} und Ja{displaystyle Y} maximieren Pr[X=Y]{displaystyle Pr[X=Y]}. Wenn wir uns nur zwei Verteilungen ansehen x,ja{displaystyle x,y} isoliert, das H\u00f6chste Pr[X=Y]{displaystyle Pr[X=Y]} wir erreichen k\u00f6nnen ist gegeben durch 1\u2212Fernseher(x,ja){displaystyle 1-{text{TV}}(x,y)} wo Fernseher{displaystyle {text{TV}}} ist die Gesamtvariationsdistanz. Angenommen, es geht uns nicht nur um die Maximierung dieses bestimmten Paares, sondern wir m\u00f6chten die Kollisionswahrscheinlichkeit eines beliebigen Paares maximieren. Man k\u00f6nnte unendlich viele Zufallsvariablen konstruieren, eine f\u00fcr jede Verteilung x{displaystyle x}, und versuchen zu maximieren Pr[X=Y]{displaystyle Pr[X=Y]} f\u00fcr alle Paare x,ja{displaystyle x,y}. Der Probability Jaccard Index ist in einem ziemlich starken Sinne, der unten beschrieben wird, ein optimaler Weg, um diese Zufallsvariablen abzugleichen.F\u00fcr jede Probenahmemethode g{displaystyle G} und diskrete Verteilungen x,ja{displaystyle x,y}, wenn J_{mathcal{P}}(x,y)}”\/> dann f\u00fcr einige z{displaystyle z} wo J_{mathcal{P}}(x,y)}”\/> und J_{mathcal{P}}(x,y)}”\/>, entweder Pr[G(x)=G(z)]{displaystyle land,lor} sind bitweise und, oder Operatoren, dann ist das \u00c4hnlichkeitsverh\u00e4ltnis TS{displaystyle T_{s}} istTS(x,Ja)=\u03a3ich(xich\u2227Jaich)\u03a3ich(xich\u2228Jaich){displaystyle T_{s}(X,Y)={frac {sum_{i}(X_{i}land Y_{i})}{sum_{i}(X_{i}lor Y_{i})}}}Wenn jede Stichprobe stattdessen als ein Satz von Attributen modelliert wird, entspricht dieser Wert dem Jaccard-Koeffizienten der beiden S\u00e4tze. Jaccard wird in der Arbeit nicht zitiert, und es ist wahrscheinlich, dass die Autoren sich dessen nicht bewusst waren.Tanimoto f\u00e4hrt fort, a . zu definieren “Distanzkoeffizient” basierend auf diesem Verh\u00e4ltnis, das f\u00fcr Bitmaps mit einer \u00c4hnlichkeit ungleich null definiert ist:TD(x,Ja)=\u2212Protokoll2\u2061(TS(x,Ja)){displaystyle T_{d}(X,Y)=-log_{2}(T_{s}(X,Y))}Dieser Koeffizient ist bewusst kein Distanzma\u00df. Es wurde gew\u00e4hlt, um die M\u00f6glichkeit zu erm\u00f6glichen, dass zwei Exemplare, die sich stark voneinander unterscheiden, einem dritten \u00e4hneln. Es ist leicht, ein Beispiel zu konstruieren, das die Eigenschaft der Dreiecksungleichung widerlegt.Andere Definitionen von Tanimoto-Distanz[edit]Tanimoto-Distanz wird f\u00e4lschlicherweise oft als Synonym f\u00fcr Jaccard-Distanz bezeichnet 1\u2212TS{displaystyle 1-T_{s}}. Diese Funktion ist eine geeignete Distanzmetrik. “Tanimoto-Distanz” wird oft als richtige Distanzmetrik angegeben, wahrscheinlich wegen der Verwechslung mit der Jaccard-Distanz.Wenn Jaccard- oder Tanimoto-\u00c4hnlichkeit \u00fcber einen Bitvektor ausgedr\u00fcckt wird, kann sie geschrieben werden alsF(EIN,B)=EIN\u22c5BIchEINIch2+IchBIch2\u2212EIN\u22c5B{displaystyle f(A,B)={frac {Acdot B}{|A|^{2}+|B|^{2}-Acdot B}}}wobei dieselbe Berechnung als Vektorskalarprodukt und Betrag ausgedr\u00fcckt wird. Diese Darstellung beruht auf der Tatsache, dass f\u00fcr einen Bitvektor (bei dem der Wert jeder Dimension entweder 0 oder 1 ist) dannEIN\u22c5B=\u03a3ichEINichBich=\u03a3ich(EINich\u2227Bich){displaystyle Acdot B=sum _{i}A_{i}B_{i}=sum _{i}(A_{i}land B_{i})}undIchEINIch2=\u03a3ichEINich2=\u03a3ichEINich.{displaystyle |A|^{2}=sum_{i}A_{i}^{2}=sum_{i}A_{i}.}Dies ist eine potenziell verwirrende Darstellung, da die \u00fcber Vektoren ausgedr\u00fcckte Funktion allgemeiner ist, es sei denn, ihr Bereich ist explizit eingeschr\u00e4nkt. Eigentum von TS{displaystyle T_{s}} nicht unbedingt erweitern auf F{displaystyle f}. Insbesondere die Differenzfunktion 1\u2212F{displaystyle 1-f} beh\u00e4lt die Dreiecksungleichung nicht bei und ist daher keine richtige Distanzmetrik, wohingegen 1\u2212TS{displaystyle 1-T_{s}} ist.Es besteht die reale Gefahr, dass die Kombination von “Tanimoto-Distanz” definiert mit dieser Formel zusammen mit der Anweisung “Die Tanimoto-Distanz ist eine richtige Distanzmetrik” f\u00fchrt zu dem falschen Schluss, dass die Funktion 1\u2212F{displaystyle 1-f} ist in der Tat eine Distanzmetrik \u00fcber Vektoren oder Mehrfachmengen im Allgemeinen, wohingegen ihre Verwendung in \u00c4hnlichkeitssuch- oder Clusteralgorithmen m\u00f6glicherweise keine korrekten Ergebnisse liefert.Lipkus[6] verwendet eine Definition der Tanimoto-\u00c4hnlichkeit, die \u00e4quivalent zu ist F{displaystyle f}, und bezieht sich auf die Tanimoto-Distanz als Funktion 1\u2212F{displaystyle 1-f}. In der Arbeit wird jedoch klargestellt, dass der Kontext durch die Verwendung eines (positiven) Gewichtungsvektors eingeschr\u00e4nkt wird W{displaystyle W} so dass f\u00fcr jeden Vektor EIN in Betracht gezogen werden, EINich\u2208{0,Wich}.{displaystyle A_{i}in {0,W_{i}}.} Unter diesen Umst\u00e4nden ist die Funktion eine geeignete Distanzmetrik, und so bildet ein Satz von Vektoren, der von einem solchen Gewichtungsvektor bestimmt wird, einen metrischen Raum unter dieser Funktion.Jaccard-Index in Verwirrungsmatrizen f\u00fcr bin\u00e4re Klassifikationen[edit]In Konfusionsmatrizen, die f\u00fcr die bin\u00e4re Klassifikation verwendet werden, kann der Jaccard-Index in die folgende Formel eingerahmt werden:Jaccard-Index=TPTP+FP+Fn{displaystyle {text{Jaccard-Index}}={frac {TP}{TP+FP+FN}}}wobei TP die wahren Positiven sind, FP die falschen Positiven sind und FN die falschen Negativen sind und TN die wahren Negative sind.[11]Siehe auch[edit]Verweise[edit]^ Jaccard, Paul (Februar 1912). “DIE VERTEILUNG DER FLORA IN DER ALPENZONE.1”. Neuer Phytologe. 11 (2): 37\u201350. mach:10.1111\/j.1469-8137.1912.tb05611.x. ISSN 0028-646X.^ ein B Tanimoto TT (17. November 1958). “Eine elementare mathematische Theorie der Klassifikation und Vorhersage”. Interner technischer IBM-Bericht. 1957 (8?).^ ein B C D Chung NC, Miasojedow B, Startek M, Gambin A (Dezember 2019). “Jaccard\/Tanimoto-\u00c4hnlichkeitstest und Sch\u00e4tzmethoden f\u00fcr Daten zur biologischen Pr\u00e4senz und Abwesenheit”. BMC Bioinformatik. 20 (Erg\u00e4nzung 15): 644. doi:10.1186\/s12859-019-3118-5. PMC 6929325. PMID 31874610.^ Leskovec J, Rajaraman A, Ullman J (2020). Mining massiver Datens\u00e4tze. Cambridge. ISBN 9781108476348. und P. 76-77 in einer fr\u00fcheren Version http:\/\/infolab.stanford.edu\/~ullman\/mmds\/ch3.pdf^ Kosub S (April 2019). “Eine Anmerkung zur Dreiecksungleichung f\u00fcr den Jaccard-Abstand”. Mustererkennungsbuchstaben. 120: 36\u20138. arXiv:1612.02696. mach:10.1016\/j.patrec.2018.12.007.^ ein B Lipkus AH (1999). “Ein Beweis der Dreiecksungleichung f\u00fcr den Tanimoto-Abstand”. Zeitschrift f\u00fcr Mathematische Chemie. 26 (1\u20133): 263\u2013265. mach:10.1023\/A:1019154432472.^ Levandowsky M, Winter D (1971). “Abstand zwischen den S\u00e4tzen”. Natur. 234 (5): 34\u201335. mach:10.1038\/234034a0.^ ein B Moulton R, Jiang Y (2018). “Maximal konsistentes Sampling und der Jaccard-Index von Wahrscheinlichkeitsverteilungen”. Internationale Konferenz zum Thema Data Mining, Workshop zum hochdimensionalen Data Mining: 347\u2013356. arXiv:1809.04052. mach:10.1109\/ICDM.2018.00050. ISBN 978-1-5386-9159-5.^ Zum Beispiel Huihuan Q, Xinyu W, Yangsheng X (2011). Intelligente \u00dcberwachungssysteme. Springer. P. 161. ISBN 978-94-007-1137-2.^ Rogers DJ, Tanimoto TT (Oktober 1960). “Ein Computerprogramm zur Klassifizierung von Pflanzen”. Wissenschaft. 132 (3434): 1115\u20138. mach:10.1126\/science.132.3434.1115. PMID 17790723.^ Aziz Taha, Abdel (2015). “Metriken zur Bewertung der Segmentierung medizinischer 3D-Bilder: Analyse, Auswahl und Werkzeug”. BMC Medizinische Bildgebung. f\u00fcnfzehn (29): 1\u201328. mach:10.1186\/s12880-015-0068-x.Weiterlesen[edit]Tan PN, Steinbach M, Kumar V (2005). Einf\u00fchrung in das Data Mining. ISBN 0-321-32136-7.Jaccard P (1901). “\u00c9tude Comparative de la Distribution florale dans une portion des Alpes et des Jura”. Bulletin de la Soci\u00e9t\u00e9 vaudoise des sciences naturelles. 37: 547\u2013579.Jaccard P (1912). “Die Verbreitung der Flora in der Alpenzone”. Neuer Phytologe. 11 (2): 37\u201350. mach:10.1111\/j.1469-8137.1912.tb05611.x.Externe Links[edit] (adsbygoogle = window.adsbygoogle || []).push({});after-content-x4"},{"@context":"http:\/\/schema.org\/","@type":"BreadcrumbList","itemListElement":[{"@type":"ListItem","position":1,"item":{"@id":"https:\/\/wiki.edu.vn\/wiki25\/#breadcrumbitem","name":"Enzyklop\u00e4die"}},{"@type":"ListItem","position":2,"item":{"@id":"https:\/\/wiki.edu.vn\/wiki25\/2021\/10\/29\/jaccard-index-wikipedia\/#breadcrumbitem","name":"Jaccard-Index \u2013 Wikipedia"}}]}]