Internationaler chemischer Identifikator – Wikipedia

Identifikator für chemische Stoffe

Die IUPAC Internationaler chemischer Identifikator (InChI IN-chee oder ING-kee) ist ein Textidentifikator für chemische Stoffe, der eine Standardmethode zur Kodierung molekularer Informationen bieten und die Suche nach solchen Informationen in Datenbanken und im Internet erleichtern soll. Ursprünglich von der IUPAC (International Union of Pure and Applied Chemistry) und dem NIST (National Institute of Standards and Technology) von 2000 bis 2005 entwickelt, sind das Format und die Algorithmen nicht proprietär.

Die Identifikatoren beschreiben chemische Stoffe in Bezug auf Schichten von Informationen — die Atome und ihre Bindungskonnektivität, tautomere Informationen, Isotopeninformationen, Stereochemie und elektronische Ladungsinformationen.[3]

Es müssen nicht alle Schichten bereitgestellt werden; beispielsweise kann die Tautomerschicht weggelassen werden, wenn diese Art von Information für die spezielle Anwendung nicht relevant ist. Der InChI-Algorithmus wandelt eingegebene strukturelle Informationen in einem dreistufigen Prozess in einen eindeutigen InChI-Identifikator um: Normalisierung (um redundante Informationen zu entfernen), Kanonisierung (um eine eindeutige Nummernbezeichnung für jedes Atom zu erzeugen) und Serialisierung (um eine Zeichenkette zu erhalten). .

InChIs unterscheiden sich in dreierlei Hinsicht von den weit verbreiteten CAS-Registrierungsnummern: Erstens sind sie frei verwendbar und nicht proprietär; zweitens können sie aus Strukturinformationen berechnet werden und müssen nicht von irgendeiner Organisation zugewiesen werden; und drittens sind die meisten Informationen in einem InChI (mit Übung) für Menschen lesbar. InChIs können daher als eine allgemeine und extrem formalisierte Version von IUPAC-Namen angesehen werden. Sie können mehr Informationen ausdrücken als die einfachere SMILES-Notation und unterscheiden sich dadurch, dass jede Struktur einen eindeutigen InChI-String hat, was in Datenbankanwendungen wichtig ist. Informationen über die 3-dimensionalen Koordinaten von Atomen werden in InChI nicht dargestellt; zu diesem Zweck kann ein Format wie PDB verwendet werden.

Der InChIKey, manchmal auch als gehashter InChI bezeichnet, ist eine komprimierte digitale Darstellung des InChI mit fester Länge (27 Zeichen), die für den Menschen nicht verständlich ist. Die InChIKey-Spezifikation wurde im September 2007 veröffentlicht, um die Websuche nach chemischen Verbindungen zu erleichtern, da diese mit dem vollständigen InChI problematisch waren.[4] Im Gegensatz zum InChI ist der InChIKey nicht eindeutig: Obwohl Kollisionen als sehr selten berechnet werden können, passieren sie.[5]

Im Januar 2009 wurde die Version 1.02 der InChI-Software veröffentlicht. Dies stellte ein Mittel zur Verfügung, um sogenanntes Standard-InChI zu erzeugen, das keine vom Benutzer wählbaren Optionen im Umgang mit der Stereochemie und den tautomeren Schichten der InChI-String zulässt. Der Standard-InChIKey ist dann die gehashte Version des Standard-InChI-Strings. Der Standard-InChI vereinfacht den Vergleich von InChI-Strings und -Schlüsseln, die von verschiedenen Gruppen generiert und anschließend über verschiedene Quellen wie Datenbanken und Webressourcen abgerufen werden.

Die Weiterentwicklung des Standards wird seit 2010 von der gemeinnützigen InChI Vertrauen, bei dem die IUPAC Mitglied ist. Die aktuelle Softwareversion ist 1.06 und wurde im Dezember 2020 veröffentlicht.[6] Vor 1.04 war die Software unter der Open-Source-LGPL-Lizenz frei verfügbar.[7]

aber es verwendet jetzt eine benutzerdefinierte Lizenz namens IUPAC-InChI Trust License.[8]

Generation[edit]

Um zu vermeiden, dass unterschiedliche InChIs für tautomere Strukturen erzeugt werden, wird vor der Erzeugung des InChI eine chemische Eingangsstruktur normalisiert, um sie auf ihre sogenannte Kernelternstruktur zu reduzieren. Dies kann eine Änderung der Bindungsordnungen, eine Neuordnung der formalen Ladungen und möglicherweise das Hinzufügen und Entfernen von Protonen beinhalten. Unterschiedliche Eingabestrukturen können das gleiche Ergebnis liefern; zum Beispiel würden Essigsäure und Acetat beide die gleiche Kerngrundstruktur ergeben, die von Essigsäure. Eine Kernelternstruktur kann getrennt werden, die aus mehr als einer Komponente besteht, in diesem Fall bestehen die Unterschichten im InChI normalerweise aus Unterschichten für jede Komponente, getrennt durch Semikolons (Punkte für die chemische Formel-Unterschicht). Dies kann beispielsweise so geschehen: alle Metallatome werden während der Normalisierung getrennt; So hat beispielsweise das InChI für Tetraethylblei fünf Komponenten, eine für Blei und vier für die Ethylgruppen.[3]

Die erste, Hauptschicht des InChI bezieht sich auf diese Kernelternstruktur und gibt ihre chemische Formel, Nicht-Wasserstoff-Konnektivität ohne Bindungsordnung (/c Unterschicht) und Wasserstoffkonnektivität (/h Unterschicht.) Die /q Teil der Ladungsschicht gibt seine Ladung ab, und die /p Teil der Ladungsschicht gibt an, wie viele Protonen (Wasserstoffionen) hinzugefügt oder entfernt werden müssen, um die ursprüngliche Struktur zu regenerieren. Falls vorhanden, die stereochemische Schicht mit Unterschichten /b, /t, /m und /s, gibt stereochemische Informationen und die Isotopenschicht
/i (die Unterschichten enthalten können /h, /b, /t, /m und /s) gibt Isotopeninformationen. Dies sind die einzigen Schichten, die in einem Standard-InChI vorkommen können.[3]

Wenn der Benutzer ein genaues Tautomer angeben möchte, eine feste Wasserstoffschicht /f kann angehängt werden, die verschiedene zusätzliche Unterschichten enthalten kann; dies kann jedoch nicht in Standard-InChI erfolgen, so dass verschiedene Tautomere das gleiche Standard-InChI haben (z /r Schicht hinzugefügt werden, die effektiv ein neues InChI erzeugt, ohne Bindungen zu Metallatomen aufzubrechen. Diese kann verschiedene Unterschichten enthalten, einschließlich /f.[3]

Format und Ebenen[edit]

Jedes InChI beginnt mit der Zeichenfolge “InChI=” gefolgt von der Versionsnummer, derzeit 1. Wenn das InChI Standard ist, folgt der Buchstabe S zum Standard-InChIs, das ein vollständig standardisiertes InChI-Geschmack ist, das die gleiche Aufmerksamkeit für Strukturdetails und die gleichen Konventionen zum Zeichnen der Wahrnehmung beibehält. Die restlichen Informationen sind als Abfolge von Schichten und Unterschichten strukturiert, wobei jede Schicht eine bestimmte Art von Informationen bereitstellt. Die Ebenen und Unterebenen werden durch das Trennzeichen “/” und beginnen mit einem charakteristischen Präfixbuchstaben (mit Ausnahme der chemischen Formel-Unterschicht der Hauptschicht). Die sechs Schichten mit wichtigen Unterschichten sind:

  1. Hauptschicht
    • Chemische Formel (kein Präfix). Dies ist die einzige Unterschicht, die in jedem InChI vorkommen muss.
    • Atomverbindungen (Präfix: “c“). Die Atome in der chemischen Formel (außer Wasserstoff) sind der Reihe nach nummeriert; diese Unterschicht beschreibt, welche Atome durch Bindungen mit welchen anderen verbunden sind.
    • Wasserstoffatome (Präfix: “h“). Beschreibt, wie viele Wasserstoffatome mit jedem der anderen Atome verbunden sind.
  2. Ladungsschicht
    • Ladungsunterschicht (Präfix: “q“)
    • Protonenunterschicht (Präfix: “p” für “Protonen”)
  3. Stereochemische Schicht
    • Doppelbindungen und Cumulene (Präfix: “b“)
    • tetraedrische Stereochemie von Atomen und Allenen (Präfixe: “t“, “m“)
    • Art der Stereochemie-Information (Präfix: “s“)
  4. Isotopenschicht (Präfixe: “i“, “h“, ebenso gut wie “b“, “t“, “m“, “s” für isotopische Stereochemie)
  5. Fixed-H-Schicht (Präfix: “f“); enthält einige oder alle der oben genannten Arten von Schichten außer Atomverbindungen; kann mit ” enden”o” Unterschicht; nie in Standard-InChI . enthalten
  6. Wieder verbundener Layer (Präfix: “r“); enthält das gesamte InChI einer Struktur mit wieder verbundenen Metallatomen; niemals in Standard-InChI . enthalten

Das Trennzeichen-Präfix-Format hat den Vorteil, dass ein Benutzer leicht eine Platzhaltersuche verwenden kann, um Bezeichner zu finden, die nur in bestimmten Schichten übereinstimmen.

Beispiele
Strukturformel Standard InChI
h−C|hh|−C|hh|−Ö−h{displaystyle {ce {mathsf {H-{overset {displaystyle H atop |}{underset {| atop displaystyle H}{C}}}-{overset {displaystyle H atop |}{underset {| atop displaystyle H}{C}}}-OH}}}}

InChI=1S/C2H6O/c1-2-3/h3H,2H2,1H3
InChI=1S/C6H8O6/c7-1-2(8)5-3(9)4(10)6(11)12-5/h2,5,7-10H,1H2/t2-,5+/m0/s1

InChIKey[edit]

Die komprimierte, 27 Zeichen InChIKey ist eine gehashte Version des vollständigen InChI (unter Verwendung des SHA-256-Algorithmus), die eine einfache Websuche nach chemischen Verbindungen ermöglicht.[4] Die Standard-InChIKey ist das gehashte Gegenstück von Standard InChI. Bis 2007 wurden die meisten chemischen Strukturen im Web als GIF-Dateien dargestellt, die nicht nach chemischen Inhalten durchsucht werden können. Das vollständige InChI erwies sich als zu langatmig für eine einfache Suche, und deshalb wurde der InChIKey entwickelt. Die Wahrscheinlichkeit, dass zwei verschiedene Moleküle den gleichen InChIKey haben, ist sehr gering, aber ungleich null, aber die Wahrscheinlichkeit für die Duplizierung nur der ersten 14 Zeichen wurde als nur eine Duplizierung in 75 Datenbanken mit jeweils einer Milliarde einzigartige Strukturen geschätzt. Da alle Datenbanken derzeit weniger als 50 Millionen Strukturen aufweisen, erscheint eine solche Duplizierung derzeit unwahrscheinlich. Eine neuere Studie untersucht die Kollisionsrate ausführlicher und stellt fest, dass die experimentelle Kollisionsrate mit den theoretischen Erwartungen übereinstimmt.[9]

Der InChIKey besteht derzeit aus drei Teilen, die durch Bindestriche getrennt sind, von 14, 10 bzw. einem oder mehreren Zeichen, wie XXXXXXXXXXXXXX-YYYYYYYYFV-P. Die ersten 14 Zeichen ergeben sich aus einem SHA-256-Hash der Konnektivitätsinformationen (Hauptschicht und /q Unterschicht der Ladungsschicht) des InChI. Der zweite Teil besteht aus 8 Zeichen, die sich aus einem Hash der verbleibenden Schichten des InChI ergeben, ein einzelnes Zeichen, das die Art des InChIKey angibt (S für Standard und N für nicht standardmäßig) und ein Zeichen, das die verwendete Version von InChI angibt (derzeit A für Version 1.) Schließlich zeigt das einzelne Zeichen am Ende die Protonierung der Kernelternstruktur an, entsprechend der /p Unterschicht der Ladungsschicht (N für keine Protonierung, O, P, … wenn Protonen hinzugefügt werden sollen und M, L, … wenn sie entfernt werden sollen.)[10][3]

Beispiel[edit]

Morphin hat die rechts gezeigte Struktur. Der Standard-InChI für Morphin ist InChI=1S/C17H19NO3/c1-18-7-6-17-10-3-5-13(20)16(17)21-15-12(19)4-2-9(14(15)17)8-11(10)18/h2-5,10-11,13,16,19-20H,6-8H2,1H3/t10-,11+,13-,16-,17-/m0/s1
und der Standard-InChIKey für Morphin ist BQJCRHHNABKAKU-KBQPJGBKSA-N.[11]

InChI-Resolver[edit]

Da der InChI nicht aus dem InChIKey rekonstruiert werden kann, muss ein InChIKey immer mit dem ursprünglichen InChI verknüpft werden, um zur ursprünglichen Struktur zurückzukehren. InChI-Resolver fungieren als Suchdienst, um diese Links zu erstellen, und Prototypdienste sind vom National Cancer Institute, dem UniChem-Service am European Bioinformatics Institute und PubChem. ChemSpider hatte bis Juli 2015 einen Resolver, als er außer Betrieb genommen wurde.[12]

Das Format hieß ursprünglich IChI (IUPAC Chemical Identifier), wurde dann im Juli 2004 in INChI (IUPAC-NIST Chemical Identifier) ​​und im November 2004 erneut in InChI (IUPAC International Chemical Identifier), eine Marke der IUPAC, umbenannt.

Weiterentwicklung[edit]

Die wissenschaftliche Leitung des InChI-Standards wird vom Unterausschuss der IUPAC-Abteilung VIII übernommen, und die Finanzierung von Untergruppen, die die Erweiterung des Standards untersuchen und definieren, wird sowohl von der IUPAC als auch vom InChI Trust durchgeführt. Der InChI Trust finanziert die Entwicklung, Prüfung und Dokumentation des InChI. Derzeit werden Erweiterungen definiert, um Polymere und Mischungen, Markush-Strukturen, Reaktionen zu handhaben[13] und metallorganische Stoffe, und sobald sie vom Unterausschuss der Abteilung VIII angenommen wurden, werden sie dem Algorithmus hinzugefügt.

Software[edit]

Der InChI Trust hat Software entwickelt, um InChI, InChIKey und andere Identifikatoren zu generieren. Die Release-Historie dieser Software folgt.[14]

Software und Version Datum Lizenz Kommentare
InChI v. 1 April 2005
InChI v. 1.01 August 2006
InChI v. 1.02beta September 2007 LGPL 2.1 Fügt InChIKey-Funktionalität hinzu.
InChI v. 1.02 Januar 2009 LGPL 2.1 Geändertes Format für InChIKey.
Führt Standard-InChI ein.
InChI v. 1.03 Juni 2010 LGPL 2.1
InChI v. 1.03 Quellcode-Dokumente März 2011
InChI v. 1.04 September 2011 IUPAC/InChI Trust InChI Lizenz 1.0 Neue Lizenz.
Unterstützung für Elemente 105-112 hinzugefügt.
CML-Unterstützung entfernt.
InChI v. 1.05 Januar 2017 IUPAC/InChI Trust InChI-Lizenz 1.0 Unterstützung für Elemente 113-118 hinzugefügt.
Experimentelle Polymerunterstützung.
Experimentelle Unterstützung großer Moleküle.
RInChI v. 1.00 März 2017 IUPAC/InChI Trust InChI License 1.0 und BSD-Stil Berechnet die Reaktion InChis.[13]
InChI v. 1.06 Dez. 2020 IUPAC/InChI Trust InChI Lizenz 1.0 Überarbeiteter Polymerträger.

Annahme[edit]

Das InChI wurde von vielen größeren und kleineren Datenbanken übernommen, darunter ChemSpider, ChEMBL, Golm Metabolome Database, OpenPHACTS und PubChem.[15] Die Übernahme ist jedoch nicht einfach, und viele Datenbanken weisen eine Diskrepanz zwischen den chemischen Strukturen und dem darin enthaltenen InChI auf, was ein Problem für die Verknüpfung von Datenbanken darstellt.[16]

Siehe auch[edit]

Hinweise und Referenzen[edit]

  1. ^ “IUPAC International Chemical Identifier Projektseite”. IUPAC. Archiviert von das Original am 27. Mai 2012. Abgerufen 5. Dezember 2012.
  2. ^ Heller, S.; McNaught, A.; Stein, S.; Tchechovskoi, D.; Pletnew, I. (2013). “InChI – der weltweite Standard für chemische Strukturkennzeichnungen”. Zeitschrift für Cheminformatik. 5 (1): 7. doi:10.1186/1758-2946-5-7. PMC 3599061. PMID 23343401.
  3. ^ ein B C D e Heller, SR; McNaught, A.; Pletnew, I.; Stein, S.; Tchechovskoi, D. (2015). “InChI, der internationale chemische Identifikator der IUPAC”. Zeitschrift für Cheminformatik. 7: 23. doi:10.1186/s13321-015-0068-4. PMC 4486400. PMID 26136848.
  4. ^ ein B “Der internationale chemische Identifikator der IUPAC (InChI)”. IUPAC. 5. September 2007. Archiviert von das Original am 30. Oktober 2007. Abgerufen 2007-09-18.
  5. ^ EL Willighagen (17.09.2011). “InChIKey-Kollision: die DIY-Kopie/Pasten”. Abgerufen 2012-11-06.
  6. ^ Goodman, Jonathan M.; Pletnew, Igor; Thiessen, Paul; Bolton, Evan; Heller, Stephen R. (Dezember 2021). “InChI-Version 1.06: jetzt mehr als 99,99% zuverlässig”. Zeitschrift für Cheminformatik. 13 (1): 40. doi:10.1186/s13321-021-00517-z. PMC 8147039.
  7. ^ McNaught, Alan (2006). “Der internationale chemische Identifikator der IUPAC: InChl”. Chemie International. 28 (6). IUPAC. Abgerufen 2007-09-18.
  8. ^ http://www.inchi-trust.org/download/104/LICENCE.pdf
  9. ^ Pletnew, I.; Erin, A.; McNaught, A.; Blinov, K.; Tchechovskoi, D.; Heller, S. (2012). “InChIKey-Kollisionsbeständigkeit: Ein experimenteller Test”. Zeitschrift für Cheminformatik. 4 (1): 39. doi:10.1186/1758-2946-4-39. PMC 3558395. PMID 23256896.
  10. ^ “Technische FAQ – InChI Trust”. inchi-trust.org. Abgerufen 8. Januar 2021.
  11. ^ “InChI=1/C17H19NO3/c1-18…” Chemspinne. Abgerufen 2007-09-18.
  12. ^ InChI-Resolver, 27. Juli 2015
  13. ^ ein B Grethe, Günter; Blanke, Gerd; Kraut, Hans; Goodman, Jonathan M. (9. Mai 2018). “Internationaler chemischer Identifikator für Reaktionen (RInChI)”. Zeitschrift für Cheminformatik. 10 (1): 45. doi:10.1186/s13321-018-0277-8. PMC 4015173. PMID 24152584.
  14. ^ Downloads der InChI-Software, abgerufen am 8. Januar 2021.
  15. ^ Warr, WA (2015). “Viele InChIs und eine ganze Menge Leistung”. Zeitschrift für computergestütztes molekulares Design. 29 (8): 681–694. Bibcode:2015JCAMD..29..681W. mach:10.1007/s10822-015-9854-3. PMID 26081259. S2CID 31786997.
  16. ^ Akhondi, SA; Kors, JA; Muresan, S. (2012). “Konsistenz systematischer chemischer Identifikatoren innerhalb und zwischen niedermolekularen Datenbanken”. Zeitschrift für Cheminformatik. 4 (1): 35. doi:10.1186/1758-2946-4-35. PMC 3539895. PMID 23237381.

Externe Links[edit]