User:LKreissig/Structure-based chemical numbering scheme

A structure-based chemical numbering scheme provides ordering of chemical substances closer to natural properties than the most established chemical numbering schemes. One of the most popular of such schemes, the CAS Registry Numbers, solely order by the time when the addressed substance firstly becomes anyhow closer inspected academically. Unlike more natural properties such a time information of a substance both does not have significant educational potential and cannot decrease at all the effort of duplication prevention whenever planned additions to the scheme have to be validated. The following example of a more structure-based scheme firstly bases on its Secundar Duplicated Proton number SDP = number of all participating hydrogen protons + 2 × the other participating protons. For further differentiation the amount r is added that counts how many positional changes of ring defining numbers in the SMILES notation along one bond are needed for changing into an isomer without rings regardless of which theoretical valences then arise. E.g. for prismane r=6: C12C3C1C4C3C24 &larr; prismane 1. C12C3C1C4C23C4 2. C12C23C1C4C3C4 3. C12C23C1C4C34C 4. C12C23C1C34C4C 5. C12C23C13C4C4C 6. C12C123C3C4C4C C≡ C = C C=C C (↗ if ring start and ring end are neighbors it means a multiple bond)

Till 52 the final n is SDP + r. Then
 * $$n=49+2\ (SDP-12 \left \lfloor {SDP-4 \over 12} \right \rfloor-4) \left \lfloor {SDP-40 \over 12} \right \rfloor+3\ (2 \left \lfloor {SDP-4 \over 12} \right \rfloor-7)^2 + r,$$

and for calculating back (in the by far most cases when r does not exceed 2a+1):
 * $$a= \left \lfloor \sqrt{n-49 \over 12}-{1 \over 2} \right \rfloor,\ b=n-52-12\ (a^2+a),\ SDP=52+12a+ \left \lfloor {b \over 2a+2} \right \rfloor,\ r=b-(2a+2) \left \lfloor {b \over 2a+2} \right \rfloor.$$

This simply means that from SDP = 52 on 12 positions are inserted alteratingly into the list of the n values till SDP = 63, where n is 52 + (22 or 23), for separating triangular rings. Then 12 further position blocks are inserted behind every next 12 list positions (for SDP = 64 till 75) containing 3 positions each. Then the next 12 inserted blocks contain 5 positions each, etc. with linearly increasing odd block sizes (the above mentioned 2a+1) for distinguishing ring containing substances. A vastly minimized amount of substances per position can be seen in the result list:

Ein strukturbasiertes chemisches Nummerierungsschema ordnet Substanzen eher nach deren grundlegenden Eigenschaften als die meisten derzeit etablierten Nummerierungssysteme. Eines der verbreitetsten unter jenen, die CAS-Nummern, ordnen nur nach der Zeit wann eine Substanz zum ersten Mal akademisch inspiziert wird. Anders als grundlegendere Eigenschaften bietet eine solche Zeitinformation weder ein fachlich grundlegendes Lehrpotential, noch kann sie den Suchmaschinenaufwand zur Vermeidung von Doppeleinträgen verringern, wenn der Liste eine weitere Substanz hinzugefügt werden soll. Das folgende Beispiel eines strukturbasierteren Schemas basiert auf der SekundärDuplizierten Protonenzahl SDP = Anzahl der teilnehmenden Wasserstoffprotonen + 2 × die anderen teilnehmenden Protonen. Für weitere Differenzierung wird die Anzahl r hinzugefügt, die angibt wie oft Positionsänderungen der ring-definierenden Zahlen in der SMILES-Notierung über jeweils eine Bindung für die Änderung der Struktur in eine ringfreie notwendig wären, ungeachtet welche theoretischen Valenzen dann entstünden. Z.B. ist für Prisman r=6: s.o. Bis SDP=52 gilt: letztendlich listenpositionsbestimmendes n = SDP + r. Für SDP > 52 gilt: n = ... s.o.,

und für Rückbestimmung von SDP und r aus n (in den bei Weitem meisten Fällen in denen r < 2a+2): a = ..., b = ..., SDP = ..., r = ... s.o.

Dies bedeutet einfach dass ab SDP=52 jeweils 12 Mal hinter jeden Listeneintrag ein Listenplatz für Dreieckringe eingefügt ist, bis SDP=63 wo n dann 52 + (22 oder 23) ist. Dann sind bei SDP = 64 bis 75 (dort ist n = 52 + 2·12 bis 51 + 6·12) jeweils 12 Mal jeweils 3 Listenplätze (für 3-, 4- und 5-eckringe, wobei sowohl bei 3eck und 4eck zusammen als auch bei einzelnem 5eck r=3 ist) eingefügt. Dann sind 12 Mal jeweils 5 Listenplätze eingefügt, usw. mit jeweils 12 Mal eingefügten ungeraden Listenplätzeblockgrößen (die o.g. 2a+1), die linear ansteigen, zur Differenzierung unterschiedlicher Ringsysteme in den Substanzen. Dies ergibt eine Liste mit stark minimierter Anzahl an Substanzen pro Positionsnummer:


 * 1) H +0.008 (element's molar mass - its SDP number), Hydrogen plasma
 * 2) H2 Hydrogen gas
 * 3) Helium 3, Tritium (only here and in 11 isotope-specific substances are placed separately, here: all isotopes with 3 nucleons apart from their elements)
 * 4) He +0.0026
 * 5) HeH+ Helium hydride ion
 * 6) Li +0.94
 * 7) LiH Lithium hydride
 * 8) Be +1.0122
 * 9) He2H+
 * 10) B +0.81, BeH2 Beryllium hydride
 * 11) BeHD Beryllium monodeuteride hydride
 * 12) C +0.011
 * 13) BH3 Borane
 * 14) N +0.007, Nitrogen plasma
 * 15) -CH3 Methyl group
 * 16) O -0.001, CH4 Methane
 * 17) NH3 Ammon
 * 18) F +0.998, H2O Water
 * 19) HF Hydrofluoric acid, H3O+ Hydronium ion
 * 20) Ne +0.180
 * 21) LiCH3
 * 22) Na +0.990, BeCH2 Methylene beryllium &rarr; ½ Be2C + ½ CH4
 * 23) LiOH, NaH
 * 24) Mg +0.305, BeO, LiF
 * 25) He6H+, (BeOH+)
 * 26) Al +0.982, Ethyne
 * 27) HCN
 * 28) Si +0.085, Be2C Beryllium carbide, Ethene, BNH4, N2, Li2O, CO
 * 29) AlH3 Aluminium hydride
 * 30) P +0.974, C2H6 Ethane, Formaldehyde, NO
 * 31) CH5N Methylamine
 * 32) S +0.06, Li3N, LiCN, Hydrazine, Methanol, O2, SiH4
 * 33) CH3F, PH3
 * 34) Cl +1.45, HOOH, H2S
 * 35) HOF, E507 HCl
 * 36) Ar +3.95, Li2C2, NH4F, F2, LiAlH4
 * 37) LiOC
 * 38) K +1.098, C2H6Be Dimethylberyllium &rarr; ½ Be2C + 1½ CH4
 * 39) LiOOH, E524 NaOH
 * 40) Ca +0.078, Propyne, NaF, (HeF2), E530 MgO, LiCl
 * 41) Methylcyanide, Ethynamine, (SDP=40, r=1) Cyclopropene
 * 42) Sc +2.956, Propene, Be(OH)2, Azirine N1=CC1
 * 43) C2HF Fluorethyne, HOCN, HONC, Cyclopropane, C1=CO1 Oxirene
 * 44) Ti +3.867, C3H8 E944 Propane, Acetaldehyde, E942 N2O, E290 CO2, BeF2, C2H5N Aziridine C1CN1, C1=NO1
 * 45) HN(CH3)2, ON=C Formaldoxime, C1CO1 Ethylene oxide (Oxirane), Vinyl fluoride
 * 46) V +4.942, Dimethylether, Ethanol, E236 Formic acid, NO2, CSiH6, C1NO1
 * 47) Aminomethanol, HNO2, F-C=O, C1OO1
 * 48) Cr +3.996, Methylperoxide, O3, NaCN, CH4S Mercaptane
 * 49) CH3OF Fluoromethanol, SiH3F, CH3Cl
 * 50) Mn +4.938, CH2F2
 * 51) C2H5OLi Lithium ethanolate, HCOOLi Lithium formiate, HClO Hypochlorous acid
 * 52) (SDP=52, r=0) Fe +3.845, C4H4 Butenyne, (CN)2, OF2, NH4Cl E510 Ammonium chloride
 * 53) (SDP=52, r=1) Methylenecyclopropene C1=CC1=C
 * 54) (SDP=53, r=0) LiOOCH3 Lithiummethylperoxide, (SDP=52, r=2) [4]Annulene (Cyclobutadiene)
 * 55) (SDP=53, r=1) C1=CC1=N, (SDP=52, r=3) Tetrahedrane (Tricyclo[1.1.0.02,4]butane)
 * 56) (SDP=54, r=0) Co +4.933, Butyne, (SDP=53, r=2) C1=CC=N1 Azete (Aza[4]annulene)
 * 57) Methylcyclopropene, C1=NC1=N
 * 58) Cyclobutene, Dicyclobutane, C1=NC=N1, C1O[Be]O1, Propanenitrile, E525 KOH
 * 59) Cyclopropenamine
 * 60) Ni +2.693, Butene, C1CC=N1, NaCl, KF, E529 CaO
 * 61) Methylcyclopropane, C1=NC1N, C1=CC1O
 * 62) Cyclobutane, C1=CCO1 Oxete
 * 63) Cyclopropanamine
 * 64) Cu +5.546, C4H10 Butane, C2H2O2 Glyoxal, Azetidine C1CCN1
 * 65) C2H6Si Silirane (Silacyclopropane)
 * 66) (SDP=59) N(CH3)3, NC(N)=N Guanidine, C=CP Ethenylphosphane, (SDP=58, r=2) C3H6O Oxetane C1CCO1, O1C2C1O2
 * 67) C3H5F, C2H5P Phosphirane
 * 68) Zn +5.38, CCCO, C1NCO1 Oxazetidine, CH4N2O Urea, C2H4O2 Acetic acid, Glycolaldehyde, Methyl formate, MgF2, C2H8Si, E551 SiO2, CClN Cyanogen chloride
 * 69) C2H4S Thiirane
 * 70) BH3O3 E284 Boric acid, CH3NO2 Carbamic acid, C1OCO1 Dioxetane
 * 71) C1OC1F Fluorethylene oxide
 * 72) (SDP=62) Ga +7.723, Ethylenglycol C2H6O2, H2CO3, Si2H6, C2H6S
 * 73) C1=NC1O[Li] Lithiumazirinolate
 * 74) HNO3 Nitric acid
 * 75) [Li]OC1CC1
 * 76) (SDP=64) Ge +8.63, COF2, BF3, SO2, KCN
 * 77) (SDP=64, r=1) Cyclopropenylethyne, (SDP=62, r=5) C5H2 Ditetrahedrane (Pentacyclo[2.1.0.01,3.02,4.03,5]pentane)
 * 78) C1=CC12C=C2 Spiropentadiene
 * 79) Methylen[4]annulene
 * 80) (SDP=65, r=0) [Li]OCCC, FCOO, FCS, (SDP=64, r=4) C5H4 Methylene tetrahedrane (Tetracyclo[2.1.0.01,3.03,5]pentane)
 * 81) C1=CC1[CN]
 * 82) Azaspiropentadiene
 * 83) Methylenazete
 * 84) As +8.922, SiH2F2
 * 85) Cyclopropylethyne
 * 86) Methyl[4]annulene
 * 87) Cyclopentadiene
 * 88) CHF3 Fluoroform, NaOCC, NaOC=O, HClO2
 * 89) C4H5N Cyclopropenylidenemethanamine
 * 90) [4]Annulenamine
 * 91) Pyrrole
 * 92) Se +10.97, Isopren C=C(C)C=C, BeCO3, LiNO3, NF3, Cl2, GeH4
 * 93) Ethylcyclopropene
 * 94) Methylcyclobutene
 * 95) C3H4N2 Diazacyclopentadiene (NN=C Pyrazole, NC=N Imidazole), C4H4O Furan, C3H4Si Silatetrahedrane
 * 96) Bicyclo[1.1.1]pentane
 * 97) Aminomethylcyclopropene
 * 98) Phosphete P1=CC=C1
 * 99) Dihydropyrrole
 * 100) Br +9.904, Pentene, H2Se