-
Notifications
You must be signed in to change notification settings - Fork 1
struktury wstep
filips edited this page Nov 9, 2015
·
8 revisions
Subiektywna lista najpopularniejszych formatów zapisu struktur chemicznych.
format | opis |
---|---|
.smi, .smiles |
SMILES - liniowy format zapisu struktur chemicznych. Zawiera informację o sposobie połączenia poszczególnych atomów, ale nie mówi nic o tym, jak atomy są połączone w przestrzeni. Np: CC1=CC=CC=C1 - toluen |
.inchi |
InChI - IUPAC International Chemical Identifier. Liniowy sposób zapisu struktury chemicznej. Np: InChI=1S/C7H8/c1-7-5-3-2-4-6-7/h2-6H,1H3 - toluen |
.sln | SYBYL Line Notation (SLN). Based on SMILES, it incorporates a complete syntax for specifying relative stereochemistry. Np C[1]H:CH:CH:CH:CH:CH:@1 - benzen. |
Inne:
format | opis |
---|---|
InChIKey | InChIKey - 25 znakowy ~unikalny identyfikator związku; używany w zastosowaniach bazodanowych. Np: InChIKey=YXFVVABEGXRONW-UHFFFAOYSA-N (toluen) |
Mogą zawierać informacje o przestrzennym (2D, 3D) umiejscowieniu atomów w strukturze. Niektóre formaty mogą także przechowywać metadane (np informacje o właściwościach związku itp).
format | opis |
---|---|
.mol | Popularny format do zapisu małych molekuł. Podobny do sdf. Bez informacji o ładunkach cząstkowych i metadanych przykład: toluen |
.sdf .sd | Rozszerzenie formatu .mol. Chyba najpopularniejszy format zapisu struktur, zwłaszcza w zastosowaniach bazodanowych (itp). Nie zawiera informacji o ładunkach cząstkowych! przykład: toluen, przykład: toluen + metadane |
.mol2 | Często używany w "modelowaniu" (np dokowanie molekularne). Używany do zapisu zarówno małocząsteczkowych struktur jak i np białek. Może zawierać informacje o ładunkach cząstkowych. np: toluen |
.pdb | The Protein Data Bank File Format. Służy głównie do przechowywania informacji o strukturach białkowych (to domyślny format dla tych struktur). Stworzony w latach 70-tych, ma szereg wad i niekompatybilności, ale jak na razie niczego lepszego nie wymyślono/nie wprowadzono w życie. np: toluen |
.xyz | Prosty format zapisu struktur chemicznych, używany głównie w zastosowaniach hardkorowego modelowania (obliczenia kwantowe itp). przykład: toluen |
.cml, .mrv | Chemical Markup Language oparty na XMLu; chyba coraz bardziej popularny |
Opis tych i innych formatów plików chemicznych znaleźć można na stronie openbabel
- Raczej nie używać formatów PDB, XYZ dla małych molekuł bo gubimy część informacji o strukturze
- InChi - może zawierać niepełną informację o strukturze (konieczne pole AuxInfo)
- SMILES, mol, sdf - OK, szeroko rozpoznawalny
- format SMILES nie jest unikalny - tj jedna struktura chemiczna może być zapisana na wiele różnych sposobów
- mimo to wszystkie te zapisy kodują tą samą strukturę
- format Canonical SMILES powinien być jednoznaczny.
- Uwaga na chiralność!
- a - ok
- b - nie wiadomo
- c - przeciwnie niż a
- należy raczej używać formy "Kekulizowanej" gdyż niektóre programy mogą mieć problem przy wczytywaniu struktury "aromatycznej"
- czasem warto znormalizować struktury (ręcznie lub automatycznie)
- należy zadbać o taką samą jonizację struktur w obrębie baz danych
- wszystkie neutralne łatwe
- wszystkie zjonizowane w ustalonym pH (np fizjologicznym 7.4) trudne
- Więcej porad w języku angielskim tutaj.
Computer Aided Drug Design @ Politechnika Warszawska, Filip Stefaniak