<div dir="ltr"><div dir="ltr">Dear Vladas,<br><br></div><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Tue, 15 Nov 2022 at 15:32, Vladas Oleinikovas <<a href="mailto:voleinikovas@monterosatx.com" target="_blank">voleinikovas@monterosatx.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div>





<div lang="en-CH">
<div>
<p class="MsoNormal">Hi!<br>
<br>
Firstly, thanks for an amazing repo and great documentation<span lang="EN-US">!</span></p></div></div></div></blockquote><div><br></div><div>It is good to hear that you find the COD useful. </div><div><br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div><div lang="en-CH"><div><p class="MsoNormal">
<span lang="EN-US">I have recently downloaded COD using command:<br>
>wget <a href="http://www.crystallography.net/archives/cod-cifs-mysql.zip" target="_blank">http://www.crystallography.net/archives/cod-cifs-mysql.zip</a></span><br>
<span lang="EN-US">After unzipping I found cif and mysql directories – as expected.<br>
<br>
Looking at files in mysql entries I caught interest of smiles.txt file. This looks very useful for searching the molecules of interest, especially the organic ones, that I am interested. I assume this relates to this paper (<a href="https://jcheminf.biomedcentral.com/articles/10.1186/s13321-018-0279-6" target="_blank">https://jcheminf.biomedcentral.com/articles/10.1186/s13321-018-0279-6</a>),
 is that correct?<br></span></p></div></div></div></blockquote><div><br></div><div>Yes, the paper describes the overall workflow used to create the SMILES strings as well as the conventions employed to represent various compounds which do not fit well in the bond valence model that the SMILES format is based on.<br></div><div> <br><span lang="EN-US"></span></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div><div lang="en-CH"><div><p class="MsoNormal"><span lang="EN-US">
Counting entries in this file, however, I find the number of entries significantly smaller than the reported number of entries on the title page (“</span>Currently there are 494800 entries in the COD<span lang="EN-US">”):<br>
~/COD/mysql:> wc -l smiles.txt <u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US">> 219646 smiles.txt<br>
<br>
Is this because the file is not being updated, or does that exclude entries that were unable to be converted into SMILES?<br></span></p></div></div></div></blockquote><div><br>Since the COD SMILES strings are generated semi-manually by one of our volunteer chemists (for more details see the paper you cited earlier), the overall process is quite slow. The SMILES dataset is still routinely updated and hopefully will eventually cover a more significant part of the COD.<br><br></div><div>We are also working on a more automated approach for deriving chemical descriptions from crystallographic data (CIF -> SMILES, SDF, DWAR, etc.) which will provide an alternative way of searching for chemical compounds in the COD. The manuscript is still in preparation, but I can send you a link to the paper once it is in the published if you are interested.<br></div><div> <br><span lang="EN-US"></span></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div><div lang="en-CH"><div><p class="MsoNormal"><span lang="EN-US">
Many thanks for your reply!<br></span></p></div></div></div></blockquote><div><br></div><div>Hopefully this answers your question. Please let me know if you have any further questions or comments. <br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div><div lang="en-CH"><div><p class="MsoNormal"><span lang="EN-US">
<br>
Best wishes,<br>
Vladas<br>
<br>
P.S. Feel free to answer in Lithuanian, if preferred </span><span style="font-family:"Apple Color Emoji"" lang="EN-US">😊</span></p></div></div></div></blockquote><div><br></div><div>I do prefer Lithuanian, but decided to reply in English in case I need to answer the same question to a non-Lithuanian speakers in the future.<br><br></div><div>Sincerely,<br></div><div>Antanas Vaitkus<br></div><div><br></div><div>The mailing list <br></div><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div><div lang="en-CH"><div><p class="MsoNormal"><span style="font-family:"Apple Color Emoji"" lang="EN-US"></span><u></u><u></u></p>
</div>
<br>-- 
<br>This message has been scanned for viruses and
<br>dangerous content by
<a href="http://www.mailscanner.info/" target="_blank"><b>MailScanner</b></a>, and is
<br>believed to be clean.
</div>

_______________________________________________<br>
Cod-bugs mailing list<br>
<a href="mailto:Cod-bugs@lists.crystallography.net" target="_blank">Cod-bugs@lists.crystallography.net</a><br>
<a href="http://lists.crystallography.net/cgi-bin/mailman/listinfo/cod-bugs" rel="noreferrer" target="_blank">http://lists.crystallography.net/cgi-bin/mailman/listinfo/cod-bugs</a><br>
</div></blockquote></div><br clear="all"><br>-- <br><div dir="ltr"><div dir="ltr"><div><div>Antanas Vaitkus,<br></div>Vilnius University,<br>Life Sciences Center,<br>Institute of Biotechnology,<br><span><span><span>room C521, </span></span></span>Saulėtekio al. 7,<br>LT-10257 Vilnius, Lithuania<br></div><div><div><div><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><br><br></div></div></div></div></div></div></div></div></div></div></div></div>
<br />-- 
<br />This message has been scanned for viruses and
<br />dangerous content by
<a href="http://www.mailscanner.info/"><b>MailScanner</b></a>, and is
<br />believed to be clean.