<html xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<meta name="Generator" content="Microsoft Word 15 (filtered medium)">
<style><!--
/* Font Definitions */
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
@font-face
        {font-family:"Apple Color Emoji";
        panose-1:0 0 0 0 0 0 0 0 0 0;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0cm;
        font-size:10.0pt;
        font-family:"Calibri",sans-serif;}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
span.EmailStyle18
        {mso-style-type:personal-reply;
        font-family:"Calibri",sans-serif;
        color:windowtext;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-size:10.0pt;}
@page WordSection1
        {size:612.0pt 792.0pt;
        margin:72.0pt 72.0pt 72.0pt 72.0pt;}
div.WordSection1
        {page:WordSection1;}
--></style>
</head>
<body lang="en-CH" link="blue" vlink="purple" style="word-wrap:break-word">
<div class="WordSection1">
<p class="MsoNormal"><span lang="EN-US" style="font-size:11.0pt;mso-fareast-language:EN-US">Sveiki,<br>
<br>
A</span><span lang="LT" style="font-size:11.0pt;mso-fareast-language:EN-US">čiū už išsamų atsakymą. Lauksiu žinių dėl naujos publikacijos
</span><span lang="LT" style="font-size:11.0pt;font-family:"Apple Color Emoji";mso-fareast-language:EN-US">😊</span><span lang="LT" style="font-size:11.0pt;mso-fareast-language:EN-US"><br>
<br>
Iki greito,<br>
Vladas<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;mso-fareast-language:EN-US"><o:p> </o:p></span></p>
<div style="border:none;border-top:solid #B5C4DF 1.0pt;padding:3.0pt 0cm 0cm 0cm">
<p class="MsoNormal" style="margin-bottom:12.0pt"><b><span style="font-size:12.0pt;color:black">From:
</span></b><span style="font-size:12.0pt;color:black">Antanas Vaitkus <antanas.vaitkus90@gmail.com><br>
<b>Date: </b>Tuesday, 15 November 2022 at 15:12<br>
<b>To: </b>Vladas Oleinikovas <voleinikovas@monterosatx.com><br>
<b>Cc: </b>cod-bugs@ibt.lt <cod-bugs@ibt.lt><br>
<b>Subject: </b>Re: [Cod-bugs] Number of entries in smiles.txt do not match cif entries.<o:p></o:p></span></p>
</div>
<div>
<div>
<p class="MsoNormal" style="margin-bottom:12.0pt"><span style="font-size:11.0pt">Dear Vladas,<o:p></o:p></span></p>
</div>
<div>
<div>
<p class="MsoNormal"><span style="font-size:11.0pt">On Tue, 15 Nov 2022 at 15:32, Vladas Oleinikovas <<a href="mailto:voleinikovas@monterosatx.com" target="_blank">voleinikovas@monterosatx.com</a>> wrote:<o:p></o:p></span></p>
</div>
<blockquote style="border:none;border-left:solid #CCCCCC 1.0pt;padding:0cm 0cm 0cm 6.0pt;margin-left:4.8pt;margin-right:0cm">
<div>
<div>
<div>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><span style="font-size:11.0pt">Hi!<br>
<br>
Firstly, thanks for an amazing repo and great documentation</span><span lang="EN-US" style="font-size:11.0pt">!</span><span style="font-size:11.0pt"><o:p></o:p></span></p>
</div>
</div>
</div>
</blockquote>
<div>
<p class="MsoNormal"><span style="font-size:11.0pt"><o:p> </o:p></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:11.0pt">It is good to hear that you find the COD useful. <o:p></o:p></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:11.0pt"><o:p> </o:p></span></p>
</div>
<blockquote style="border:none;border-left:solid #CCCCCC 1.0pt;padding:0cm 0cm 0cm 6.0pt;margin-left:4.8pt;margin-right:0cm">
<div>
<div>
<div>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><span lang="EN-US" style="font-size:11.0pt">I have recently downloaded COD using command:<br>
>wget <a href="http://www.crystallography.net/archives/cod-cifs-mysql.zip" target="_blank">
http://www.crystallography.net/archives/cod-cifs-mysql.zip</a></span><span style="font-size:11.0pt"><br>
</span><span lang="EN-US" style="font-size:11.0pt">After unzipping I found cif and mysql directories – as expected.<br>
<br>
Looking at files in mysql entries I caught interest of smiles.txt file. This looks very useful for searching the molecules of interest, especially the organic ones, that I am interested. I assume this relates to this paper (<a href="https://jcheminf.biomedcentral.com/articles/10.1186/s13321-018-0279-6" target="_blank">https://jcheminf.biomedcentral.com/articles/10.1186/s13321-018-0279-6</a>),
 is that correct?</span><span style="font-size:11.0pt"><o:p></o:p></span></p>
</div>
</div>
</div>
</blockquote>
<div>
<p class="MsoNormal"><span style="font-size:11.0pt"><o:p> </o:p></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:11.0pt">Yes, the paper describes the overall workflow used to create the SMILES strings as well as the conventions employed to represent various compounds which do not fit well in the bond valence model that the SMILES
 format is based on.<o:p></o:p></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:11.0pt"> <o:p></o:p></span></p>
</div>
<blockquote style="border:none;border-left:solid #CCCCCC 1.0pt;padding:0cm 0cm 0cm 6.0pt;margin-left:4.8pt;margin-right:0cm">
<div>
<div>
<div>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><span lang="EN-US" style="font-size:11.0pt">Counting entries in this file, however, I find the number of entries significantly smaller than the reported number of entries on the
 title page (“</span><span style="font-size:11.0pt">Currently there are 494800 entries in the COD</span><span lang="EN-US" style="font-size:11.0pt">”):<br>
~/COD/mysql:> wc -l smiles.txt </span><span style="font-size:11.0pt"><o:p></o:p></span></p>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><span lang="EN-US" style="font-size:11.0pt">> 219646 smiles.txt<br>
<br>
Is this because the file is not being updated, or does that exclude entries that were unable to be converted into SMILES?</span><span style="font-size:11.0pt"><o:p></o:p></span></p>
</div>
</div>
</div>
</blockquote>
<div>
<p class="MsoNormal" style="margin-bottom:12.0pt"><span style="font-size:11.0pt"><br>
Since the COD SMILES strings are generated semi-manually by one of our volunteer chemists (for more details see the paper you cited earlier), the overall process is quite slow. The SMILES dataset is still routinely updated and hopefully will eventually cover
 a more significant part of the COD.<o:p></o:p></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:11.0pt">We are also working on a more automated approach for deriving chemical descriptions from crystallographic data (CIF -> SMILES, SDF, DWAR, etc.) which will provide an alternative way of searching for chemical
 compounds in the COD. The manuscript is still in preparation, but I can send you a link to the paper once it is in the published if you are interested.<o:p></o:p></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:11.0pt"> <o:p></o:p></span></p>
</div>
<blockquote style="border:none;border-left:solid #CCCCCC 1.0pt;padding:0cm 0cm 0cm 6.0pt;margin-left:4.8pt;margin-right:0cm">
<div>
<div>
<div>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><span lang="EN-US" style="font-size:11.0pt">Many thanks for your reply!</span><span style="font-size:11.0pt"><o:p></o:p></span></p>
</div>
</div>
</div>
</blockquote>
<div>
<p class="MsoNormal"><span style="font-size:11.0pt"><o:p> </o:p></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:11.0pt">Hopefully this answers your question. Please let me know if you have any further questions or comments.
<o:p></o:p></span></p>
</div>
<blockquote style="border:none;border-left:solid #CCCCCC 1.0pt;padding:0cm 0cm 0cm 6.0pt;margin-left:4.8pt;margin-right:0cm">
<div>
<div>
<div>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><span lang="EN-US" style="font-size:11.0pt"><br>
Best wishes,<br>
Vladas<br>
<br>
P.S. Feel free to answer in Lithuanian, if preferred </span><span lang="EN-US" style="font-size:11.0pt;font-family:"Apple Color Emoji"">😊</span><span style="font-size:11.0pt"><o:p></o:p></span></p>
</div>
</div>
</div>
</blockquote>
<div>
<p class="MsoNormal"><span style="font-size:11.0pt"><o:p> </o:p></span></p>
</div>
<div>
<p class="MsoNormal" style="margin-bottom:12.0pt"><span style="font-size:11.0pt">I do prefer Lithuanian, but decided to reply in English in case I need to answer the same question to a non-Lithuanian speakers in the future.<o:p></o:p></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:11.0pt">Sincerely,<o:p></o:p></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:11.0pt">Antanas Vaitkus<o:p></o:p></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:11.0pt"><o:p> </o:p></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:11.0pt">The mailing list <o:p></o:p></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:11.0pt"> <o:p></o:p></span></p>
</div>
<blockquote style="border:none;border-left:solid #CCCCCC 1.0pt;padding:0cm 0cm 0cm 6.0pt;margin-left:4.8pt;margin-right:0cm">
<div>
<div>
<p class="MsoNormal"><span style="font-size:11.0pt"><br>
-- <br>
This message has been scanned for viruses and <br>
dangerous content by <a href="http://www.mailscanner.info/" target="_blank">
<b>MailScanner</b></a>, and is <br>
believed to be clean. <o:p></o:p></span></p>
</div>
<p class="MsoNormal"><span style="font-size:11.0pt">_______________________________________________<br>
Cod-bugs mailing list<br>
<a href="mailto:Cod-bugs@lists.crystallography.net" target="_blank">Cod-bugs@lists.crystallography.net</a><br>
<a href="http://lists.crystallography.net/cgi-bin/mailman/listinfo/cod-bugs" target="_blank">http://lists.crystallography.net/cgi-bin/mailman/listinfo/cod-bugs</a><o:p></o:p></span></p>
</div>
</blockquote>
</div>
<p class="MsoNormal"><span style="font-size:11.0pt"><br clear="all">
<br>
-- <o:p></o:p></span></p>
<div>
<div>
<div>
<div>
<p class="MsoNormal"><span style="font-size:11.0pt">Antanas Vaitkus,<o:p></o:p></span></p>
</div>
<p class="MsoNormal"><span style="font-size:11.0pt">Vilnius University,<br>
Life Sciences Center,<br>
Institute of Biotechnology,<br>
room C521, Saulėtekio al. 7,<br>
LT-10257 Vilnius, Lithuania<o:p></o:p></span></p>
</div>
<div>
<div>
<div>
<div>
<div>
<div>
<div>
<div>
<div>
<p class="MsoNormal" style="margin-bottom:12.0pt"><span style="font-size:11.0pt"><o:p> </o:p></span></p>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
<br />-- 
<br />This message has been scanned for viruses and
<br />dangerous content by
<a href="http://www.mailscanner.info/"><b>MailScanner</b></a>, and is
<br />believed to be clean.
</body>
</html>