<html>
  <head>
    <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
  </head>
  <body>
    <div class="moz-cite-prefix">On 2021-12-13 17:38, Yifei Qi wrote:<br>
    </div>
    <blockquote type="cite"
      cite="mid:9021F24C-A8D0-4BC4-B4FF-2D14A6F85822@fudan.edu.cn"><span
        style="font-size: 14px;" class="">Dear COD developers,</span>
      <div class=""><span style="font-size: 14px;" class="">Thank you
          all for maintaining such a great database for open access
          of crystal structures for chemicals.</span></div>
      <div class=""><span style="font-size: 14px;" class="">I am in the
          process of writing a book chapter about structure database of
          small molecules and would like to include a brief introduction
          to COD.</span></div>
      <div class=""><span style="font-size: 14px;" class="">I am
          wondering how many of the 482,202 entries in COD are also
          included in CSD (Cambridge Structural Database).</span></div>
      <div class=""><span style="font-size: 14px;" class="">If you
          happen to have that number kindly let me know as I do not have
          access to the whole CSD database.</span></div>
      <div class=""><span style="font-size: 14px;" class=""></span></div>
    </blockquote>
    <p>Unfortunately, we do not have access to the CSD either (this is
      one of the reasons why we build and use the COD :). Thus, we can
      not provide you this number.<br>
    </p>
    <p>And we should probably not consult CSD even if it were available,
      building the COD in a "cleanroom approach", to avoid any
      accusations that we have "stolen" data from the CSD. So we do not
      in principle compare our data collection against the CSD, for
      legal reasons, except possibly matching against the publicly
      available identifiers.</p>
    <p>The closest proxy of the numbers you seek can be found by
      comparing publicly available DataCite paper DOIs. The summary
      table which I made for ourselves in 2020 looks like this:</p>
    <p>
      <blockquote type="cite"><font face="monospace"># 2020-05-31
          21:04:49 EEST<br>
          168756   *Papers referenced in the CSD but not in the COD*<br>
          23556    Papers referenced in the COD but not in the CSD<br>
          153896   Papers referenced in both the COD and the CSD<br>
          457203   Structures that are in the COD<br>
          815131   Structures that are in the CSD<br>
          177452   Papers that are referenced in the COD<br>
          322652   Papers that are referenced in the CSD<br>
          147490   Common COD and CSD papers that report equal number of
          structures<br>
          2606     Common COD and CSD papers where *COD* reports less
          structures<br>
          3800     Common COD and CSD papers where *CSD* reports less
          structures</font><br>
      </blockquote>
    </p>
    <p>The recalculation for the current date is possible but would take
      some time.</p>
    <p>The number of structures in the CSD is suspiciously low, so it is
      possible that we did not spot all CSD structures.</p>
    <p>Hope this helps.</p>
    <p>Sincerely yours,<br>
      Saulius<br>
    </p>
    <pre class="moz-signature" cols="72">-- 
Dr. Saulius Gražulis
Vilnius University, Life Science Center, Institute of Biotechnology
Saulėtekio al. 7, LT-10257 Vilnius, Lietuva (Lithuania)
phone (office): (+370-5)-2234353, mobile: (+370-684)-49802, (+370-614)-36366
</pre>
  </body>
</html>