Cơ sở dữ liệu công cộng tổng quát cho các NP không chuyên về bất kỳ loại NP cụ thể nào cũng như về nguồn gốc hoặc cách sử dụng NP. Chúng thường được dự định làm danh mục cho các mục đích khác nhau, chẳng hạn như sàng lọc silico để dự đoán hoạt động, lắp ghép phân tử, v.v. Năm cơ sở dữ liệu NP công cộng tổng quát đã hoạt động trong 20 năm qua được giới thiệu.
SuperNatural II là cơ sở dữ liệu chứa hơn 300.000 NP cùng với cấu trúc 2D của chúng, các đặc tính hóa lý được tính toán và độc tính dự đoán. Cơ sở dữ liệu được duy trì nhưng có lẽ không được cập nhật nữa. Hơn nữa, SuperNatural không cung cấp tải xuống hàng loạt, ngay cả khi có thể tải xuống các tệp MOL riêng biệt cho các phân tử và nó không chỉ chứa các NP (ví dụ: nó chứa dodecahedrane, được xác định trong cơ sở dữ liệu này theo SN00136231 và nó không phải là NP), vì vậy tài nguyên này cần được sử dụng một cách thận trọng mặc dù nó nổi tiếng rộng rãi trong cộng đồng khoa học.
The Universal Natural Products Database (UNPD) là một nỗ lực để tổng hợp tất cả các NP đã biết trong một bộ sưu tập để sàng lọc thuốc silico. Phiên bản có thể truy cập cuối cùng của UNPD chứa hơn 200.000 cấu trúc NP. Cơ sở dữ liệu không thể truy cập được nữa thông qua liên kết được cung cấp trong ấn phẩm gốc, nhưng một bản sao cấu trúc phân tử có trong nó vẫn được duy trì trên trang web ISDB (cơ sở dữ liệu cho phổ MS/MS dự đoán bằng silico cho các NP).
ZINC là bộ công cụ và cơ sở dữ liệu truy cập công cộng ban đầu được phát triển để cho phép dễ dàng truy cập các hợp chất hóa học cho mục đích sàng lọc ảo và đã từng được sử dụng rộng rãi cho nhiều ứng dụng hóa học. Nó có sự phân tách rất rõ ràng các phân tử trong danh mục, đặc biệt là về nguồn gốc của chúng và chứa một bộ sưu tập hơn 85.000 NP có thể tìm kiếm và truy xuất dễ dàng.
The Natural Product Activity and Species Source Database (NPASS) chứa hơn 30.000 NP từ thực vật, vi khuẩn, nấm và động vật và được phát triển và duy trì tại Đại học Quốc gia Singapore. Cơ sở dữ liệu này được tạo ra để cung cấp một nguồn đáng tin cậy cho các NP được tuyển chọn kỹ càng với các cấu trúc, giá trị hoạt động thử nghiệm và các sinh vật tổng hợp chúng.
RIKEN Natural Products Encyclopedia (NPEdia) chứa hơn 25.000 chất chuyển hóa thứ cấp được phân lập từ các loài khác nhau và được chú thích bằng siêu dữ liệu phong phú, chẳng hạn như nguồn gốc phân tử và các đặc tính hóa lý và sinh học. Cơ sở dữ liệu vẫn có sẵn trực tuyến nhưng không được cập nhật kể từ năm 2014.
3DMET là cơ sở dữ liệu được tạo ra vào năm 2005 tại Viện Khoa học Nông nghiệp Quốc gia Nhật Bản và vẫn được duy trì và cập nhật cho đến nay. Ý tưởng về một cơ sở dữ liệu như vậy xuất hiện trong quá trình chuyển đổi từ cấu trúc NP 2D sang 3D và các lỗi xảy ra trong quá trình đó cần được quản lý thủ công. Hiện tại, cơ sở dữ liệu chứa hơn 18.000 mục nhập, được tham chiếu chéo đến cơ sở dữ liệu KEGG, nhưng thật không may, không thể tải xuống các cấu trúc.
The Chinese Natural Products Database (CNPD) là một cơ sở dữ liệu tổng quát do các nhà nghiên cứu Trung Quốc tạo ra để tạo điều kiện sàng lọc ảo các NP cho mục đích khám phá thuốc. Cơ sở dữ liệu này được đề cập trong hơn 120 bài báo cho đến năm 2010 nhưng không thể bản địa hóa, vì không có URL được cung cấp trong ấn bản gốc của cơ sở dữ liệu và tập dữ liệu không được thêm vào làm thông tin bổ sung cho nó. Do đó, có lẽ không chính xác khi trích dẫn cơ sở dữ liệu này làm nguồn dữ liệu cho NP, vì các nguồn duy nhất có thể được tìm thấy (từ NeoTrident Technology Ltd) chỉ bằng tiếng Trung Quốc.
Một điểm trừ lớn là trong cơ sở dữ liệu ZINC, SuperNatural II và UNPD, không thể xác định được ba cơ sở dữ liệu lớn nhất về số lượng NP, nguồn gốc phân loại cũng như địa lý của sinh vật tạo ra hợp chất và nói chung chúng thiếu siêu dữ liệu và tài liệu.
Nguồn: https://jcheminf.biomedcentral.com/articles/10.1186/s13321-020-00424-9
Sorokina, Maria, and Christoph Steinbeck. "Review on natural products databases: where to find
data in 2020." Journal of cheminformatics 12.1 (2020): 1-51.
Người dịch: Nguyễn Thị Thúy An
Người duyệt: Nguyễn Thị Thùy Trang
» Tin mới nhất:
» Các tin khác: