ChEBI được phát triển và duy trì bởi Viện Tin sinh học Châu Âu (EBI) và trọng tâm chính của nó là các bản thể học hóa học, tức là các mối quan hệ cấu trúc giữa các phân tử; nó chứa hơn 15.000 NP được xác định rõ ràng. ChEMBL cũng là sản phẩm của EBI nhưng nó có trọng tâm rộng hơn và được coi là kho lưu trữ các cấu trúc phân tử đã được làm sáng tỏ bằng thực nghiệm và đặc biệt là thuốc và hóa chất giống thuốc; nó chứa hơn 1800 NP, nhưng con số này rất có thể bị đánh giá thấp do việc dán nhãn phân tử là NP không rõ ràng trong cơ sở dữ liệu này.
PubChem là một nền tảng tích hợp các phân tử nhỏ và các hoạt động sinh học là một sáng kiến của Hoa Kỳ (NIH) và là một trong những nguồn chính để phát hiện và đệ trình các phân tử sinh học. Mặc dù vậy, nó chứa hơn 3500 NP, và tương tự như ChEMBL, con số này bị đánh giá rất thấp do việc dán nhãn các hợp chất là NP không rõ ràng.
ChemSpider là một cơ sở dữ liệu hóa học cung cấp siêu dữ liệu rất phong phú, tham chiếu chéo đến nhiều nguồn hóa chất khác và tìm kiếm nâng cao. Nó được duy trì bởi Hiệp hội Hóa học Hoàng gia và chứa hơn 9700 NP dễ dàng tìm thấy.
ChemBank được phát triển bởi Viện Broad của Harvard và MIT và được dành riêng cho việc lưu trữ dữ liệu sàng lọc thô của các phân tử hữu cơ nhỏ. Rất tiếc, tài nguyên này không còn khả dụng do những khó khăn trong việc bảo trì, mặc dù tất cả dữ liệu vẫn có sẵn để tải xuống hàng loạt nhưng không tiện để tìm kiếm.
Ngoài ra còn có các cơ sở dữ liệu chỉ tập trung vào các chất chuyển hóa, các hóa chất được tạo ra bởi các sinh vật sống (nói chung, nhưng không chỉ thông qua các phản ứng do enzyme xúc tác) và có liên quan đến các quá trình chuyển hóa sơ cấp và thứ cấp. Hai cơ sở dữ liệu chính và toàn diện nhất cho các chất chuyển hóa bao trùm hầu hết các lĩnh vực của sự sống là KEGG và MetaCyc. Chúng chứa một lượng hóa chất tương đương, cũng tham gia vào quá trình trao đổi chất thứ cấp, tức là các NP, nhưng đưa ra một quan điểm khác về tổ chức dữ liệu và đã được so sánh rộng rãi trong tài liệu.
Cơ sở dữ liệu BRENDA tập trung vào các hoạt động của enzym, nhưng cũng chứa các hợp chất tham gia vào các phản ứng do enzym xúc tác, và điều này bao trùm hầu hết mọi lĩnh vực đã biết của sự sống. Điểm đặc biệt của cơ sở dữ liệu này là các hợp chất, phản ứng và hoạt động của enzyme được xác nhận thủ công trong phần chính của nó, và nguồn gốc phân loại đầy đủ cho các enzyme và hợp chất; tuy nhiên, NP và các chất chuyển hóa chính không được phân tách rõ ràng trong tài nguyên này, vì vậy rất khó để ước tính số lượng tương ứng của chúng.
Dịch vụ tra cứu cấu trúc hóa học (CSLS) đã được phát triển để tra cứu cấu trúc chất chuyển hóa rất nhanh trong bộ sưu tập tổng hợp của hơn 80 cơ sở dữ liệu bao gồm hơn 27 triệu cấu trúc độc đáo vào năm 2007. Tuy nhiên cơ sở dữ liệu này không được cập nhật nữa nhưng vẫn có thể tải xuống bộ dữ liệu, đồng thời dịch vụ tra cứu không khả dụng nên việc trích xuất các NP chỉ yêu cầu quản lý dữ liệu rộng rãi.
Cuối cùng là cơ sở dữ liệu BiGG: một nền tảng dành cho các mô hình trao đổi chất ở quy mô bộ gen được quản lý chặt chẽ. Nó chứa, như một phần của các chất chuyển hóa mô hình trao đổi chất, nhưng sự khác biệt giữa chuyển hóa sơ cấp và thứ cấp là không rõ ràng, vì vậy nó đòi hỏi rất nhiều nỗ lực để chỉ trích xuất thông tin về NP.
Nguồn: https://jcheminf.biomedcentral.com/articles/10.1186/s13321-020-00424-9
Sorokina, Maria, and Christoph Steinbeck. "Review on natural products databases: where to find data in 2020." Journal of cheminformatics 12.1 (2020): 1-51.
Người dịch: Nguyễn Thị Thúy An
Người duyệt: Nguyễn Thị Thùy Trang
» Tin mới nhất:
» Các tin khác: