Dereplication là một bước quan trọng trong khám phá hợp chất tự nhiên (NP) thử nghiệm vì nó ngăn chặn sự tái phân lập và tái đặc trưng hóa các phân tử đã biết. Nó bao gồm một tra cứu trong cơ sở dữ liệu với dữ liệu thực nghiệm được chú thích (chủ yếu là phổ khối lượng (MS) và phổ Cộng hưởng từ hạt nhân (NMR)) để so sánh với dữ liệu thực nghiệm mới thu được và dữ liệu của nó trong trường hợp nhận dạng phổ được tìm thấy. Có hai loại cơ sở dữ liệu lớn được sử dụng để hủy sao chép dựa trên loại phổ mà chúng chứa, MS và NMR.
Cơ sở dữ liệu để sao chép dữ liệu MS: Có ba cơ sở dữ liệu riêng biệt được gọi là “MassBank”: MassBank của Bắc Mỹ (MoNa), MassBank Châu Âu và MassBank MSSJ của Nhật Bản. Cả ba cơ sỡ dữ liệu chứa phổ MS tham chiếu cho các chất chuyển hóa và siêu dữ liệu mở rộng. MoNa có xu hướng được cộng đồng khoa học ưa chuộng vì nó tích hợp dữ liệu từ nhiều nguồn hơn hai nguồn khác, chứa siêu dữ liệu phong phú và do cộng đồng quản lý, đồng thời tạo điều kiện thuận lợi cho việc gửi các bộ dữ liệu mới.
METLINE là cơ sở dữ liệu cho phép mô tả đặc tính của các chất chuyển hóa đã biết và là nền tảng công nghệ để nhận dạng các chất chuyển hóa đã biết và chưa biết cũng như các thực thể hóa học khác. Nó là một nguồn tài nguyên toàn diện chứa hơn 1 triệu phân tử bao gồm các chất chuyển hóa chính, độc tố, peptide nhỏ và NP. Cơ sở dữ liệu khối phổ song song (MS/MS) có độ phân giải cao của METLIN, đóng vai trò chính trong quy trình nhận dạng, có dữ liệu được tạo từ cả hai tiêu chuẩn tham chiếu và các chất tương tự đồng vị ổn định được dán nhãn của chúng, được hỗ trợ bởi quá trình phân tích các vi sinh vật được dán nhãn đồng vị dưới sự hướng dẫn của METLIN. Tuy nhiên, nó không cho phép tải xuống dữ liệu dễ dàng nhưng quyền truy cập vào nền tảng này là miễn phí cho mục đích học tập.
Cơ sở dữ liệu bộ chuyển hóa của con người (HMDB) là một cơ sở dữ liệu chuyển hóa chứa thông tin toàn diện về các chất chuyển hóa của con người với siêu dữ liệu rất rộng và phổ tham chiếu. Nó chứa các NP do con người tạo ra cùng với các NP cần thiết cho chức năng của cơ thể con người. Tuy nhiên, như trường hợp của rất nhiều cơ sở dữ liệu được mô tả trước đây, việc phân tách giữa các NP và các chất chuyển hóa chính là rất khó. Từ cùng một tổ chức, Cơ sở dữ liệu chuyển hóa nấm men (YMDB), được tạo ra với cùng một mẫu với HMDB, và do đó cũng chứa siêu dữ liệu rất phong phú cho các chất chuyển hóa men của thợ làm bánh, các enzym tham gia vào quá trình chuyển hóa phân tử và quang phổ tham chiếu. Một lần nữa, việc phân tách giữa NP và các chất chuyển hóa chính là khó khăn, bộ dữ liệu này cũng không được đưa vào phân tích sâu hơn.
Cơ sở dữ liệu phổ RIKEN MSn cho hóa chất thực vật (ReSpect) là một bộ sưu tập phổ NP thực vật MS. Trang web vẫn được duy trì và có thể sử dụng được nhưng tập dữ liệu cuối cùng đã được thêm vào năm 2013.
Mạng phân tử xã hội các sản phẩm tự nhiên toàn cầu (GNPS) là một cơ sở tri thức dựa trên web chứa phổ MS chỉ dành cho các NP và được dự định là cơ sở cho tổ chức và chia sẻ dữ liệu thô, đã xử lý hoặc đã xác định trên toàn cộng đồng. Ngoài việc cung cấp quyền truy cập vào quang phổ, cũng có thể chỉ tải xuống cấu trúc của các NP từ cơ sở dữ liệu này.
Cơ sở dữ liệu để hủy sao chép dữ liệu NMR - NMRshiftDB: một cơ sở dữ liệu mở và được bình duyệt cho các cấu trúc phân tử hữu cơ và quang phổ NMR của chúng. Nó chứa một số lượng lớn phổ NP dễ nhận biết, khiến nó trở thành công cụ tham chiếu cho các ứng dụng sao chép NP.
NMRdata là một sáng kiến của Trung Quốc để lưu trữ và làm sáng tỏ các cấu trúc NP từ dữ liệu NMR. Thật không may, trang web chính bằng tiếng Trung và phiên bản tiếng Anh bị hạn chế. Để truy cập dữ liệu, người ta cần có tài khoản tại một trường đại học tham gia dự án NMRdata. Tại thời điểm viết bản thảo này, NMRdata chứa 1.167.468 quang phổ, về mặt lý thuyết khiến nó trở thành nguồn dữ liệu NMR lớn nhất trên thế giới nhưng nó ít được sử dụng do rào cản ngôn ngữ.
NAPROC-13 là cơ sở dữ liệu chứa thông tin quang phổ 13C của hơn 6000 hợp chất tự nhiên. Tất cả dữ liệu đều có thể truy cập và tìm kiếm trực tuyến, tuy nhiên, không thể tải xuống các cấu trúc tiếp theo.
Cơ sở dữ liệu Spektraris NMR là tập hợp các phổ NMR đang tập trung vào các NP thực vật. Hơn 400 phổ từ hơn 200 hợp chất trong cơ sở dữ liệu này được sao chép thủ công từ tài liệu. Quang phổ từ cơ sở dữ liệu này cũng được gửi tới NMRshiftDB để tận dụng lợi thế của các khía cạnh công nghệ tiên tiến sau này.
Nguồn: https://jcheminf.biomedcentral.com/articles/10.1186/s13321-020-00424-9
Sorokina, Maria, and Christoph Steinbeck. "Review on natural products databases: where to find data in 2020." Journal of cheminformatics 12.1 (2020): 1-51.
Người dịch: Nguyễn Thị Thúy An
Người duyệt: Nguyễn Thị Thùy Trang
» Tin mới nhất:
» Các tin khác: