Các bạn có thể xem đầy đủ các phần tại đây nhé
Nếu các bạn chưa đọc bài trước có thể đọc tại link này Tăng tốc database index phần 4 – Index chậm
Trong những phần trước mình đã mô tả về cách index hoạt động và nguyên nhân làm index chậm, trong các phần sau mình sẽ mô tả cách phát hiện mà tránh những vấn đề này, bắt đầu với WHERE.
Lệnh WHERE xác định điều kiện tìm kiếm của một câu lệnh SQL vì vậy việc sử dụng index với where rất quan trọng quyết định tốc độ truy vấn dữ liệu. Mặc dù WHERE là một lệnh ảnh hưởng siêu to khổng lồ tới hiệu năng nhưng nó lại thường không được hiểu đúng, dẫn tới database phải quét qua rất nhiều index. Một lệnh truy vấn chậm thường có nguyên nhân đầu tiên là một lệnh WHERE viết cùi.
Phần lệnh WHERE này mình sẽ trình bày các điều kiện các toán tử cũng như cách nó ảnh hưởng tới index trong điều kiện where và cách sử dụng index để có thể đáp ứng được nhiều câu truy vấn nhất.
Toán tử đầu tiên cần quan tâm là toán tử bằng (=). Toán tử này là toán tử cơ bản nhất và được sử dụng nhiều nhất trong SQL. Các lỗi index rất hay gặp phải với toán tử này đặc biệt là khi điều kiện where chứa nhiều điều kiện ví dụ WHERE A=B AND C=D …
Phần này mình sẽ mô tả cách dùng index, và đặc biệt mô tả cách tối ưu index khi truy vấn với điều kiện where kết hợp nhiều toán tử bằng.
Trước hết sẽ là truy vấn toán tử bằng trên khóa chính (Primary Key)
ví dụ có một bảng nhân viên như sau
CREATE TABLE employees (
employee_id NUMBER NOT NULL,
first_name VARCHAR2(1000) NOT NULL,
last_name VARCHAR2(1000) NOT NULL,
date_of_birth DATE NOT NULL,
phone_number VARCHAR2(1000) NOT NULL,
CONSTRAINT employees_pk PRIMARY KEY (employee_id)
)
Database sẽ tự tạo index trên khóa chính (employee_id) dù bạn có dùng lệnh tạo hay không tạo đi nữa. Giả sử bạn muốn lấy họ tên nhân viên có ID là 123, ta sẽ dùng câu lệnh sau
SELECT first_name, last_name
FROM employees
WHERE employee_id = 123
Lệnh này chỉ trả về một bản ghi duy nhất, do khóa chính bắt buộc phải là duy nhất, bạn nào k rõ có thể xem tại đây. Trong trường hợp này database không cần duyệt qua các leaf node chỉ cần duyệt tree là đã OK rồi. Dưới đây là mô tả execution plan của một bài loại DB phổ biến với câu lệnh trên để xác nhận mình không chém gió.
MYSQL
+----+-----------+-------+---------+---------+------+-------+
| id | table | type | key | key_len | rows | Extra |
+----+-----------+-------+---------+---------+------+-------+
| 1 | employees | const | PRIMARY | 5 | 1 | |
+----+-----------+-------+---------+---------+------+-------+
loại const trong MYSQL tương ứng với INDEX UNIQUE SCAN trong Oracle
---------------------------------------------------------------
|Id |Operation | Name | Rows | Cost |
---------------------------------------------------------------
| 0 |SELECT STATEMENT | | 1 | 2 |
| 1 | TABLE ACCESS BY INDEX ROWID| EMPLOYEES | 1 | 2 |
|*2 | INDEX UNIQUE SCAN | EMPLOYEES_PK | 1 | 1 |
---------------------------------------------------------------
Predicate Information (identified by operation id):
---------------------------------------------------
2 - access("EMPLOYEE_ID"=123)
Với SQL Server thì có khác môt chút
|--Nested Loops(Inner Join)
|--Index Seek(OBJECT:employees_pk,
| SEEK:employees.employee_id=@1
| ORDERED FORWARD)
|--RID Lookup(OBJECT:employees,
SEEK:Bmk1000=Bmk1000
LOOKUP ORDERED FORWARD)
SQL Server sử dùng Index Seek tương ứng với INDEX RANGE SCAN và RID Lookup tương ứng với TABLE ACCESS BY ROWID trong Oracle. Khác với Oracle SQL Server dùng Nested Loops join (chi tiết các loại join sẽ có trong các bài sau) giữa index và table data để lấy dữ liệu.
Trong phần trên ta thấy Oracle dùng INDEX UNIQUE SCAN, với phương pháp này chỉ cần duyệt tree là lấy được dữ liệu, nó sẽ chạy rất nhanh không phụ thuộc vào độ lớn của bảng như được mô tả trong phần B-TRee
Sau khi lấy được cục index thích hợp, data base cần 1 bước nữa là lấy dữ liệu trong bảng (Trường first_name và last_name) đó là bước TABLE ACCESS BY ROWID bước này có thể là nguyên nhân gây chậm như được mô tả trong bài Index Chậm. Nhưng vì chỉ có một kết quả trả về duy nhất, nên bước này cũng chỉ phải chọc vào dữ liệu của bảng một lần duy nhất nên cũng không bị chậm. Vì vây các vấn đề gây nên việc truy vấn chậm ở phần trước ( Duyệt qua leaf node, lấy dữ liệu trong bảng) không hề xảy ra với kiểu truy vấn theo khóa chính này, nên cách truy vấn bằng theo khóa chính không gây chậm.
Vậy ít ra đã biết rằng dù dữ liệu to nhỏ mặc lòng khi cần tìm kiếm theo Primary Key thì cứ vô tư đi, không thể nào chậm được. Vậy những trường hợp nào chậm nhỉ? Từ từ mình sẽ trình bày sau, serries này còn rất rất dài, các bạn chờ xem nhé!
Link phần sau Tăng tốc database index phần 6 -Index kết hợp
Bài viết liên quan
[CSF-2] Một số thiết lập CSF, LFD
Hôm nay mình sẽ thực hiện một số thiết lập trên CSF Mở file config để sửa đổi một số tính năng dưới /etc/csf/csf.conf 1. Bảo vệ khỏi tấn công DoS bằng giới hạn số...
[CSF-1] Tăng bảo mật Server với ConfigServer Firewall (CSF)
1. Khái niệm CSF: CSF (ConfigServer & Firewall) là một bộ ứng dụng hoạt động trên Linux như một firewall được phát hành miễn phí để tăng tính bảo mật cho server (VPS & Dedicated)....
Sử dụng SSH Key với Gitlab và Github
Bài viết này mình sẽ hướng dẫn các bạn tạo ssh key cho Gitlab và Github SSH là gì? Secure Socket Shell là một giao thức mạng dùng để thiết lập kết nối mạng một...
Directory traversal vulnerabilities (phần 4)
V. Phân tích và khai thác các lỗ hổng Directory traversal (tiếp) 5. Bypass lỗ hổng khi trang web sử dụng đường dẫn đầy đủ Xét đoạn code php sau: <?php if (isset($_GET['file'])) { $file...
Directory traversal vulnerabilities (phần 3)
V. Phân tích và khai thác các lỗ hổng Directory traversal 1. Lỗ hổng xảy ra khi sử dụng các hàm đọc file và tin tưởng đầu vào người dùng Xét đoạn code php sau:...
Directory traversal vulnerabilities (phần 2)
III. Vì sao lỗ hổng Directory traversal xuất hiện? Với mỗi ngôn ngữ lập trình khác nhau, điểm xuất hiện các lỗ hổng Directory traversal cũng khác nhau. Lỗ hổng thường xuất hiện khi chương...