Regex được biết đến là tập hợp các mẫu có khả năng thay thế cho chuỗi ký tự phức tạp và được dùng nhiều trong lập trình. Tuy nhiên, người dùng cần hiểu rõ Regex là gì và nắm được một số cú pháp cơ bản để ứng dụng một cách linh hoạt và có hiệu quả. Bài viết này sẽ là mang đến kiến thức nền tảng cho người dùng về Regex và gợi ý cách viết Regex dễ hiểu, dễ thực hiện.
Regex là gì?
Regex là từ viết tắt của “Regular Expression”, được hiểu là biểu thức chính quy. Đó là tập hợp các mẫu (pattern) hay còn gọi là chuỗi các kí tự đặc biệt, được sử dụng chủ yếu trong phân tích cú pháp, tìm kiếm (Find), thay thế (Replace) và khám phá sự trùng lặp văn bản khi lập trình.
Tốc độ xử lý của Regex tương đối mạnh, và được ưa chuộng trong Php, JavaScript cũng như một số ngôn ngữ lập trình khác. Người dùng chỉ cần hiểu và nắm rõ thuật toán của Regex là có thể tối ưu khả năng và tính ưu việt của loại biểu thức này.
Dạng cú pháp cần nhớ trong Regular Expression
Mỗi loại ngôn ngữ lập trình sẽ có những yêu cầu riêng khi áp dụng Regex. Điều này đòi hỏi sự kỹ lưỡng, cũng như khả năng xử lý linh hoạt từ người dùng. Sau đây là một số dạng cú pháp cơ bản của biểu thức Regular Expression.
Ý nghĩa | Ví dụ | Mô tả | |
$ | Kết thúc của chuỗi nhập ký tự | X$ | X chỉ ký tự cuối cùng trong chuỗi |
^ | Bắt đầu của chuỗi nhập ký tự | ^B | B chỉ ký tự đầu tiên trong chuỗi |
* | Kí tự đứng trước có thể lặp lại 0 hoặc nhiều lần | ra*t | rt, rat, raat,... and so on |
. | Bất kì kí tự nào ngoại trừ ký tự xuống dòng (\n) | i.ation | ization |
+ | Kí tự đứng trước có thể được lặp lại 1 hoặc nhiều lần hơn | ra+t | rat, raat, raaat, and so on (not rt) |
? | Ký tự trước có thể được lặp lại 1 hoặc 0 lần | na?t | nt or nat only |
\s | Bất kì kí tự khoảng trắng nào | \sa | [space]a, \na, \da |
\S | Bất kì kí tự nào không có khoảng trắng | \SF | aF, cF, rF, but not \tF |
\B | Từ biên | ion\b | any word ending in ion |
\b | Bất kì vị trí nào không phải tính từ biên | \BX\B | Bất kì kí tự X ở giữa của 1 từ |
Ứng dụng của Regex trong lập trình
Biểu thức Regex được phát triển dựa trên “so khớp” đối với “mẫu” (pattern) để hoàn thiện phân tích cú pháp. Cho nên, khi ứng dụng trên bất kỳ ngôn ngữ lập trình nào, người dùng cần phải ghi nhớ nguyên tắc này để thực hành có hiệu quả. Cụ thể:
Sử dụng hàm Preg_match trong Php
- Cú pháp: preg_match($pattern, $subject, $matches) .Trong đó:
- $pattern: là chuỗi Regex Pattern
- $subject: là chuỗi nguồn được sử dụng để so khớp lệnh với $pattern
- $matches: là danh sách tập hợp các kết quả trả về đúng khi thực hiện xong so khớp 2 chuỗi trên
Ví dụ: Kiểm tra một chuỗi ký tự là các kí tự viết hoa
if (preg_match('/^[A-Z]+$/', 'HAPPY', $matches)){
var_dump($matches);
}
Kết quả:
array
0 = > string ‘HAPPY’ (length=5)
Tạo mới Regular Expressions trong JavaScript (JS)
Khi sử dụng biểu thức Regex trong JavaScript (JS), nó không được bao quanh bởi cặp dấu nháy kép hoặc dấu nháy đơn mà được tạo nên bởi cặp dấu (/). Dưới đây là hai cách tạo, tương ứng với hai dòng cú pháp:
- Cú pháp: new RegExp(pattern[, flags])
- Ví dụ: var regexConst = new RegExp ( ‘cef’);
Hoặc dùng dấu (/)
- Cú pháp: /pattern/flags .Trong đó:
- flags: là thông số cấu hình của chuỗi pattern trong Regex và nó có các giá trị tương ứng như sau: i-so khớp không quan tâm đến chữ thường, chữ hoa; m-so khớp bao gồm cả dữ liệu xuống dòng; g-so khớp toàn bộ dữ liệu chuỗi cần tìm.
- pattern: là chuỗi Regex
- Ví dụ: Để kiểm tra chuỗi có tồn tại chữ “happy” không, yêu cầu so khớp toàn bộ dữ liệu cần tìm và không quan tâm đến chữ hoa, chữ thường.
- Cú pháp là: var pattern = /happy/igm;
Xác minh tính hợp lệ của dãy dữ liệu
Regex được sử dụng nhiều trong quá trình xác minh tính hợp lệ thông tin của người dùng (email, số điện thoại Việt Nam) hoặc một trang web, đường link cụ thể. Ngoài ra, người lập trình hoàn toàn có thể dùng để thực hiện một số thao tác tính toán đơn giản như kiểm tra độ dài của câu có thuộc hoặc nằm trong khoảng (x,y) hay không.
Tìm kiếm và thay thế chuỗi ký tự
Để tiết kiệm tối đa thời gian tìm và thay thế dữ liệu khi lập trình, người dùng sử dụng Regex để hạn chế viết code phức tạp, mở trực tiếp file text editor để chỉnh sửa một cách chính xác. Một số hướng dẫn cơ bản khi ứng dụng tính năng này, bao gồm:
- Bước 1: Nhấn tổ hợp phím Ctrl + H
- Bước 2: Kích hoạt chế độ Regex bằng cách nhấp đúp chuột vào biểu (.*) ở cùng hàng với ô Find trong cửa sổ tìm kiếm hoặc tổ hợp phím Alt + R
- Bước 3: Nhập biểu thức cần tìm vào ô Find
- Bước 4: Nhập biểu thức cần thay thế cho biểu thức đã tìm vào ô Replace
- Bước 5: Chọn Replace All để thấy kết quả
Hướng dẫn viết Regex cơ bản
Để người dùng có thể làm quen và hiểu được một số nguyên tắc khi viết Regex, sau đây là một số gợi ý cơ bản cho người mới sử dụng. Cụ thể là:
Quy định với kí tự thường
Biểu thức | Giải thích |
a | b | Khớp với a hoặc b |
[a-z] | Khớp với một trong những chữ thuộc khoảng ký tự từ a đến z |
[0-9] | Khớp với một trong những số từ 0 đến 9 |
[abc] | Có thể khớp với một trong ba kí tự a, b hoặc c |
[^abc] | Khớp với bất kì kí tự nào ngoài a, b, và c đều hợp lệ |
d | Số bất kỳ (sử dụng hay thế cho [0-9] |
D | Kí tự không phải là số (sử dụng hay thế cho [^0-9] |
s | Kí tự khoảng trắng |
S | Không phải ký tự khoảng trắng (sử dụng hay thế cho [^s]) |
w | Kí tự chữ (sử dụng hay thế cho [a-zA-Z0-9]) |
W | Kí tự không phải chữ (sử dụng thay thế cho [^w]) |
b | Kí tự thuộc A-Z hoặc 0-9 hoặc a-z hoặc _ (sử dụng thay thế cho [a-zA-Z0-9_]) |
Quy định với kí tự đặc biệt
Biểu thức | Giải thích |
| | Sử dụng tương đương với phép “or” (Thường được sử dụng với cặp dấu ngoặc tròn) |
^ | Bắt đầu từ/chuỗi ký tự |
$ | Kết thúc từ/chuỗi ký tự |
. | Khớp với tất cả các kí tự đơn nào ngoại trừ …….. |
/ | Sử dụng để bắt đầu hoặc kết thúc bất kỳ chuỗi Regex nào |
Quy định “lặp”
Biểu thức | Giải thích |
* | Xuất hiện 0 hoặc nhiều lần (Có thể viết là {0,}) |
? | Xuất hiện 0 hoặc 1 lần (Có thể viết là {0,1}) |
+ | Xuất hiện 0 hoặc 1 lần (Có thể viết là {1,}) |
{X} | Xuất hiện X lần (X không thể là số âm) |
{X,Y} | Xuất hiện trong khoảng X tới Y lần (Cả X và Y không thể là số âm) |
Quy định với “khớp nhóm”
Biểu thức | Giải thích |
() | Khớp với một nhóm các kí tự và ghi nhớ kết quả khớp |
x(?=y) | Chỉ khớp với “x” nếu ngay sau “x” là “y” |
(?:x) | Khớp với “x” và không nhớ kết quả khớp |
x(?!y) | Chỉ khớp “x” nếu ngay sau “x” không phải là “y” |
Quy định với “sửa đổi biểu thức”
Biểu thức | Giải thích |
i | Tìm kiếm ký tự không phân biệt chữ thường hay chữ hoa |
u | Đối chiếu và so sánh tính chính xác các mẫu được mã hỏi bởi UTF-8 |
m | Tìm kiếm ký tự bao gồm cả dữ liệu xuống dòng |
g | So khớp toàn bộ dữ liệu chuỗi cần tìm |
Trên đây là toàn bộ những thông tin cơ bản và quan trọng nhất mà người dùng nên nhớ khi sử dụng Regex. Người dùng nên hiểu rõ thuật toán của biểu thức Regex và nắm được các dạng cú pháp thường gặp để ứng dụng một cách linh hoạt. Đừng quên cập nhật và tìm hiểu thêm kiến thức về lập trình tại LPTech để nâng cao kiến thức và hỗ trợ hiệu quả hơn trong học tập, làm việc.
Thông tin liên hệ
Nếu bạn có thắc mắc gì, có thể gửi yêu cầu cho chúng tôi, và chúng tôi sẽ liên lạc lại với bạn sớm nhất có thể .
Công ty TNHH TMĐT Công nghệ LP
Giấy phép kinh doanh số 0315561312/GP bởi Sở Kế Hoạch và Đầu Tư TP. Hồ Chí Minh.
Văn phòng: Lầu 4, Toà nhà Lê Trí, 164 Phan Văn Trị, Phường 12,Quận Bình Thạnh, HCMC
Hotline: 0338 586 864
Mail: sales@lptech.asia
Zalo OA:LP Tech Zalo Official
Zalo Sales:033 85 86 86 64 (Sales)