Regex là gì? Ứng dụng và cách viết Regex chi tiết nhất

Regex được biết đến là tập hợp các mẫu có khả năng thay thế cho chuỗi ký tự phức tạp và được dùng nhiều trong lập trình. Tuy nhiên, người dùng cần hiểu rõ Regex là gì và nắm được một số cú pháp cơ bản để ứng dụng một cách linh hoạt và có hiệu quả. Bài viết này sẽ là mang đến kiến thức nền tảng cho người dùng về Regex và gợi ý cách viết Regex dễ hiểu, dễ thực hiện. 

Regex là gì?

Regex là từ viết tắt của “Regular Expression”, được hiểu là biểu thức chính quy. Đó là tập hợp các mẫu (pattern) hay còn gọi là chuỗi các kí tự đặc biệt, được sử dụng chủ yếu trong phân tích cú pháp, tìm kiếm (Find), thay thế (Replace) và khám phá sự trùng lặp văn bản khi lập trình. 

Tốc độ xử lý của Regex tương đối mạnh, và được ưa chuộng trong Php, JavaScript cũng như một số ngôn ngữ lập trình khác. Người dùng chỉ cần hiểu và nắm rõ thuật toán của Regex là có thể tối ưu khả năng và tính ưu việt của loại biểu thức này.   

Dạng cú pháp cần nhớ trong Regular Expression

Mỗi loại ngôn ngữ lập trình sẽ có những yêu cầu riêng khi áp dụng Regex. Điều này đòi hỏi sự kỹ lưỡng, cũng như khả năng xử lý linh hoạt từ người dùng. Sau đây là một số dạng cú pháp cơ bản của biểu thức Regular Expression.

 

Ý nghĩa

Ví dụ

Mô tả

$

Kết thúc của chuỗi nhập ký tự

X$

X chỉ ký tự cuối cùng trong chuỗi

^

Bắt đầu của chuỗi nhập ký tự

^B

B chỉ ký tự đầu tiên trong chuỗi

*

Kí tự đứng trước có thể lặp lại 0 hoặc nhiều lần

ra*t

rt, rat, raat,... and so on

.

Bất kì kí tự nào ngoại trừ ký tự xuống dòng (\n)

i.ation

ization

+

Kí tự đứng trước có thể được lặp lại 1 hoặc nhiều lần hơn

ra+t

rat, raat, raaat, and so on (not rt)

?

Ký tự trước có thể được lặp lại 1 hoặc 0 lần

na?t

nt or nat only

\s

Bất kì kí tự khoảng trắng nào 

\sa

[space]a, \na, \da 

\S

Bất kì kí tự nào không có khoảng trắng 

\SF

aF, cF, rF, but not \tF

\B

Từ biên

ion\b

any word ending in ion

\b

Bất kì vị trí nào không phải tính từ biên

\BX\B

Bất kì kí tự X ở giữa của 1 từ 

Ứng dụng của Regex trong lập trình 

Biểu thức Regex được phát triển dựa trên “so khớp” đối với “mẫu” (pattern) để hoàn thiện phân tích cú pháp. Cho nên, khi ứng dụng trên bất kỳ ngôn ngữ lập trình nào, người dùng cần phải ghi nhớ nguyên tắc này để thực hành có hiệu quả. Cụ thể: 

Sử dụng hàm Preg_match trong Php

  • Cú pháp: preg_match($pattern, $subject, $matches) .Trong đó: 
  • $pattern: là chuỗi Regex Pattern
  • $subject: là chuỗi nguồn được sử dụng để so khớp lệnh với $pattern
  • $matches: là danh sách tập hợp các kết quả trả về đúng khi thực hiện xong so khớp 2 chuỗi trên 

Ví dụ: Kiểm tra một chuỗi ký tự là các kí tự viết hoa 

if (preg_match('/^[A-Z]+$/', 'HAPPY', $matches)){

    var_dump($matches);

}

Kết quả

array 

0 = > string ‘HAPPY’ (length=5)

Tạo mới Regular Expressions trong JavaScript (JS)

Khi sử dụng biểu thức Regex trong JavaScript (JS), nó không được bao quanh bởi cặp dấu nháy kép hoặc dấu nháy đơn mà được tạo nên bởi cặp dấu (/). Dưới đây là hai cách tạo, tương ứng với hai dòng cú pháp: 

  • Cú pháp: new RegExp(pattern[, flags]) 
  • Ví dụ: var regexConst = new RegExp ( ‘cef’);

Hoặc dùng dấu (/)

  • Cú pháp: /pattern/flags .Trong đó:
  • flags: là thông số cấu hình của chuỗi pattern trong Regex và nó có các giá trị tương ứng như sau: i-so khớp không quan tâm đến chữ thường, chữ hoa; m-so khớp bao gồm cả dữ liệu xuống dòng; g-so khớp toàn bộ dữ liệu chuỗi cần tìm. 
  • pattern: là chuỗi Regex 
  • Ví dụ: Để kiểm tra chuỗi có tồn tại chữ “happy” không, yêu cầu so khớp toàn bộ dữ liệu cần tìm và không quan tâm đến chữ hoa, chữ thường. 
  • Cú pháp là: var pattern = /happy/igm; 

Xác minh tính hợp lệ của dãy dữ liệu

Regex được sử dụng nhiều trong quá trình xác minh tính hợp lệ thông tin của người dùng (email, số điện thoại Việt Nam) hoặc một trang web, đường link cụ thể. Ngoài ra, người lập trình hoàn toàn có thể dùng để thực hiện một số thao tác tính toán đơn giản như kiểm tra độ dài của câu có thuộc hoặc nằm trong khoảng (x,y) hay không. 

Tìm kiếm và thay thế chuỗi ký tự

Để tiết kiệm tối đa thời gian tìm và thay thế dữ liệu khi lập trình, người dùng sử dụng Regex để hạn chế viết code phức tạp, mở trực tiếp file text editor để chỉnh sửa một cách chính xác. Một số hướng dẫn cơ bản khi ứng dụng tính năng này, bao gồm: 

  • Bước 1: Nhấn tổ hợp phím Ctrl + H
  • Bước 2: Kích hoạt chế độ Regex bằng cách nhấp đúp chuột vào biểu (.*) ở cùng hàng với ô Find trong cửa sổ tìm kiếm hoặc tổ hợp phím Alt + R
  • Bước 3: Nhập biểu thức cần tìm vào ô Find
  • Bước 4: Nhập biểu thức cần thay thế cho biểu thức đã tìm vào ô Replace 
  • Bước 5: Chọn Replace All để thấy kết quả 

Hướng dẫn viết Regex cơ bản

Để người dùng có thể làm quen và hiểu được một số nguyên tắc khi viết Regex, sau đây là một số gợi ý cơ bản cho người mới sử dụng. Cụ thể là:  

Quy định với kí tự thường

Biểu thức

Giải thích

a | b

Khớp với a hoặc b

[a-z]

Khớp với một trong những chữ thuộc khoảng ký tự từ a đến z

[0-9]

Khớp với một trong những số từ 0 đến 9

[abc]

Có thể khớp với một trong ba kí tự a, b hoặc c

[^abc]

Khớp với bất kì kí tự nào ngoài a, b, và c đều hợp lệ 

d

Số bất kỳ (sử dụng hay thế cho [0-9]

D

Kí tự không phải là số (sử dụng hay thế cho [^0-9]

s

Kí tự khoảng trắng

S

Không phải ký tự khoảng trắng (sử dụng hay thế cho [^s])

w

Kí tự chữ (sử dụng hay thế cho [a-zA-Z0-9])

W

Kí tự không phải chữ (sử dụng thay thế cho [^w])

b

Kí tự thuộc A-Z hoặc 0-9 hoặc a-z hoặc _ (sử dụng thay thế cho [a-zA-Z0-9_]) 

Quy định với kí tự đặc biệt

Biểu thức

Giải thích

Sử dụng tương đương với phép “or” (Thường được sử dụng với cặp dấu ngoặc tròn)

^

Bắt đầu từ/chuỗi ký tự

$

Kết thúc từ/chuỗi ký tự

.

Khớp với tất cả các kí tự đơn nào ngoại trừ ……..

/

Sử dụng để bắt đầu hoặc kết thúc bất kỳ chuỗi Regex nào 

Quy định “lặp”

Biểu thức

Giải thích

Xuất hiện 0 hoặc nhiều lần (Có thể viết là {0,})

?

Xuất hiện 0 hoặc 1 lần (Có thể viết là {0,1})

+

Xuất hiện 0 hoặc 1 lần (Có thể viết là {1,})

{X}

Xuất hiện X lần (X không thể là số âm)

{X,Y}

Xuất hiện trong khoảng X tới Y lần (Cả X và Y không thể là số âm)

Quy định với “khớp nhóm”

Biểu thức

Giải thích

() 

Khớp với một nhóm các kí tự và ghi nhớ kết quả khớp

x(?=y)

Chỉ khớp với “x” nếu ngay sau “x” là “y”

(?:x)

Khớp với “x” và không nhớ kết quả khớp

x(?!y)

Chỉ khớp “x” nếu ngay sau “x” không phải là “y”

Quy định với “sửa đổi biểu thức”

Biểu thức

Giải thích

i

Tìm kiếm ký tự không phân biệt chữ thường hay chữ hoa

u

Đối chiếu và so sánh tính chính xác các mẫu được mã hỏi bởi UTF-8

m

Tìm kiếm ký tự bao gồm cả dữ liệu xuống dòng

g

So khớp toàn bộ dữ liệu chuỗi cần tìm

Trên đây là toàn bộ những thông tin cơ bản và quan trọng nhất mà người dùng nên nhớ khi sử dụng Regex. Người dùng nên hiểu rõ thuật toán của biểu thức Regex và nắm được các dạng cú pháp thường gặp để ứng dụng một cách linh hoạt. Đừng quên cập nhật và tìm hiểu thêm kiến thức về lập trình tại LPTech để nâng cao kiến thức và hỗ trợ hiệu quả hơn trong học tập, làm việc. 

Thông tin liên hệ

Nếu bạn có thắc mắc gì, có thể gửi yêu cầu cho chúng tôi, và chúng tôi sẽ liên lạc lại với bạn sớm nhất có thể .

Công ty TNHH TMĐT Công nghệ LP

Giấy phép kinh doanh số 0315561312/GP bởi Sở Kế Hoạch và Đầu Tư TP. Hồ Chí Minh.

Văn phòng: Lầu 4, Toà nhà Lê Trí, 164 Phan Văn Trị, Phường 12,Quận Bình Thạnh, HCMC

Hotline: 0338 586 864

Mail: sales@lptech.asia

Zalo:LP Tech Zalo Official

Liên hệ qua Zalo: 0338586864 ( hoặc bấm vào link này: http://lptech.asia/zalo-lptech). Hoặc nhập thông tin mà bạn cần hỗ trợ vào ô liên hệ bên dưới để lên lạc với LPTech nhé.

Bài viết cùng chuyên mục

TypeScript là gì? Ưu, nhược điểm so với...

TypeScript là ngôn ngữ lập trình mở rộng từ JavaScript. Nó cung cấp hệ thống kiểu tĩnh giúp phát hiện lỗi ngay từ giai đoạn biên dịch và...

IIS là gì? Cách cài đặt và cấu hình máy chủ IIS

IIS (Internet Information Services) là máy chủ web của Microsoft, đóng vai trò vô cùng quan trọng trong việc thiết kế web/webapp và quản...

RAID là gì? Các loại RAID từ 0 đến 10 và cách sử...

RAID là gì? RAID là viết tắt của Redundant Array of Independent Disks (Mảng đĩa dự phòng). RAID là công công nghệ lưu trữ dữ liệu sử dụng...

Socket là gì? Định nghĩa về giao thức TCP/IP và UDP

Socket đóng vai trò là một điểm kết nối giữa hai ứng dụng để trao đổi dữ liệu. Tìm hiểu vai trò, cơ chế hoạt động và các loại socket phổ...

Cluster là gì? Ứng dụng của cluster trong quản...

Cluster là gì? Tìm hiểu chi tiết về cấu trúc, các thành phần, cơ chế hoạt động và ứng dụng của Cluster trong hệ thống máy tính và cơ sở...

RPA là gì? Vai trò của quy trình tự động hóa bằng...

RPA được ứng dụng khá nhiều trong các doanh nghiệp, nó giúp cho quy trình sản xuất được diễn ra hiệu quả hơn, mang đến quy trình sản xuất...

Bài viết mới nhất


Cách tắt hoạt động trên Facebook (trạng thái...

Áp dụng cách tắt hoạt động trên facebook giúp đảm bảo không ai biết bạn đang online hay không để tránh bị nhắn tin làm phiền. Hướng dẫn chi tiết...

OCR là gì? Lợi ích và ứng dụng của nhận dạng ký...

OCR là gì? Tìm hiểu về khái niệm, lợi ích và cơ chế hoạt động của công nghệ nhận dạng ký tự quang học - công nghệ quan trọng hiện nay.

On premise là gì? On-premise có gì khác với Cloud?

On-premise là một mô hình triển khai phần mềm, app mà doanh nghiệp tự sở hữu và quản lý toàn bộ. Xem ngay đặc điểm khi so với cloud và các mô hình...

TypeScript là gì? Ưu, nhược điểm so với...

TypeScript là ngôn ngữ lập trình mở rộng từ JavaScript. Nó cung cấp hệ thống kiểu tĩnh giúp phát hiện lỗi ngay từ giai đoạn biên dịch và giảm thiểu...

IIS là gì? Cách cài đặt và cấu hình máy chủ IIS

IIS (Internet Information Services) là máy chủ web của Microsoft, đóng vai trò vô cùng quan trọng trong việc thiết kế web/webapp và quản lý nội dung.

Pentest là gì? Tầm quan trọng của kiểm thử xâm...

Tìm hiểu về phương pháp kiểm thử xâm nhập - Pentest, một giải pháp bảo mật thiết yếu cho doanh nghiệp trong thời đại số hóa.

RAID là gì? Các loại RAID từ 0 đến 10 và cách...

RAID là gì? RAID là viết tắt của Redundant Array of Independent Disks (Mảng đĩa dự phòng). RAID là công công nghệ lưu trữ dữ liệu sử dụng nhiều ổ...

Cách thêm liên kết Instagram, Tiktok, Youtube...

Hướng dẫn cách thêm liên kết Instagram, Tiktok, Youtube vào hồ sơ Facebook nhanh chóng, xem bài viết bên dưới để biết được các bước thực hiện bạn nhé.

Sitelinks Search Box là gì? Tại sao không còn...

Google vừa thông báo về việc ngưng hỗ trợ Sitelinks Search Box trên kết quả tìm kiếm từ 21/10/2024. Vậy Sitelinks Search Box là gì? Tại sao Google...

Cách khóa trang cá nhân Facebook để tránh bị...

Tìm hiểu cách khóa trang cá nhân Facebook một cách hiệu quả để bảo vệ thông tin cá nhân và kiểm soát quyền riêng tư của bạn.