Regex là gì? Ứng dụng và cách viết Regex chi tiết nhất

Regex được biết đến là tập hợp các mẫu có khả năng thay thế cho chuỗi ký tự phức tạp và được dùng nhiều trong lập trình. Tuy nhiên, người dùng cần hiểu rõ Regex là gì và nắm được một số cú pháp cơ bản để ứng dụng một cách linh hoạt và có hiệu quả. Bài viết này sẽ là mang đến kiến thức nền tảng cho người dùng về Regex và gợi ý cách viết Regex dễ hiểu, dễ thực hiện. 

Regex là gì?

Regex là từ viết tắt của “Regular Expression”, được hiểu là biểu thức chính quy. Đó là tập hợp các mẫu (pattern) hay còn gọi là chuỗi các kí tự đặc biệt, được sử dụng chủ yếu trong phân tích cú pháp, tìm kiếm (Find), thay thế (Replace) và khám phá sự trùng lặp văn bản khi lập trình. 

Tốc độ xử lý của Regex tương đối mạnh, và được ưa chuộng trong Php, JavaScript cũng như một số ngôn ngữ lập trình khác. Người dùng chỉ cần hiểu và nắm rõ thuật toán của Regex là có thể tối ưu khả năng và tính ưu việt của loại biểu thức này.   

Dạng cú pháp cần nhớ trong Regular Expression

Mỗi loại ngôn ngữ lập trình sẽ có những yêu cầu riêng khi áp dụng Regex. Điều này đòi hỏi sự kỹ lưỡng, cũng như khả năng xử lý linh hoạt từ người dùng. Sau đây là một số dạng cú pháp cơ bản của biểu thức Regular Expression.

 

Ý nghĩa

Ví dụ

Mô tả

$

Kết thúc của chuỗi nhập ký tự

X$

X chỉ ký tự cuối cùng trong chuỗi

^

Bắt đầu của chuỗi nhập ký tự

^B

B chỉ ký tự đầu tiên trong chuỗi

*

Kí tự đứng trước có thể lặp lại 0 hoặc nhiều lần

ra*t

rt, rat, raat,... and so on

.

Bất kì kí tự nào ngoại trừ ký tự xuống dòng (\n)

i.ation

ization

+

Kí tự đứng trước có thể được lặp lại 1 hoặc nhiều lần hơn

ra+t

rat, raat, raaat, and so on (not rt)

?

Ký tự trước có thể được lặp lại 1 hoặc 0 lần

na?t

nt or nat only

\s

Bất kì kí tự khoảng trắng nào 

\sa

[space]a, \na, \da 

\S

Bất kì kí tự nào không có khoảng trắng 

\SF

aF, cF, rF, but not \tF

\B

Từ biên

ion\b

any word ending in ion

\b

Bất kì vị trí nào không phải tính từ biên

\BX\B

Bất kì kí tự X ở giữa của 1 từ 

Ứng dụng của Regex trong lập trình 

Biểu thức Regex được phát triển dựa trên “so khớp” đối với “mẫu” (pattern) để hoàn thiện phân tích cú pháp. Cho nên, khi ứng dụng trên bất kỳ ngôn ngữ lập trình nào, người dùng cần phải ghi nhớ nguyên tắc này để thực hành có hiệu quả. Cụ thể: 

Sử dụng hàm Preg_match trong Php

  • Cú pháp: preg_match($pattern, $subject, $matches) .Trong đó: 
  • $pattern: là chuỗi Regex Pattern
  • $subject: là chuỗi nguồn được sử dụng để so khớp lệnh với $pattern
  • $matches: là danh sách tập hợp các kết quả trả về đúng khi thực hiện xong so khớp 2 chuỗi trên 

Ví dụ: Kiểm tra một chuỗi ký tự là các kí tự viết hoa 

if (preg_match('/^[A-Z]+$/', 'HAPPY', $matches)){

    var_dump($matches);

}

Kết quả

array 

0 = > string ‘HAPPY’ (length=5)

Tạo mới Regular Expressions trong JavaScript (JS)

Khi sử dụng biểu thức Regex trong JavaScript (JS), nó không được bao quanh bởi cặp dấu nháy kép hoặc dấu nháy đơn mà được tạo nên bởi cặp dấu (/). Dưới đây là hai cách tạo, tương ứng với hai dòng cú pháp: 

  • Cú pháp: new RegExp(pattern[, flags]) 
  • Ví dụ: var regexConst = new RegExp ( ‘cef’);

Hoặc dùng dấu (/)

  • Cú pháp: /pattern/flags .Trong đó:
  • flags: là thông số cấu hình của chuỗi pattern trong Regex và nó có các giá trị tương ứng như sau: i-so khớp không quan tâm đến chữ thường, chữ hoa; m-so khớp bao gồm cả dữ liệu xuống dòng; g-so khớp toàn bộ dữ liệu chuỗi cần tìm. 
  • pattern: là chuỗi Regex 
  • Ví dụ: Để kiểm tra chuỗi có tồn tại chữ “happy” không, yêu cầu so khớp toàn bộ dữ liệu cần tìm và không quan tâm đến chữ hoa, chữ thường. 
  • Cú pháp là: var pattern = /happy/igm; 

Xác minh tính hợp lệ của dãy dữ liệu

Regex được sử dụng nhiều trong quá trình xác minh tính hợp lệ thông tin của người dùng (email, số điện thoại Việt Nam) hoặc một trang web, đường link cụ thể. Ngoài ra, người lập trình hoàn toàn có thể dùng để thực hiện một số thao tác tính toán đơn giản như kiểm tra độ dài của câu có thuộc hoặc nằm trong khoảng (x,y) hay không. 

Tìm kiếm và thay thế chuỗi ký tự

Để tiết kiệm tối đa thời gian tìm và thay thế dữ liệu khi lập trình, người dùng sử dụng Regex để hạn chế viết code phức tạp, mở trực tiếp file text editor để chỉnh sửa một cách chính xác. Một số hướng dẫn cơ bản khi ứng dụng tính năng này, bao gồm: 

  • Bước 1: Nhấn tổ hợp phím Ctrl + H
  • Bước 2: Kích hoạt chế độ Regex bằng cách nhấp đúp chuột vào biểu (.*) ở cùng hàng với ô Find trong cửa sổ tìm kiếm hoặc tổ hợp phím Alt + R
  • Bước 3: Nhập biểu thức cần tìm vào ô Find
  • Bước 4: Nhập biểu thức cần thay thế cho biểu thức đã tìm vào ô Replace 
  • Bước 5: Chọn Replace All để thấy kết quả 

Hướng dẫn viết Regex cơ bản

Để người dùng có thể làm quen và hiểu được một số nguyên tắc khi viết Regex, sau đây là một số gợi ý cơ bản cho người mới sử dụng. Cụ thể là:  

Quy định với kí tự thường

Biểu thức

Giải thích

a | b

Khớp với a hoặc b

[a-z]

Khớp với một trong những chữ thuộc khoảng ký tự từ a đến z

[0-9]

Khớp với một trong những số từ 0 đến 9

[abc]

Có thể khớp với một trong ba kí tự a, b hoặc c

[^abc]

Khớp với bất kì kí tự nào ngoài a, b, và c đều hợp lệ 

d

Số bất kỳ (sử dụng hay thế cho [0-9]

D

Kí tự không phải là số (sử dụng hay thế cho [^0-9]

s

Kí tự khoảng trắng

S

Không phải ký tự khoảng trắng (sử dụng hay thế cho [^s])

w

Kí tự chữ (sử dụng hay thế cho [a-zA-Z0-9])

W

Kí tự không phải chữ (sử dụng thay thế cho [^w])

b

Kí tự thuộc A-Z hoặc 0-9 hoặc a-z hoặc _ (sử dụng thay thế cho [a-zA-Z0-9_]) 

Quy định với kí tự đặc biệt

Biểu thức

Giải thích

Sử dụng tương đương với phép “or” (Thường được sử dụng với cặp dấu ngoặc tròn)

^

Bắt đầu từ/chuỗi ký tự

$

Kết thúc từ/chuỗi ký tự

.

Khớp với tất cả các kí tự đơn nào ngoại trừ ……..

/

Sử dụng để bắt đầu hoặc kết thúc bất kỳ chuỗi Regex nào 

Quy định “lặp”

Biểu thức

Giải thích

Xuất hiện 0 hoặc nhiều lần (Có thể viết là {0,})

?

Xuất hiện 0 hoặc 1 lần (Có thể viết là {0,1})

+

Xuất hiện 0 hoặc 1 lần (Có thể viết là {1,})

{X}

Xuất hiện X lần (X không thể là số âm)

{X,Y}

Xuất hiện trong khoảng X tới Y lần (Cả X và Y không thể là số âm)

Quy định với “khớp nhóm”

Biểu thức

Giải thích

() 

Khớp với một nhóm các kí tự và ghi nhớ kết quả khớp

x(?=y)

Chỉ khớp với “x” nếu ngay sau “x” là “y”

(?:x)

Khớp với “x” và không nhớ kết quả khớp

x(?!y)

Chỉ khớp “x” nếu ngay sau “x” không phải là “y”

Quy định với “sửa đổi biểu thức”

Biểu thức

Giải thích

i

Tìm kiếm ký tự không phân biệt chữ thường hay chữ hoa

u

Đối chiếu và so sánh tính chính xác các mẫu được mã hỏi bởi UTF-8

m

Tìm kiếm ký tự bao gồm cả dữ liệu xuống dòng

g

So khớp toàn bộ dữ liệu chuỗi cần tìm

Trên đây là toàn bộ những thông tin cơ bản và quan trọng nhất mà người dùng nên nhớ khi sử dụng Regex. Người dùng nên hiểu rõ thuật toán của biểu thức Regex và nắm được các dạng cú pháp thường gặp để ứng dụng một cách linh hoạt. Đừng quên cập nhật và tìm hiểu thêm kiến thức về lập trình tại LPTech để nâng cao kiến thức và hỗ trợ hiệu quả hơn trong học tập, làm việc. 

Thông tin liên hệ

Nếu bạn có thắc mắc gì, có thể gửi yêu cầu cho chúng tôi, và chúng tôi sẽ liên lạc lại với bạn sớm nhất có thể .

Công ty TNHH TMĐT Công nghệ LP

Giấy phép kinh doanh số 0315561312/GP bởi Sở Kế Hoạch và Đầu Tư TP. Hồ Chí Minh.

Văn phòng: Lầu 4, Toà nhà Lê Trí, 164 Phan Văn Trị, Phường 12,Quận Bình Thạnh, HCMC

Hotline: 0338 586 864

Mail: sales@lptech.asia

Zalo:LP Tech Zalo Official

Liên hệ qua Zalo: 0338586864 ( hoặc bấm vào link này: http://lptech.asia/zalo-lptech). Hoặc nhập thông tin mà bạn cần hỗ trợ vào ô liên hệ bên dưới để lên lạc với LPTech nhé.

Bài viết cùng chuyên mục

Design Pattern là gì? Các loại Design Pattern...

Design Pattern là gì? Đây là những mẫu thiết kế giúp tổ chức mã nguồn, tăng tính linh hoạt và dễ dàng bảo trì hệ thống.

Authorization là gì? Các loại Authorization phổ biến

Authorization là gì? Đây là quá trình xác định quyền truy cập của người dùng vào tài nguyên trong hệ thống bất kỳ để đảm bảo tính bảo mật.

Array là gì? Tổng hợp 15 phương thức của Array...

Array là gì trong JavaScript? Đây là câu hỏi phổ biến khi làm quen với lập trình. Mảng (array) giúp lưu trữ và quản lý nhiều giá trị...

Kỹ sư cầu nối (BrSE) là gì? Công việc và mức...

Kỹ sư cầu nối (BrSE) là một ví trí quan trọng trong lĩnh vực công nghệ thông tin, giúp kết nối khách hàng với các dev trong team và phát...

Convolutional Neural Network là gì? Tìm hiểu về...

Convolutional Neural Network là một công cụ quan trọng được sử dụng trong nhiều lĩnh vực của đời sống. Để tìm hiểu chi tiết về CNN, bạn...

Props là gì? Bí quyết sử dụng Props sao cho hợp...

Props là gì? Đây là một khái niệm quan trọng trong React giúp truyền tải dữ liệu giữa các component. Cùng tìm hiểu chi tiết cách sử dụng...

Bài viết mới nhất


Cần Giờ - Thạnh An: Rong chơi những ngày cuối năm

Một chuyến đi ngẫu hứng vào những ngày cuối năm của các thành viên, rời xa thành phố để đến với Cần Giờ và Đảo Thạnh An.

Design Pattern là gì? Các loại Design Pattern...

Design Pattern là gì? Đây là những mẫu thiết kế giúp tổ chức mã nguồn, tăng tính linh hoạt và dễ dàng bảo trì hệ thống.

Outsourcing là gì? Sự khác nhau giữa Product và...

Outsourcing, Outsource là hình thức làm việc sử dụng dịch vụ thuê ngoài để giúp doanh nghiệp hoàn thành nhiệm vụ. Xem bài viết để tìm hiểu chi tiết...

Authorization là gì? Các loại Authorization phổ...

Authorization là gì? Đây là quá trình xác định quyền truy cập của người dùng vào tài nguyên trong hệ thống bất kỳ để đảm bảo tính bảo mật.

Authentication là gì? 7 phương pháp...

Authentication là gì? Đóng vai trò gì trong bảo mật và phát triển phần mềm. Tìm hiểu khái niệm về authentication và các phương pháp xác thực phổ...

Array là gì? Tổng hợp 15 phương thức của Array...

Array là gì trong JavaScript? Đây là câu hỏi phổ biến khi làm quen với lập trình. Mảng (array) giúp lưu trữ và quản lý nhiều giá trị trong một biến...

SaaS là gì? Tổng quan về mô hình Software as a...

SaaS là mô hình dịch vụ phần mềm dựa trên cloud, cho phép người dùng truy cập các ứng dụng trực tiếp qua internet mà không cần cài đặt phức tạp....

AWS là gì? Tất tần tật chứng chỉ AWS 'đẻ vàng'...

AWS là nền tảng điện toán đám mây hàng đầu thế giới, cung cấp hơn 200 dịch vụ tiên tiến, từ lưu trữ dữ liệu đến trí tuệ nhân tạo. Tìm hiểu ngay...

Google Search Console cải tiến thời gian xem...

Ngày 12 tháng 12 Google Search Console cập nhật chế độ xem 24 giờ cho các báo cáo hiệu suất giúp cải thiện độ mới dữ liệu hơn so với chế độ xem cũ

Cách thức và lý do thu thập dữ liệu của Googlebot

Thu thập dữ liệu (Crawling) là gì? Cách thức thu thập dữ liệu của Googlebot trên trang như thế nào? Làm cách nào để tối ưu ngân sách dữ liệu thu thập?