Trích dữ liệu trong PDF
Lọc SĐT¶
- Tách PDF thành các ảnh rời:
- (Thủ công) Kiếm các ảnh chỉ có sđt. Bật view largest lên để tìm cho dễ
-
Chạy script PowerShell sau:
# Đọc OCR từ các ảnh $i = 1 Get-ChildItem | ForEach-Object { $basename = $_.basename $count = $i.toString('D3') $filename = "$count$basename" $filename tesseract $_.name $filename $i++ } # Chỉ lọc đúng dòng có sđt và gom lại vào một file select-string -path *.txt -pattern '\d+-\d+-\d+' | add-content final.txt Notepad++ final.txt
-
(Thủ công) Kiểm tra lần cuối và dùng regex để tạo kết quả