Bỏ qua

Obsidian, quản lý dự án và công cụ nghĩ

Trích dữ liệu trong PDF

Tải bản đầy đủ chức năng

Trích dữ liệu trong PDF

Lọc SĐT¶

Tách PDF thành các ảnh rời:
```
cpdf -extract-images .\file.pdf
```
(Thủ công) Kiếm các ảnh chỉ có sđt. Bật view largest lên để tìm cho dễ

Chạy script PowerShell sau:

# Đọc OCR từ các ảnh
$i = 1
Get-ChildItem | ForEach-Object {
  $basename = $_.basename
  $count = $i.toString('D3') 
  $filename = "$count$basename" 
  $filename
  tesseract $_.name $filename
  $i++ 
}   

# Chỉ lọc đúng dòng có sđt và gom lại vào một file
select-string -path *.txt -pattern '\d+-\d+-\d+' | add-content final.txt
Notepad++ final.txt

(Thủ công) Kiểm tra lần cuối và dùng regex để tạo kết quả