import pymupdf4llm
import pymupdf
import re

from datetime import datetime as dt, timezone as tz

PDF_URL = "PDFs/bal_en_01-00.pdf" # set own URL here
pdf_doc = pymupdf.open(PDF_URL) 
type(pdf_doc) # expected type would be pymupdf.Document

pymupdf.Document

len(pdf_doc)

1048

print(pdf_doc[0].get_text())

en
Operator's manual
Tower crane
470 EC-B 16
59484
TC-OS Version 1.02
Tower system 24 HC 630 / 24 HC 420 / 500 HC
Undercarriage 24 HC 630 UC-0800
Foundation anchor 24 HC 630 FA
Foundation anchor 24 HC 630 FAr
This machine complies with the relevant guidelines and standards on the North American market.
www.liebherr.com

def extract_manual_title(page: pymupdf.Page) -> str: 
    """Extract suitable `title` for a Liebherr Manual.
    :param page: 0th index page
    :returns: title of type `str`
    """  
    text = page.get_text()
    document_type_pattern = r"Operator's manual"
    machine_type_pattern = r"Tower crane"
    model_number_pattern = r"\b\d{3} [A-Z]+-\w+ \d{2}\b"
    serial_number_pattern = r"\b\d{5}\b"
    
    # Search for patterns in the text
    document_type_match = re.search(document_type_pattern, text)
    machine_type_match = re.search(machine_type_pattern, text)
    model_number_match = re.search(model_number_pattern, text)
    serial_number_match = re.search(serial_number_pattern, text)
    
    # Extract matched strings
    document_type = document_type_match.group(0) if document_type_match else ""
    machine_type = machine_type_match.group(0) if machine_type_match else ""
    model_number = model_number_match.group(0) if model_number_match else ""
    serial_number = serial_number_match.group(0) if serial_number_match else ""
    
    # Construct the title
    title_parts = [part for part in [document_type, machine_type, model_number, serial_number] if part]
    title = " for ".join(title_parts)
    
    return title

extract_manual_title(pdf_doc[1])

"Operator's manual for Tower crane for 470 EC-B 16 for 59484"

def extract_timestamp(page: pymupdf.Page) -> str: 
    """Extract suitable `timestamp` for a Liebherr Manual.
    :param page: 0th index page
    :returns: timestamp of type `str`
    """ 
    text = page.get_text()
    date_pattern = r"Issued:\s*(\d{4}-\d{2}-\d{2})"
    date_match = re.search(date_pattern, text)
    timestamp = date_match.group(1) if date_match else None
    return dt.strptime(timestamp, "%Y-%m-%d").replace(tzinfo=tz.utc)

extract_timestamp(pdf_doc[1])

datetime.datetime(2022, 11, 28, 0, 0, tzinfo=datetime.timezone.utc)

def extract_metadata(page: pymupdf.Page) -> dict: 
    text = page.get_text()
    language_pattern = r"^(en|de|it)\b"  # Matches 'en', 'de', or 'it' at the start of the text, use more if you have more.
    tc_os_version_pattern = r"TC-OS Version (\d+\.\d{2})"
    language_match = re.search(language_pattern, text, re.MULTILINE)
    tc_os_version_match = re.search(tc_os_version_pattern, text)
    language = language_match.group(1) if language_match else None
    tc_os_version = tc_os_version_match.group(1) if tc_os_version_match else None
    return {
        "lang": language,
        "TC_OS_version": tc_os_version
    }

extract_metadata(pdf_doc[0])

{'lang': 'en', 'TC_OS_version': '1.02'}

markdown_content = pymupdf4llm.to_markdown(PDF_URL, image_path="IMGs/", write_images=True)

Processing PDFs/bal_en_01-00.pdf...
[===                                     ] (  87/1048)

Best Practices for Technical Manuals for Onyx-HybridSearch¶

Hybrid Search¶

Data Extraction¶

Extracting Title¶

Extracting Issuance Date¶

Extracting Metadata¶

Extracting Tables and Images¶

Important¶