from dotenv import load_dotenv
assert load_dotenv()

from google import genai
from google.genai import types
import httpx
import os
import pymupdf
from time import sleep
from IPython.display import Markdown

client = genai.Client()
prompt = "Convert this document to EXACT markdown representation with special care on TABLES so that they are represented in a way suitable for RAG-Agent. Make sure to describe image so the context of images is converted CLEARLY into text."

filename = "bal_en_01-00.pdf"
fname = os.path.basename(filename).replace(".pdf", "")
limit_rate = 20971520 # 20 MB in GeminiAPI

fractions = (os.stat(filename).st_size // limit_rate) + 10 # poor mans cheap logic to split PDFs, you can do more using io.StreamIO and logic from [6]
fractions

14

doc = pymupdf.open(filename)
page_count = len(doc)
page_fractions = page_count // (fractions-1)
doc_in_bytes = []
for i in range(0, len(doc), page_fractions):
    split_doc = pymupdf.open() 
    print("Creating fractional PDF from page", i , "to", (i + page_fractions))
    split_doc.insert_pdf(doc, from_page=i, to_page=(i + page_fractions))
    doc_in_bytes.append(split_doc.write())

Creating fractional PDF from page 0 to 80
Creating fractional PDF from page 80 to 160
Creating fractional PDF from page 160 to 240
Creating fractional PDF from page 240 to 320
Creating fractional PDF from page 320 to 400
Creating fractional PDF from page 400 to 480
Creating fractional PDF from page 480 to 560
Creating fractional PDF from page 560 to 640
Creating fractional PDF from page 640 to 720
Creating fractional PDF from page 720 to 800
Creating fractional PDF from page 800 to 880
Creating fractional PDF from page 880 to 960
Creating fractional PDF from page 960 to 1040
Creating fractional PDF from page 1040 to 1120

full_markdown = """"""
for idx, chunk in enumerate(doc_in_bytes):
    print("Processing chunk of", idx)
    response = client.models.generate_content(
        model="gemini-2.0-flash",
        contents=[(types.Part.from_bytes(data=chunk, mime_type="application/pdf"), prompt)]
    )
    resp_txt = response.text 
    resp_txt = "\n".join([line.replace("```markdown", "").replace("```", "") for line in resp_txt.splitlines()])
    full_markdown += resp_txt

Processing chunk of 0
Processing chunk of 1
Processing chunk of 2
Processing chunk of 3
Processing chunk of 4
Processing chunk of 5
Processing chunk of 6
Processing chunk of 7
Processing chunk of 8
Processing chunk of 9
Processing chunk of 10
Processing chunk of 11
Processing chunk of 12
Processing chunk of 13

with open("bal_markdown.md", "w") as f: 
    f.write(full_markdown)

from llama_index.core import Document
from llama_index.core import VectorStoreIndex
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
from llama_index.core import Settings
from llama_index.llms.gemini import Gemini

/home/bijayregmi/.local/lib/python3.13/site-packages/tqdm/auto.py:21: TqdmWarning: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html
  from .autonotebook import tqdm as notebook_tqdm

embedder = HuggingFaceEmbedding(model_name="intfloat/multilingual-e5-small")
Settings.llm = Gemini(model_name="models/gemini-2.0-flash") # API Key will read from env

md_doc = Document(text=full_markdown)
index = VectorStoreIndex.from_documents([md_doc], embed_model=embedder, show_progress=True)

Parsing nodes: 100%|██████████| 1/1 [00:00<00:00,  3.71it/s]
Generating embeddings: 100%|██████████| 94/94 [00:04<00:00, 20.41it/s]

retrieval = index.as_query_engine(similarity_top_k=5) # change top k if you want to spend all your money.

def query_from_vstore(question: str) -> str :
    return  Markdown (
        (
            retrieval.query(question).response
        )
    )

query_from_vstore("Issuance Date of this manual")

query_from_vstore("Counter-Ballast weights for Jib of 83.0 meters")

query_from_vstore("How much torque can i use for M16 with strength rating of 10.9")

query_from_vstore("Erläutere alle erlaubten Spielräume in Bohrlöchern bei Pin-Verbindungen")

Cheap In-Memory RAG-Pipeline using LlamaIndex and Gemini 2.0 Flash¶

Setup¶

GenAI¶

File Setup¶

Pre-Chunking¶

Pre-Chunk¶

Conversion¶

Save Markdown¶

Retrieval using LlamaIndex¶

Setting up Nodes¶

Retrieval in Natural Language¶