خروجی ساخت‌یافته از LLM با Pydantic و LangChain

مقدمه

در بسیاری از کاربردهای عملی LLMها، نیاز داریم خروجی ساخت‌یافته (مثل JSON، CSV و …) دریافت کنیم. مثال‌های رایج شامل ساخت مجموعه‌دادهٔ مصنوعی (Synthetic Dataset Generation)، استخراج اطلاعات، یا شناسایی موجودیت‌های نامدار (Named Entity Recognition یا NER) هستند.

یک راه ساده این است که در prompt، شِمای خروجی را برای مدل توضیح بدهیم؛ اما هیچ تضمینی وجود ندارد که مدل همیشه دقیقاً از این قالب پیروی کند. اینجاست که Pydantic به کمک ما می‌آید.

با استفاده از Pydantic می‌توانیم شِمای خروجی را به‌صورت صریح تعریف کنیم و خروجی LLM را اعتبارسنجی (validate) کنیم. اگر خروجی با شِما سازگار نباشد، یا خطا می‌گیریم و متوجه می‌شویم که ساختار رعایت نشده، یا (بسته به فریم‌ورک مورد استفاده) مدل دوباره فراخوانی می‌شود تا خروجی معتبر تولید کند.

مثال: Named Entity Recognition

فرض کنید می‌خواهیم روی یک متن، NER انجام دهیم و موجودیت‌های PERSON، ORG، LOC و DATE را استخراج کنیم. ابتدا شِمای خروجی را با Pydantic تعریف می‌کنیم:

from typing import List, Literal
from pydantic import BaseModel, Field

class Entity(BaseModel):
    text: str = Field(description="The exact text span of the entity")
    label: Literal["PERSON", "ORG", "LOC", "DATE"] = Field(
        description="The type of the named entity"
    )

class NEROutput(BaseModel):
    entities: List[Entity] = Field(
        description="List of named entities found in the text"
    )

سپس این شِما را به مدل زبانی می‌دهیم:

from langchain.chat_models import init_chat_model

chat_model = init_chat_model(
    model=MODEL_NAME,
    temperature=0,
)

structured_chat_model = chat_model.with_structured_output(NEROutput)

در اینجا temperature را صفر گذاشته‌ایم، چون خروجی قطعی و قابل‌تکرار می‌خواهیم.

نکته: مدلی که استفاده می‌کنید باید از قابلیت structured output پشتیبانی کند.

حالا مدل را روی یک متن اجرا می‌کنیم:

import pprint

text = """
Steven Paul Jobs (February 24, 1955 – October 5, 2011) was an American businessman,
inventor, and investor best known for co-founding the technology company Apple Inc.
Jobs was also the founder of NeXT and chairman and majority shareholder of Pixar. He was a
pioneer of the personal computer revolution of the 1970s and 1980s, along with his early business
partner and fellow Apple co-founder Steve Wozniak.
"""

model_output = structured_chat_model.invoke(text)

pprint.pp(model_output.model_dump())

خروجی:

{'entities': [{'text': 'Steven Paul Jobs', 'label': 'PERSON'},
              {'text': 'February 24, 1955', 'label': 'DATE'},
              {'text': 'October 5, 2011', 'label': 'DATE'},
              {'text': 'American', 'label': 'ORG'},
              {'text': 'Apple Inc.', 'label': 'ORG'},
              {'text': 'NeXT', 'label': 'ORG'},
              {'text': 'Pixar', 'label': 'ORG'},
              {'text': 'Steve Wozniak', 'label': 'PERSON'},
              {'text': '1970s', 'label': 'DATE'},
              {'text': '1980s', 'label': 'DATE'}]}

در این مرحله مطمئن هستیم که خروجی، دقیقاً در قالب JSON مورد انتظار ما قرار دارد و می‌توانیم بدون نگرانی آن را در مراحل بعدی پردازش کنیم.

تولید مجموعه‌دادهٔ جوک با LLM

به‌عنوان یک مثال دیگر، فرض کنید می‌خواهیم با کمک LLM یک مجموعه‌داده از جوک‌ها تولید کنیم. ابتدا شِمای داده را تعریف می‌کنیم:

from pydantic import BaseModel, Field
from langchain.chat_models import init_chat_model
import pprint

class Joke(BaseModel):
    setup: str = Field(description="Setup of the joke")
    punchline: str = Field(description="Punchline of the joke")

class Jokes(BaseModel):
    joke: list[Joke]

سپس مدل را مقداردهی و شِمای خروجی را به آن اعمال می‌کنیم:

chat_model = init_chat_model(
    model=MODEL_NAME,
    temperature=0.8,
)

structured_chat_model = chat_model.with_structured_output(Jokes)

prompt = "Give me three funny jokes."
model_output = structured_chat_model.invoke(prompt)

pprint.pp(model_output.model_dump())

خروجی:

{'joke': [{'setup': "Why don't scientists trust atoms?",
           'punchline': 'Because they make up everything!'},
          {'setup': 'I used to hate facial hair...',
           'punchline': 'But then it grew on me.'},
          {'setup': 'Why did the scarecrow win an award?',
           'punchline': 'Because he was outstanding in his field!'}]}

در این سناریو، بدون نیاز به پارس دستی متن یا نوشتن کد، مستقیماً یک مجموعه‌دادهٔ تمیز و ساخت‌یافته دریافت کرده‌ایم که می‌تواند برای کاربردهای آینده استفاده شود.

مقدمه#

مثال: Named Entity Recognition#

تولید مجموعه‌دادهٔ جوک با LLM#

مقدمه

مثال: Named Entity Recognition

تولید مجموعه‌دادهٔ جوک با LLM