google / langextract 从非结构化文本中提取结构化信息

LangExtract是Google于2025年开源的Python库，能基于LLM从非结构化文本中提取结构化信息，支持精准溯源、可控输出、长文档处理与多模型适配，无需微调即可快速落地垂直场景。以下是核心信息与使用要点：

一、核心定位与优势

维度	说明
核心目标	连接LLM与结构化数据需求，解决传统方案结果不可靠、难溯源、长文档乏力、跨域适配成本高等痛点
关键优势	1. 精确来源锚定：每条结果绑定原文起止字符偏移，支持高亮追溯与审计2. 可控结构化输出：通过少样本示例强制遵循schema，禁止改写或增删字段3. 长文档优化：分块、并行、多轮提取，适配百万token级上下文4. 交互式可视化：一键生成HTML，直观校验数千条标注5. 多模型兼容：支持Gemini等云模型及Ollama对接的本地开源LLM6. 零微调适配：用自然语言指令+少量示例快速适配医疗、法律等领域
授权与环境	Apache 2.0开源；Python ≥3.10；依赖LLM API或本地部署能力

二、工作流程

1. 定义任务：用自然语言描述抽取目标，指定extraction_class、attributes等输出结构。

2. 提供示例：给出1–3条few-shot示例，作为模型输出模板。

3. 配置模型：选择Gemini等云模型或Ollama对接的本地LLM。

4. 执行提取：自动分块处理文本，调用模型生成带位置锚定的结构化结果。

5. 校验与可视化：生成HTML报告，高亮原文位置并审查结果。

三、典型应用场景

● 医疗：从病历/报告中提取诊断、用药、剂量等并锚定原文，满足合规审计。

● 法律：抽取合同关键条款、权责节点，支持追溯原文出处。

● 企业知识管理：从财报、会议纪要中提取指标、决议，构建可溯源知识库。

● 内容运营：从评论/舆情中抽取情感、诉求，输出结构化统计结果。

四、快速上手示例

from langextract import Extractor, ExampleData
# 1. 定义示例（抽取产品名与价格）
examples = [ExampleData(
    source_text="A: iPhone 15 Pro $999",
    extractions=[{
        "extraction_class": "Product",
        "extraction_text": "iPhone 15 Pro",
        "attributes": {"Price": "$999"},
        "char_interval": {"start_char": 4, "end_char": 17}
    }]
)]
# 2. 初始化提取器（使用Gemini）
extractor = Extractor(
    model_name="gemini-pro",
    task_description="Extract product names and their prices",
    examples=examples
)
# 3. 执行提取
result = extractor.extract("B: MacBook Air $1099")
# 4. 输出与可视化
print(result.extractions)
result.generate_visualization("output.html")

输出会包含产品名、价格及对应的字符偏移，HTML可直接打开查看高亮结果。

五、选型建议

对比项	LangExtract	传统正则/NER	直接调用LLM API
溯源能力	强（字符级锚定）	弱	无
输出稳定性	高（强制schema）	中（规则维护成本高）	低（易幻觉/格式混乱）
长文档处理	优（分块+多轮）	差（需手动切分）	中（上下文窗口受限）
适配成本	低（零微调+少样本）	高（规则/标注成本高）	中（提示词迭代成本）
隐私合规	高（支持本地部署）	高	低（数据出境风险）

适合需高可信度、可审计的结构化提取场景；若追求极致成本，可搭配本地开源LLM（如Llama 3）通过Ollama部署。

六、总结

LangExtract以“精确锚定+可控输出+零微调适配”为核心，大幅降低LLM信息抽取的落地门槛，尤其适合合规要求高、领域多变的企业级场景。结合本地部署能力，可兼顾数据隐私与成本优化，是连接非结构化文本与业务系统的高效桥梁。介绍产品 google / langextract

google / langextract 从非结构化文本中提取结构化信息

一、核心定位与优势

二、工作流程

三、典型应用场景

四、快速上手示例

五、选型建议

六、总结

更多文章

搭建全自动系统，睡觉也能自动获客

被AI重构的2026：寻找你的职业护城河

字节跳动开源DeerFlow 2.0 AI Agent运行时

白手起家，选对赛道很重要