中文地址要素抽取 LoRA(Qwen3‑8B‑Instruct)

将中文地址文本直接生成 XML 标签串(如 <prov>…</prov><city>…</city>)。适配器采用 LoRA/QLoRA,与基座一起加载即可用于抽取省/市/区/道路/门牌/POI 等要素。

一、简介

  • 任务:中文地址结构化(信息抽取 → 文本生成)。
  • 形式:SFT 指令跟随;输入原始地址,输出 XML 标签串。
  • 工程配套:提供 Web/REST 界面与 AMap 集成,以及 LoRA 数据与脚本。

二、代码与数据

  • 代码仓库:Scisaga/addr-resolver(含 Web 端、API、LoRA 数据脚本、示例地址库等)。

    • 关键目录/文件:lora/bio2sft.pylora/build_sft_from_adm.pyfunc/amap_call.pyfunc/qwen_call.pyapp.pyresolver.pyaddress.db(示例库)等。
  • 系统能力:结合 高德地图 API通义千问 进行解析/推理/定位;私有化地址库管理;提供 Docker 部署与前端页面。

三、训练

lora/ 目录产出的 sft.jsonl 为训练数据(BIO/BIES → SFT 一步式转换脚本已提供)。

CUDA_VISIBLE_DEVICES=0,1 torchrun --nproc_per_node=2 lora/train_hf_qlora.py \
  --data lora/sft.jsonl --bf16

四、推理(docker)

docker run --gpus all --shm-size 1g -p 8080:80 \
  -v $PWD/qwen3-8b-instruct-lora-address-struct-cn:/data \
  ghcr.io/huggingface/text-generation-inference:latest \
  --model-id /data \
  --dtype bfloat16 \
  --num-shard 2 \
  --max-input-tokens 2048 --max-total-tokens 2304

五、许可

  • 本仓库权重(适配器)与代码:CC BY 4.0(需署名、注明修改、不得施加额外法律/技术限制)。
  • 基座 Qwen3‑8B‑InstructApache‑2.0。如分发合并权重,需同时满足 Apache‑2.0(保留 LICENSE/NOTICE)CC BY 4.0(署名/注明修改) 的要求。

推荐署名模板(在 README 或产品“关于”页中标注):

Uses the model by Scisaga (CC BY 4.0). Based on Qwen/Qwen3‑8B‑Instruct (Apache‑2.0). Changes: LoRA fine‑tuning for Chinese address slot extraction.

六、致谢 / 变更

  • 2025‑10‑26:首版精简模型卡,补充仓库链接与目录映射;许可调整为 CC BY 4.0
Downloads last month
28
Safetensors
Model size
8B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for scisaga/qwen3-8b-instruct-lora-address-struct-cn

Base model

Qwen/Qwen3-8B-Base
Finetuned
Qwen/Qwen3-8B
Finetuned
(486)
this model