Skip to content

Latest commit

 

History

History
139 lines (88 loc) · 5.85 KB

File metadata and controls

139 lines (88 loc) · 5.85 KB

GeoAgent: Learning to Geolocate Everywhere with Reinforced Geographic Characteristic

Modi Jin1 · Yiming Zhang1 · Boyuan Sun1 · Dingwen Zhang2 · Mingming Cheng1 · Qibin Hou1†

1南开大学 VCIP 2 西北工业大学 自动化学院

†通讯作者

English | 简体中文

Paper PDF Project Page Demo

teaser

GeoAgent 是一个面向图像地理定位的视觉语言模型,能够以接近人类的推理方式得出细粒度地址结论。基于 Qwen2.5-VL 构建,在多个地理粒度(城市、区域、国家、大陆)上表现优异,同时生成可解释的思维链推理。

GeoAgent 的主要贡献包括:

  1. 地理相似度奖励:结合空间相似度与语义相似度,处理自然语言与地理位置之间的多对一映射;
  2. 一致性奖励:通过一致性智能体评估,确保推理链的完整性与一致性。模型在 GeoSeek 上训练,这是一个包含人类标注思维链和去偏采样的新型地理定位数据集。

我们同时提出 GeoSeek 数据集,包含以下组成部分:

  • GeoSeek-CoT(10k):由地理专家与专业地理定位游戏玩家标注的高质量思维链数据。每条数据包含街景图像、GPS 坐标、三级位置标签(国家、城市、具体位置)以及人类推理过程,并统一为标准化的 CoT 格式。
  • GeoSeek-Loc(20k):用于基于强化学习的微调,采用分层采样策略,综合考虑人口、国土面积和公路里程以降低地理偏差。
  • GeoSeek-Val(3k):验证基准,包含可定位性评分和场景类别(人造建筑、自然景观等),用于模型评估。

新闻

2026-02-17: 🚀 GeoAgent 入选 HuggingFace Daily Papers 当日论文 第 6 名

  • 2026-02-16: 🔥 GeoAgent 论文发布。
  • 2026-02-13: 🔥 GeoAgent 代码开源。
  • 2026-02-13: 🔥 GeoAgent 模型与 GeoSeek 数据集发布。

TODO

  • 训练数据集下载与处理说明
  • GeoAgent 的 Jittor 实现
  • 发布视频演示

模型架构

architecture

安装

环境要求

  • Python>=3.9
  • torch==2.6.0
  • torchvision==0.21.0
  • torchaudio==2.6.0
  • ms-swift>=3.8.0
  • xformers==0.0.27.post2
  • deepspeed==0.15.0
  • cuda==12.4

安装步骤

git clone https://github.com/HVision-NKU/GeoAgent.git
cd GeoAgent

conda create -n GeoAgent python=3.9
conda activate GeoAgent
pip install -r requirements.txt

使用

获取 GeoAgent 模型

Hugging Face 下载预训练权重:

mkdir checkpoints
cd checkpoints

# 可选:使用 Hugging Face 镜像
export HF_ENDPOINT=https://hf-mirror.com

huggingface-cli download --resume-download ghost233lism/GeoAgent --local-dir ghost233lism/GeoAgent

快速推理

infer/ 目录提供单张/批量图片推理脚本,详见 infer/README_zh

训练

bash tools/train_sft.sh 
bash tools/train_grpo.sh

引用

@article{jin2026geoagent,
  title={GeoAgent: Learning to Geolocate Everywhere with Reinforced Geographic Characteristics},
  author={Jin, Modi and Zhang, Yiming and Sun, Boyuan and Zhang, Dingwen and Cheng, Ming-Ming and Hou, Qibin},
  journal={arXiv preprint arXiv:2602.12617},
  year={2026}
}

许可证

本代码采用 Creative Commons Attribution-NonCommercial 4.0 International 许可,仅供非商业使用。

商业使用需事先获得正式授权。

联系方式

技术问题请联系:jin_modi[AT]mail.nankai.edu.cn

商业授权请联系:andrewhoux[AT]gmail.com

致谢

我们衷心感谢 Yue ZhangH.M.Haowen HeYuke Jun 以及地理学领域的其他专家和优秀地理定位游戏玩家,感谢他们在 GeoSeek 数据集构建过程中提供的宝贵指导、提示词设计建议和数据支持。

我们还要感谢 Zhixiang WangChilin ChenJincheng ShiLiupeng ZhangYuan GuYanghang ShaoJinhua ZhangJiachen ZhuGucheng QiuyueQingyang GuoJingchen YangWeilong KongXinyuan Li 以及 Dawei Xu 在提供高质量推理过程数据方面的杰出贡献。