---
language: en
license: mit
tags:
  - seo
  - backlinks
  - xgboost
  - link-building
---

# Backlink-Quality-Scorer: Backlink Quality and Risk Scoring

**Type:** Commercial | **Domain:** SEO, Link Building  
**Hugging Face:** [syeedalireza/backlink-quality-scorer](https://huggingface.co/syeedalireza/backlink-quality-scorer)

Score backlinks by quality and spam/risk for link audits and disavow decisions.

## Author

**Alireza Aminzadeh**  
- Hugging Face: [syeedalireza](https://huggingface.co/syeedalireza)  
- LinkedIn: [alirezaaminzadeh](https://www.linkedin.com/in/alirezaaminzadeh)  
- Email: alireza.aminzadeh@hotmail.com

## Problem

Not all backlinks are equal. Automating quality and risk signals helps prioritize manual review and disavow lists.

## Approach

- **Input:** URL, domain_authority (or similar), anchor_text, link_type (dofollow/nofollow), ref_domain_count, etc.
- **Output:** Quality score (0–1) and/or risk score (spam likelihood); optional binary keep/disavow.
- **Models:** XGBoost/LightGBM on tabular features; optional text embedding for anchor or URL for spam detection.

## Tech Stack

| Category | Tools |
|----------|------|
| ML | scikit-learn, XGBoost, LightGBM |
| Data | pandas, NumPy |
| Optional NLP | sentence-transformers (anchor/URL) |

## Setup

```bash
pip install -r requirements.txt
```

## Usage

```bash
python train.py
python inference.py --input data/backlinks.csv --output scored_links.csv
```

## Project structure

```
10_backlink-quality-scorer/
├── config.py
├── train.py           # Quality (regression) and/or risk (classification)
├── inference.py       # Add pred_quality_score, pred_risk_label
├── requirements.txt
├── .env.example
├── data/
│   └── backlinks.csv      # Sample: features + quality_score, risk_label
└── models/
```

## Data

- **Sample data (included):** `data/backlinks.csv` — columns: `url`, `domain_authority`, `dofollow`, `ref_domains`, `anchor_text` (optional; `anchor_length` is derived), `same_topic`; targets: `quality_score` (0–1), `risk_label` (0/1).
- Set `DATA_PATH` in `.env` if using another file.

## License

MIT.