Upload 10 files

Browse files

Files changed (10) hide show

.gitattributes +35 -35
README.md +153 -0
config.json +127 -0
model.safetensors +3 -0
onnx/model.onnx +3 -0
onnx/model.quant.onnx +3 -0
special_tokens_map.json +7 -0
tokenizer.json +0 -0
tokenizer_config.json +57 -0
vocab.txt +0 -0

.gitattributes CHANGED Viewed

@@ -1,35 +1,35 @@
-*.7z filter=lfs diff=lfs merge=lfs -text
-*.arrow filter=lfs diff=lfs merge=lfs -text
-*.bin filter=lfs diff=lfs merge=lfs -text
-*.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ckpt filter=lfs diff=lfs merge=lfs -text
-*.ftz filter=lfs diff=lfs merge=lfs -text
-*.gz filter=lfs diff=lfs merge=lfs -text
-*.h5 filter=lfs diff=lfs merge=lfs -text
-*.joblib filter=lfs diff=lfs merge=lfs -text
-*.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
-*.model filter=lfs diff=lfs merge=lfs -text
-*.msgpack filter=lfs diff=lfs merge=lfs -text
-*.npy filter=lfs diff=lfs merge=lfs -text
-*.npz filter=lfs diff=lfs merge=lfs -text
-*.onnx filter=lfs diff=lfs merge=lfs -text
-*.ot filter=lfs diff=lfs merge=lfs -text
-*.parquet filter=lfs diff=lfs merge=lfs -text
-*.pb filter=lfs diff=lfs merge=lfs -text
-*.pickle filter=lfs diff=lfs merge=lfs -text
-*.pkl filter=lfs diff=lfs merge=lfs -text
-*.pt filter=lfs diff=lfs merge=lfs -text
-*.pth filter=lfs diff=lfs merge=lfs -text
-*.rar filter=lfs diff=lfs merge=lfs -text
-*.safetensors filter=lfs diff=lfs merge=lfs -text
-saved_model/**/* filter=lfs diff=lfs merge=lfs -text
-*.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tar filter=lfs diff=lfs merge=lfs -text
-*.tflite filter=lfs diff=lfs merge=lfs -text
-*.tgz filter=lfs diff=lfs merge=lfs -text
-*.wasm filter=lfs diff=lfs merge=lfs -text
-*.xz filter=lfs diff=lfs merge=lfs -text
-*.zip filter=lfs diff=lfs merge=lfs -text
-*.zst filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1,3 +1,156 @@
 ---
 license: apache-2.0
 ---

 ---
 license: apache-2.0
+datasets:
+- beki/privy
+- gretelai/synthetic_pii_finance_multilingual
+- eriktks/conll2003
+language:
+- en
+base_model:
+- prajjwal1/bert-small
+pipeline_tag: token-classification
 ---
+# gravitee-io/bert-small-pii-detection 🚀
+**A more accurate PII detector** fine-tuned from [`prajjwal1/bert-small`](https://huggingface.co/prajjwal1/bert-small) on the datasets described in metatada.
+### About the dataset:
+We combined various datasets in order to cover wide range of document formats like:
+1. JSON,
+2. HTML,
+3. XML,
+4. SQL
+5. Documents
+### Label Set
+```
+AGE, COORDINATE, CREDIT_CARD, DATE_TIME, EMAIL_ADDRESS, FINANCIAL, IBAN_CODE, IMEI,
+IP_ADDRESS, LOCATION, MAC_ADDRESS, NRP, ORGANIZATION, PASSWORD, PERSON, PHONE_NUMBER,
+TITLE, URL, US_BANK_NUMBER, US_DRIVER_LICENSE, US_ITIN, US_LICENSE_PLATE, US_PASSPORT, US_SSN
+```
+## How to Use
+### Quick start (pipeline)
+```python
+from transformers import AutoTokenizer, AutoModelForTokenClassification, pipeline
+repo = "gravitee-io/bert-small-pii-detection"
+tok = AutoTokenizer.from_pretrained(repo)
+model = AutoModelForTokenClassification.from_pretrained(repo)
+pipe = pipeline("token-classification", model=model, tokenizer=tok, aggregation_strategy="simple")
+text = ""
+pipe(text)
+```
+## Evaluation
+**Metric:** precision / recall / F1 per entity, micro/macro averages
+| Entity             | Precision | Recall | F1-score | Support |
+|--------------------|-----------|--------|----------|---------|
+| AGE                | 0.9898    | 0.8858 | 0.9349   | 219     |
+| COORDINATE         | 0.9627    | 0.8738 | 0.9161   | 325     |
+| CREDIT_CARD        | 0.9273    | 0.8870 | 0.9067   | 115     |
+| DATE_TIME          | 0.8598    | 0.7364 | 0.7933   | 3255    |
+| EMAIL_ADDRESS      | 0.9428    | 0.8941 | 0.9178   | 387     |
+| FINANCIAL          | 0.9862    | 0.9565 | 0.9711   | 299     |
+| IBAN_CODE          | 0.9577    | 0.9252 | 0.9412   | 147     |
+| IMEI               | 0.9885    | 0.9663 | 0.9773   | 89      |
+| IP_ADDRESS         | 0.9338    | 0.8812 | 0.9068   | 160     |
+| LOCATION           | 0.8849    | 0.8222 | 0.8524   | 4264    |
+| MAC_ADDRESS        | 0.9889    | 1.0000 | 0.9944   | 89      |
+| NRP                | 1.0000    | 0.9818 | 0.9908   | 494     |
+| ORGANIZATION       | 0.7454    | 0.6688 | 0.7051   | 3551    |
+| PASSWORD           | 0.8384    | 0.8137 | 0.8259   | 102     |
+| PERSON             | 0.9123    | 0.8826 | 0.8972   | 4454    |
+| PHONE_NUMBER       | 0.9462    | 0.8199 | 0.8785   | 322     |
+| TITLE              | 0.9887    | 0.9734 | 0.9810   | 451     |
+| URL                | 1.0000    | 0.9787 | 0.9892   | 188     |
+| US_BANK_NUMBER     | 1.0000    | 0.9579 | 0.9785   | 95      |
+| US_DRIVER_LICENSE  | 0.9167    | 0.9167 | 0.9167   | 120     |
+| US_ITIN            | 0.9659    | 0.8763 | 0.9189   | 97      |
+| US_LICENSE_PLATE   | 1.0000    | 0.9000 | 0.9474   | 90      |
+| US_PASSPORT        | 0.9200    | 0.9200 | 0.9200   | 100     |
+| US_SSN             | 0.9744    | 0.9580 | 0.9661   | 119     |
+| **micro avg**      | 0.8804    | 0.8141 | 0.8460   | 19532   |
+| **macro avg**      | 0.9429    | 0.8948 | 0.9178   | 19532   |
+| **weighted avg**   | 0.8785    | 0.8141 | 0.8446   | 19532   |
+## Intended Uses & Limitations
+**Use this model for:**
+* **Low resource environmens**
+* Redacting PII in customer support logs, dev/test environments, API traces and articles
+* Real-time hints in form fields or data entry systems
+**Limitations:**
+* English-focused; other languages will degrade
+* Domain drift is real: audit on your own data
+---
+## Citation
+If you use the model, please consider citing the papers:
+```
+@misc{bhargava2021generalization,
+      title={Generalization in NLI: Ways (Not) To Go Beyond Simple Heuristics},
+      author={Prajjwal Bhargava and Aleksandr Drozd and Anna Rogers},
+      year={2021},
+      eprint={2110.01518},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL}
+}
+@article{DBLP:journals/corr/abs-1908-08962,
+  author    = {Iulia Turc and
+               Ming{-}Wei Chang and
+               Kenton Lee and
+               Kristina Toutanova},
+  title     = {Well-Read Students Learn Better: The Impact of Student Initialization
+               on Knowledge Distillation},
+  journal   = {CoRR},
+  volume    = {abs/1908.08962},
+  year      = {2019},
+  url       = {http://arxiv.org/abs/1908.08962},
+  eprinttype = {arXiv},
+  eprint    = {1908.08962},
+  timestamp = {Thu, 29 Aug 2019 16:32:34 +0200},
+  biburl    = {https://dblp.org/rec/journals/corr/abs-1908-08962.bib},
+  bibsource = {dblp computer science bibliography, https://dblp.org}
+}
+@online{WinNT,
+  author = {Benjamin Kilimnik},
+  title = {{Privy} Synthetic PII Protocol Trace Dataset},
+  year = 2022,
+  url = {https://huggingface.co/datasets/beki/privy},
+}
+@online{gretel2023,
+  author = {Gretel.ai},
+  title = {{Synthetic PII Finance Multilingual Dataset}},
+  year = 2023,
+  url = {https://huggingface.co/datasets/gretelai/synthetic_pii_finance_multilingual},
+}
+@inproceedings{tjong-kim-sang-de-meulder-2003-introduction,
+    title = "Introduction to the CoNLL-2003 Shared Task: Language-Independent Named Entity Recognition",
+    author = "Tjong Kim Sang, Erik F. and De Meulder, Fien",
+    booktitle = "Proceedings of the Seventh Conference on Natural Language Learning at HLT-NAACL 2003",
+    year = "2003",
+    url = "https://aclanthology.org/W03-0419",
+}
+}
+```

config.json ADDED Viewed

	@@ -0,0 +1,127 @@

+{
+  "_name_or_path": "prajjwal1/bert-small",
+  "architectures": [
+    "BertForTokenClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 512,
+  "id2label": {
+    "0": "O",
+    "1": "B-AGE",
+    "2": "I-AGE",
+    "3": "B-COORDINATE",
+    "4": "I-COORDINATE",
+    "5": "B-CREDIT_CARD",
+    "6": "I-CREDIT_CARD",
+    "7": "B-DATE_TIME",
+    "8": "I-DATE_TIME",
+    "9": "B-EMAIL_ADDRESS",
+    "10": "I-EMAIL_ADDRESS",
+    "11": "B-FINANCIAL",
+    "12": "I-FINANCIAL",
+    "13": "B-IBAN_CODE",
+    "14": "I-IBAN_CODE",
+    "15": "B-IMEI",
+    "16": "I-IMEI",
+    "17": "B-IP_ADDRESS",
+    "18": "I-IP_ADDRESS",
+    "19": "B-LOCATION",
+    "20": "I-LOCATION",
+    "21": "B-MAC_ADDRESS",
+    "22": "I-MAC_ADDRESS",
+    "23": "B-NRP",
+    "24": "I-NRP",
+    "25": "B-ORGANIZATION",
+    "26": "I-ORGANIZATION",
+    "27": "B-PASSWORD",
+    "28": "I-PASSWORD",
+    "29": "B-PERSON",
+    "30": "I-PERSON",
+    "31": "B-PHONE_NUMBER",
+    "32": "I-PHONE_NUMBER",
+    "33": "B-TITLE",
+    "34": "I-TITLE",
+    "35": "B-URL",
+    "36": "I-URL",
+    "37": "B-US_BANK_NUMBER",
+    "38": "I-US_BANK_NUMBER",
+    "39": "B-US_DRIVER_LICENSE",
+    "40": "I-US_DRIVER_LICENSE",
+    "41": "B-US_ITIN",
+    "42": "I-US_ITIN",
+    "43": "B-US_LICENSE_PLATE",
+    "44": "I-US_LICENSE_PLATE",
+    "45": "B-US_PASSPORT",
+    "46": "I-US_PASSPORT",
+    "47": "B-US_SSN",
+    "48": "I-US_SSN"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 2048,
+  "label2id": {
+    "B-AGE": 1,
+    "B-COORDINATE": 3,
+    "B-CREDIT_CARD": 5,
+    "B-DATE_TIME": 7,
+    "B-EMAIL_ADDRESS": 9,
+    "B-FINANCIAL": 11,
+    "B-IBAN_CODE": 13,
+    "B-IMEI": 15,
+    "B-IP_ADDRESS": 17,
+    "B-LOCATION": 19,
+    "B-MAC_ADDRESS": 21,
+    "B-NRP": 23,
+    "B-ORGANIZATION": 25,
+    "B-PASSWORD": 27,
+    "B-PERSON": 29,
+    "B-PHONE_NUMBER": 31,
+    "B-TITLE": 33,
+    "B-URL": 35,
+    "B-US_BANK_NUMBER": 37,
+    "B-US_DRIVER_LICENSE": 39,
+    "B-US_ITIN": 41,
+    "B-US_LICENSE_PLATE": 43,
+    "B-US_PASSPORT": 45,
+    "B-US_SSN": 47,
+    "I-AGE": 2,
+    "I-COORDINATE": 4,
+    "I-CREDIT_CARD": 6,
+    "I-DATE_TIME": 8,
+    "I-EMAIL_ADDRESS": 10,
+    "I-FINANCIAL": 12,
+    "I-IBAN_CODE": 14,
+    "I-IMEI": 16,
+    "I-IP_ADDRESS": 18,
+    "I-LOCATION": 20,
+    "I-MAC_ADDRESS": 22,
+    "I-NRP": 24,
+    "I-ORGANIZATION": 26,
+    "I-PASSWORD": 28,
+    "I-PERSON": 30,
+    "I-PHONE_NUMBER": 32,
+    "I-TITLE": 34,
+    "I-URL": 36,
+    "I-US_BANK_NUMBER": 38,
+    "I-US_DRIVER_LICENSE": 40,
+    "I-US_ITIN": 42,
+    "I-US_LICENSE_PLATE": 44,
+    "I-US_PASSPORT": 46,
+    "I-US_SSN": 48,
+    "O": 0
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 8,
+  "num_hidden_layers": 4,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.41.0",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:09be1b3b49663c94e7b038b2dae6f195ef3425db5edd3cf883db96ce6ec42bf4
+size 114112684

onnx/model.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5806bda3f4ba0b79bd39257382c4ceb508a4b683f12dc3d5b36623eaa9f3e124
+size 114202366

onnx/model.quant.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a239c348b8249388bf55801d057b8d1294bf357757774c7c30febed0f2a2a5ac
+size 28837321

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff