add support for OpenCLIP

2022-12-10 15:58:31 +03:00 · 2022-12-10 15:58:31 +03:00 · ac6d541c70
parent c5e95a7233
commit ac6d541c70
1 changed files with 36 additions and 5 deletions
--- a/scripts/tokenizer.py
+++ b/scripts/tokenizer.py
@ -1,7 +1,8 @@
 import html

-from ldm.modules.encoders.modules import FrozenCLIPEmbedder
+from ldm.modules.encoders.modules import FrozenCLIPEmbedder, FrozenOpenCLIPEmbedder
 from modules import script_callbacks, shared
+import open_clip.tokenizer

 import gradio as gr

@ -21,15 +22,43 @@ css = """
 """


+class VanillaClip:
+    def __init__(self, clip):
+        self.clip = clip
+
+    def vocab(self):
+        return self.clip.tokenizer.get_vocab()
+
+    def byte_decoder(self):
+        return self.clip.tokenizer.byte_decoder
+
+class OpenClip:
+    def __init__(self, clip):
+        self.clip = clip
+        self.tokenizer = open_clip.tokenizer._tokenizer
+
+    def vocab(self):
+        return self.tokenizer.encoder
+
+    def byte_decoder(self):
+        return self.tokenizer.byte_decoder
+
+
 def tokenize(text, input_is_ids=False):
-    clip: FrozenCLIPEmbedder = shared.sd_model.cond_stage_model.wrapped
+    clip = shared.sd_model.cond_stage_model.wrapped
+    if isinstance(clip, FrozenCLIPEmbedder):
+        clip = VanillaClip(shared.sd_model.cond_stage_model.wrapped)
+    elif isinstance(clip, FrozenOpenCLIPEmbedder):
+        clip = OpenClip(shared.sd_model.cond_stage_model.wrapped)
+    else:
+        raise RuntimeError(f'Unknown CLIP model: {type(clip).__name__}')

    if input_is_ids:
        tokens = [int(x.strip()) for x in text.split(",")]
    else:
-        tokens = clip.tokenizer(text, truncation=False, add_special_tokens=False)["input_ids"]
+        tokens = shared.sd_model.cond_stage_model.tokenize([text])[0]

-    vocab = {v: k for k, v in clip.tokenizer.get_vocab().items()}
+    vocab = {v: k for k, v in clip.vocab().items()}

    code = ''
    ids = []
@ -37,6 +66,8 @@ def tokenize(text, input_is_ids=False):
    current_ids = []
    class_index = 0

+    byte_decoder = clip.byte_decoder()
+
    def dump(last=False):
        nonlocal code, ids, current_ids

@ -49,7 +80,7 @@ def tokenize(text, input_is_ids=False):
            return res

        try:
-            word = bytearray([clip.tokenizer.byte_decoder[x] for x in ''.join(words)]).decode("utf-8")
+            word = bytearray([byte_decoder[x] for x in ''.join(words)]).decode("utf-8")
        except UnicodeDecodeError:
            if last:
                word = "❌" * len(current_ids)