Merge branch 'pdf'

2024-10-31 23:26:20 +00:00 · 2024-10-19 06:47:32 +02:00 · 2024-10-19 06:47:32 +02:00 · b9085129a7
commit b9085129a7
parent cb073daca3 07bf9047b0
1 changed files with 9 additions and 4 deletions
--- a/cps/uploader.py
+++ b/cps/uploader.py
@ -39,17 +39,20 @@ except (ImportError, RuntimeError) as e:
 try:
    from pypdf import PdfReader
    from pypdf.generic import NullObject
    use_pdf_meta = True
 except ImportError as ex:
    log.debug('PyPDF is recommended for best performance in metadata extracting from pdf files: %s', ex)
    try:
        from PyPDF2 import PdfReader
        from pypdf.generic import NullObject
        use_pdf_meta = True
    except ImportError as ex:
        log.debug('PyPDF is recommended for best performance in metadata extracting from pdf files: %s', ex)
        log.debug('PyPdf2 is also possible for metadata extracting from pdf files, but not recommended anymore')
        try:
            from PyPDF3 import PdfFileReader as PdfReader
            from pypdf.generic import NullObject
            use_pdf_meta = True
        except ImportError as e:
            log.debug('Cannot import PyPDF3/PyPDF2, extracting pdf metadata will not work: %s / %s', e)
@ -205,10 +208,12 @@ def pdf_meta(tmp_file_path, original_file_name, original_file_extension, no_cove
        if subject == '':
            subject = doc_info.subject or ""
        if tags == '' and '/Keywords' in doc_info:
-            if isinstance(doc_info['/Keywords'], bytes):
+            keywords = doc_info['/Keywords']
-                tags = doc_info['/Keywords'].decode('utf-8')
+            if not isinstance(keywords, NullObject):
                if isinstance(keywords, bytes):
                    tags = keywords.decode('utf-8')
                else:
-                tags = doc_info['/Keywords']
+                    tags = keywords
    else:
        title = original_file_name