2013年11月20日 星期三

translatePDF 簡體中文文字版PDF轉換為繁體中文PDF



translatePDF是一個能將簡體中文文字版的PDF轉換為繁體中文的軟體,本來想將VIM簡體中文的PDF轉成繁體中文,可是無法順利轉換


Font not translated: /F32 /KWSWHA+gbsnu66

Font not translated: /F49 /IFENFK+gbsnu30

Font not translated: /F48 /LWKBKD+gbsnu53

...more

原因如下: PDF 簡體/正體轉換 github 及 TODO


  • 處理更多不同類型中文編碼,比方 latex 產生的 pdf 目前都無法處理。PDF 放中文的方式有很多種,目前只能處理其中一種情況而已,只是許多所謂文字版的簡體 pdf 都是這種情況









經回報後以修正python print error


這裡特別做過記錄使用時遇到的一個問題:


python ./tpdfrw.py File "./tpdfrw.py", line 37 print sys.exc_info() ^ SyntaxError: invalid syntax

經由G+上的朋友+Xuetian Weng 指點:python2 的print可以用,print XXXX,python3 的 print要用,print(XXXX)。如果想要了解python2、python3的差異請看What's New In Python 3.0 — Python v3.0.1 documentation




安裝



For Ubuntu


目前沒用Ubuntu我只是照抄的。

需安裝:

pdfrw, opencc, pdftk, chardet, fontTools, 

droid-sans-fallback.ttf 

 

fontTools 可用 pip 安裝,其他可用 apt-get 安裝。




For Arch


yaourt -S opencc pdftk-bin python2-fonttools python-chardet python2-chardet python2-pdfrw




下載主程式


git clone https://github.com/tjwei/translatePDF.git
cd translatePDF
chmod +x ./tpdfrw.py




修複前面所說的Bug


vim ./tpdfrw.py

在檔案最上頭插入一行


#!/usr/bin/env python2




使用


./tpdfrw.py  --opencc-config zhs2zhtw_vp.ini --default-ttf /usr/share/fonts/wenquanyi/wqy-microhei/wqy-microhei.ttc input output

--opencc-config:OpenCC支持地區用詞轉換了

 --default-ttf 預設是用DroidSansFallback.ttf 要改用其它字型請用此參數





參考資料:

沒有留言:

張貼留言