关于pdf文字提取的另一个问题 Thread poster: yakky
|
yakky China Local time: 19:05 English to Chinese + ...
clearwater前辈的问题解决了,我却想到了另一个问题,pdf文件中复制出来的文字,常常是在行末断句,一段两段尚可手工调整,可若是整篇pdf呢?我自己找到的pdf转成word的工具五花八门,可是好用的却很少,大致缺点如下: 1)解决不了断句问题; 2)转换后的word文件非常庞大,多出许多不必要的格式; 3)对表格的转换功能非常弱,有时甚至以绘图的方法来假充表格; 请问各位前辈有没有比较高效的解决方案? | | |
Solid Converter | Dec 29, 2009 |
你试过 Solid Converter PDF v6 吗?我一直在用,感觉在表格,图片,格式等方面都还不错。 | | |
yakky China Local time: 19:05 English to Chinese + ... TOPIC STARTER Solid Converter | Dec 29, 2009 |
Anna Su wrote: 你试过 Solid Converter PDF v6 吗?我一直在用,感觉在表格,图片,格式等方面都还不错。 Thank you! Solid Converter也是我感觉最好的一个,文件小,速度快,效果也算是同类一流,可还是不理想,后期整理的工作仍然很多,尤其是遇到格式稍微复杂一点的pdf。 曾经有人推荐我用ABBYY.FineReader.Professional,可它实在太臃肿,占用的系统资源与其转换效果相比,性价比较低。不过它居然有OCR功能,也算是一个特色吧。 不知各位益友有何高招? | | |
Zhoudan Local time: 19:05 English to Chinese + ... Able2Extract | Dec 30, 2009 |
也有上面说的那些毛病。反正pdf提取软件没有完美的。用惯了一个一直用就是了。 | |
|
|
Foco Yang China Local time: 19:05 English to Chinese ABBYY应该算是比较完美的软件吧 | Jan 12, 2010 |
自从用了abbyy finereader之后,觉得离不开它了,最关键的是它识别中文、日文正确率太高了,英文更不用说。另外,它的混识别功能也是无与伦比的。 另外,ABODE自带的OCR功能也很强大,不过,识别之后,不要用拷贝,而要用export导出文字成doc/txt等文件,这样的话它就能正确换行、分段。如果是拷贝,则拷贝内容多数都是一行一段。这是我试验出来的。FYI。
[修改时间: 2010-01-12 04:58 GMT] | | |
Zhoudan Local time: 19:05 English to Chinese + ...
finereader和adobe的版本分别是什么?麻烦告知。 foco wrote: 自从用了abbyy finereader之后,觉得离不开它了,最关键的是它识别中文、日文正确率太高了,英文更不用说。另外,它的混识别功能也是无与伦比的。 另外,ABODE自带的OCR功能也很强大,不过,识别之后,不要用拷贝,而要用export导出文字成doc/txt等文件,这样的话它就能正确换行、分段。如果是拷贝,则拷贝内容多数都是一行一段。这是我试验出来的。FYI。
[修改时间: 2010-01-12 04:58 GMT] | | |
Xu Dongjun China Local time: 19:05 Member (2006) English to Chinese Nuance PDF Professional 5 | Jan 13, 2010 |
这个挺好用,各位不妨试试。 | | |
Jason Ma China Local time: 19:05 English to Chinese + ...
stonejohn wrote: Nuance PDF Professional 5 这个挺好用,各位不妨试试。 我也去试试。多谢! | |
|
|
Crystal Jiang (X) China Local time: 19:05 English to Chinese + ... 可以用wordfast转换 | Feb 26, 2010 |
可以用wordfast的转换功能把文字提取到WORD中,可能出现一页一段、页内的段落顺序前后颠倒的现象,不过,没有各行成段的情况,只需整句或整段调调顺序,这样已经可以省下不少时间和精力了。 | | |
Alan Wang China Local time: 19:05 English to Chinese + ...
行末的换行符,可在word里做一个宏去除。当年曾在网上下过百本pdf英文的电子书,下来后在粘贴到word里,按一个宏按钮,就能基本搞定断句问题。 yakky wrote: clearwater前辈的问题解决了,我却想到了另一个问题,pdf文件中复制出来的文字,常常是在行末断句,一段两段尚可手工调整,可若是整篇pdf呢?我自己找到的pdf转成word的工具五花八门,可是好用的却很少,大致缺点如下: 1)解决不了断句问题; 2)转换后的word文件非常庞大,多出许多不必要的格式; 3)对表格的转换功能非常弱,有时甚至以绘图的方法来假充表格; 请问各位前辈有没有比较高效的解决方案? | | |
yakky China Local time: 19:05 English to Chinese + ... TOPIC STARTER
dumont -- wrote: 行末的换行符,可在word里做一个宏去除。当年曾在网上下过百本pdf英文的电子书,下来后在粘贴到word里,按一个宏按钮,就能基本搞定断句问题。 yakky wrote: clearwater前辈的问题解决了,我却想到了另一个问题,pdf文件中复制出来的文字,常常是在行末断句,一段两段尚可手工调整,可若是整篇pdf呢?我自己找到的pdf转成word的工具五花八门,可是好用的却很少,大致缺点如下: 1)解决不了断句问题; 2)转换后的word文件非常庞大,多出许多不必要的格式; 3)对表格的转换功能非常弱,有时甚至以绘图的方法来假充表格; 请问各位前辈有没有比较高效的解决方案? 如果只是为了阅读,即使不处理,绝大多数情况也不会影响理解。 问题在于翻译,特别是在使用CAT工具翻译时,原文的正确性就很重要了。 宏是一种方法,但只适合内容相对单一,格式比较简单的pdf文件转换。因为这其中涉及到如何判断哪些换行符需要去除的问题。 wordfast的转换方法倒是没试过,不知效果如何 | | |
Foco Yang China Local time: 19:05 English to Chinese ADOBE9.0 ABBYY9.0 | Mar 2, 2010 |
Zhoudan wrote: finereader和adobe的版本分别是什么?麻烦告知。 foco wrote: 自从用了abbyy finereader之后,觉得离不开它了,最关键的是它识别中文、日文正确率太高了,英文更不用说。另外,它的混识别功能也是无与伦比的。 另外,ABODE自带的OCR功能也很强大,不过,识别之后,不要用拷贝,而要用export导出文字成doc/txt等文件,这样的话它就能正确换行、分段。如果是拷贝,则拷贝内容多数都是一行一段。这是我试验出来的。FYI。
[修改时间: 2010-01-12 04:58 GMT] 抱歉Zhoudan姐姐,前阵忙了没来上proz。 我的软件除杀毒软件是花钱买的正版的以外,其他都是网上下载的“绿色版”,非常对不住软件开发商,不要怪我,我在天朝首都卖命。哈哈
[修改时间: 2010-03-02 10:50 GMT] | | |