关于pdf文字提取的另一个问题
Thread poster: yakky

yakky  Identity Verified
China
Local time: 22:33
English to Chinese
+ ...
Dec 28, 2009

clearwater前辈的问题解决了,我却想到了另一个问题,pdf文件中复制出来的文字,常常是在行末断句,一段两段尚可手工调整,可若是整篇pdf呢?我自己找到的pdf转成word的工具五花八门,可是好用的却很少,大致缺点如下:
1)解决不了断句问题;
2)转换后的word文件非常庞大,多出许多不必要的格式;
3)对表格的转换功能非常弱,有时甚至以绘图的方法来假充表格;

请问各位前辈有没有比较高效的解决方案?


 

Anna Su
English to Chinese
Solid Converter Dec 29, 2009

你试过 Solid Converter PDF v6 吗?我一直在用,感觉在表格,图片,格式等方面都还不错。

 

yakky  Identity Verified
China
Local time: 22:33
English to Chinese
+ ...
TOPIC STARTER
Solid Converter Dec 29, 2009

Anna Su wrote:

你试过 Solid Converter PDF v6 吗?我一直在用,感觉在表格,图片,格式等方面都还不错。


Thank you!
Solid Converter也是我感觉最好的一个,文件小,速度快,效果也算是同类一流,可还是不理想,后期整理的工作仍然很多,尤其是遇到格式稍微复杂一点的pdf。
曾经有人推荐我用ABBYY.FineReader.Professional,可它实在太臃肿,占用的系统资源与其转换效果相比,性价比较低。不过它居然有OCR功能,也算是一个特色吧。

不知各位益友有何高招?


 

Zhoudan  Identity Verified
Local time: 22:33
Member (2007)
English to Chinese
+ ...
Able2Extract Dec 30, 2009

也有上面说的那些毛病。反正pdf提取软件没有完美的。用惯了一个一直用就是了。

 

Foco Yang
China
Local time: 22:33
English to Chinese
ABBYY应该算是比较完美的软件吧 Jan 12, 2010

自从用了abbyy finereader之后,觉得离不开它了,最关键的是它识别中文、日文正确率太高了,英文更不用说。另外,它的混识别功能也是无与伦比的。
另外,ABODE自带的OCR功能也很强大,不过,识别之后,不要用拷贝,而要用export导出文字成doc/txt等文件,这样的话它就能正确换行、分段。如果是拷贝,则拷贝内容多数都是一行一段。这是我试验出来的。FYI。

[修改时间: 2010-01-12 04:58 GMT]


 

Zhoudan  Identity Verified
Local time: 22:33
Member (2007)
English to Chinese
+ ...
版本 Jan 13, 2010

finereader和adobe的版本分别是什么?麻烦告知。

foco wrote:

自从用了abbyy finereader之后,觉得离不开它了,最关键的是它识别中文、日文正确率太高了,英文更不用说。另外,它的混识别功能也是无与伦比的。
另外,ABODE自带的OCR功能也很强大,不过,识别之后,不要用拷贝,而要用export导出文字成doc/txt等文件,这样的话它就能正确换行、分段。如果是拷贝,则拷贝内容多数都是一行一段。这是我试验出来的。FYI。

[修改时间: 2010-01-12 04:58 GMT]


 

stonejohn  Identity Verified
China
Local time: 22:33
Member (2006)
English to Chinese
Nuance PDF Professional 5 Jan 13, 2010

这个挺好用,各位不妨试试。

 

Jason Ma  Identity Verified
China
Local time: 22:33
English to Chinese
+ ...
碰巧看到你给的软件提示 Jan 13, 2010

stonejohn wrote:

Nuance PDF Professional 5 这个挺好用,各位不妨试试。


我也去试试。多谢!


 

Crystal Jiang (X)
China
Local time: 22:33
English to Chinese
+ ...
可以用wordfast转换 Feb 26, 2010

可以用wordfast的转换功能把文字提取到WORD中,可能出现一页一段、页内的段落顺序前后颠倒的现象,不过,没有各行成段的情况,只需整句或整段调调顺序,这样已经可以省下不少时间和精力了。

 

Alan Wang  Identity Verified
China
Local time: 22:33
English to Chinese
+ ...
换行符 Feb 26, 2010

行末的换行符,可在word里做一个宏去除。当年曾在网上下过百本pdf英文的电子书,下来后在粘贴到word里,按一个宏按钮,就能基本搞定断句问题。

yakky wrote:

clearwater前辈的问题解决了,我却想到了另一个问题,pdf文件中复制出来的文字,常常是在行末断句,一段两段尚可手工调整,可若是整篇pdf呢?我自己找到的pdf转成word的工具五花八门,可是好用的却很少,大致缺点如下:
1)解决不了断句问题;
2)转换后的word文件非常庞大,多出许多不必要的格式;
3)对表格的转换功能非常弱,有时甚至以绘图的方法来假充表格;

请问各位前辈有没有比较高效的解决方案?


 

yakky  Identity Verified
China
Local time: 22:33
English to Chinese
+ ...
TOPIC STARTER
阅读与翻译的要求不同 Mar 1, 2010

dumont -- wrote:

行末的换行符,可在word里做一个宏去除。当年曾在网上下过百本pdf英文的电子书,下来后在粘贴到word里,按一个宏按钮,就能基本搞定断句问题。

yakky wrote:

clearwater前辈的问题解决了,我却想到了另一个问题,pdf文件中复制出来的文字,常常是在行末断句,一段两段尚可手工调整,可若是整篇pdf呢?我自己找到的pdf转成word的工具五花八门,可是好用的却很少,大致缺点如下:
1)解决不了断句问题;
2)转换后的word文件非常庞大,多出许多不必要的格式;
3)对表格的转换功能非常弱,有时甚至以绘图的方法来假充表格;

请问各位前辈有没有比较高效的解决方案?


如果只是为了阅读,即使不处理,绝大多数情况也不会影响理解。
问题在于翻译,特别是在使用CAT工具翻译时,原文的正确性就很重要了。
宏是一种方法,但只适合内容相对单一,格式比较简单的pdf文件转换。因为这其中涉及到如何判断哪些换行符需要去除的问题。
wordfast的转换方法倒是没试过,不知效果如何


 

Foco Yang
China
Local time: 22:33
English to Chinese
ADOBE9.0 ABBYY9.0 Mar 2, 2010

Zhoudan wrote:

finereader和adobe的版本分别是什么?麻烦告知。

foco wrote:

自从用了abbyy finereader之后,觉得离不开它了,最关键的是它识别中文、日文正确率太高了,英文更不用说。另外,它的混识别功能也是无与伦比的。
另外,ABODE自带的OCR功能也很强大,不过,识别之后,不要用拷贝,而要用export导出文字成doc/txt等文件,这样的话它就能正确换行、分段。如果是拷贝,则拷贝内容多数都是一行一段。这是我试验出来的。FYI。

[修改时间: 2010-01-12 04:58 GMT]


抱歉Zhoudan姐姐,前阵忙了没来上proz。

我的软件除杀毒软件是花钱买的正版的以外,其他都是网上下载的“绿色版”,非常对不住软件开发商,不要怪我,我在天朝首都卖命。哈哈

[修改时间: 2010-03-02 10:50 GMT]


 


To report site rules violations or get help, contact a site moderator:


You can also contact site staff by submitting a support request »

关于pdf文字提取的另一个问题

Advanced search






Déjà Vu X3
Try it, Love it

Find out why Déjà Vu is today the most flexible, customizable and user-friendly tool on the market. See the brand new features in action: *Completely redesigned user interface *Live Preview *Inline spell checking *Inline

More info »
SDL MultiTerm 2019
Guarantee a unified, consistent and high-quality translation with terminology software by the industry leaders.

SDL MultiTerm 2019 allows translators to create one central location to store and manage multilingual terminology, and with SDL MultiTerm Extract 2019 you can automatically create term lists from your existing documentation to save time.

More info »



Forums
  • All of ProZ.com
  • Term search
  • Jobs
  • Forums
  • Multiple search