关于pdf文字提取的另一个问题
Thread poster: yakky
yakky
yakky  Identity Verified
China
Local time: 23:02
English to Chinese
+ ...
Dec 28, 2009

clearwater前辈的问题解决了,我却想到了另一个问题,pdf文件中复制出来的文字,常常是在行末断句,一段两段尚可手工调整,可若是整篇pdf呢?我自己找到的pdf转成word的工具五花八门,可是好用的却很少,大致缺点如下:
1)解决不了断句问题;
2)转换后的word文件非常庞大,多出许多不必要的格式;
3)对表格的转换功能非常弱,有时甚至以绘图的方法来假充表格;

请问各位前辈有没有比较高效的解决方案?


 
Anna Su
Anna Su
English to Chinese
Solid Converter Dec 29, 2009

你试过 Solid Converter PDF v6 吗?我一直在用,感觉在表格,图片,格式等方面都还不错。

 
yakky
yakky  Identity Verified
China
Local time: 23:02
English to Chinese
+ ...
TOPIC STARTER
Solid Converter Dec 29, 2009

Anna Su wrote:

你试过 Solid Converter PDF v6 吗?我一直在用,感觉在表格,图片,格式等方面都还不错。


Thank you!
Solid Converter也是我感觉最好的一个,文件小,速度快,效果也算是同类一流,可还是不理想,后期整理的工作仍然很多,尤其是遇到格式稍微复杂一点的pdf。
曾经有人推荐我用ABBYY.FineReader.Professional,可它实在太臃肿,占用的系统资源与其转换效果相比,性价比较低。不过它居然有OCR功能,也算是一个特色吧。

不知各位益友有何高招?


 
Zhoudan
Zhoudan  Identity Verified
Local time: 23:02
English to Chinese
+ ...
Able2Extract Dec 30, 2009

也有上面说的那些毛病。反正pdf提取软件没有完美的。用惯了一个一直用就是了。

 
Foco Yang
Foco Yang
China
Local time: 23:02
English to Chinese
ABBYY应该算是比较完美的软件吧 Jan 12, 2010

自从用了abbyy finereader之后,觉得离不开它了,最关键的是它识别中文、日文正确率太高了,英文更不用说。另外,它的混识别功能也是无与伦比的。
另外,ABODE自带的OCR功能也很强大,不过,识别之后,不要用拷贝,而要用export导出文字成doc/txt等文件,这样的话它就能正确换行、分段。如果是拷贝,则拷贝内容多数都是一行一段。这是我试验出来的。FYI。

[修改时间: 2010-01-12 04:58 GMT]


 
Zhoudan
Zhoudan  Identity Verified
Local time: 23:02
English to Chinese
+ ...
版本 Jan 13, 2010

finereader和adobe的版本分别是什么?麻烦告知。

foco wrote:

自从用了abbyy finereader之后,觉得离不开它了,最关键的是它识别中文、日文正确率太高了,英文更不用说。另外,它的混识别功能也是无与伦比的。
另外,ABODE自带的OCR功能也很强大,不过,识别之后,不要用拷贝,而要用export导出文字成doc/txt等文件,这样的话它就能正确换行、分段。如果是拷贝,则拷贝内容多数都是一行一段。这是我试验出来的。FYI。

[修改时间: 2010-01-12 04:58 GMT]


 
Xu Dongjun
Xu Dongjun  Identity Verified
China
Local time: 23:02
Member (2006)
English to Chinese
Nuance PDF Professional 5 Jan 13, 2010

这个挺好用,各位不妨试试。

 
Jason Ma
Jason Ma  Identity Verified
China
Local time: 23:02
English to Chinese
+ ...
碰巧看到你给的软件提示 Jan 13, 2010

stonejohn wrote:

Nuance PDF Professional 5 这个挺好用,各位不妨试试。


我也去试试。多谢!


 
Crystal Jiang (X)
Crystal Jiang (X)
China
Local time: 23:02
English to Chinese
+ ...
可以用wordfast转换 Feb 26, 2010

可以用wordfast的转换功能把文字提取到WORD中,可能出现一页一段、页内的段落顺序前后颠倒的现象,不过,没有各行成段的情况,只需整句或整段调调顺序,这样已经可以省下不少时间和精力了。

 
Alan Wang
Alan Wang  Identity Verified
China
Local time: 23:02
English to Chinese
+ ...
换行符 Feb 26, 2010

行末的换行符,可在word里做一个宏去除。当年曾在网上下过百本pdf英文的电子书,下来后在粘贴到word里,按一个宏按钮,就能基本搞定断句问题。

yakky wrote:

clearwater前辈的问题解决了,我却想到了另一个问题,pdf文件中复制出来的文字,常常是在行末断句,一段两段尚可手工调整,可若是整篇pdf呢?我自己找到的pdf转成word的工具五花八门,可是好用的却很少,大致缺点如下:
1)解决不了断句问题;
2)转换后的word文件非常庞大,多出许多不必要的格式;
3)对表格的转换功能非常弱,有时甚至以绘图的方法来假充表格;

请问各位前辈有没有比较高效的解决方案?


 
yakky
yakky  Identity Verified
China
Local time: 23:02
English to Chinese
+ ...
TOPIC STARTER
阅读与翻译的要求不同 Mar 1, 2010

dumont -- wrote:

行末的换行符,可在word里做一个宏去除。当年曾在网上下过百本pdf英文的电子书,下来后在粘贴到word里,按一个宏按钮,就能基本搞定断句问题。

yakky wrote:

clearwater前辈的问题解决了,我却想到了另一个问题,pdf文件中复制出来的文字,常常是在行末断句,一段两段尚可手工调整,可若是整篇pdf呢?我自己找到的pdf转成word的工具五花八门,可是好用的却很少,大致缺点如下:
1)解决不了断句问题;
2)转换后的word文件非常庞大,多出许多不必要的格式;
3)对表格的转换功能非常弱,有时甚至以绘图的方法来假充表格;

请问各位前辈有没有比较高效的解决方案?


如果只是为了阅读,即使不处理,绝大多数情况也不会影响理解。
问题在于翻译,特别是在使用CAT工具翻译时,原文的正确性就很重要了。
宏是一种方法,但只适合内容相对单一,格式比较简单的pdf文件转换。因为这其中涉及到如何判断哪些换行符需要去除的问题。
wordfast的转换方法倒是没试过,不知效果如何


 
Foco Yang
Foco Yang
China
Local time: 23:02
English to Chinese
ADOBE9.0 ABBYY9.0 Mar 2, 2010

Zhoudan wrote:

finereader和adobe的版本分别是什么?麻烦告知。

foco wrote:

自从用了abbyy finereader之后,觉得离不开它了,最关键的是它识别中文、日文正确率太高了,英文更不用说。另外,它的混识别功能也是无与伦比的。
另外,ABODE自带的OCR功能也很强大,不过,识别之后,不要用拷贝,而要用export导出文字成doc/txt等文件,这样的话它就能正确换行、分段。如果是拷贝,则拷贝内容多数都是一行一段。这是我试验出来的。FYI。

[修改时间: 2010-01-12 04:58 GMT]


抱歉Zhoudan姐姐,前阵忙了没来上proz。

我的软件除杀毒软件是花钱买的正版的以外,其他都是网上下载的“绿色版”,非常对不住软件开发商,不要怪我,我在天朝首都卖命。哈哈

[修改时间: 2010-03-02 10:50 GMT]


 


To report site rules violations or get help, contact a site moderator:


You can also contact site staff by submitting a support request »

关于pdf文字提取的另一个问题






Trados Business Manager Lite
Create customer quotes and invoices from within Trados Studio

Trados Business Manager Lite helps to simplify and speed up some of the daily tasks, such as invoicing and reporting, associated with running your freelance translation business.

More info »
Wordfast Pro
Translation Memory Software for Any Platform

Exclusive discount for ProZ.com users! Save over 13% when purchasing Wordfast Pro through ProZ.com. Wordfast is the world's #1 provider of platform-independent Translation Memory software. Consistently ranked the most user-friendly and highest value

Buy now! »