博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
数据转换服务-文本抽出技术
阅读量:5149 次
发布时间:2019-06-13

本文共 1112 字,大约阅读时间需要 3 分钟。

  利用我公司自主开发的数据格式转换产品,面向社会各界。提供数据转换技术服务。依据用户的需求,将用户提供的原始数据文件转换为用户所需的数据文件格式。

本公司向广大用户承诺,数据格式转换结果满足用户的需求。收费价格合理。为用户提供质量优良的技术服务。

 

    DMC Text Filter是北京市红樱枫软件有限公司自主独立开发完毕的,支持多平台、多线程、多语言的通用文本抽出程序库。利用该程序库能够从数十种数据文件格式中。将纯文本数据进行抽出。

  (1)原数据文件的语言

    中国语(简体/繁体),英语。日本语及韩国语。

  (2)文本抽出时能够指定下面的文字集合

    ★简体中文(GB2312、GB18030、GBK)
    ★中文繁体(Big5)
    ★日文(Jis、Shift_Jis、EUC_JP、EUC_JP_Fix、ISO2022_JP、Window31J)
    ★韩文(KoreanKSC)
    ★西文(ISO8859-1~15)
    ★Unicode(UTF8、UTF16、UCS4、UCS8)

  (3)原数据文件格式的种类

    ·Microsoft Word95/97/98/2000/2003/XP
    ·Microsoft Excel95/97/2000/2003/XP
    ·Microsoft PowerPoint95/97/2000/2003/XP
    ·Adobe PDF 1.2/1.3/1.4/1.5
    ·Adobe PageMaker 6.0/6.5
    ·Microsoft RTF
    ·Lotus 1-2-3 R5/97/98/2000
    ·Works 2000 WP/DB/SS
    ·一太郎 7/8/9/10/11/12/13
    ·OASYS V3/V4/V5/V6/V7/V8 OA2
    ·ClarisWorks 4.0
    ·AppleWorks 6
    ·WordPerfect Office 2000(仅限于WordPerfect 8/9 )
    ·Corel Presentations 9(Slide show 7/8/9)
    ·QuarkXPress 3.3/4
    ·AutoCAD R13/LT95/ R14/LT97 DXF
    ·AutoCAD 2000/2002
    ·DocuWorks Ver.4/5
    ·HTML
    ·XML

  (4)文本抽出时能够指定下面的功能

    ★从指定的文件或嵌在文件里的OLE对象中抽出文本数据。
    ★从指定的文件里,将文件的属性信息进行抽出。
    ★从指定的文件里,抽出指定页中的文本数据。
    ★从设定了安全保护的PDF文件里抽出文本数据。

转载于:https://www.cnblogs.com/xfgnongmin/p/10730045.html

你可能感兴趣的文章
关于异步reset
查看>>
索引优先队列的工作原理与简易实现
查看>>
处理程序“PageHandlerFactory-Integrated”在其模块列表中有一个错误模块“Manag
查看>>
01: socket模块
查看>>
mysql触发器
查看>>
淌淌淌
查看>>
web页面实现指定区域打印功能
查看>>
win10每次开机都显示“你的硬件设置已更改,请重启电脑……”的解决办法
查看>>
macOS10.12允许所有来源设置
查看>>
C++有关 const & 内敛 & 友元&静态成员那些事
查看>>
函数积累
查看>>
python搜索引擎(转)
查看>>
关于height,line-height导致的样式混乱的问题
查看>>
《SEO实战密码》读后一点感受
查看>>
bzoj 4815 [Cqoi2017]小Q的表格——反演+分块
查看>>
Swift 入门之简单语法(六)
查看>>
shim和polyfill有什么区别
查看>>
Failed to load the JNI shared library “E:/2000/Java/JDK6/bin/..jre/bin/client/jvm.dll
查看>>
〖Python〗-- IO多路复用
查看>>
栈(括号匹配)
查看>>