2009-05-25から1日間の記事一覧

Microsoft Word 2007 のテキスト抽出

Word 2007 形式のファイル (*.docx) は,解凍すると word/document.xml に本文(テキスト文章,および書式)に関する情報が格納されてあります.以下は,その OpenXML ファイルからテキストだけを抽出するプログラム.何も考えずに適当に書いただけですが・…

RapidXML

XML ファイルを解析するときは(それしか知らないので)Ruby を使ってやっていたのですが,C++ のクラスの中に XML の解析部を組み込む必要が出てきたので真面目に C++ の XML パースライブラリを探すことにしました.togeの日記 でいくつかの XML パースラ…