色々なことを、気の向いたままに。
事象境界線
スポンサーサイト
--年 --月 --日 (--) --:-- | 編集
上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
青空と文学、閉ざされた自由
2009年 05月 12日 (火) 20:44 | 編集
20090512204438

せっかく電子辞書を買って、辞書だけに使うのはもったいない!

買った人にプレゼントされるはずだった、青空文庫100冊CDROMがもらえなかったので自分で作ることにしました。

調べると、rubyで特定の作者のものを自動的に取得するスクリプトを作っている人がいたり、excelのマクロでやっている人もいます。

iPhoneだと自動的に全取得(一括ダウンロード)してくれるアプリがあるらしいです。
W-ZERO3ではPocketSkyViewかな?これと青空子猫の組み合わせは最高です。
http://smart-pda.net/Members/mikiofuku/software/pocketskyview/pocketskyview
http://www.lares.dti.ne.jp/~k-akixx/aokoneko/aok_top.html

がwindowsではこれ!というものがない・・・・・・
(一応それらしいものはあったのですが、うまく動作しませんでした)

ちょっと前のものならばtorrentなどで、「青空文庫 全」
http://www.aozora.gr.jp/kizokeikaku/
が手に入ります。↓配布サイト。3月時点での差分もあるようです。
http://d.hatena.ne.jp/Koumei_S/20090307/1236419281

が、私は全部欲しかった(笑)のでスクリプトでちまちまやることに。
スクリプトならlinuxのほうが簡単だ、ということでここからはlinuxです。

青空文庫から全てのzipファイルを取得する。
wget -A zip -r -L -l 10 http://www.aozora.gr.jp/

文庫は、
www.aozora.gr.jp/cards/
以下にあるのでそれ以外を削除。
でも以下のシェルスクリプトを使えばその必要はない。

本当はwgetの時点で/cards/以下だけとってくるようにしたかったけれど、
-Iオプションも、http://www.aozora.gr.jp/cards/としてもうまくいかなかったので
全部の中からzipだけ持ってくるようにしました。


#!/bin/sh
dir_list=(`ls $1`)

for i in ${dir_list[@]}
do
dir_list=$1$i

file_list=(`ls -R $dir_list |grep zip`)
for j in ${file_list[@]}
do
 file_list=$dir_list/files/$j
 cp $file_list ./
# unzip *.zip done
done

変数を使いまわしなのはユルユルだからです。

zipファイルを展開する前にルビ無しのものを削除。

#!/bin/sh
rubiari=(`ls |grep '_ruby'`)
rubinashi=(`ls |grep '_txt'`)
for i in ${rubiari[@]}
do
 for j in ${rubinashi[@]}
 do
  if [ ${i/ruby/txt} == $j ]
  then
   rm $j
  fi
 done
done


@と*はどちらを使うのか悩んだけど、
@にしておけば""で囲っても同じように動くだろうと思って
@にしました。今回はどっちでも多分同じだと思います。

後は、残ったファイルをそのまま展開するか、windowsに持ってきて展開するかして、電子辞書にインストールすればOKです。
(同じファイル名のテキストが何個もあるのでリネームを少しだけ考えないと、かなり大変です)

参考にした所。
http://members.jcom.home.ne.jp/xhp/vocabulary.html
http://matsui.homeunix.com/index.php?Bash%A5%B7%A5%A7%A5%EB%A5%B9%A5%AF%A5%EA%A5%D7%A5%C8%2F%C6%C3%BC%EC%A4%CA%CA%D1%BF%F4%C5%B8%B3%AB



喜びのうちに転送しようとしたら、転送ファイル数の上限に達してしまい萬青空文庫計画は失敗してしまいました……
Comment
この記事へのコメント
おー、珍しくIT系らしい事してる・・・。

某キチガイ(たくさん居るが)にも進めたんだが
石原莞爾の最終戦争論が青空文庫で読めるから
呼んでみるのお勧め。

戦前のエリート階級は頭よすぎてびびるぜ。
2009/ 05/ 13 (水) 00: 12: 57 | URL | まーくん # -[ 編集 ]
サンキュー
青空文庫って数が多い上に、教科書で扱われる以外は知らない人ばかりじゃん?

だから何読もうか迷ってたんだよ。

早速読んでみる~


ただ、このスクリプトだとファイル名しか残らないんで、誰のどんな作品なのか、中身を見ないと分からなかったりする……

エクスワードはファイル名表示なのです。



昔のエリートさんは、お金のこともあったし、ちゃんと勉強したじゃん?今みたいに、だめ八割じゃなくて(高等や大学)。

だから、皆大学進学なんて言っているけど、昔の同レベルに達するのに大学まで行かなきゃだめってことなのさ!レベルが落ちたんだよ。(昔の中卒と今の大学生が同レベル?)

既に大学院なんて言っているくらいだから、戦前のエリートから見たら今の学生は、ほとんどアホばっかだろうねw

2009/ 05/ 13 (水) 08: 39: 52 | URL | MK # EGTCt1XI[ 編集 ]


コメントを投稿する
URL :
comment :
password :
secret : 管理者にだけ表示を許可する
 
トラックバック
この記事のトラックバックURL
この記事へのトラックバック
copyright (C) 事象境界線 all rights reserved.
designed by polepole...

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。