単語間の相互情報量を測る
タイトルの通りです。
上の方の記事を参考にさせていただき、少し改変を加えて単語間の相互情報量を測ってみました.....
単語間での相互情報量の測り方が本当にあってるのか不安なんですが、結果はなんとなくできてるような気がしないでもない....
http://www.aclweb.org/anthology/P08-1077
これゼミで読んだんですが、相互情報量を使ってベクトルつくってほんたらこうたらって方法が割といいっていってたから頑張って実装してみたいなぁ.....
そういえば人生初ハッカソン行きました
お久しぶりです、kcです。
大分前の話になりますが、11月末、ぐるなびのハッカソンに参加させていただきました。
自分以外社会人の方ばっかりで正直ちびりそうでした(ちょっとちびってたかも)。
レベルの違いというか、経験の差とかをかなり実感して、自分のできることやポジションを見つけることに苦労する....はず....でしたが、グループの皆様優しくてできることを担当させていただけました笑。
初めて参加してみての感想は
1.大会に出るというだけあって、皆さんハイレベル
2.普段から可読性の良いソースコードを書こうと意識しないと....
3.gitに慣れないとなぁ
4.いろんな書き方に触れておかないと..(特にjsの関数とか)
でした。
2と4をかなり痛感しまして、ことに2については人のソースコードを読む習慣も必要だったりします。綺麗なソースコードっていうのは意味毎にしっかりまとめられたものだと思うので、もう少し頭の中を整理しながら作業する習慣がいりそうです。
初めてなのに一緒に参加しようとしてた友達2人とも申し込み忘れてて激焦りでしたが、なんとか無事終わってよかったです。
もうちょっと自信つけたらまた参加してみようと思います。
英語長文要約Webアプリ「summarico」オープン!
こんにちは、wkcpcです。
今回は自作のWebアプリケーションの紹介です♪
「英文要約サイトsummarico」(サマリコと読みます)。
独自の手法を用いて英文を要約します。
他の要約系Webアプリと異なるところは、「文章の大意を示すこと」に力をいれたところです。
例えば、文章の要約といっても「固有名詞が沢山でてしまう」要約であると、何についてかは捉える事ができても、どういう内容かまでは踏み込めないことがあります。固有名詞はタイトル的な役割は持っていても、文章の論理に関わることはあまり無いためです。文章に一度、二度しか出てこないような固有名詞は、恐らくタイトル的な役割すら持たないため、低いスコアをつけておく必要があります。
そういうわけで、固有名詞に高いスコアをつけて要約する方法は、意味があまりない時もあると感じたので、文章の大意をまとめる方向に徹しました。
手法ですが、まずはtf-idfを計算し、キーワードを抽出して「文章のタイトル(単語群を連ねた物で、構文などは存在しない)」を作成します。このタイトルには、頻度が少ない固有名詞は存在しないようにする必要があります。方法として、文章中のidfの値が最も高い単語群(idfが高い=かなり高確率で固有名詞)を作成し、その内tfが最も高いものを一つ、二つタイトルとして採用し、残りは「マイナーな固有名詞」として計算結果からは除外するようにしました。こうして固有名詞の中から、「かなり重要と思われる」固有名詞のみを抽出できるようになりました。
その後、tf-idf値が高いもの(固有名詞を除いた)をいくつか採用し、タイトルの作成は完了です。
あるトイザラスについての英文でこれを試してみたところ、タイトルは「Toysrus,shop,bought,fun」という風な形で、タイトルとして十分なものが作成できました。勿論、これはうまく抽出ができた場合の一例であり、必ずしもそのようにいくことはありませんが....今後の課題です。
後は、タイトルの単語群のキーワードを多く含む一文に高いスコアをつけ、スコア順に要約結果に反映させていきました。
今後は、パラグラフリーディングの考え方を取り入れて、トピックセンテンスの抽出とそれらを考慮した計算結果の向上を計る予定です。
生のテキストをどのようにして「パラグラフ」に分けるかのアイデアは一応は浮かんでいるので、早急に取り組んでいきます。
いきなり放置しかけました笑
IphonePlus様に掲載させていただきました。
ダウンロード伸びて嬉しい!
http://iphone.ascii.jp/2014/10/27/94584854/
中の人は大学3年生なんですが、そろそろ研究にも着手したいのでアプリ開発は一端中止します(今月中にver2はリリースしたい....)。
この年になるマエにアプリ開発の楽しさに気づいてればな.....仕方ないですね
でも地味に更新していこうと思います。