電力中央研究所

報告書「電力中央研究所報告」は当研究所の研究成果を取りまとめた刊行物として、昭和28年より発行されております。 一部の報告書はPDF形式で全文をダウンロードすることができます。

※ PDFのファイルサイズが大きい場合には、ダウンロードに時間がかかる場合がございます。 ダウンロードは1回のクリックで開始しますので、ダウンロードが完了するまで、複数回のクリックはなさらないようご注意願います。

電力中央研究所 報告書(電力中央研究所報告)

報告書データベース 詳細情報


報告書番号

R02038

タイトル(和文)

クリティカル・データ特定法による効率的データベース構築手法

タイトル(英文)

Effective Database Extension by Critical Data Specificaiton

概要 (図表や脚注は「報告書全文」に掲載しております)

データマイニングにより有用な知識を発見するためには、データベースの整備が必要不可欠である。データを分析し, 役に立つ知識をデータから抽出するためには,知識を抽出するもととなるデータベースを整備しなければならない。つまり知識を抽出する前に、先行投資として一定のコストでデータを収集、整理しなければならないのである。本報告では、データ取得コストを考慮したクリティカル・データ特定法を提案した。提案手法は少数の予備調査対象に対するデータを収集することで、追加属性の効果を評価するデータマイニング手法であり、データ収集コストとデータの追加による知識の改善を考慮したデータベース拡充を可能とする。提案手法を現実の判別問題に適用することで、少数の予備調査データに基づき属性追加の効果を推定することで、データ取得コストを考慮した追加属性選択が可能となることを示した。

概要 (英文)

Data-mining technology to extract knowledge from large database within a corporation is an essential tool for oday's enterprise. Without effective database, we cannot extract effective knowledge from then. It is essential to prepare effective database before data-mining. However, there are several cases that it cannot find out useful knowledge based on the current database which the company owns. In these cases, it is necessary to acquire new information (attributes) useful for the knowledge extraction by conducting new surveys, or purchasing an external database and so on. For this purpose, we developed a new method named `critical data specification method',which helps to identify the efficient attributes in terms of improvement of accuracy of the current knowledge and preparation cost. Based on these information, human experts can design effective survey in order to specify critical dataset. We conduct an experiment for an actual discrimination problem, the CoIL 2000 Challenge dataset. The proposed method can effectively estimate accuracy improvement by addition of each attribute, based on data of a very limited number of selective samples, and support human experts to select effective attributes in terms of cost and benefit.

報告書年度

2002

発行年月

2003/04

報告者

担当氏名所属

三浦 輝久

情報研究所

篠原 靖志

情報研究所

キーワード

和文英文
データマイニング Data Mining
知識マネジメント Knowledge Management
機械学習 Machine Learning
データベース拡張 database extension
顧客調査 customer survey
Copyright (C) Central Research Institute of Electric Power Industry