日本語タイトル#
Buckaroo:直接操作可能な視覚的データ整理ツール
英文タイトル#
Buckaroo: A Direct Manipulation Visual Data Wrangler
日本語摘要#
データセットの準備 —— この重要な段階はデータ整理として知られ —— データサイエンス開発の主要な段階を構成し、総プロジェクト時間の 80%以上を消費します。この段階には、データの解析、分析のための再構成、不正確な箇所の修正、ソースの統合、重複の削除、全体的なデータの整合性の確保など、さまざまなタスクが含まれます。従来のアプローチは、通常、Python などのプログラミング言語での手動コーディングやスプレッドシートの使用を通じて行われ、時間がかかるだけでなく、エラーが発生しやすいです。これらの問題は、欠落したエントリやフォーマットの不一致からデータタイプの不正確さまで多岐にわたり、適切に修正されない場合、下流のタスクの品質に影響を与える可能性があります。これらの課題に対処するために、私たちは Buckaroo を提案します。これは、データの不一致を強調し、視覚的オブジェクトの直接操作を通じてリアルタイムで修正を実現する視覚化システムです。Buckaroo は(1)他のグループと比較して異常を示す「興味深い」データグループを自動的に見つけ、検査を推奨します;(2)異常を修正するためにユーザーが選択できる整理操作を提案します;(3)ユーザーが整理操作の効果を表示し、これらの操作を元に戻したりやり直したりする能力を提供することで、データを視覚的に操作できるようにします。これにより、データ整理の反復的な性質がサポートされます。ビデオコンパニオンはhttps://youtu.be/iXdCYbvpQVE でご覧いただけます。
英文摘要#
Preparing datasets -- a critical phase known as data wrangling -- constitutes the dominant phase of data science development, consuming upwards of 80% of the total project time. This phase encompasses a myriad of tasks: parsing data, restructuring it for analysis, repairing inaccuracies, merging sources, eliminating duplicates, and ensuring overall data integrity. Traditional approaches, typically through manual coding in languages such as Python or using spreadsheets, are not only laborious but also error-prone. These issues range from missing entries and formatting inconsistencies to data type inaccuracies, all of which can affect the quality of downstream tasks if not properly corrected. To address these challenges, we present Buckaroo, a visualization system to highlight discrepancies in data and enable on-the-spot corrections through direct manipulations of visual objects. Buckaroo (1) automatically finds "interesting" data groups that exhibit anomalies compared to the rest of the groups and recommends them for inspection; (2) suggests wrangling actions that the user can choose to repair the anomalies; and (3) allows users to visually manipulate their data by displaying the effects of their wrangling actions and offering the ability to undo or redo these actions, which supports the iterative nature of data wrangling. A video companion is available at https://youtu.be/iXdCYbvpQVE
PDF 获取#
抖音でスキャンしてさらに素晴らしいコンテンツを確認